FORMATION DATA SCIENCE

  • Home
  • FORMATION DATA SCIENCE

Objectifs de la formation

Le métier de Data Scientist est apparu ces dernières années pour faire face à la multiplication des données, à la diversité de leurs formes et de leurs sources : le Big Data. Le rôle du Data Scientist : rendre les données exploitables, les traiter pour leur donner du sens et ainsi permettre à la direction générale d’adapter la stratégie de l’entreprise.

 

À l’issue de ce cursus Data Scientist, vous serez à même de maîtriser tous les tenants et aboutissants du Big Data grâce à l’assimilation des connaissances et compétences suivantes :

  • Comprendre le vocabulaire des statisticiens et savoir effectuer des calculs récurrents
  • Savoir situer la frontière entre statistiques et probabilités
  • Savoir choisir le bon outil pour représenter vos études statistiques, et bien communiquer dessus
  • Connaître les acteurs du Big Data et leur niveau d’interdépendance
  • Connaître les spécificités d’une infrastructure Big Data : stockage de données, analyse, visualisation…
  • Manipuler des données, des objets et programmer avec R
  • Maîtriser les fonctionnalités plus avancées de R : packages, structrures de données, Rmarkdown, purr…
  • Comprendre les différences entre apprentissage automatique supervisé, non supervisé et meta-apprentissage
  • Maîtriser l’utilisation d’algorithmes d’auto-apprentissage adaptés à une solution d’analyse, et appliquer ces techniques à des projets Big Data
  • Gérer, collecter, analyser et visualiser vos données
  • Mettre en récit vos analyses pour les promouvoir en interne ou en externe

À qui s’adresse cette formation ?

Public :

De manière générale, ce cursus Data Scientist s’adresse à toute personne amenée à évoluer vers une fonction de Data Scientist. Ce poste recoupe des profils variés : analystes, statisticiens, spécialistes BI…

Prérequis :

Pour suivre ce cursus Data Scientist, il est nécessaire de posséder des connaissances de base en statistiques (régression linéaire, échantillonnage) ainsi que des connaissances de base en programmation (variables, boucles, etc.).

 Contenu du cours

  1. I – Comprendre les statistiques pour le Big Data ou la Business Intelligence (3 jours)

    Le vocabulaire de base

    Calcul fondamental en statistique descriptive

    Probabilités

    Tests et intervalles de confiance

    Visualisation des données

    L’évolution des statistiques pour le Big Data

    II – Big Data : Enjeux, concepts, architectures et outils (3 jours)

    Contexte et opportunités du Big Data

    Sécurité éthique et enjeux juridiques du Big Data

    Open data

    Les projets Big Data en entreprise

    Architecture et infrastructure Big Data

    L’analyse des données et la visualisation

    Le développement d’applications Big Data

    La visualisation des données (Dataviz)

    Démonstration d’un environnement distribué Hadoop

    Cas d’usage et success-stories

    III – Logiciel R : Prise en main (2 jours)

    Présentation du logiciel R

    Première prise en main du logiciel R

    Les Objets

    Les Fonctions et programmation R

    Génération, gestion et visualisation des données

    Analyses statistiques

    Bilan

    IV – Logiciel R : Perfectionnement et bonnes pratiques (3 jours)

    Organiser son travail sous R

    Manipuler facilement ses données avec le package dplyr

    Exercices

    Manipulation des variables catégorielles avec le package forecats

    Exercices

    Manipuler les chaînes de caractères avec le package stringr

    Exercices

    Manipuler des données de date : utilisation du package lubridate

    Exercices

    Assemblage de tables

    Exercices

    Réaliser des représentations graphiques performantes avec le package ggplot2

    Générer dynamiquement son rapport d’analyse avec R Markdown

    Introduction à la programmation fonctionnelle avec le package purrr

    Exercices

    V – Machine Learning : Introduction par la pratique (3 jours)

    Introduction au monde du Big Data et de la Data Science

    Un premier exemple de modélisation : la détection de Spams

    Les différents types d’application du Machine Learning

    Prise en main des outils

    Mise en pratique sur un problème de classification

    Mise en pratique sur un problème de régression

    La validation des modèles : 1ère partie

    Une approche non-supervisée : le clustering

    Nettoyage des données : 1ère partie

    Exploration et visualisation des donnéesLa validation des modèles : 2e partie

    Le processus de création d’un modèle

    Les méthodes ensemblistes

    Le nettoyage des données : 2e partie

    Le Feature Engineering

    Ouverture sur le Deep Learning

    VI – Big Data : Les techniques d’Analyse et de Visualisation (4 jours)

    Comprendre les spécificités du Big Data

    Les concepts fondamentaux et technologies associées du Big Data (stockage, recherche, visualisation)

    Gestion des données structurées ou non

    La collecte et exploration des données

    L’analyse des données

    La visualisation des données (Dataviz)

    VII – Data Storytelling : Racontez l’histoire de vos données (1 jour)

    Concepts clés de la mise en récit des données

    Exercice

    Analyse d’une présentation, création d’indicateurs de mesure de l’histoire

    Exercice pratique

    Rédaction d’un pitch et d’un schéma narratif

    Mise en pratique 

    Exercice pratique

    Prise en main de l’outil de Data Storytelling de Tableau Software, en équipe

    Exercice pratique

    Exercice individuel de construction et de présentation d’une histoire entre les participants

Objectifs de la formation

Cette formation Data Scientist Fondamentaux se concentre sur l’aspect technique de ce métier. Vous découvrirez les méthodes et les outils du Data Scientist et partagerez les retours d’expériences des formateurs.

  • Découvrir le métier de Data Scientist et les grandes familles de problèmes
  • Savoir modéliser un problème de Data Science
  • Créer vos premières variables
  • Constituer votre boîte à outils de Data Scientist
  • Participer à une première compétition.

À qui s’adresse cette formation ?

Public :

Ce stage s’adresse aux Analystes, Statisticiens, Architectes, Développeurs.

Prérequis :

Pour suivre ce cours dans les meilleures conditions possibles, il vous faut avoir certaines connaissances de base en programmation ou scripting, ainsi que quelques souvenirs de statistiques qui peuvent être un plus.

 Contenu du cours

  1. Introduction au Big Data

    Qu’est-ce-que le Big Data ?
    L’écosystème technologique du Big Data

    Introduction à la Data Science, le métier de Data Scientist

    Le vocabulaire d’un problème de Data Science
    De l’analyse statistique au machine learning
    Overview des possibilités du machine learning

    Modélisation d’un problème

    Input / ouput d’un problème de machine learning

    Travaux Pratiques « OCR» :

    Comment modéliser le problème de la reconnaissance optique de caractère

    Identifier les familles d’algorithmes de machine learning

    Analyse supervisée
    Analyse non supervisée
    Classification / régression

    Sous le capot des algorithmes : la régression linéaire

    Quelques rappels : fonction hypothèse, fonction convexe, optimisation
    La construction de la fonction de coût
    Méthode de minimisation : la descente de gradient

    Sous le capot des algorithmes : la régression logistique

    Frontière de décision
    La construction d’une fonction de coût convexe pour la classification

    La boîte à outil du Data Scientist

    Introduction aux outils
    Introduction à Python, Pandas et Scikit-learn

    Cas pratique n°1 : « Prédire les survivants du Titanic »

    Exposé du problème
    Première manipulation en Python

    1.     


    Rappels et révisions du jour 1
    Qu’est-ce qu’un bon modèle ?

    Cross-validation
    Les métriques d’évaluation : precision, recall, ROC, MAPE, etc

    Les pièges du machine learning

    Overfitting ou sur-apprentissage
    Biais vs variance
    La régularisation : régression Ridge et Lasso

    Data Cleaning

    Les types de données : catégorielles, continues, ordonnées, temporelles
    Détection des outliers statistiques, des valeurs aberrantes
    Stratégie pour les valeurs manquantes

    Travaux Pratiques :

    « Remplissage des valeurs manquantes»

    Feature Engineering

    Stratégies pour les variables non continues
    Détecter et créer des variables discriminantes

    Cas pratique n°2 : « Prédire les survivants du Titanic »

    Identification et création des bonnes variables
    Réalisation d’un premier modèle
    Soumission sur Kaggle

    Data visualisation

    La visualisation pour comprendre les données : histogramme, scatter plot, etc
    La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc

    Introduction aux méthodes ensemblistes

    Le modèle de base : l’arbre de décision, ses avantages et ses limites
    Présentation des différentes stratégies ensemblistes : bagging, boosting, etc

    Travaux Pratiques “Retour sur le Titanic” :

    Utilisation d’une méthode ensembliste sur la base du précédent modèle

    Apprentissage semi-supervisé

    Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc

    Travaux Pratiques « Détection d’anomalies dans les prises de paris» :

    Comment un algorithme non supervisé permet-il de détecter des fraudes dans les prises de paris?

    2.     


    Rappels et révisions

    Synthèse des points abordés en journées 1 et 2
    Approfondissement des sujets sélectionnés avec l’intervenant

    Mise en pratique

    Le dernier jour est entièrement consacré à des mises en pratique

    Sélection et participation à une compétition

    Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l’ensemble des participants

Objectifs de la formation

Grâce à cette formation Data Scientist, les participants seront sensibilisés aux enjeux et opportunités qu’offre la « Citizen Data Science » pour leur organisation, ainsi qu’aux singularités des différentes plateformes du marché



À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Découvrir les acteurs, les tendances et les enjeux actuels de la Data Science
  • S’approprier les principales notions de la Data Science
  • Savoir utiliser les fonctionnalités élémentaires d’une plateforme de Data Science et Machine Learning sans expertise de programmation
  • Expérimenter le cycle de vie d’un projet de Data Science

À qui s’adresse cette formation ?

Public :

Ce cours Data Scientist NIVEAU 1 s’adresse aux :

  • Directeurs / Managers.
  • Chefs de projet / Products Manager / Products Owner
  • Business Analysts / Consultants Analytics
  • Citizen Data Scientist / Data Analysts / Statisticiens
  • Équipes métier impliquées dans un projet IA/Data Science

Prérequis :

Pour suivre cette formation Data Scientist, il est nécessaire de posséder une appétence pour le domaine de l’analytics et/ou d’avoir des connaissances des bases de la Data Science (modèles, biais, variances, etc.).

 Contenu du cours

  1. Introduction à la Citizen Data Science

    Fondamentaux de la Data Science
    La Citizen Data Science
    Le marché des plateformes de DSML (Data Science et Machine Learning)

    Le cycle de vie d’un projet de Data Science : Phase de préparation

    Présentation de la solution Dataiku
    Présentation du cas d’usage
    Collecte et préparation des données

    Le cycle de vie d’un projet de Data Science : Phase d’exécution

    Modélisation et travail collaboratif
    Analyse, interprétation et publication des résultats
    Notions de mise en production et de supervision des modèles

    Mise en perspective avec les autres plateformes, échanges et conclusion

    Démo Datarobot
    Enseignements et bonnes pratiques
    Questions / Réponses

Objectifs de la formation

Cette formation Data Scientist Avancé vous apprend les modèles statistiques et les techniques d’analyse des données qui vous aideront à exploiter vos données.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Découvrir et utiliser la puissance prédictive des modèles ensemblistes
  • Savoir effectuer un “feature engineering” performant
  • Appréhender les techniques de text-mining et de deep-learning à travers d’exemples concrets
  • Enrichir ses outils de data scientist

À qui s’adresse cette formation ?

Public :

le cours s’adresse aux data scientists, analystes, statisticiens, architectes et développeurs souhaitant approfondir leurs connaissances sur la Data Science.

Prérequis :

Pour suivre cette formation, il est recommandé d’avoir des connaissances de base en programmation ou en scripting.

 Contenu du cours

  1. Rappel des fondamentaux Data Scientist

    Ecosystème du Big Data et Data Scientist
    Comment modéliser un problème de data science ?
    Les différentes familles d’algorithmes (supervisé : classification/régression, non supervisé)
    Les algorithmes classiques
    Comment évaluer la performance ?
    Sur apprentissage et compromis biais/variance

    Modèles ensemblistes

    Rappels
    Pourquoi ça fonctionne ? Raisons théoriques
    Introduction au stacking
    Architecture et promesses du stacking
    Feature weighted stacking

    Mise en application

    Introduction au text mining

    Un modèle de représentation : le bag of words
    Normalisations usuelles
    Stemming, lemmatization
    Distances (Levenshtein, Hamming, Jaro-Winkler)
    Word2Vec

    Feature engineering avancé

    Normalisation
    Qu’est ce que la normalisation ?
    Quand l’utiliser ?
    Réduction de dimension (ACP, TSNE, LSA, etc.)
    Transformation et interactions entre variables
    Traitement des variables catégorielles à haute dimensionnalité
    Création de variables extraites d’arbres (Facebook Trick)

    Réseaux de neurones et deep learning

    L’origine : le perceptron
    Les réseaux de neurones
    Deep learning
    Objectif : s’affranchir du feature engineering manuel
    Convolution
    Réseaux récurrent

    Cas concret

    Reconnaissance de chiffres

    Apprentissage semi-supervisé

    Rappels et révisions

    Synthèse des points abordés les deux premiers jours
    Approfondissement des sujets sélectionnés avec l’intervenant

    Mise en pratique

    Le dernier jour de ce stage est entièrement consacré à des mises en pratique

    Sélection et participation à une compétition

    Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 par l’ensemble des participants

Objectifs de la formation

Cette formation Data Visualisation Data Scientist vous permettra, en tant que data scientist, de mettre en valeur les résultats de vos travaux de la meilleure des manières.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Appréhender les principales librairies de data visualisation utilisées en Python
  • Savoir effectuer les transformations de données nécessaires à la data visualisation en Python (agrégation, données manquantes, etc.)
  • Savoir créer des graphes en Python
  • Savoir créer un dashboard basique en Python pour mettre en valeur des graphes

À qui s’adresse cette formation ?

Public :

Ce cours Data Visualisation pour Data Scientist s’adresse prioritairement aux data scientists. Dans une seconde mesure, il pourra également intéresser les développeurs habitués à coder en Python et en R.

Prérequis :

Pour suivre cette formation Data Visualisation pour Data Scientist dans de bonnes conditions, il est nécessaire d’avoir des connaissances de base en programmation ou scripting avec Python ou R.

 Contenu du cours

  1. La data visualisation pour le data scientist

    Identifier les apports de la data visualisation
    Choisir des représentations de données adaptées
    Découvrir les outils et librairies Python pour la visualisation et le dashboarding

    Mise en pratique

    Réaliser ses premiers graphes sur un jeu de données prêt à l’emploi

    Mise en pratique

    Réaliser des graphes sur un jeu de données brutes

    Transformer des données avec Pandas (Calculs d’agrégats, traitement des valeurs manquantes, etc.)
    Créer des graphes sur différents types de données (qualitatives, quantitatives, séries temporelles)
    Affiner ses graphes (échelle, valeurs aberrantes, etc.)

    Mise en pratique

    Réaliser un dashboard simple

    Créer des graphes et boutons simples permettant l’action de l’utilisateur
    Obtenir les prédictions d’un modèle de Machine Learning

Objectifs de la formation

Cette formation Data Science vous fournit les meilleures pratiques pour faire passer votre projet du stade de la recherche à celui de l’exploitation. Grâce à ces bonnes pratiques de développement, vos applications de data science seront ainsi en mesure d’apporter de la valeur en entreprise.

 

À l’issue de cette formation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Savoir emmener votre modèle de data science en production
  • Apprendre à gérer les nouvelles contraintes
  • Minimiser le coût de transfert de l’exploration à la production
  • Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science

À qui s’adresse cette formation ?

 Public :

Ce cours Data Science s’adresse aux analystes, statisticiens et développeurs.

Prérequis :

Pour suivre cette formation Data Science, il est nécessaire de posséder des connaissances de base de la Data Science (modèles, biais, variances…), des connaissances des librairies de manipulation de données en Python (pandas, numpy…) ainsi qu’une connaissance de la ligne de commande linux 

 Contenu du cours

  1. Introduction et rappels sur la Data Science

    Rôle du data scientist
    Convictions

    Installation des environnements

    Jupyter Notebook
    PyCharm
    Environnement anaconda

    Clean code et notebook

    Nettoyer son notebook
    Noms des variables
    Utilisation de fichiers de configuration
    Programmation fonctionnelle
    Immutabilité
    Créer des fonctions

    Mise en pratique

    Appliquer les techniques de Clean code à un notebook

    Tester son code

    Découverte du TDD
    Initiation à unittest :
    – Les classes de test
    – Écrire son premier test
    – Les méthode setup et teardown
    Intégration à setuptools

    Mise en pratique

    Écrire ses premiers tests

    Documenter son projet

    Découverte de Sphinx
    Découverte de sphinx-quickstart

    Mise en pratique

    Documenter son projet

    Gérer les versions

    Introduction à git
    Gérer les versions de code
    Utilisation des tags
    Stratégies de versionning
    Gérer des datasets et des modèles

    Rendre son code déployable

    Définition du packaging
    Introduction à setuptools
    Installer son code en local
    Gestion des dépendances
    Règles simples de démarrage

    Mise en pratique

    Créer et installer son package

    Conclusion

    Synthèse des points abordés
    Partage sur la formation
    Questions/Réponses additionnelles

Objectifs de la formation

Cette formation Data Science avancé vous propose de découvrir les systèmes de Data Science industrialisés, et vous fait pratiquer les meilleures méthodes pour faire passer votre projet en production. 

À l’issue de cette formation Data Science avancé, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
  • Savoir construire l’architecture applicative d’un projet Data Science
  • Déployer son application de Machine Learning en production et interagir avec
  • Faire consommer des données chaque seconde à une application de Machine Learning
  • Mesurer les performances de son application de Machine Learning

À qui s’adresse cette formation ?

 Public :

Ce cours Data Science avancé s’adresse principalement aux data scientist, data engineer, machine learning engineer et développeurs d’applications de Data Science.

Prérequis :

Pour suivre cette formation Data Science avancé, il est nécessaire :

– de posséder des connaissances de base en programmation et en scripting
– d’avoir suivi la formation Data Science : Industrialiser un projet de Data Science  ou de savoir packager et tester une application Python
– d’avoir suivi la formation Data Scientist : Les fondamentaux de la Data Science ou de savoir modéliser et développer un problème de Data Science simple

Contenu du cours

  1. I

    Introduction à la CI / CD

    Les différents environnements nécessaires
    L’intérêt de l’intégration continue et du déploiement continu
    Les outils de CI / CD existants

    Mise en pratique

    Mettre en place un outil d’intégration continue

    Pyramide de tests

    Description des différents types de tests
    Focus sur les tests d’intégrations et fonctionnels
    Présentation de framework de tests

    Cloud

    Introduction au cloud et aux différents providers
    Choix d’un cloud provider pour les travaux pratiques

    Orchestration

    Le besoin d’orchestration dans un système de Data Science
    Présentation de différents orchestrateurs

    Mise en pratique

    Passer d’un script Python à une série de tâches orchestrées avec Airflow

    1.  

    Architecture

    Patterns d’architecture technique pour favoriser la mise en production et la maintenabilité du projet
    Identification des artefacts (modèles, données, code…)
    Cycles de vie des artefacts

    Déploiement

    La démarche
    Infrastructure as code

    Exposition

    Méthodes pour exposer un modèle de Data Science

    Mise en pratique

    Interagir avec un modèle existant

    1.  

    Mise en pratique

    Passer d’un modèle one-shot à un modèle qui prédit toutes les secondes

    À partir d’un flux de données disponibles, mettre en place les outils nécessaires pour faire une prédiction par seconde

    Feedback loops

    L’intérêt des boucles de feedback
    Identifier les différentes boucles de feedbacks
    Mettre en place les différentes boucles de feedbacks

    Monitoring

    L’enjeu du monitoring
    Les indicateurs à suivre
    Les pratiques pour mettre en place un monitoring utile tout en respectant les contraintes de SLA

    Réentraînement des modèles

    Choisir le bon moment pour réentraîner un modèle
    Les stratégies à mettre en place pour s’assurer que le modèle en production est toujours pertinent

    Bilan et clôture

    Partage et retour d’expérience
    Questions / réponses
    Évaluation de la session

Objectifs de la formation

Cette formation Industrialisation Data Science commence par vous fournir les meilleures pratiques pour faire passer votre projet du stade de la recherche à celui de l’exploitation. Grâce à ces bonnes pratiques de développement, vos applications de data science seront ainsi en mesure d’apporter de la valeur en entreprise.

 

À l’issue de cette formation Industrialisation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Savoir emmener votre modèle de data science en production
  • Apprendre à gérer les nouvelles contraintes
  • Minimiser le coût de transfert de l’exploration à la production
  • Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science
  • Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
  • Savoir construire l’architecture applicative d’un projet Data Science
  • Déployer son application de Machine Learning en production et interagir avec
  • Faire consommer des données chaque seconde à une application de Machine Learning
  • Mesurer les performances de son application de Machine Learning

À qui s’adresse cette formation ?

Public :

Ce cours Industrialisation Data Science s’adresse aux analystes, statisticiens, développeurs, data scientist, data engineer, machine learning engineer et développeurs d’applications de Data Science.

Prérequis :

Pour suivre cette formation Industrialisation Data Science, il est nécessaire de posséder des connaissances de base de la Data Science (modèles, biais, variances…), des connaissances des librairies de manipulation de données en Python (pandas, numpy…) ainsi qu’une connaissance de la ligne de commande linux (bash par exemple).

Contenu du cours

  1. Jour 1

    Introduction et rappels sur la Data Science

    Rôle du data scientist
    Convictions

    Installation des environnements

    Jupyter Notebook
    PyCharm
    Environnement anaconda

    Clean code et notebook

    Nettoyer son notebook
    Noms des variables
    Utilisation de fichiers de configuration
    Programmation fonctionnelle
    Immutabilité
    Créer des fonctions

    Mise en pratique

    Appliquer les techniques de Clean code à un notebook

    Tester son code

    Découverte du TDD
    Initiation à unittest :
    – Les classes de test
    – Écrire son premier test
    – Les méthode setup et teardown
    Intégration à setuptools

    Mise en pratique

    Écrire ses premiers tests

    Jour 2

    Documenter son projet

    Découverte de Sphinx
    Découverte de sphinx-quickstart

    Mise en pratique

    Documenter son projet

    Gérer les versions

    Introduction à git
    Gérer les versions de code
    Utilisation des tags
    Stratégies de versionning
    Gérer des datasets et des modèles

    Rendre son code déployable

    Définition du packaging
    Introduction à setuptools
    Installer son code en local
    Gestion des dépendances
    Règles simples de démarrage

    Mise en pratique

    Créer et installer son package

    Jour 3

    Introduction à la CI / CD

    Les différents environnements nécessaires
    L’intérêt de l’intégration continue et du déploiement continu
    Les outils de CI / CD existants

    Mise en pratique

    Mettre en place un outil d’intégration continue

    Pyramide de tests

    Description des différents types de tests
    Focus sur les tests d’intégrations et fonctionnels
    Présentation de framework de tests

    Cloud

    Introduction au cloud et aux différents providers
    Choix d’un cloud provider pour les travaux pratiques

    Orchestration

    Le besoin d’orchestration dans un système de Data Science
    Présentation de différents orchestrateurs

    Mise en pratique

    Passer d’un script Python à une série de tâches orchestrées avec Airflow

    Jour 4

    Architecture

    Patterns d’architecture technique pour favoriser la mise en production et la maintenabilité du projet
    Identification des artefacts (modèles, données, code…)
    Cycles de vie des artefacts

    Déploiement

    La démarche
    Infrastructure as code

    Exposition

    Méthodes pour exposer un modèle de Data Science

    Mise en pratique

    Interagir avec un modèle existant

    Jour 5

    Mise en pratique

    Passer d’un modèle one-shot à un modèle qui prédit toutes les secondes

    À partir d’un flux de données disponibles, mettre en place les outils nécessaires pour faire une prédiction par seconde

    Feedback loops

    L’intérêt des boucles de feedback
    Identifier les différentes boucles de feedbacks
    Mettre en place les différentes boucles de feedbacks

    Monitoring

    L’enjeu du monitoring
    Les indicateurs à suivre
    Les pratiques pour mettre en place un monitoring utile tout en respectant les contraintes de SLA

    Réentraînement des modèles

    Choisir le bon moment pour réentraîner un modèle
    Les stratégies à mettre en place pour s’assurer que le modèle en production est toujours pertinent

    Bilan et clôture

    Partage et retour d’expérience
    Questions / réponses
    Évaluation de la session

Objectifs de la formation

Cette formation Hadoop Cloudera Data Analyst se destine aux professionnels de la données amenés à accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.

 

À l’issue de cette formation officielle Hadoop Cloudera Data Analyst, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Acquérir, stocker et analyser des données à l’aide de Hive et Impala
  • Effectuer des tâches fondamentales d’ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
  • Utiliser Hive et Impala pour améliorer la productivité sur les tâches d’analyse typiques
  • Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
  • Effectuer des requêtes complexes sur les jeux de données

À qui s’adresse cette formation ?

 Public :

Ce cours officiel Hadoop Cloudera Data Analyst s’adresse aux analystes de données, spécialistes de la business intelligence, développeurs, architectes système et administrateurs de bases de données.

Prérequis :

Pour suivre cette formation Hadoop Cloudera Data Analyst, il est nécessaire de posséder des connaissances en SQL ainsi que des connaissances de base des lignes de commandes Linux. Il est recommandé également de connaître un langage de script comme Bash scripting, Perl, Python ou Ruby.

Contenu du cours

  1. Les fondamentaux d’Hadoop

    Pourquoi choisir Hadoop ?
    Présentation d’Hadoop
    Stockage de données : HDFS
    Traitement des données distribuées : YARN, MapReduce et Spark
    Traitement et analyse des données : Hive et Impala
    Intégration de base de données : Sqoop
    Les autres outils Hadoop
    Présentation des exercices

    Introduction à Hive et à Impala

    Présentation de Hive
    Présentation d’Impala
    Pourquoi utiliser Hive et Impala ?
    Schéma et stockage de données
    Comparaison de Hive et Impala avec les bases de données traditionnelles
    Cas d’utilisation

    Requêtes avec Hive et Impala

    Bases de données et tables
    Syntaxe de base des langages de requête Hive et Impala
    Types de données
    Utilisation de Hue pour exécuter des requêtes
    Utilisation de Beeline (Shell Hive)
    Utilisation de Impala Shell

    1.  

    Les opérateurs communs et fonctions built-in

    Opérateurs
    Fonctions scalaires
    Fonctions d’agrégation

    Gestion des données avec Hive et Impala

    Stockage de données
    Création de bases de données et de tables
    Chargement des données
    Modification des bases de données et des tables
    Simplification des requêtes au moyen de vues
    Enregistrement des résultats de requêtes

    Stockage de données et performances

    Tables partitionnées
    Chargement des données dans des tables partitionnées
    Quand utiliser le partitionnement
    Choisir un format de fichier
    Utilisation des formats de fichier Avro et Parquet

    1.  

    Analyse relationnelle de données avec Hive et Impala

    Jointure de jeux de données
    Fonctions communes intégrées
    Agrégation et fenêtrage

    Les fonctions analytiques et le fenêtrage

    Utiliser des fonctions analytiques
    Autres fonctions analytiques
    Fenêtres glissantes

    Données complexes avec Hive et Impala

    Données complexes avec Hive
    Données complexes avec Impala

    Analyse de texte avec Hive et Impala

    Utilisation d’expressions régulières avec Hive et Impala
    Traitement des données textuelles dans Hive avec des SerDes
    Analyse de sentiment et n-grams

    1.  

    Optimisation de Hive

    Comprendre les performances des requêtes
    Bucketing
    Indexation des données
    4Hive sur Spark

    Optimisation d’Impala

    Exécution de requête avec Impala
    Améliorer la performance d’Impala

    Extension de Hive et d’Impala

    SerDes et formats de fichier personnalisés dans Hive
    Transformation de données avec des scripts personnalisés dans Hive
    Fonctions définies par l’utilisateur
    Requêtes paramétrées

    Choisir le meilleur outil

    Comparaison de Pig, Hive, Impala et des bases de données relationnelles
    Critères de choix

    Module optionnel (en fonction de l’avancement) : Apache Kudu

    Qu’est-ce que Kudu
    Les tables Kudu
    Utiliser Impala avec Kudu

Objectifs de la formation

Cette formation Data Science NLP & Speech Recognition prépare les data scientists à maîtriser les données texte et voix au sein d’un contexte technologique innovant et en particulier au cours d’un projet d’Intelligence Artificielle.

À l’issue de cette formation  vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Savoir structurer les données texte et voix
  • Savoir analyser un volume conséquent de données texte et/ou voix et appliquer des modèles de machine learning
  • Savoir traiter de la voix et/ou du texte en temps réel
  • Savoir mettre en place une recherche intelligente dans des documents et/ou enregistrements audio
  • Savoir créer des modèles de détection d’intention, d’entités

À qui s’adresse cette formation ?

Public :

Ce cours Data Science NLP & Speech Recognition s’adresse aux :

  • Analystes
  • Statisticiens
  • Architectes
  • Développeurs
  • Data scientists
  • Machine Learning Engineers

Prérequis :

Pour suivre cette formation Data Science NLP & Speech Recognition, il est nécessaire d’avoir des connaissances générales sur le Machine Learning ainsi qu’en statistiques. Des notions de base en Python sont également demandées.

Contenu du cours

  1. Introduction au domaine de l’analyse du texte et de la voix

    NLP, NLU, Speech processing et understanding

    Natural Language Processing (NLP)

    Les bases du NLP : encoding, regex, tokenisation(n-grams) bag of words
    NLP : la réduction de dimensions
    Nettoyer le texte : stemming, lemmatisation
    Topic modeling : SVD, NMF, LDA
    Word embedding : Word2vec, FastText, etc.

    Information Retrieval (IR) : créer un moteur de recherche

    Indexation de contenu, moteur recherche simple
    Réaliser un moteur de recherche intelligent

    1.     

    Natural Language Understanding (NLU)

    Les cas d’usages au travers de mises en pratique :
    – Créer un modèle simple d’analyse de sentiments
    – Créer un modèle simple de détection d’intention
    – Créer un modèle simple de détection d’entités NER
    Méthodologie avancée :
    – Mettre en place un modèle de machine learning sur du texte (analyse de sentiment, etc.)
    – Modélisation deep learning : Sequence, Bert, HuggingFace
    Consommer une API de NLP :
    – Utiliser une API externe

    2.     

    Speech Processing

    Introduction à la donnée audio : signal numérique, encodage
    Speech recognition :
    – Entraîner un modèle de speech to text (trigger word detection)
    – Utiliser un modèle de speech to text complet (API Cloud, modèle pré-entraîné)

    Speech Understanding

    Les cas d’usages :
    – Détection intention
    – Analyse de sentiments
    Speech analysis :
    – Représentation : transformée de Fourier, spectrogramme mel MFCC, (librosa, pyaudio)
    – Les particularité du langage parlé : syntaxe, gestion du débit de parole, erreur de transcription
    – Speaker Embedding : caractériser le timbre, l’intonation de la voix

Objectifs de la formation

Cette formation Data Science : S’approprier les bonnes pratiques de l’Intelligence Artificielle responsablea pour objectif de permettre aux data scientists ainsi qu’à leurs managers d’appréhender les enjeux et les leviers d’action existants pour développer et implémenter des systèmes d’IA plus responsables.

 

À l’issue de cette formation  vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Prendre conscience des problèmes d’éthique en Data Science
  • Découvrir les différentes typologies de problèmes
  • Appréhender les responsabilités de chacun
  • Favoriser l’interprétabilité des modèles
  • Détecter les biais discriminatoires et les corriger

À qui s’adresse cette formation ?

Public :

Ce cours Intelligence Artificielle Responsable s’adresse prioritairement aux data scientists. Il intéressera également les managers, analystes, statisticiens, architectes et développeurs.

Prérequis :

Pour suivre cette formation Intelligence Artificielle Responsable, les participants doivent posséder des connaissances préalables en data science et en machine learning ainsi qu’en programmation ou en scripting. Des notions en statistiques sont un plus.

Contenu du cours

  1. Présentation croisée et attentes des participants

    Définition des concepts liés à la Data et à l’Intelligence Artificielle (IA)

    Présentation des différentes typologies de problème

    Responsabilités juridiques
    Protection des données personnelles
    Biais discriminatoires
    Présentation des 5 piliers de l’IA Responsable

    Interprétabilité : pouvoir expliquer ses modèles

    L’interprétabilité pour qui ?
    Les sources de complexité
    Le trade-off Performance vs Interprétabilité
    Les outils (Eli5, Lime, Shap)

    Mise en pratique

    Démonstration au travers d’un cas d’usage

    La vigilance : connaître ses données

    L’origine des biais
    Des vérifications à tous les niveaux
    Les outils (AI Fairness 360)

    Mise en pratique

    Démonstration au travers d’un cas d’usage

    Clôture

    Retour d’expérience
    Questions/Réponses
    Évaluation de la session