Objectifs de la formation
Le métier de Data Scientist est apparu ces dernières années pour faire face à la multiplication des données, à la diversité de leurs formes et de leurs sources : le Big Data. Le rôle du Data Scientist : rendre les données exploitables, les traiter pour leur donner du sens et ainsi permettre à la direction générale d’adapter la stratégie de l’entreprise.
À l’issue de ce cursus Data Scientist, vous serez à même de maîtriser tous les tenants et aboutissants du Big Data grâce à l’assimilation des connaissances et compétences suivantes :
- Comprendre le vocabulaire des statisticiens et savoir effectuer des calculs récurrents
- Savoir situer la frontière entre statistiques et probabilités
- Savoir choisir le bon outil pour représenter vos études statistiques, et bien communiquer dessus
- Connaître les acteurs du Big Data et leur niveau d’interdépendance
- Connaître les spécificités d’une infrastructure Big Data : stockage de données, analyse, visualisation…
- Manipuler des données, des objets et programmer avec R
- Maîtriser les fonctionnalités plus avancées de R : packages, structrures de données, Rmarkdown, purr…
- Comprendre les différences entre apprentissage automatique supervisé, non supervisé et meta-apprentissage
- Maîtriser l’utilisation d’algorithmes d’auto-apprentissage adaptés à une solution d’analyse, et appliquer ces techniques à des projets Big Data
- Gérer, collecter, analyser et visualiser vos données
- Mettre en récit vos analyses pour les promouvoir en interne ou en externe
À qui s’adresse cette formation ?
Public :
De manière générale, ce cursus Data Scientist s’adresse à toute personne amenée à évoluer vers une fonction de Data Scientist. Ce poste recoupe des profils variés : analystes, statisticiens, spécialistes BI…
Prérequis :
Pour suivre ce cursus Data Scientist, il est nécessaire de posséder des connaissances de base en statistiques (régression linéaire, échantillonnage) ainsi que des connaissances de base en programmation (variables, boucles, etc.).
Contenu du cours
I – Comprendre les statistiques pour le Big Data ou la Business Intelligence (3 jours)
Le vocabulaire de base
Calcul fondamental en statistique descriptive
Probabilités
Tests et intervalles de confiance
Visualisation des données
L’évolution des statistiques pour le Big Data
II – Big Data : Enjeux, concepts, architectures et outils (3 jours)
Contexte et opportunités du Big Data
Sécurité éthique et enjeux juridiques du Big Data
Open data
Les projets Big Data en entreprise
Architecture et infrastructure Big Data
L’analyse des données et la visualisation
Le développement d’applications Big Data
La visualisation des données (Dataviz)
Démonstration d’un environnement distribué Hadoop
Cas d’usage et success-stories
III – Logiciel R : Prise en main (2 jours)
Présentation du logiciel R
Première prise en main du logiciel R
Les Objets
Les Fonctions et programmation R
Génération, gestion et visualisation des données
Analyses statistiques
Bilan
IV – Logiciel R : Perfectionnement et bonnes pratiques (3 jours)
Organiser son travail sous R
Manipuler facilement ses données avec le package dplyr
Exercices
Manipulation des variables catégorielles avec le package forecats
Exercices
Manipuler les chaînes de caractères avec le package stringr
Exercices
Manipuler des données de date : utilisation du package lubridate
Exercices
Assemblage de tables
Exercices
Réaliser des représentations graphiques performantes avec le package ggplot2
Générer dynamiquement son rapport d’analyse avec R Markdown
Introduction à la programmation fonctionnelle avec le package purrr
Exercices
V – Machine Learning : Introduction par la pratique (3 jours)
Introduction au monde du Big Data et de la Data Science
Un premier exemple de modélisation : la détection de Spams
Les différents types d’application du Machine Learning
Prise en main des outils
Mise en pratique sur un problème de classification
Mise en pratique sur un problème de régression
La validation des modèles : 1ère partie
Une approche non-supervisée : le clustering
Nettoyage des données : 1ère partie
Exploration et visualisation des donnéesLa validation des modèles : 2e partie
Le processus de création d’un modèle
Les méthodes ensemblistes
Le nettoyage des données : 2e partie
Le Feature Engineering
Ouverture sur le Deep Learning
VI – Big Data : Les techniques d’Analyse et de Visualisation (4 jours)
Comprendre les spécificités du Big Data
Les concepts fondamentaux et technologies associées du Big Data (stockage, recherche, visualisation)
Gestion des données structurées ou non
La collecte et exploration des données
L’analyse des données
La visualisation des données (Dataviz)
VII – Data Storytelling : Racontez l’histoire de vos données (1 jour)
Concepts clés de la mise en récit des données
Exercice
Analyse d’une présentation, création d’indicateurs de mesure de l’histoire
Exercice pratique
Rédaction d’un pitch et d’un schéma narratif
Mise en pratique
Exercice pratique
Prise en main de l’outil de Data Storytelling de Tableau Software, en équipe
Exercice pratique
Exercice individuel de construction et de présentation d’une histoire entre les participants
Objectifs de la formation
Cette formation Data Scientist Fondamentaux se concentre sur l’aspect technique de ce métier. Vous découvrirez les méthodes et les outils du Data Scientist et partagerez les retours d’expériences des formateurs.
- Découvrir le métier de Data Scientist et les grandes familles de problèmes
- Savoir modéliser un problème de Data Science
- Créer vos premières variables
- Constituer votre boîte à outils de Data Scientist
- Participer à une première compétition.
À qui s’adresse cette formation ?
Public :
Ce stage s’adresse aux Analystes, Statisticiens, Architectes, Développeurs.
Prérequis :
Pour suivre ce cours dans les meilleures conditions possibles, il vous faut avoir certaines connaissances de base en programmation ou scripting, ainsi que quelques souvenirs de statistiques qui peuvent être un plus.
Contenu du cours
Introduction au Big Data
Qu’est-ce-que le Big Data ?
L’écosystème technologique du Big DataIntroduction à la Data Science, le métier de Data Scientist
Le vocabulaire d’un problème de Data Science
De l’analyse statistique au machine learning
Overview des possibilités du machine learningModélisation d’un problème
Input / ouput d’un problème de machine learning
Travaux Pratiques « OCR» :
Comment modéliser le problème de la reconnaissance optique de caractère
Identifier les familles d’algorithmes de machine learning
Analyse supervisée
Analyse non supervisée
Classification / régressionSous le capot des algorithmes : la régression linéaire
Quelques rappels : fonction hypothèse, fonction convexe, optimisation
La construction de la fonction de coût
Méthode de minimisation : la descente de gradientSous le capot des algorithmes : la régression logistique
Frontière de décision
La construction d’une fonction de coût convexe pour la classificationLa boîte à outil du Data Scientist
Introduction aux outils
Introduction à Python, Pandas et Scikit-learnCas pratique n°1 : « Prédire les survivants du Titanic »
Exposé du problème
Première manipulation en Python1.
Rappels et révisions du jour 1
Qu’est-ce qu’un bon modèle ?Cross-validation
Les métriques d’évaluation : precision, recall, ROC, MAPE, etcLes pièges du machine learning
Overfitting ou sur-apprentissage
Biais vs variance
La régularisation : régression Ridge et LassoData Cleaning
Les types de données : catégorielles, continues, ordonnées, temporelles
Détection des outliers statistiques, des valeurs aberrantes
Stratégie pour les valeurs manquantesTravaux Pratiques :
« Remplissage des valeurs manquantes»
Feature Engineering
Stratégies pour les variables non continues
Détecter et créer des variables discriminantesCas pratique n°2 : « Prédire les survivants du Titanic »
Identification et création des bonnes variables
Réalisation d’un premier modèle
Soumission sur KaggleData visualisation
La visualisation pour comprendre les données : histogramme, scatter plot, etc
La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etcIntroduction aux méthodes ensemblistes
Le modèle de base : l’arbre de décision, ses avantages et ses limites
Présentation des différentes stratégies ensemblistes : bagging, boosting, etcTravaux Pratiques “Retour sur le Titanic” :
Utilisation d’une méthode ensembliste sur la base du précédent modèle
Apprentissage semi-supervisé
Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc
Travaux Pratiques « Détection d’anomalies dans les prises de paris» :
Comment un algorithme non supervisé permet-il de détecter des fraudes dans les prises de paris?
2.
Rappels et révisionsSynthèse des points abordés en journées 1 et 2
Approfondissement des sujets sélectionnés avec l’intervenantMise en pratique
Le dernier jour est entièrement consacré à des mises en pratique
Sélection et participation à une compétition
Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l’ensemble des participants
Objectifs de la formation
Grâce à cette formation Data Scientist, les participants seront sensibilisés aux enjeux et opportunités qu’offre la « Citizen Data Science » pour leur organisation, ainsi qu’aux singularités des différentes plateformes du marché
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Découvrir les acteurs, les tendances et les enjeux actuels de la Data Science
- S’approprier les principales notions de la Data Science
- Savoir utiliser les fonctionnalités élémentaires d’une plateforme de Data Science et Machine Learning sans expertise de programmation
- Expérimenter le cycle de vie d’un projet de Data Science
À qui s’adresse cette formation ?
Public :
Ce cours Data Scientist NIVEAU 1 s’adresse aux :
- Directeurs / Managers.
- Chefs de projet / Products Manager / Products Owner
- Business Analysts / Consultants Analytics
- Citizen Data Scientist / Data Analysts / Statisticiens
- Équipes métier impliquées dans un projet IA/Data Science
Prérequis :
Pour suivre cette formation Data Scientist, il est nécessaire de posséder une appétence pour le domaine de l’analytics et/ou d’avoir des connaissances des bases de la Data Science (modèles, biais, variances, etc.).
Contenu du cours
Introduction à la Citizen Data Science
Fondamentaux de la Data Science
La Citizen Data Science
Le marché des plateformes de DSML (Data Science et Machine Learning)Le cycle de vie d’un projet de Data Science : Phase de préparation
Présentation de la solution Dataiku
Présentation du cas d’usage
Collecte et préparation des donnéesLe cycle de vie d’un projet de Data Science : Phase d’exécution
Modélisation et travail collaboratif
Analyse, interprétation et publication des résultats
Notions de mise en production et de supervision des modèlesMise en perspective avec les autres plateformes, échanges et conclusion
Démo Datarobot
Enseignements et bonnes pratiques
Questions / Réponses
Objectifs de la formation
Cette formation Data Scientist Avancé vous apprend les modèles statistiques et les techniques d’analyse des données qui vous aideront à exploiter vos données.
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Découvrir et utiliser la puissance prédictive des modèles ensemblistes
- Savoir effectuer un “feature engineering” performant
- Appréhender les techniques de text-mining et de deep-learning à travers d’exemples concrets
- Enrichir ses outils de data scientist
À qui s’adresse cette formation ?
Public :
le cours s’adresse aux data scientists, analystes, statisticiens, architectes et développeurs souhaitant approfondir leurs connaissances sur la Data Science.
Prérequis :
Pour suivre cette formation, il est recommandé d’avoir des connaissances de base en programmation ou en scripting.
Contenu du cours
Rappel des fondamentaux Data Scientist
Ecosystème du Big Data et Data Scientist
Comment modéliser un problème de data science ?
Les différentes familles d’algorithmes (supervisé : classification/régression, non supervisé)
Les algorithmes classiques
Comment évaluer la performance ?
Sur apprentissage et compromis biais/varianceModèles ensemblistes
Rappels
Pourquoi ça fonctionne ? Raisons théoriques
Introduction au stacking
Architecture et promesses du stacking
Feature weighted stackingMise en application
Introduction au text mining
Un modèle de représentation : le bag of words
Normalisations usuelles
Stemming, lemmatization
Distances (Levenshtein, Hamming, Jaro-Winkler)
Word2VecFeature engineering avancé
Normalisation
Qu’est ce que la normalisation ?
Quand l’utiliser ?
Réduction de dimension (ACP, TSNE, LSA, etc.)
Transformation et interactions entre variables
Traitement des variables catégorielles à haute dimensionnalité
Création de variables extraites d’arbres (Facebook Trick)Réseaux de neurones et deep learning
L’origine : le perceptron
Les réseaux de neurones
Deep learning
Objectif : s’affranchir du feature engineering manuel
Convolution
Réseaux récurrentCas concret
Reconnaissance de chiffres
Apprentissage semi-supervisé
Rappels et révisions
Synthèse des points abordés les deux premiers jours
Approfondissement des sujets sélectionnés avec l’intervenantMise en pratique
Le dernier jour de ce stage est entièrement consacré à des mises en pratique
Sélection et participation à une compétition
Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 par l’ensemble des participants
Objectifs de la formation
Cette formation Data Visualisation Data Scientist vous permettra, en tant que data scientist, de mettre en valeur les résultats de vos travaux de la meilleure des manières.
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Appréhender les principales librairies de data visualisation utilisées en Python
- Savoir effectuer les transformations de données nécessaires à la data visualisation en Python (agrégation, données manquantes, etc.)
- Savoir créer des graphes en Python
- Savoir créer un dashboard basique en Python pour mettre en valeur des graphes
À qui s’adresse cette formation ?
Public :
Ce cours Data Visualisation pour Data Scientist s’adresse prioritairement aux data scientists. Dans une seconde mesure, il pourra également intéresser les développeurs habitués à coder en Python et en R.
Prérequis :
Pour suivre cette formation Data Visualisation pour Data Scientist dans de bonnes conditions, il est nécessaire d’avoir des connaissances de base en programmation ou scripting avec Python ou R.
Contenu du cours
La data visualisation pour le data scientist
Identifier les apports de la data visualisation
Choisir des représentations de données adaptées
Découvrir les outils et librairies Python pour la visualisation et le dashboardingMise en pratique
Réaliser ses premiers graphes sur un jeu de données prêt à l’emploi
Mise en pratique
Réaliser des graphes sur un jeu de données brutes
Transformer des données avec Pandas (Calculs d’agrégats, traitement des valeurs manquantes, etc.)
Créer des graphes sur différents types de données (qualitatives, quantitatives, séries temporelles)
Affiner ses graphes (échelle, valeurs aberrantes, etc.)Mise en pratique
Réaliser un dashboard simple
Créer des graphes et boutons simples permettant l’action de l’utilisateur
Obtenir les prédictions d’un modèle de Machine Learning
Objectifs de la formation
Cette formation Data Science vous fournit les meilleures pratiques pour faire passer votre projet du stade de la recherche à celui de l’exploitation. Grâce à ces bonnes pratiques de développement, vos applications de data science seront ainsi en mesure d’apporter de la valeur en entreprise.
À l’issue de cette formation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :
- Savoir emmener votre modèle de data science en production
- Apprendre à gérer les nouvelles contraintes
- Minimiser le coût de transfert de l’exploration à la production
- Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science
À qui s’adresse cette formation ?
Public :
Ce cours Data Science s’adresse aux analystes, statisticiens et développeurs.
Prérequis :
Pour suivre cette formation Data Science, il est nécessaire de posséder des connaissances de base de la Data Science (modèles, biais, variances…), des connaissances des librairies de manipulation de données en Python (pandas, numpy…) ainsi qu’une connaissance de la ligne de commande linux
Contenu du cours
Introduction et rappels sur la Data Science
Rôle du data scientist
ConvictionsInstallation des environnements
Jupyter Notebook
PyCharm
Environnement anacondaClean code et notebook
Nettoyer son notebook
Noms des variables
Utilisation de fichiers de configuration
Programmation fonctionnelle
Immutabilité
Créer des fonctionsMise en pratique
Appliquer les techniques de Clean code à un notebook
Tester son code
Découverte du TDD
Initiation à unittest :
– Les classes de test
– Écrire son premier test
– Les méthode setup et teardown
Intégration à setuptoolsMise en pratique
Écrire ses premiers tests
Documenter son projet
Découverte de Sphinx
Découverte de sphinx-quickstartMise en pratique
Documenter son projet
Gérer les versions
Introduction à git
Gérer les versions de code
Utilisation des tags
Stratégies de versionning
Gérer des datasets et des modèlesRendre son code déployable
Définition du packaging
Introduction à setuptools
Installer son code en local
Gestion des dépendances
Règles simples de démarrageMise en pratique
Créer et installer son package
Conclusion
Synthèse des points abordés
Partage sur la formation
Questions/Réponses additionnelles
Objectifs de la formation
Cette formation Data Science avancé vous propose de découvrir les systèmes de Data Science industrialisés, et vous fait pratiquer les meilleures méthodes pour faire passer votre projet en production.
À l’issue de cette formation Data Science avancé, vous aurez acquis les connaissances et compétences nécessaires pour :
- Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
- Savoir construire l’architecture applicative d’un projet Data Science
- Déployer son application de Machine Learning en production et interagir avec
- Faire consommer des données chaque seconde à une application de Machine Learning
- Mesurer les performances de son application de Machine Learning
À qui s’adresse cette formation ?
Public :
Ce cours Data Science avancé s’adresse principalement aux data scientist, data engineer, machine learning engineer et développeurs d’applications de Data Science.
Prérequis :
Pour suivre cette formation Data Science avancé, il est nécessaire :
– de posséder des connaissances de base en programmation et en scripting
– d’avoir suivi la formation Data Science : Industrialiser un projet de Data Science ou de savoir packager et tester une application Python
– d’avoir suivi la formation Data Scientist : Les fondamentaux de la Data Science ou de savoir modéliser et développer un problème de Data Science simple
Contenu du cours
I
Introduction à la CI / CD
Les différents environnements nécessaires
L’intérêt de l’intégration continue et du déploiement continu
Les outils de CI / CD existantsMise en pratique
Mettre en place un outil d’intégration continue
Pyramide de tests
Description des différents types de tests
Focus sur les tests d’intégrations et fonctionnels
Présentation de framework de testsCloud
Introduction au cloud et aux différents providers
Choix d’un cloud provider pour les travaux pratiquesOrchestration
Le besoin d’orchestration dans un système de Data Science
Présentation de différents orchestrateursMise en pratique
Passer d’un script Python à une série de tâches orchestrées avec Airflow
Architecture
Patterns d’architecture technique pour favoriser la mise en production et la maintenabilité du projet
Identification des artefacts (modèles, données, code…)
Cycles de vie des artefactsDéploiement
La démarche
Infrastructure as codeExposition
Méthodes pour exposer un modèle de Data Science
Mise en pratique
Interagir avec un modèle existant
Mise en pratique
Passer d’un modèle one-shot à un modèle qui prédit toutes les secondes
À partir d’un flux de données disponibles, mettre en place les outils nécessaires pour faire une prédiction par seconde
Feedback loops
L’intérêt des boucles de feedback
Identifier les différentes boucles de feedbacks
Mettre en place les différentes boucles de feedbacksMonitoring
L’enjeu du monitoring
Les indicateurs à suivre
Les pratiques pour mettre en place un monitoring utile tout en respectant les contraintes de SLARéentraînement des modèles
Choisir le bon moment pour réentraîner un modèle
Les stratégies à mettre en place pour s’assurer que le modèle en production est toujours pertinentBilan et clôture
Partage et retour d’expérience
Questions / réponses
Évaluation de la session
Objectifs de la formation
Cette formation Industrialisation Data Science commence par vous fournir les meilleures pratiques pour faire passer votre projet du stade de la recherche à celui de l’exploitation. Grâce à ces bonnes pratiques de développement, vos applications de data science seront ainsi en mesure d’apporter de la valeur en entreprise.
À l’issue de cette formation Industrialisation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :
- Savoir emmener votre modèle de data science en production
- Apprendre à gérer les nouvelles contraintes
- Minimiser le coût de transfert de l’exploration à la production
- Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science
- Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
- Savoir construire l’architecture applicative d’un projet Data Science
- Déployer son application de Machine Learning en production et interagir avec
- Faire consommer des données chaque seconde à une application de Machine Learning
- Mesurer les performances de son application de Machine Learning
À qui s’adresse cette formation ?
Public :
Ce cours Industrialisation Data Science s’adresse aux analystes, statisticiens, développeurs, data scientist, data engineer, machine learning engineer et développeurs d’applications de Data Science.
Prérequis :
Pour suivre cette formation Industrialisation Data Science, il est nécessaire de posséder des connaissances de base de la Data Science (modèles, biais, variances…), des connaissances des librairies de manipulation de données en Python (pandas, numpy…) ainsi qu’une connaissance de la ligne de commande linux (bash par exemple).
Contenu du cours
Jour 1
Introduction et rappels sur la Data Science
Rôle du data scientist
ConvictionsInstallation des environnements
Jupyter Notebook
PyCharm
Environnement anacondaClean code et notebook
Nettoyer son notebook
Noms des variables
Utilisation de fichiers de configuration
Programmation fonctionnelle
Immutabilité
Créer des fonctionsMise en pratique
Appliquer les techniques de Clean code à un notebook
Tester son code
Découverte du TDD
Initiation à unittest :
– Les classes de test
– Écrire son premier test
– Les méthode setup et teardown
Intégration à setuptoolsMise en pratique
Écrire ses premiers tests
Jour 2
Documenter son projet
Découverte de Sphinx
Découverte de sphinx-quickstartMise en pratique
Documenter son projet
Gérer les versions
Introduction à git
Gérer les versions de code
Utilisation des tags
Stratégies de versionning
Gérer des datasets et des modèlesRendre son code déployable
Définition du packaging
Introduction à setuptools
Installer son code en local
Gestion des dépendances
Règles simples de démarrageMise en pratique
Créer et installer son package
Jour 3
Introduction à la CI / CD
Les différents environnements nécessaires
L’intérêt de l’intégration continue et du déploiement continu
Les outils de CI / CD existantsMise en pratique
Mettre en place un outil d’intégration continue
Pyramide de tests
Description des différents types de tests
Focus sur les tests d’intégrations et fonctionnels
Présentation de framework de testsCloud
Introduction au cloud et aux différents providers
Choix d’un cloud provider pour les travaux pratiquesOrchestration
Le besoin d’orchestration dans un système de Data Science
Présentation de différents orchestrateursMise en pratique
Passer d’un script Python à une série de tâches orchestrées avec Airflow
Jour 4
Architecture
Patterns d’architecture technique pour favoriser la mise en production et la maintenabilité du projet
Identification des artefacts (modèles, données, code…)
Cycles de vie des artefactsDéploiement
La démarche
Infrastructure as codeExposition
Méthodes pour exposer un modèle de Data Science
Mise en pratique
Interagir avec un modèle existant
Jour 5
Mise en pratique
Passer d’un modèle one-shot à un modèle qui prédit toutes les secondes
À partir d’un flux de données disponibles, mettre en place les outils nécessaires pour faire une prédiction par seconde
Feedback loops
L’intérêt des boucles de feedback
Identifier les différentes boucles de feedbacks
Mettre en place les différentes boucles de feedbacksMonitoring
L’enjeu du monitoring
Les indicateurs à suivre
Les pratiques pour mettre en place un monitoring utile tout en respectant les contraintes de SLARéentraînement des modèles
Choisir le bon moment pour réentraîner un modèle
Les stratégies à mettre en place pour s’assurer que le modèle en production est toujours pertinentBilan et clôture
Partage et retour d’expérience
Questions / réponses
Évaluation de la session
Objectifs de la formation
Cette formation Hadoop Cloudera Data Analyst se destine aux professionnels de la données amenés à accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.
À l’issue de cette formation officielle Hadoop Cloudera Data Analyst, vous aurez acquis les connaissances et compétences nécessaires pour :
- Acquérir, stocker et analyser des données à l’aide de Hive et Impala
- Effectuer des tâches fondamentales d’ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
- Utiliser Hive et Impala pour améliorer la productivité sur les tâches d’analyse typiques
- Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
- Effectuer des requêtes complexes sur les jeux de données
À qui s’adresse cette formation ?
Public :
Ce cours officiel Hadoop Cloudera Data Analyst s’adresse aux analystes de données, spécialistes de la business intelligence, développeurs, architectes système et administrateurs de bases de données.
Prérequis :
Pour suivre cette formation Hadoop Cloudera Data Analyst, il est nécessaire de posséder des connaissances en SQL ainsi que des connaissances de base des lignes de commandes Linux. Il est recommandé également de connaître un langage de script comme Bash scripting, Perl, Python ou Ruby.
Contenu du cours
Les fondamentaux d’Hadoop
Pourquoi choisir Hadoop ?
Présentation d’Hadoop
Stockage de données : HDFS
Traitement des données distribuées : YARN, MapReduce et Spark
Traitement et analyse des données : Hive et Impala
Intégration de base de données : Sqoop
Les autres outils Hadoop
Présentation des exercicesIntroduction à Hive et à Impala
Présentation de Hive
Présentation d’Impala
Pourquoi utiliser Hive et Impala ?
Schéma et stockage de données
Comparaison de Hive et Impala avec les bases de données traditionnelles
Cas d’utilisationRequêtes avec Hive et Impala
Bases de données et tables
Syntaxe de base des langages de requête Hive et Impala
Types de données
Utilisation de Hue pour exécuter des requêtes
Utilisation de Beeline (Shell Hive)
Utilisation de Impala ShellLes opérateurs communs et fonctions built-in
Opérateurs
Fonctions scalaires
Fonctions d’agrégationGestion des données avec Hive et Impala
Stockage de données
Création de bases de données et de tables
Chargement des données
Modification des bases de données et des tables
Simplification des requêtes au moyen de vues
Enregistrement des résultats de requêtesStockage de données et performances
Tables partitionnées
Chargement des données dans des tables partitionnées
Quand utiliser le partitionnement
Choisir un format de fichier
Utilisation des formats de fichier Avro et ParquetAnalyse relationnelle de données avec Hive et Impala
Jointure de jeux de données
Fonctions communes intégrées
Agrégation et fenêtrageLes fonctions analytiques et le fenêtrage
Utiliser des fonctions analytiques
Autres fonctions analytiques
Fenêtres glissantesDonnées complexes avec Hive et Impala
Données complexes avec Hive
Données complexes avec ImpalaAnalyse de texte avec Hive et Impala
Utilisation d’expressions régulières avec Hive et Impala
Traitement des données textuelles dans Hive avec des SerDes
Analyse de sentiment et n-gramsOptimisation de Hive
Comprendre les performances des requêtes
Bucketing
Indexation des données
4Hive sur SparkOptimisation d’Impala
Exécution de requête avec Impala
Améliorer la performance d’ImpalaExtension de Hive et d’Impala
SerDes et formats de fichier personnalisés dans Hive
Transformation de données avec des scripts personnalisés dans Hive
Fonctions définies par l’utilisateur
Requêtes paramétréesChoisir le meilleur outil
Comparaison de Pig, Hive, Impala et des bases de données relationnelles
Critères de choixModule optionnel (en fonction de l’avancement) : Apache Kudu
Qu’est-ce que Kudu
Les tables Kudu
Utiliser Impala avec Kudu
Objectifs de la formation
Cette formation Data Science NLP & Speech Recognition prépare les data scientists à maîtriser les données texte et voix au sein d’un contexte technologique innovant et en particulier au cours d’un projet d’Intelligence Artificielle.
À l’issue de cette formation vous aurez acquis les connaissances et les compétences nécessaires pour :
- Savoir structurer les données texte et voix
- Savoir analyser un volume conséquent de données texte et/ou voix et appliquer des modèles de machine learning
- Savoir traiter de la voix et/ou du texte en temps réel
- Savoir mettre en place une recherche intelligente dans des documents et/ou enregistrements audio
- Savoir créer des modèles de détection d’intention, d’entités
À qui s’adresse cette formation ?
Public :
Ce cours Data Science NLP & Speech Recognition s’adresse aux :
- Analystes
- Statisticiens
- Architectes
- Développeurs
- Data scientists
- Machine Learning Engineers
Prérequis :
Pour suivre cette formation Data Science NLP & Speech Recognition, il est nécessaire d’avoir des connaissances générales sur le Machine Learning ainsi qu’en statistiques. Des notions de base en Python sont également demandées.
Contenu du cours
Introduction au domaine de l’analyse du texte et de la voix
NLP, NLU, Speech processing et understanding
Natural Language Processing (NLP)
Les bases du NLP : encoding, regex, tokenisation(n-grams) bag of words
NLP : la réduction de dimensions
Nettoyer le texte : stemming, lemmatisation
Topic modeling : SVD, NMF, LDA
Word embedding : Word2vec, FastText, etc.Information Retrieval (IR) : créer un moteur de recherche
Indexation de contenu, moteur recherche simple
Réaliser un moteur de recherche intelligent1.
Natural Language Understanding (NLU)
Les cas d’usages au travers de mises en pratique :
– Créer un modèle simple d’analyse de sentiments
– Créer un modèle simple de détection d’intention
– Créer un modèle simple de détection d’entités NER
Méthodologie avancée :
– Mettre en place un modèle de machine learning sur du texte (analyse de sentiment, etc.)
– Modélisation deep learning : Sequence, Bert, HuggingFace
Consommer une API de NLP :
– Utiliser une API externe2.
Speech Processing
Introduction à la donnée audio : signal numérique, encodage
Speech recognition :
– Entraîner un modèle de speech to text (trigger word detection)
– Utiliser un modèle de speech to text complet (API Cloud, modèle pré-entraîné)Speech Understanding
Les cas d’usages :
– Détection intention
– Analyse de sentiments
Speech analysis :
– Représentation : transformée de Fourier, spectrogramme mel MFCC, (librosa, pyaudio)
– Les particularité du langage parlé : syntaxe, gestion du débit de parole, erreur de transcription
– Speaker Embedding : caractériser le timbre, l’intonation de la voix
Objectifs de la formation
Cette formation Data Science : S’approprier les bonnes pratiques de l’Intelligence Artificielle responsablea pour objectif de permettre aux data scientists ainsi qu’à leurs managers d’appréhender les enjeux et les leviers d’action existants pour développer et implémenter des systèmes d’IA plus responsables.
À l’issue de cette formation vous aurez acquis les connaissances et les compétences nécessaires pour :
- Prendre conscience des problèmes d’éthique en Data Science
- Découvrir les différentes typologies de problèmes
- Appréhender les responsabilités de chacun
- Favoriser l’interprétabilité des modèles
- Détecter les biais discriminatoires et les corriger
À qui s’adresse cette formation ?
Public :
Ce cours Intelligence Artificielle Responsable s’adresse prioritairement aux data scientists. Il intéressera également les managers, analystes, statisticiens, architectes et développeurs.
Prérequis :
Pour suivre cette formation Intelligence Artificielle Responsable, les participants doivent posséder des connaissances préalables en data science et en machine learning ainsi qu’en programmation ou en scripting. Des notions en statistiques sont un plus.
Contenu du cours
Présentation croisée et attentes des participants
Définition des concepts liés à la Data et à l’Intelligence Artificielle (IA)
Présentation des différentes typologies de problème
Responsabilités juridiques
Protection des données personnelles
Biais discriminatoires
Présentation des 5 piliers de l’IA ResponsableInterprétabilité : pouvoir expliquer ses modèles
L’interprétabilité pour qui ?
Les sources de complexité
Le trade-off Performance vs Interprétabilité
Les outils (Eli5, Lime, Shap)Mise en pratique
Démonstration au travers d’un cas d’usage
La vigilance : connaître ses données
L’origine des biais
Des vérifications à tous les niveaux
Les outils (AI Fairness 360)Mise en pratique
Démonstration au travers d’un cas d’usage
Clôture
Retour d’expérience
Questions/Réponses
Évaluation de la session
