FORMATION DATA SCIENCE

Objectifs de la formation

Le métier de Data Scientist est apparu ces dernières années pour faire face à la multiplication des données, à la diversité de leurs formes et de leurs sources : le Big Data. Le rôle du Data Scientist : rendre les données exploitables, les traiter pour leur donner du sens et ainsi permettre à la direction générale d’adapter la stratégie de l’entreprise.

À l’issue de ce cursus Data Scientist, vous serez à même de maîtriser tous les tenants et aboutissants du Big Data grâce à l’assimilation des connaissances et compétences suivantes :

Comprendre le vocabulaire des statisticiens et savoir effectuer des calculs récurrents
Savoir situer la frontière entre statistiques et probabilités
Savoir choisir le bon outil pour représenter vos études statistiques, et bien communiquer dessus
Connaître les acteurs du Big Data et leur niveau d’interdépendance
Connaître les spécificités d’une infrastructure Big Data : stockage de données, analyse, visualisation…
Manipuler des données, des objets et programmer avec R
Maîtriser les fonctionnalités plus avancées de R : packages, structrures de données, Rmarkdown, purr…
Comprendre les différences entre apprentissage automatique supervisé, non supervisé et meta-apprentissage
Maîtriser l’utilisation d’algorithmes d’auto-apprentissage adaptés à une solution d’analyse, et appliquer ces techniques à des projets Big Data
Gérer, collecter, analyser et visualiser vos données
Mettre en récit vos analyses pour les promouvoir en interne ou en externe

À qui s’adresse cette formation ?

Public :

De manière générale, ce cursus Data Scientist s’adresse à toute personne amenée à évoluer vers une fonction de Data Scientist. Ce poste recoupe des profils variés : analystes, statisticiens, spécialistes BI…

Prérequis :

Pour suivre ce cursus Data Scientist, il est nécessaire de posséder des connaissances de base en statistiques (régression linéaire, échantillonnage) ainsi que des connaissances de base en programmation (variables, boucles, etc.).

Contenu du cours

I – Comprendre les statistiques pour le Big Data ou la Business Intelligence (3 jours)
Le vocabulaire de base
Calcul fondamental en statistique descriptive
Probabilités
Tests et intervalles de confiance
Visualisation des données
L’évolution des statistiques pour le Big Data
II – Big Data : Enjeux, concepts, architectures et outils (3 jours)
Contexte et opportunités du Big Data
Sécurité éthique et enjeux juridiques du Big Data
Open data
Les projets Big Data en entreprise
Architecture et infrastructure Big Data
L’analyse des données et la visualisation
Le développement d’applications Big Data
La visualisation des données (Dataviz)
Démonstration d’un environnement distribué Hadoop
Cas d’usage et success-stories
III – Logiciel R : Prise en main (2 jours)
Présentation du logiciel R
Première prise en main du logiciel R
Les Objets
Les Fonctions et programmation R
Génération, gestion et visualisation des données
Analyses statistiques
Bilan
IV – Logiciel R : Perfectionnement et bonnes pratiques (3 jours)
Organiser son travail sous R
Manipuler facilement ses données avec le package dplyr
Exercices
Manipulation des variables catégorielles avec le package forecats
Exercices
Manipuler les chaînes de caractères avec le package stringr
Exercices
Manipuler des données de date : utilisation du package lubridate
Exercices
Assemblage de tables
Exercices
Réaliser des représentations graphiques performantes avec le package ggplot2
Générer dynamiquement son rapport d’analyse avec R Markdown
Introduction à la programmation fonctionnelle avec le package purrr
Exercices
V – Machine Learning : Introduction par la pratique (3 jours)
Introduction au monde du Big Data et de la Data Science
Un premier exemple de modélisation : la détection de Spams
Les différents types d’application du Machine Learning
Prise en main des outils
Mise en pratique sur un problème de classification
Mise en pratique sur un problème de régression
La validation des modèles : 1ère partie
Une approche non-supervisée : le clustering
Nettoyage des données : 1ère partie
Exploration et visualisation des donnéesLa validation des modèles : 2e partie
Le processus de création d’un modèle
Les méthodes ensemblistes
Le nettoyage des données : 2e partie
Le Feature Engineering
Ouverture sur le Deep Learning
VI – Big Data : Les techniques d’Analyse et de Visualisation (4 jours)
Comprendre les spécificités du Big Data
Les concepts fondamentaux et technologies associées du Big Data (stockage, recherche, visualisation)
Gestion des données structurées ou non
La collecte et exploration des données
L’analyse des données
La visualisation des données (Dataviz)
VII – Data Storytelling : Racontez l’histoire de vos données (1 jour)
Concepts clés de la mise en récit des données
Exercice
Analyse d’une présentation, création d’indicateurs de mesure de l’histoire
Exercice pratique
Rédaction d’un pitch et d’un schéma narratif
Mise en pratique
Exercice pratique
Prise en main de l’outil de Data Storytelling de Tableau Software, en équipe
Exercice pratique
Exercice individuel de construction et de présentation d’une histoire entre les participants

FORMATION FONDAMENTAUX DE LA DATA SCIENCE

Objectifs de la formation

Cette formation Data Scientist Fondamentaux se concentre sur l’aspect technique de ce métier. Vous découvrirez les méthodes et les outils du Data Scientist et partagerez les retours d’expériences des formateurs.

Découvrir le métier de Data Scientist et les grandes familles de problèmes
Savoir modéliser un problème de Data Science
Créer vos premières variables
Constituer votre boîte à outils de Data Scientist
Participer à une première compétition.

À qui s’adresse cette formation ?

Public :

Ce stage s’adresse aux Analystes, Statisticiens, Architectes, Développeurs.

Prérequis :

Pour suivre ce cours dans les meilleures conditions possibles, il vous faut avoir certaines connaissances de base en programmation ou scripting, ainsi que quelques souvenirs de statistiques qui peuvent être un plus.

Contenu du cours

Introduction au Big Data
Qu’est-ce-que le Big Data ?
L’écosystème technologique du Big Data
Introduction à la Data Science, le métier de Data Scientist
Le vocabulaire d’un problème de Data Science
De l’analyse statistique au machine learning
Overview des possibilités du machine learning
Modélisation d’un problème
Input / ouput d’un problème de machine learning
Travaux Pratiques « OCR» :
Comment modéliser le problème de la reconnaissance optique de caractère
Identifier les familles d’algorithmes de machine learning
Analyse supervisée
Analyse non supervisée
Classification / régression
Sous le capot des algorithmes : la régression linéaire
Quelques rappels : fonction hypothèse, fonction convexe, optimisation
La construction de la fonction de coût
Méthode de minimisation : la descente de gradient
Sous le capot des algorithmes : la régression logistique
Frontière de décision
La construction d’une fonction de coût convexe pour la classification
La boîte à outil du Data Scientist
Introduction aux outils
Introduction à Python, Pandas et Scikit-learn
Cas pratique n°1 : « Prédire les survivants du Titanic »
Exposé du problème
Première manipulation en Python
1.

Rappels et révisions du jour 1
Qu’est-ce qu’un bon modèle ?
Cross-validation
Les métriques d’évaluation : precision, recall, ROC, MAPE, etc
Les pièges du machine learning
Overfitting ou sur-apprentissage
Biais vs variance
La régularisation : régression Ridge et Lasso
Data Cleaning
Les types de données : catégorielles, continues, ordonnées, temporelles
Détection des outliers statistiques, des valeurs aberrantes
Stratégie pour les valeurs manquantes
Travaux Pratiques :
« Remplissage des valeurs manquantes»
Feature Engineering
Stratégies pour les variables non continues
Détecter et créer des variables discriminantes
Cas pratique n°2 : « Prédire les survivants du Titanic »
Identification et création des bonnes variables
Réalisation d’un premier modèle
Soumission sur Kaggle
Data visualisation
La visualisation pour comprendre les données : histogramme, scatter plot, etc
La visualisation pour comprendre les algorithmes : train / test loss, feature importance, etc
Introduction aux méthodes ensemblistes
Le modèle de base : l’arbre de décision, ses avantages et ses limites
Présentation des différentes stratégies ensemblistes : bagging, boosting, etc
Travaux Pratiques “Retour sur le Titanic” :
Utilisation d’une méthode ensembliste sur la base du précédent modèle
Apprentissage semi-supervisé
Les grandes classes d’algorithmes non supervisées : clustering, PCA, etc
Travaux Pratiques « Détection d’anomalies dans les prises de paris» :
Comment un algorithme non supervisé permet-il de détecter des fraudes dans les prises de paris?
2.

Rappels et révisions
Synthèse des points abordés en journées 1 et 2
Approfondissement des sujets sélectionnés avec l’intervenant
Mise en pratique
Le dernier jour est entièrement consacré à des mises en pratique
Sélection et participation à une compétition
Le formateur sélectionnera une compétition en cours sur Kaggle ou datascience.net qui sera démarrée en jour 3 par l’ensemble des participants

FORMATION DATA SCIENTIST :NIVEAU 1

Objectifs de la formation

Grâce à cette formation Data Scientist, les participants seront sensibilisés aux enjeux et opportunités qu’offre la « Citizen Data Science » pour leur organisation, ainsi qu’aux singularités des différentes plateformes du marché

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

Découvrir les acteurs, les tendances et les enjeux actuels de la Data Science
S’approprier les principales notions de la Data Science
Savoir utiliser les fonctionnalités élémentaires d’une plateforme de Data Science et Machine Learning sans expertise de programmation
Expérimenter le cycle de vie d’un projet de Data Science

À qui s’adresse cette formation ?

Public :

Ce cours Data Scientist NIVEAU 1 s’adresse aux :

Directeurs / Managers.
Chefs de projet / Products Manager / Products Owner
Business Analysts / Consultants Analytics
Citizen Data Scientist / Data Analysts / Statisticiens
Équipes métier impliquées dans un projet IA/Data Science

Prérequis :

Pour suivre cette formation Data Scientist, il est nécessaire de posséder une appétence pour le domaine de l’analytics et/ou d’avoir des connaissances des bases de la Data Science (modèles, biais, variances, etc.).

Contenu du cours

Introduction à la Citizen Data Science
Fondamentaux de la Data Science
La Citizen Data Science
Le marché des plateformes de DSML (Data Science et Machine Learning)
Le cycle de vie d’un projet de Data Science : Phase de préparation
Présentation de la solution Dataiku
Présentation du cas d’usage
Collecte et préparation des données
Le cycle de vie d’un projet de Data Science : Phase d’exécution
Modélisation et travail collaboratif
Analyse, interprétation et publication des résultats
Notions de mise en production et de supervision des modèles
Mise en perspective avec les autres plateformes, échanges et conclusion
Démo Datarobot
Enseignements et bonnes pratiques
Questions / Réponses

FORMATION DATA SCIENTIST: NIVEAU AVANCÉ

Objectifs de la formation

Cette formation Data Scientist Avancé vous apprend les modèles statistiques et les techniques d’analyse des données qui vous aideront à exploiter vos données.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

Découvrir et utiliser la puissance prédictive des modèles ensemblistes
Savoir effectuer un “feature engineering” performant
Appréhender les techniques de text-mining et de deep-learning à travers d’exemples concrets
Enrichir ses outils de data scientist

À qui s’adresse cette formation ?

Public :

le cours s’adresse aux data scientists, analystes, statisticiens, architectes et développeurs souhaitant approfondir leurs connaissances sur la Data Science.

Prérequis :

Pour suivre cette formation, il est recommandé d’avoir des connaissances de base en programmation ou en scripting.

Contenu du cours

Rappel des fondamentaux Data Scientist
Ecosystème du Big Data et Data Scientist
Comment modéliser un problème de data science ?
Les différentes familles d’algorithmes (supervisé : classification/régression, non supervisé)
Les algorithmes classiques
Comment évaluer la performance ?
Sur apprentissage et compromis biais/variance
Modèles ensemblistes
Rappels
Pourquoi ça fonctionne ? Raisons théoriques
Introduction au stacking
Architecture et promesses du stacking
Feature weighted stacking
Mise en application
Introduction au text mining
Un modèle de représentation : le bag of words
Normalisations usuelles
Stemming, lemmatization
Distances (Levenshtein, Hamming, Jaro-Winkler)
Word2Vec
Feature engineering avancé
Normalisation
Qu’est ce que la normalisation ?
Quand l’utiliser ?
Réduction de dimension (ACP, TSNE, LSA, etc.)
Transformation et interactions entre variables
Traitement des variables catégorielles à haute dimensionnalité
Création de variables extraites d’arbres (Facebook Trick)
Réseaux de neurones et deep learning
L’origine : le perceptron
Les réseaux de neurones
Deep learning
Objectif : s’affranchir du feature engineering manuel
Convolution
Réseaux récurrent
Cas concret
Reconnaissance de chiffres
Apprentissage semi-supervisé
Rappels et révisions
Synthèse des points abordés les deux premiers jours
Approfondissement des sujets sélectionnés avec l’intervenant
Mise en pratique
Le dernier jour de ce stage est entièrement consacré à des mises en pratique
Sélection et participation à une compétition
Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 par l’ensemble des participants

FORMATION DATA VISUALISATION POUR DATA SCIENCE

Objectifs de la formation

Cette formation Data Visualisation Data Scientist vous permettra, en tant que data scientist, de mettre en valeur les résultats de vos travaux de la meilleure des manières.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

Appréhender les principales librairies de data visualisation utilisées en Python
Savoir effectuer les transformations de données nécessaires à la data visualisation en Python (agrégation, données manquantes, etc.)
Savoir créer des graphes en Python
Savoir créer un dashboard basique en Python pour mettre en valeur des graphes

À qui s’adresse cette formation ?

Public :

Ce cours Data Visualisation pour Data Scientist s’adresse prioritairement aux data scientists. Dans une seconde mesure, il pourra également intéresser les développeurs habitués à coder en Python et en R.

Prérequis :

Pour suivre cette formation Data Visualisation pour Data Scientist dans de bonnes conditions, il est nécessaire d’avoir des connaissances de base en programmation ou scripting avec Python ou R.

Contenu du cours

La data visualisation pour le data scientist
Identifier les apports de la data visualisation
Choisir des représentations de données adaptées
Découvrir les outils et librairies Python pour la visualisation et le dashboarding
Mise en pratique
Réaliser ses premiers graphes sur un jeu de données prêt à l’emploi
Mise en pratique
Réaliser des graphes sur un jeu de données brutes
Transformer des données avec Pandas (Calculs d’agrégats, traitement des valeurs manquantes, etc.)
Créer des graphes sur différents types de données (qualitatives, quantitatives, séries temporelles)
Affiner ses graphes (échelle, valeurs aberrantes, etc.)
Mise en pratique
Réaliser un dashboard simple
Créer des graphes et boutons simples permettant l’action de l’utilisateur
Obtenir les prédictions d’un modèle de Machine Learning

FORMATION INDUSTRIALISER UN PROJET DATA SCIENCE

Objectifs de la formation

Cette formation Data Science vous fournit les meilleures pratiques pour faire passer votre projet du stade de la recherche à celui de l’exploitation. Grâce à ces bonnes pratiques de développement, vos applications de data science seront ainsi en mesure d’apporter de la valeur en entreprise.

À l’issue de cette formation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :

Savoir emmener votre modèle de data science en production
Apprendre à gérer les nouvelles contraintes
Minimiser le coût de transfert de l’exploration à la production
Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science

À qui s’adresse cette formation ?

Public :

Ce cours Data Science s’adresse aux analystes, statisticiens et développeurs.

Prérequis :

Pour suivre cette formation Data Science, il est nécessaire de posséder des connaissances de base de la Data Science (modèles, biais, variances…), des connaissances des librairies de manipulation de données en Python (pandas, numpy…) ainsi qu’une connaissance de la ligne de commande linux

Contenu du cours

Introduction et rappels sur la Data Science
Rôle du data scientist
Convictions
Installation des environnements
Jupyter Notebook
PyCharm
Environnement anaconda
Clean code et notebook
Nettoyer son notebook
Noms des variables
Utilisation de fichiers de configuration
Programmation fonctionnelle
Immutabilité
Créer des fonctions
Mise en pratique
Appliquer les techniques de Clean code à un notebook
Tester son code
Découverte du TDD
Initiation à unittest :
– Les classes de test
– Écrire son premier test
– Les méthode setup et teardown
Intégration à setuptools
Mise en pratique
Écrire ses premiers tests
Documenter son projet
Découverte de Sphinx
Découverte de sphinx-quickstart
Mise en pratique
Documenter son projet
Gérer les versions
Introduction à git
Gérer les versions de code
Utilisation des tags
Stratégies de versionning
Gérer des datasets et des modèles
Rendre son code déployable
Définition du packaging
Introduction à setuptools
Installer son code en local
Gestion des dépendances
Règles simples de démarrage
Mise en pratique
Créer et installer son package
Conclusion
Synthèse des points abordés
Partage sur la formation
Questions/Réponses additionnelles

FORMATION INDUSTRIALISATION AVANCÉE PROJET DATA SCIENCE

Objectifs de la formation

Cette formation Data Science avancé vous propose de découvrir les systèmes de Data Science industrialisés, et vous fait pratiquer les meilleures méthodes pour faire passer votre projet en production.

À l’issue de cette formation Data Science avancé, vous aurez acquis les connaissances et compétences nécessaires pour :

Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
Savoir construire l’architecture applicative d’un projet Data Science
Déployer son application de Machine Learning en production et interagir avec
Faire consommer des données chaque seconde à une application de Machine Learning
Mesurer les performances de son application de Machine Learning

À qui s’adresse cette formation ?

Public :

Ce cours Data Science avancé s’adresse principalement aux data scientist, data engineer, machine learning engineer et développeurs d’applications de Data Science.

Prérequis :

Pour suivre cette formation Data Science avancé, il est nécessaire :

– de posséder des connaissances de base en programmation et en scripting
– d’avoir suivi la formation Data Science : Industrialiser un projet de Data Science ou de savoir packager et tester une application Python
– d’avoir suivi la formation Data Scientist : Les fondamentaux de la Data Science ou de savoir modéliser et développer un problème de Data Science simple

Contenu du cours

I
Introduction à la CI / CD
Les différents environnements nécessaires
L’intérêt de l’intégration continue et du déploiement continu
Les outils de CI / CD existants
Mise en pratique
Mettre en place un outil d’intégration continue
Pyramide de tests
Description des différents types de tests
Focus sur les tests d’intégrations et fonctionnels
Présentation de framework de tests
Cloud
Introduction au cloud et aux différents providers
Choix d’un cloud provider pour les travaux pratiques
Orchestration
Le besoin d’orchestration dans un système de Data Science
Présentation de différents orchestrateurs
Mise en pratique
Passer d’un script Python à une série de tâches orchestrées avec Airflow
Architecture
Patterns d’architecture technique pour favoriser la mise en production et la maintenabilité du projet
Identification des artefacts (modèles, données, code…)
Cycles de vie des artefacts
Déploiement
La démarche
Infrastructure as code
Exposition
Méthodes pour exposer un modèle de Data Science
Mise en pratique
Interagir avec un modèle existant
Mise en pratique
Passer d’un modèle one-shot à un modèle qui prédit toutes les secondes
À partir d’un flux de données disponibles, mettre en place les outils nécessaires pour faire une prédiction par seconde
Feedback loops
L’intérêt des boucles de feedback
Identifier les différentes boucles de feedbacks
Mettre en place les différentes boucles de feedbacks
Monitoring
L’enjeu du monitoring
Les indicateurs à suivre
Les pratiques pour mettre en place un monitoring utile tout en respectant les contraintes de SLA
Réentraînement des modèles
Choisir le bon moment pour réentraîner un modèle
Les stratégies à mettre en place pour s’assurer que le modèle en production est toujours pertinent
Bilan et clôture
Partage et retour d’expérience
Questions / réponses
Évaluation de la session

FORMATION MAITRISER L’INDUSTRIALISATION D’UN PROJET DE DATA SCIENCE

Objectifs de la formation

Cette formation Industrialisation Data Science commence par vous fournir les meilleures pratiques pour faire passer votre projet du stade de la recherche à celui de l’exploitation. Grâce à ces bonnes pratiques de développement, vos applications de data science seront ainsi en mesure d’apporter de la valeur en entreprise.

À l’issue de cette formation Industrialisation Data Science, vous aurez acquis les connaissances et compétences nécessaires pour :

Savoir emmener votre modèle de data science en production
Apprendre à gérer les nouvelles contraintes
Minimiser le coût de transfert de l’exploration à la production
Découvrir les concepts de Software Craftsmanship (clean code) appliqués à la Data Science
Découvrir le découpage d’un projet de Machine Learning en différentes briques et les organiser
Savoir construire l’architecture applicative d’un projet Data Science
Déployer son application de Machine Learning en production et interagir avec
Faire consommer des données chaque seconde à une application de Machine Learning
Mesurer les performances de son application de Machine Learning

À qui s’adresse cette formation ?

Public :

Ce cours Industrialisation Data Science s’adresse aux analystes, statisticiens, développeurs, data scientist, data engineer, machine learning engineer et développeurs d’applications de Data Science.

Prérequis :

Pour suivre cette formation Industrialisation Data Science, il est nécessaire de posséder des connaissances de base de la Data Science (modèles, biais, variances…), des connaissances des librairies de manipulation de données en Python (pandas, numpy…) ainsi qu’une connaissance de la ligne de commande linux (bash par exemple).

Contenu du cours

Jour 1
Introduction et rappels sur la Data Science
Rôle du data scientist
Convictions
Installation des environnements
Jupyter Notebook
PyCharm
Environnement anaconda
Clean code et notebook
Nettoyer son notebook
Noms des variables
Utilisation de fichiers de configuration
Programmation fonctionnelle
Immutabilité
Créer des fonctions
Mise en pratique
Appliquer les techniques de Clean code à un notebook
Tester son code
Découverte du TDD
Initiation à unittest :
– Les classes de test
– Écrire son premier test
– Les méthode setup et teardown
Intégration à setuptools
Mise en pratique
Écrire ses premiers tests
Jour 2
Documenter son projet
Découverte de Sphinx
Découverte de sphinx-quickstart
Mise en pratique
Documenter son projet
Gérer les versions
Introduction à git
Gérer les versions de code
Utilisation des tags
Stratégies de versionning
Gérer des datasets et des modèles
Rendre son code déployable
Définition du packaging
Introduction à setuptools
Installer son code en local
Gestion des dépendances
Règles simples de démarrage
Mise en pratique
Créer et installer son package
Jour 3
Introduction à la CI / CD
Les différents environnements nécessaires
L’intérêt de l’intégration continue et du déploiement continu
Les outils de CI / CD existants
Mise en pratique
Mettre en place un outil d’intégration continue
Pyramide de tests
Description des différents types de tests
Focus sur les tests d’intégrations et fonctionnels
Présentation de framework de tests
Cloud
Introduction au cloud et aux différents providers
Choix d’un cloud provider pour les travaux pratiques
Orchestration
Le besoin d’orchestration dans un système de Data Science
Présentation de différents orchestrateurs
Mise en pratique
Passer d’un script Python à une série de tâches orchestrées avec Airflow
Jour 4
Architecture
Patterns d’architecture technique pour favoriser la mise en production et la maintenabilité du projet
Identification des artefacts (modèles, données, code…)
Cycles de vie des artefacts
Déploiement
La démarche
Infrastructure as code
Exposition
Méthodes pour exposer un modèle de Data Science
Mise en pratique
Interagir avec un modèle existant
Jour 5
Mise en pratique
Passer d’un modèle one-shot à un modèle qui prédit toutes les secondes
À partir d’un flux de données disponibles, mettre en place les outils nécessaires pour faire une prédiction par seconde
Feedback loops
L’intérêt des boucles de feedback
Identifier les différentes boucles de feedbacks
Mettre en place les différentes boucles de feedbacks
Monitoring
L’enjeu du monitoring
Les indicateurs à suivre
Les pratiques pour mettre en place un monitoring utile tout en respectant les contraintes de SLA
Réentraînement des modèles
Choisir le bon moment pour réentraîner un modèle
Les stratégies à mettre en place pour s’assurer que le modèle en production est toujours pertinent
Bilan et clôture
Partage et retour d’expérience
Questions / réponses
Évaluation de la session

FORMATION HADOOP – CLOUDERA POUR DATA ANALYST

Objectifs de la formation

Cette formation Hadoop Cloudera Data Analyst se destine aux professionnels de la données amenés à accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.

À l’issue de cette formation officielle Hadoop Cloudera Data Analyst, vous aurez acquis les connaissances et compétences nécessaires pour :

Acquérir, stocker et analyser des données à l’aide de Hive et Impala
Effectuer des tâches fondamentales d’ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
Utiliser Hive et Impala pour améliorer la productivité sur les tâches d’analyse typiques
Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
Effectuer des requêtes complexes sur les jeux de données

À qui s’adresse cette formation ?

Public :

Ce cours officiel Hadoop Cloudera Data Analyst s’adresse aux analystes de données, spécialistes de la business intelligence, développeurs, architectes système et administrateurs de bases de données.

Prérequis :

Pour suivre cette formation Hadoop Cloudera Data Analyst, il est nécessaire de posséder des connaissances en SQL ainsi que des connaissances de base des lignes de commandes Linux. Il est recommandé également de connaître un langage de script comme Bash scripting, Perl, Python ou Ruby.

Contenu du cours

Les fondamentaux d’Hadoop
Pourquoi choisir Hadoop ?
Présentation d’Hadoop
Stockage de données : HDFS
Traitement des données distribuées : YARN, MapReduce et Spark
Traitement et analyse des données : Hive et Impala
Intégration de base de données : Sqoop
Les autres outils Hadoop
Présentation des exercices
Introduction à Hive et à Impala
Présentation de Hive
Présentation d’Impala
Pourquoi utiliser Hive et Impala ?
Schéma et stockage de données
Comparaison de Hive et Impala avec les bases de données traditionnelles
Cas d’utilisation
Requêtes avec Hive et Impala
Bases de données et tables
Syntaxe de base des langages de requête Hive et Impala
Types de données
Utilisation de Hue pour exécuter des requêtes
Utilisation de Beeline (Shell Hive)
Utilisation de Impala Shell
Les opérateurs communs et fonctions built-in
Opérateurs
Fonctions scalaires
Fonctions d’agrégation
Gestion des données avec Hive et Impala
Stockage de données
Création de bases de données et de tables
Chargement des données
Modification des bases de données et des tables
Simplification des requêtes au moyen de vues
Enregistrement des résultats de requêtes
Stockage de données et performances
Tables partitionnées
Chargement des données dans des tables partitionnées
Quand utiliser le partitionnement
Choisir un format de fichier
Utilisation des formats de fichier Avro et Parquet
Analyse relationnelle de données avec Hive et Impala
Jointure de jeux de données
Fonctions communes intégrées
Agrégation et fenêtrage
Les fonctions analytiques et le fenêtrage
Utiliser des fonctions analytiques
Autres fonctions analytiques
Fenêtres glissantes
Données complexes avec Hive et Impala
Données complexes avec Hive
Données complexes avec Impala
Analyse de texte avec Hive et Impala
Utilisation d’expressions régulières avec Hive et Impala
Traitement des données textuelles dans Hive avec des SerDes
Analyse de sentiment et n-grams
Optimisation de Hive
Comprendre les performances des requêtes
Bucketing
Indexation des données
4Hive sur Spark
Optimisation d’Impala
Exécution de requête avec Impala
Améliorer la performance d’Impala
Extension de Hive et d’Impala
SerDes et formats de fichier personnalisés dans Hive
Transformation de données avec des scripts personnalisés dans Hive
Fonctions définies par l’utilisateur
Requêtes paramétrées
Choisir le meilleur outil
Comparaison de Pig, Hive, Impala et des bases de données relationnelles
Critères de choix
Module optionnel (en fonction de l’avancement) : Apache Kudu
Qu’est-ce que Kudu
Les tables Kudu
Utiliser Impala avec Kudu

FORMATION DATA SCIENCE NATURAL LANGUAGE PROCESSING (NLP) ET SPEECH RECOGNITION

Objectifs de la formation

Cette formation Data Science NLP & Speech Recognition prépare les data scientists à maîtriser les données texte et voix au sein d’un contexte technologique innovant et en particulier au cours d’un projet d’Intelligence Artificielle.

À l’issue de cette formation vous aurez acquis les connaissances et les compétences nécessaires pour :

Savoir structurer les données texte et voix
Savoir analyser un volume conséquent de données texte et/ou voix et appliquer des modèles de machine learning
Savoir traiter de la voix et/ou du texte en temps réel
Savoir mettre en place une recherche intelligente dans des documents et/ou enregistrements audio
Savoir créer des modèles de détection d’intention, d’entités

À qui s’adresse cette formation ?

Public :

Ce cours Data Science NLP & Speech Recognition s’adresse aux :

Prérequis :

Pour suivre cette formation Data Science NLP & Speech Recognition, il est nécessaire d’avoir des connaissances générales sur le Machine Learning ainsi qu’en statistiques. Des notions de base en Python sont également demandées.

Contenu du cours

Introduction au domaine de l’analyse du texte et de la voix
NLP, NLU, Speech processing et understanding
Natural Language Processing (NLP)
Les bases du NLP : encoding, regex, tokenisation(n-grams) bag of words
NLP : la réduction de dimensions
Nettoyer le texte : stemming, lemmatisation
Topic modeling : SVD, NMF, LDA
Word embedding : Word2vec, FastText, etc.
Information Retrieval (IR) : créer un moteur de recherche
Indexation de contenu, moteur recherche simple
Réaliser un moteur de recherche intelligent
1.
Natural Language Understanding (NLU)
Les cas d’usages au travers de mises en pratique :
– Créer un modèle simple d’analyse de sentiments
– Créer un modèle simple de détection d’intention
– Créer un modèle simple de détection d’entités NER
Méthodologie avancée :
– Mettre en place un modèle de machine learning sur du texte (analyse de sentiment, etc.)
– Modélisation deep learning : Sequence, Bert, HuggingFace
Consommer une API de NLP :
– Utiliser une API externe
2.
Speech Processing
Introduction à la donnée audio : signal numérique, encodage
Speech recognition :
– Entraîner un modèle de speech to text (trigger word detection)
– Utiliser un modèle de speech to text complet (API Cloud, modèle pré-entraîné)
Speech Understanding
Les cas d’usages :
– Détection intention
– Analyse de sentiments
Speech analysis :
– Représentation : transformée de Fourier, spectrogramme mel MFCC, (librosa, pyaudio)
– Les particularité du langage parlé : syntaxe, gestion du débit de parole, erreur de transcription
– Speaker Embedding : caractériser le timbre, l’intonation de la voix

FORMATION DATA SCIENCE BONNE PRATIQUE DE L’INTELLIGENCE ARTIFICIELLE

Objectifs de la formation

Cette formation Data Science : S’approprier les bonnes pratiques de l’Intelligence Artificielle responsablea pour objectif de permettre aux data scientists ainsi qu’à leurs managers d’appréhender les enjeux et les leviers d’action existants pour développer et implémenter des systèmes d’IA plus responsables.

À l’issue de cette formation vous aurez acquis les connaissances et les compétences nécessaires pour :

Prendre conscience des problèmes d’éthique en Data Science
Découvrir les différentes typologies de problèmes
Appréhender les responsabilités de chacun
Favoriser l’interprétabilité des modèles
Détecter les biais discriminatoires et les corriger

À qui s’adresse cette formation ?

Public :

Ce cours Intelligence Artificielle Responsable s’adresse prioritairement aux data scientists. Il intéressera également les managers, analystes, statisticiens, architectes et développeurs.

Prérequis :

Pour suivre cette formation Intelligence Artificielle Responsable, les participants doivent posséder des connaissances préalables en data science et en machine learning ainsi qu’en programmation ou en scripting. Des notions en statistiques sont un plus.

Contenu du cours

Présentation croisée et attentes des participants
Définition des concepts liés à la Data et à l’Intelligence Artificielle (IA)
Présentation des différentes typologies de problème
Responsabilités juridiques
Protection des données personnelles
Biais discriminatoires
Présentation des 5 piliers de l’IA Responsable
Interprétabilité : pouvoir expliquer ses modèles
L’interprétabilité pour qui ?
Les sources de complexité
Le trade-off Performance vs Interprétabilité
Les outils (Eli5, Lime, Shap)
Mise en pratique
Démonstration au travers d’un cas d’usage
La vigilance : connaître ses données
L’origine des biais
Des vérifications à tous les niveaux
Les outils (AI Fairness 360)
Mise en pratique
Démonstration au travers d’un cas d’usage
Clôture
Retour d’expérience
Questions/Réponses
Évaluation de la session

Objectifs de la formation

À qui s’adresse cette formation ?

Contenu du cours

I – Comprendre les statistiques pour le Big Data ou la Business Intelligence (3 jours)

II – Big Data : Enjeux, concepts, architectures et outils (3 jours)

III – Logiciel R : Prise en main (2 jours)

IV – Logiciel R : Perfectionnement et bonnes pratiques (3 jours)

V – Machine Learning : Introduction par la pratique (3 jours)

VI – Big Data : Les techniques d’Analyse et de Visualisation (4 jours)

VII – Data Storytelling : Racontez l’histoire de vos données (1 jour)

Objectifs de la formation

À qui s’adresse cette formation ?

Contenu du cours

Introduction au Big Data

Introduction à la Data Science, le métier de Data Scientist

Modélisation d’un problème

Identifier les familles d’algorithmes de machine learning

Sous le capot des algorithmes : la régression linéaire

Sous le capot des algorithmes : la régression logistique

La boîte à outil du Data Scientist

1.

Rappels et révisions du jour 1Qu’est-ce qu’un bon modèle ?

Les pièges du machine learning

Data Cleaning

Feature Engineering

Data visualisation

Introduction aux méthodes ensemblistes

Apprentissage semi-supervisé

2.

Rappels et révisions

Mise en pratique

Sélection et participation à une compétition

Objectifs de la formation

À qui s’adresse cette formation ?

Contenu du cours

Introduction à la Citizen Data Science

Le cycle de vie d’un projet de Data Science : Phase de préparation

Le cycle de vie d’un projet de Data Science : Phase d’exécution

Mise en perspective avec les autres plateformes, échanges et conclusion

Objectifs de la formation

À qui s’adresse cette formation ?

Contenu du cours

Rappel des fondamentaux Data Scientist

Modèles ensemblistes

Introduction au text mining

Feature engineering avancé

Réseaux de neurones et deep learning

Apprentissage semi-supervisé

Rappels et révisions

Mise en pratique

Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 par l’ensemble des participants

Objectifs de la formation

À qui s’adresse cette formation ?

Contenu du cours

La data visualisation pour le data scientist

Objectifs de la formation

À qui s’adresse cette formation ?

Contenu du cours

Introduction et rappels sur la Data Science

Installation des environnements

Clean code et notebook

Tester son code

Documenter son projet

Gérer les versions

Rendre son code déployable

Conclusion

Objectifs de la formation

À qui s’adresse cette formation ?

Contenu du cours

I

Introduction à la CI / CD

Pyramide de tests

Cloud

Orchestration

Architecture

Déploiement

Exposition

Feedback loops

Monitoring

Rappels et révisions du jour 1
Qu’est-ce qu’un bon modèle ?

Partage et retour d’expérience
Questions / réponses
Évaluation de la session