Objectifs de la formation
Le Big Data est un phénomène aux multiples facettes et il ne se résume pas à une technologie.
Cette formation permettra de posséder la vue d’ensemble des outils, technologies, possibilités et contraintes du Big Data nécessaire à une sereine initiation d’un projet Big Data.
À l’issue de cette formation Big Data, vous aurez acquis les connaissances et compétences nécessaires pour :
- Disposer d’une vision claire du Big Data et de ses enjeux
- Définir les enjeux stratégiques et organisationnels des projets Big Data en entreprise
- Comprendre les technologies principalement utilisées selon les processus de mise en place des projets Big Data
- Déterminer les éléments de sécurité, d’éthique et les enjeux juridiques
- Consolider ses connaissances à travers un cas d’usage
À qui s’adresse cette formation ?
Public :
Cette formation s’adresse aux DSI, directeurs techniques, chefs de projets, architectes, consultants, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs, data scientists, et plus généralement toute personne désirant disposer d’une vue globale et détaillée sur le Big Data.
Prérequis :
Il est recommandé d’avoir une culture générale de base en informatique (OS, base de données, etc.).
Contenu du cours
Contexte et opportunités du Big Data
Les origines du Big Data
Les données au cœur des enjeux
Explosion du nombre de données
La place des objets connectés dans le Big Data
Données structurées, semi-structurées, non structurées
Comment disposer de données de « qualité » ?
Les limites des architectures actuelles
Définition d’un système Big Data
Différences entre BI, Big Data et Data Science ?Sécurité éthique et enjeux juridiques du Big Data
Les données personnellesLes informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-paysOpen data
La philosophie des données ouvertes et les objectifs
Bénéfices escomptés
Synergie avec le Big DataLes projets Big Data en entreprise
Spécificités d’un projet Big Data
Enjeux stratégiques et organisationnels
L’innovation constante accélère le phénomène
Nouvelles technologies de transmission (vitesse de connexion accrue, mobiles en constante amélioration)
Objets connectés et domotique
Zoom sur le marché des biens et services proposés aux consommateurs
Fusionner les données exogènes et endogènes pour mieux comprendre les usagers
Méthodes de traitement de l’information : du traitement batch, au traitement temps réel
Architectures décisionnelles d’aujourd’hui
Les lacs de données (Datalake) en pleine émergence
Exemple de cahier des chargesArchitecture et infrastructure Big Data
Cohabitation des solutions SGBDR et NoSQL
Les outils permettant d’extraire les données (ETL)
La nécessité de “nettoyer” les données (dataquality)
Exemple de traitement avec un ETL dédié Big data
L’apport d’un MDM (Master Data Manager)
Le stockage avec Hadoop (base de données Hbase, système de fichiers distribué HDFS)
Solutions big data alternatives (Sybase IQ, SAP Hana, Vectorwise, HP Vertica, etc.)L’analyse des données et la visualisation
Définition de l’analyse statistique
Requêter avec Hive
Analyser les données (Pig, Mahout, etc.)
Intégrer les données grâce à SqoopLe développement d’applications Big Data
La philosophie de MapReduce (clef, valeur)
L’apport d’Apache Spark
Machine learning et prédiction des données (Scala, Spark MLibs, etc.)
Interconnexion avec les outils SPSS, R, SAS
Conclusion : quelle famille et quel type de langage pour quel besoin ?La visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Data visualisation et cas d’usage concrets
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)
Synthèse des principaux outils utilisés dans les projetsDémonstration d’un environnement distribué Hadoop
Les moteurs de recherche de grande envergure
Présentation Lucene, Solr
Mécanisme de traitement
Gestion des journaux applicatifs
Mécanismes et architecture Apache Flume
La relation entre Cloud et Big Data
Motivation entre clouds publics et privés
Les clouds de stockage
Se reconcentrer sur les problématiques métiers, grâce aux services managésCas d’usage et success-stories
Objectifs de la formation
Cette formation Certifiante Big Data Foundation du CCC (Cloud Credential Council) vous permet de comprendre le Big Data, ses règles de gouvernance, ce que permettent les technologies Hadoop et MongoDB. Vous apprenez les caractérisitques des sources de données traitées par le Big Data et comment les utiliser pour répondre aux problématiques de l’entreprise
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Comprendre le phénomène Big Data et les notions qu’il recouvre
- Expliquer le Data Mining
- Appréhender les outils applicables au process Big Data
- Comprendre et installer les technologies du Big Data : Hadoop et MongoDB
- Réaliser les contraintes, les limites mais aussi l’intérêt du mode inductif permis par le Big Data
- Passer dans les conditions optimales la certification internationale «Big Data Foundation» du CCC, Cloud Credential Council.
À qui s’adresse cette formation ?
Public :
Ce cours est destiné aux CDO (Chief Digital Officers), directions métiers, chefs de projets Big Data, Business Analysts, ingénieurs analyst Big Data, développeurs, administrateusr réseaux, architectes IT, consultants et opérationnels.
Prérequis :
Pour participer à cette formation, des connaissances en langue anglaise et une culture de la Gestion des Systèmes d’Information est conseillée pour bien comprendre l’ensemble de la formation. La formation est enseignée en français mais le support de cours officiel est en anglais
Contenu du cours
Introduction
Les objectifs, l’agenda, les activités : discussion, théorie, présentation du Work-Labs
Les fondamentaux du Big Data
Découvrir le Big Data : son histoire, ses caractéristiques, son évolution depuis la déduction jusqu’à l’industrialisation
Connaître les 3 “V“ du Big Data : Volumétrie exponentielle, Vélocité augmentée, Variété des données
Hadoop et MongoDB, deux technologies du Big Data : les méthodes, les concepts, les utilisations
Les notions de privé et les codes d’éthique : la conformité, les défis, l’approche
Les projets Big Data : qui est impliqué ? qu’est ce qui est impliqué ?Les sources du Big Data
Savoir identifier les différentes sources de données issues des entreprises, des médias sociaux, du domaine public
Savoir comment accéder aux sources Data
Apprendre à obtenir les data des sourcesData Mining
Introduction au Data Mining
Les outils
Les conceptsLes Technologies Big Data : vue en détail
Hadoop :
– Apprendre les fondamentaux
– Installer et configurer Hadoop, configurer MapReduce
MongoDB :
– Apprendre les fondamentaux
– Installer et configurer MongoDB
– Les bases de données, le data ModellingRévisions de la certification du Cloud Credential Council (CCC)
préparation à l’examen avec des QCM “blanc”
Passage de l’examen « Big Data Foundation »
Objectifs de la formation
Cette formation vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement.
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Comprendre l’architecture et l’infrastructure sous-jacentes d’un projet Big Data
- Déterminer la nature des données manipulées
- Gérer les données de manière qualitative afin de réaliser des analyses pertinentes et rigoureuses
- Connaître les architectures distribuées dominantes du marché
- Mettre en œuvre un cluster Hadoop
- Mettre en œuvre un traitement MapReduce avec Spark
À qui s’adresse cette formation ?
Public :
Ce cours est destiné aux administrateurs de clusters Hadoop, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs.
Prérequis :
Il n’est pas nécessaire de disposer d’une culture Big Data, mais il faut connaître l’administration Linux (manipulation de fichiers, service, package, etc.) pour pouvoir réaliser les travaux pratiques.
Contenu du cours
Définition et contexte spécifique des projets Big Data
Les origines du Big Data
Les données au cœur des enjeux
– Explosion du nombre de données
– Liens entre Big Data et IoT (internet des objets)
– Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchésPropriété de la donnée, environnement juridique du traitement, sécurité
Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-paysImpact des choix technologiques en matière d’infrastructure et d’architecture Big Data
Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Big Table/ Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Conséquences techniques et financières selon les architecturesArchitectures distribuées
Problématiques et enjeux d’une architecture distribuée
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués
Les bases NoSQL et le calcul distribué (exemple avec MongoDB)Qualité des données (dataquality)
Liens entre infrastructure et qualité des données (exemples de problèmes)
Pas de qualité pas d’analyse
Les 4 V
Base à chaud, base à froid
Les apports d’un outil de Dataquality
Pourquoi utiliser un ETL ?
Illustration via Talend Data Integration
Analyser les données en les fusionnant avec les données internes
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?Préparation et configuration du cluster Hadoop
Principes de fonctionnement de Hadoop Distributed File System (HDFS)
Principes de fonctionnement de MapReduce
Design “type” du cluster
Critères de choix du matérielInstallation d’une plateforme Hadoop
Type de déploiement
Installation d’Hadoop
Installation d’autres composants (Hive, Pig, HBase, Flume…)
Quelques différences entre les distributions Cloudera, Hortonworks et MapRGestion d’un cluster Hadoop
Gestion des nœuds du cluster Hadoop
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulers
Gestion des logs
Utiliser un managerGestion des données dans HDFS
Import de données externes (fichiers, bases de données relationnelles) vers HDFS
Manipulation des fichiers HDFSConfiguration avancée
Gestion des autorisations et de la sécurité
Reprise sur échec d’un name node (MRV1)
NameNode high availability (MRV2/YARN)Monitoring et optimisation Tuning
Monitoring (Ambari, Ganglia…)
Benchmarking/profiling d’un cluster
Les outils Apache GridMix, Vaaidya
Choisir la taille des blocs
Autres options de tuning (utilisation de la compression, configuration mémoire…)Architecture Hadoop avec Spark
La philosophie de Spark par rapport à Hadoop
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incidentMapReduce Spark
Maîtriser le fonctionnement de MapReduce Spark
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Écriture de MapReduce Spark pour la résolution de problèmes concrets
Objectifs de la formation
Cette formation Concevoir et piloter un projet Big Data vous permet de comprendre le contexte spécifique, le vocabulaire et les enjeux du Big Data afin de bien positionner les fondations d’un tel projet tant sur le plan humain, technique, sécurité, financier et juridique.
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Comprendre les spécificités d’un projet Big Data
- Comprendre les risques et le cadre juridique d’un projet Big Data
- Comprendre l’ensemble des technologies et les liens entre elles
- Comprendre les métiers concernés par un projet Big Data
- Savoir constituer et piloter l’équipe d’un projet Big Data
- Savoir mettre en place une gouvernance des données efficace
- Savoir piloter le cycle de vie des données (collecte, exploitation, analyse, visualisation)
- Savoir mettre en place des tests cohérents.
À qui s’adresse cette formation ?
Public :
Ce cours s’adresse aux chefs de projet et aux coordonnateurs de données (Data Steward).
Prérequis :
Pour suivre ce cours, il est demandé de connaître les bases de données relationnelles, le langage SQL et d’avoir une expérience en conduite de projet. Idéalement avoir suivi la formation Big Data : Enjeux, concepts, architectures et outils ou une formation générale sur le Big Data.
Contenu du cours
Définition et contexte spécifique des projets Big Data
Les origines du Big Data
Les données au cœur des enjeux
Explosion du nombre de données
Liens entre Big Data et internet des objets (IoT)
Problématique des données structurées, semi-structurées, non structurées dans un projet Big Data
Définition d’un système Big Data
Architecture générale et fonctionnement
Les différentes offres du marchéPropriété de la donnée, environnement juridique du traitement, sécurité
Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-paysTechnologies, compétences et métiers
Ranger les technologies dans les bonnes cases (Hadoop, MapReduce, Pig, Hive, Impala, Spark, Elasticsearch, etc.)
Différences de savoir-faire pour le chef de projet avec la BI « traditionnelle »
Léger zoom sur Hadoop
Les métiers « informatiques » concernés par le Big Data (administrateur, développeur, analyste, data scientist, etc.)
Quel élargissement des compétences pour les administrateurs et les développeurs Hadoop ?
Synthèse : exemple d’une architecture Big Data en production et positionnement des métiers
La journée type du chef de projet Big Data
Conséquences financières des choix techniquesComprendre et traiter les spécificités d’un projet Big Data au sens organisationnel, méthodologique, technologique, économique, juridique et humain
Quelle démarche méthodologique et quelles étapes clé du chantier ?
Les prérequis à réunir et points de vigilance à surveiller ?
Comment gouverner et piloter le chantier Big Data ?
Quels sont les contributeurs internes à mobiliser ? Les profils et compétences nécessaires à intégrer ?
La connaissance de la questionComposer et piloter une équipe Big Data
Hadoop dans le SI : Processus d’adoption
Comment conserver les ressources humaines « rares » dans le contexte du Big Data ?
Datalab : une équipe, un lieu, une approche
Comment élaborer un Datalab ?Manager le processus de mise en place d’un projet Big Data
Gouvernance des Données et « Culture Données »
Définir une véritable stratégie Données
Partager les enjeux
Investir sur des initiatives ciblées et porteuses de valeur pour les métiers
Rompre avec les visions en silos
Promouvoir une « Culture Données »
Savoir communiquer (marketing digital)Identifier les besoins et le type de données à traiter avec les métiers (use cases)
À travers différents cas d’école piochés sur l’Open Data, nous effectuons des use cases permettant de définir les indicateurs clés à déterminer
La viabilité de chaque effort est bien sûr mesurée par la détermination du ROILa collecte et le stockage des données
Quelles données ?
Quelles sources ?
L’importance de la qualité des données (data quality)
Exemple de traitement avec un ETL dédié Big Data
Résumé : les différentes phases de la collecte dans un projetL’exploitation des données
Données structurées, semi structurées et non structurées
La réconciliation avec le référenciel interne
La question du Master Data Management
Big Data ou Smart Data ?L’analyse des données
Définition de l’analyse statistique
La Datascience
La place du Data scientist dans un projet Big Data
Datamining
L’implémentation d’indicateurs à destination du décisionnel
Résumé : les différentes phases et formes de l’analyse dans un projetLa visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Les objectifs de la visualisation
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)Piloter et maîtriser les risques des projets Big Data
Différentes méthodes pour piloter un datalab :
– Business Driven
– Lean
– ScrumTests et analyses de performances
Stratégie pour le code de débogage MapReduce
Test local du code en utilisant LocalJobRunner
Écriture et utilisation de fichiers journauxÉtudes de cas / mises en situation
