FORMATION BIG DATA – CONCEPTS ET ARCHITECTURE

FORMATION BIG DATA: ENJEUX, CONCEPTS, ARCHITECTURE ET OUTILS

Objectifs de la formation

Le Big Data est un phénomène aux multiples facettes et il ne se résume pas à une technologie.

Cette formation permettra de posséder la vue d’ensemble des outils, technologies, possibilités et contraintes du Big Data nécessaire à une sereine initiation d’un projet Big Data.

À l’issue de cette formation Big Data, vous aurez acquis les connaissances et compétences nécessaires pour :

Disposer d’une vision claire du Big Data et de ses enjeux
Définir les enjeux stratégiques et organisationnels des projets Big Data en entreprise
Comprendre les technologies principalement utilisées selon les processus de mise en place des projets Big Data
Déterminer les éléments de sécurité, d’éthique et les enjeux juridiques
Consolider ses connaissances à travers un cas d’usage

À qui s’adresse cette formation ?

Public :

Cette formation s’adresse aux DSI, directeurs techniques, chefs de projets, architectes, consultants, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs, data scientists, et plus généralement toute personne désirant disposer d’une vue globale et détaillée sur le Big Data.

Prérequis :

Il est recommandé d’avoir une culture générale de base en informatique (OS, base de données, etc.).

Contenu du cours

Contexte et opportunités du Big Data
Les origines du Big Data
Les données au cœur des enjeux
Explosion du nombre de données
La place des objets connectés dans le Big Data
Données structurées, semi-structurées, non structurées
Comment disposer de données de « qualité » ?
Les limites des architectures actuelles
Définition d’un système Big Data
Différences entre BI, Big Data et Data Science ?
Sécurité éthique et enjeux juridiques du Big Data
Les données personnellesLes informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-pays
Open data
La philosophie des données ouvertes et les objectifs
Bénéfices escomptés
Synergie avec le Big Data
Les projets Big Data en entreprise
Spécificités d’un projet Big Data
Enjeux stratégiques et organisationnels
L’innovation constante accélère le phénomène
Nouvelles technologies de transmission (vitesse de connexion accrue, mobiles en constante amélioration)
Objets connectés et domotique
Zoom sur le marché des biens et services proposés aux consommateurs
Fusionner les données exogènes et endogènes pour mieux comprendre les usagers
Méthodes de traitement de l’information : du traitement batch, au traitement temps réel
Architectures décisionnelles d’aujourd’hui
Les lacs de données (Datalake) en pleine émergence
Exemple de cahier des charges
Architecture et infrastructure Big Data
Cohabitation des solutions SGBDR et NoSQL
Les outils permettant d’extraire les données (ETL)
La nécessité de “nettoyer” les données (dataquality)
Exemple de traitement avec un ETL dédié Big data
L’apport d’un MDM (Master Data Manager)
Le stockage avec Hadoop (base de données Hbase, système de fichiers distribué HDFS)
Solutions big data alternatives (Sybase IQ, SAP Hana, Vectorwise, HP Vertica, etc.)
L’analyse des données et la visualisation
Définition de l’analyse statistique
Requêter avec Hive
Analyser les données (Pig, Mahout, etc.)
Intégrer les données grâce à Sqoop
Le développement d’applications Big Data
La philosophie de MapReduce (clef, valeur)
L’apport d’Apache Spark
Machine learning et prédiction des données (Scala, Spark MLibs, etc.)
Interconnexion avec les outils SPSS, R, SAS
Conclusion : quelle famille et quel type de langage pour quel besoin ?
La visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Data visualisation et cas d’usage concrets
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)
Synthèse des principaux outils utilisés dans les projets
Démonstration d’un environnement distribué Hadoop
Les moteurs de recherche de grande envergure
Présentation Lucene, Solr
Mécanisme de traitement
Gestion des journaux applicatifs
Mécanismes et architecture Apache Flume
La relation entre Cloud et Big Data
Motivation entre clouds publics et privés
Les clouds de stockage
Se reconcentrer sur les problématiques métiers, grâce aux services managés
Cas d’usage et success-stories

FORMATION CERTIFICATION BIG DATA FOUNDATION (CERTIFICATION DU CLOUD CREDENTIAL COUNCIL)

Objectifs de la formation

Cette formation Certifiante Big Data Foundation du CCC (Cloud Credential Council) vous permet de comprendre le Big Data, ses règles de gouvernance, ce que permettent les technologies Hadoop et MongoDB. Vous apprenez les caractérisitques des sources de données traitées par le Big Data et comment les utiliser pour répondre aux problématiques de l’entreprise

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

Comprendre le phénomène Big Data et les notions qu’il recouvre
Expliquer le Data Mining
Appréhender les outils applicables au process Big Data
Comprendre et installer les technologies du Big Data : Hadoop et MongoDB
Réaliser les contraintes, les limites mais aussi l’intérêt du mode inductif permis par le Big Data
Passer dans les conditions optimales la certification internationale «Big Data Foundation» du CCC, Cloud Credential Council.

À qui s’adresse cette formation ?

Public :

Ce cours est destiné aux CDO (Chief Digital Officers), directions métiers, chefs de projets Big Data, Business Analysts, ingénieurs analyst Big Data, développeurs, administrateusr réseaux, architectes IT, consultants et opérationnels.

Prérequis :

Pour participer à cette formation, des connaissances en langue anglaise et une culture de la Gestion des Systèmes d’Information est conseillée pour bien comprendre l’ensemble de la formation. La formation est enseignée en français mais le support de cours officiel est en anglais

Contenu du cours

Introduction
Les objectifs, l’agenda, les activités : discussion, théorie, présentation du Work-Labs
Les fondamentaux du Big Data
Découvrir le Big Data : son histoire, ses caractéristiques, son évolution depuis la déduction jusqu’à l’industrialisation
Connaître les 3 “V“ du Big Data : Volumétrie exponentielle, Vélocité augmentée, Variété des données
Hadoop et MongoDB, deux technologies du Big Data : les méthodes, les concepts, les utilisations
Les notions de privé et les codes d’éthique : la conformité, les défis, l’approche
Les projets Big Data : qui est impliqué ? qu’est ce qui est impliqué ?
Les sources du Big Data
Savoir identifier les différentes sources de données issues des entreprises, des médias sociaux, du domaine public
Savoir comment accéder aux sources Data
Apprendre à obtenir les data des sources
Data Mining
Introduction au Data Mining
Les outils
Les concepts
Les Technologies Big Data : vue en détail
Hadoop :
– Apprendre les fondamentaux
– Installer et configurer Hadoop, configurer MapReduce
MongoDB :
– Apprendre les fondamentaux
– Installer et configurer MongoDB
– Les bases de données, le data Modelling
Révisions de la certification du Cloud Credential Council (CCC)
préparation à l’examen avec des QCM “blanc”
Passage de l’examen « Big Data Foundation »

FORMATION BIG DATA: ARCHITECTURE ET INFRASTRUCTURE

Objectifs de la formation

Cette formation vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

Comprendre l’architecture et l’infrastructure sous-jacentes d’un projet Big Data
Déterminer la nature des données manipulées
Gérer les données de manière qualitative afin de réaliser des analyses pertinentes et rigoureuses
Connaître les architectures distribuées dominantes du marché
Mettre en œuvre un cluster Hadoop
Mettre en œuvre un traitement MapReduce avec Spark

À qui s’adresse cette formation ?

Public :

Ce cours est destiné aux administrateurs de clusters Hadoop, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs.

Prérequis :

Il n’est pas nécessaire de disposer d’une culture Big Data, mais il faut connaître l’administration Linux (manipulation de fichiers, service, package, etc.) pour pouvoir réaliser les travaux pratiques.

Contenu du cours

Définition et contexte spécifique des projets Big Data
Les origines du Big Data
Les données au cœur des enjeux
– Explosion du nombre de données
– Liens entre Big Data et IoT (internet des objets)
– Données structurées, semi-structurées, non structurées
Les limites des architectures actuelles
Définition d’un système Big Data
Principes de fonctionnement
Les différentes offres des marchés
Propriété de la donnée, environnement juridique du traitement, sécurité
Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-pays
Impact des choix technologiques en matière d’infrastructure et d’architecture Big Data
Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)
Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
Quelques acteurs (MongoDB, Cassandra…)
Big Table/ Big Query
Les database machine (Exadata)
Les bases de données vectorielles (Sybase IQ)
Hadoop un système totalement autonome ?
Conséquences techniques et financières selon les architectures
Architectures distribuées
Problématiques et enjeux d’une architecture distribuée
Des données cohérentes, disponibles et tolérantes aux pannes ?
Les architectures massivement parallèles
L’ouverture aux traitements complexes (datamining, machine learning, etc.)
Paradigmes de calculs distribués
Les bases NoSQL et le calcul distribué (exemple avec MongoDB)
Qualité des données (dataquality)
Liens entre infrastructure et qualité des données (exemples de problèmes)
Pas de qualité pas d’analyse
Les 4 V
Base à chaud, base à froid
Les apports d’un outil de Dataquality
Pourquoi utiliser un ETL ?
Illustration via Talend Data Integration
Analyser les données en les fusionnant avec les données internes
Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?
Préparation et configuration du cluster Hadoop
Principes de fonctionnement de Hadoop Distributed File System (HDFS)
Principes de fonctionnement de MapReduce
Design “type” du cluster
Critères de choix du matériel
Installation d’une plateforme Hadoop
Type de déploiement
Installation d’Hadoop
Installation d’autres composants (Hive, Pig, HBase, Flume…)
Quelques différences entre les distributions Cloudera, Hortonworks et MapR
Gestion d’un cluster Hadoop
Gestion des nœuds du cluster Hadoop
Les TaskTracker, JobTracker pour MapReduce
Gestion des tâches via les schedulers
Gestion des logs
Utiliser un manager
Gestion des données dans HDFS
Import de données externes (fichiers, bases de données relationnelles) vers HDFS
Manipulation des fichiers HDFS
Configuration avancée
Gestion des autorisations et de la sécurité
Reprise sur échec d’un name node (MRV1)
NameNode high availability (MRV2/YARN)
Monitoring et optimisation Tuning
Monitoring (Ambari, Ganglia…)
Benchmarking/profiling d’un cluster
Les outils Apache GridMix, Vaaidya
Choisir la taille des blocs
Autres options de tuning (utilisation de la compression, configuration mémoire…)
Architecture Hadoop avec Spark
La philosophie de Spark par rapport à Hadoop
Les différentes associations Hadoop/Spark
Comparaison des performances
Différences concernant la reprise après incident
MapReduce Spark
Maîtriser le fonctionnement de MapReduce Spark
Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
Écriture de MapReduce Spark pour la résolution de problèmes concrets

FORMATION BIG DATA: CONCEVOIR ET PILOTER UN PROJET BIG DATA

Objectifs de la formation

Cette formation Concevoir et piloter un projet Big Data vous permet de comprendre le contexte spécifique, le vocabulaire et les enjeux du Big Data afin de bien positionner les fondations d’un tel projet tant sur le plan humain, technique, sécurité, financier et juridique.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

Comprendre les spécificités d’un projet Big Data
Comprendre les risques et le cadre juridique d’un projet Big Data
Comprendre l’ensemble des technologies et les liens entre elles
Comprendre les métiers concernés par un projet Big Data
Savoir constituer et piloter l’équipe d’un projet Big Data
Savoir mettre en place une gouvernance des données efficace
Savoir piloter le cycle de vie des données (collecte, exploitation, analyse, visualisation)
Savoir mettre en place des tests cohérents.

À qui s’adresse cette formation ?

Public :

Ce cours s’adresse aux chefs de projet et aux coordonnateurs de données (Data Steward).

Prérequis :

Pour suivre ce cours, il est demandé de connaître les bases de données relationnelles, le langage SQL et d’avoir une expérience en conduite de projet. Idéalement avoir suivi la formation Big Data : Enjeux, concepts, architectures et outils ou une formation générale sur le Big Data.

Contenu du cours

Définition et contexte spécifique des projets Big Data
Les origines du Big Data
Les données au cœur des enjeux
Explosion du nombre de données
Liens entre Big Data et internet des objets (IoT)
Problématique des données structurées, semi-structurées, non structurées dans un projet Big Data
Définition d’un système Big Data
Architecture générale et fonctionnement
Les différentes offres du marché
Propriété de la donnée, environnement juridique du traitement, sécurité
Sécurité éthique et enjeux juridiques
Les données personnelles
Les informations sensibles, interdites de collecte
La CNIL régule les données numériques
Les accords intra-pays
Technologies, compétences et métiers
Ranger les technologies dans les bonnes cases (Hadoop, MapReduce, Pig, Hive, Impala, Spark, Elasticsearch, etc.)
Différences de savoir-faire pour le chef de projet avec la BI « traditionnelle »
Léger zoom sur Hadoop
Les métiers « informatiques » concernés par le Big Data (administrateur, développeur, analyste, data scientist, etc.)
Quel élargissement des compétences pour les administrateurs et les développeurs Hadoop ?
Synthèse : exemple d’une architecture Big Data en production et positionnement des métiers
La journée type du chef de projet Big Data
Conséquences financières des choix techniques
Comprendre et traiter les spécificités d’un projet Big Data au sens organisationnel, méthodologique, technologique, économique, juridique et humain
Quelle démarche méthodologique et quelles étapes clé du chantier ?
Les prérequis à réunir et points de vigilance à surveiller ?
Comment gouverner et piloter le chantier Big Data ?
Quels sont les contributeurs internes à mobiliser ? Les profils et compétences nécessaires à intégrer ?
La connaissance de la question
Composer et piloter une équipe Big Data
Hadoop dans le SI : Processus d’adoption
Comment conserver les ressources humaines « rares » dans le contexte du Big Data ?
Datalab : une équipe, un lieu, une approche
Comment élaborer un Datalab ?
Manager le processus de mise en place d’un projet Big Data
Gouvernance des Données et « Culture Données »
Définir une véritable stratégie Données
Partager les enjeux
Investir sur des initiatives ciblées et porteuses de valeur pour les métiers
Rompre avec les visions en silos
Promouvoir une « Culture Données »
Savoir communiquer (marketing digital)
Identifier les besoins et le type de données à traiter avec les métiers (use cases)
À travers différents cas d’école piochés sur l’Open Data, nous effectuons des use cases permettant de définir les indicateurs clés à déterminer
La viabilité de chaque effort est bien sûr mesurée par la détermination du ROI
La collecte et le stockage des données
Quelles données ?
Quelles sources ?
L’importance de la qualité des données (data quality)
Exemple de traitement avec un ETL dédié Big Data
Résumé : les différentes phases de la collecte dans un projet
L’exploitation des données
Données structurées, semi structurées et non structurées
La réconciliation avec le référenciel interne
La question du Master Data Management
Big Data ou Smart Data ?
L’analyse des données
Définition de l’analyse statistique
La Datascience
La place du Data scientist dans un projet Big Data
Datamining
L’implémentation d’indicateurs à destination du décisionnel
Résumé : les différentes phases et formes de l’analyse dans un projet
La visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Les objectifs de la visualisation
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Savoir communiquer sur les analyses de données (Data Storytelling)
Piloter et maîtriser les risques des projets Big Data
Différentes méthodes pour piloter un datalab :
– Business Driven
– Lean
– Scrum
Tests et analyses de performances
Stratégie pour le code de débogage MapReduce
Test local du code en utilisant LocalJobRunner
Écriture et utilisation de fichiers journaux
Études de cas / mises en situation