FORMATION BIG DATA – CONCEPTS ET ARCHITECTURE

  • Home
  • FORMATION BIG DATA – CONCEPTS ET ARCHITECTURE

Objectifs de la formation

Le Big Data est un phénomène aux multiples facettes et il ne se résume pas à une technologie.

Cette formation permettra de posséder la vue d’ensemble des outils, technologies, possibilités et contraintes du Big Data nécessaire à une sereine initiation d’un projet Big Data.

À l’issue de cette formation Big Data, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Disposer d’une vision claire du Big Data et de ses enjeux
  • Définir les enjeux stratégiques et organisationnels des projets Big Data en entreprise
  • Comprendre les technologies principalement utilisées selon les processus de mise en place des projets Big Data
  • Déterminer les éléments de sécurité, d’éthique et les enjeux juridiques
  • Consolider ses connaissances à travers un cas d’usage

À qui s’adresse cette formation ?

Public :

Cette formation s’adresse aux DSI, directeurs techniques, chefs de projets, architectes, consultants, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs, data scientists, et plus généralement toute personne désirant disposer d’une vue globale et détaillée sur le Big Data.

Prérequis :

Il est recommandé d’avoir une culture générale de base en informatique (OS, base de données, etc.).

 Contenu du cours

  1. Contexte et opportunités du Big Data

    Les origines du Big Data
    Les données au cœur des enjeux
    Explosion du nombre de données
    La place des objets connectés dans le Big Data
    Données structurées, semi-structurées, non structurées
    Comment disposer de données de « qualité » ?
    Les limites des architectures actuelles
    Définition d’un système Big Data
    Différences entre BI, Big Data et Data Science ?

    Sécurité éthique et enjeux juridiques du Big Data

    Les données personnellesLes informations sensibles, interdites de collecte
    La CNIL régule les données numériques
    Les accords intra-pays

    Open data

    La philosophie des données ouvertes et les objectifs
    Bénéfices escomptés
    Synergie avec le Big Data

    Les projets Big Data en entreprise

    Spécificités d’un projet Big Data
    Enjeux stratégiques et organisationnels
    L’innovation constante accélère le phénomène
    Nouvelles technologies de transmission (vitesse de connexion accrue, mobiles en constante amélioration)
    Objets connectés et domotique
    Zoom sur le marché des biens et services proposés aux consommateurs
    Fusionner les données exogènes et endogènes pour mieux comprendre les usagers
    Méthodes de traitement de l’information : du traitement batch, au traitement temps réel
    Architectures décisionnelles d’aujourd’hui
    Les lacs de données (Datalake) en pleine émergence
    Exemple de cahier des charges

    Architecture et infrastructure Big Data

    Cohabitation des solutions SGBDR et NoSQL
    Les outils permettant d’extraire les données (ETL)
    La nécessité de “nettoyer” les données (dataquality)
    Exemple de traitement avec un ETL dédié Big data
    L’apport d’un MDM (Master Data Manager)
    Le stockage avec Hadoop (base de données Hbase, système de fichiers distribué HDFS)
    Solutions big data alternatives (Sybase IQ, SAP Hana, Vectorwise, HP Vertica, etc.)

    L’analyse des données et la visualisation

    Définition de l’analyse statistique
    Requêter avec Hive
    Analyser les données (Pig, Mahout, etc.)
    Intégrer les données grâce à Sqoop

    Le développement d’applications Big Data

    La philosophie de MapReduce (clef, valeur)
    L’apport d’Apache Spark
    Machine learning et prédiction des données (Scala, Spark MLibs, etc.)
    Interconnexion avec les outils SPSS, R, SAS
    Conclusion : quelle famille et quel type de langage pour quel besoin ?

    La visualisation des données (Dataviz)

    Ce que les statistiques ne disent pas
    Data visualisation et cas d’usage concrets
    Quels graphes pour quels usages ?
    Représentation de données complexes (encodage visuel, visualisation interactive)
    Savoir communiquer sur les analyses de données (Data Storytelling)
    Synthèse des principaux outils utilisés dans les projets

    Démonstration d’un environnement distribué Hadoop

    Les moteurs de recherche de grande envergure
    Présentation Lucene, Solr
    Mécanisme de traitement
    Gestion des journaux applicatifs
    Mécanismes et architecture Apache Flume
    La relation entre Cloud et Big Data
    Motivation entre clouds publics et privés
    Les clouds de stockage
    Se reconcentrer sur les problématiques métiers, grâce aux services managés

    Cas d’usage et success-stories


Objectifs de la formation

Cette formation Certifiante Big Data Foundation du CCC (Cloud Credential Council) vous permet de comprendre le Big Data, ses règles de gouvernance, ce que permettent les technologies Hadoop et MongoDB. Vous apprenez les caractérisitques des sources de données traitées par le Big Data et comment les utiliser pour répondre aux problématiques de l’entreprise

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Comprendre le phénomène Big Data et les notions qu’il recouvre
  • Expliquer le Data Mining
  • Appréhender les outils applicables au process Big Data
  • Comprendre et installer les technologies du Big Data : Hadoop et MongoDB
  • Réaliser les contraintes, les limites mais aussi l’intérêt du mode inductif permis par le Big Data
  • Passer dans les conditions optimales la certification internationale «Big Data Foundation» du CCC, Cloud Credential Council.

À qui s’adresse cette formation ?

Public :

Ce cours est destiné aux CDO (Chief Digital Officers), directions métiers, chefs de projets Big Data, Business Analysts, ingénieurs analyst Big Data, développeurs, administrateusr réseaux, architectes IT, consultants et opérationnels.

Prérequis :

Pour participer à cette formation, des connaissances en langue anglaise et une culture de la Gestion des Systèmes d’Information est conseillée pour bien comprendre l’ensemble de la formation. La formation est enseignée en français mais le support de cours officiel est en anglais

 Contenu du cours

  1. Introduction

    Les objectifs, l’agenda, les activités : discussion, théorie, présentation du Work-Labs

    Les fondamentaux du Big Data

    Découvrir le Big Data : son histoire, ses caractéristiques, son évolution depuis la déduction jusqu’à l’industrialisation
    Connaître les 3 “V“ du Big Data : Volumétrie exponentielle, Vélocité augmentée, Variété des données
    Hadoop et MongoDB, deux technologies du Big Data : les méthodes, les concepts, les utilisations
    Les notions de privé et les codes d’éthique : la conformité, les défis, l’approche
    Les projets Big Data : qui est impliqué ? qu’est ce qui est impliqué ?

    Les sources du Big Data

    Savoir identifier les différentes sources de données issues des entreprises, des médias sociaux, du domaine public
    Savoir comment accéder aux sources Data
    Apprendre à obtenir les data des sources

    Data Mining

    Introduction au Data Mining
    Les outils
    Les concepts

    Les Technologies Big Data : vue en détail 

    Hadoop :
    – Apprendre les fondamentaux
    – Installer et configurer Hadoop, configurer MapReduce
    MongoDB :
    – Apprendre les fondamentaux
    – Installer et configurer MongoDB
    – Les bases de données, le data Modelling

    Révisions de la certification du Cloud Credential Council (CCC) 

    préparation à l’examen avec des QCM “blanc”

    Passage de l’examen « Big Data Foundation »

Objectifs de la formation

Cette formation vous présente l’architecture et l’infrastructure sous-jacente d’un projet Big Data. Elle commence par définir le cadre des projets Big Data puis explique en quoi la nature des données manipulées et leur volume impactent l’architecture, que ce soit au niveau du stockage ou du traitement. 

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Comprendre l’architecture et l’infrastructure sous-jacentes d’un projet Big Data
  • Déterminer la nature des données manipulées
  • Gérer les données de manière qualitative afin de réaliser des analyses pertinentes et rigoureuses
  • Connaître les architectures distribuées dominantes du marché
  • Mettre en œuvre un cluster Hadoop
  • Mettre en œuvre un traitement MapReduce avec Spark

À qui s’adresse cette formation ?

Public :

Ce cours est destiné aux administrateurs de clusters Hadoop, administrateurs de bases de données, ingénieurs systèmes et réseaux, développeurs.

Prérequis :

Il n’est pas nécessaire de disposer d’une culture Big Data, mais il faut connaître l’administration Linux (manipulation de fichiers, service, package, etc.) pour pouvoir réaliser les travaux pratiques.

 Contenu du cours

  1. Définition et contexte spécifique des projets Big Data

    Les origines du Big Data
    Les données au cœur des enjeux
    –  Explosion du nombre de données
    –  Liens entre Big Data et IoT (internet des objets)
    –  Données structurées, semi-structurées, non structurées
    Les limites des architectures actuelles
    Définition d’un système Big Data
    Principes de fonctionnement
    Les différentes offres des marchés

    Propriété de la donnée, environnement juridique du traitement, sécurité

    Sécurité éthique et enjeux juridiques
    Les données personnelles
    Les informations sensibles, interdites de collecte
    La CNIL régule les données numériques
    Les accords intra-pays

    Impact des choix technologiques en matière d’infrastructure et d’architecture Big Data

    Les architectures décisionnelles « traditionnelles » (datastore, datawarehouse, datamart…)
    Philosophie des bases NoSQL : column family, orienté document, clé-valeur, graphe
    Quelques acteurs (MongoDB, Cassandra…)
    Big Table/ Big Query
    Les database machine (Exadata)
    Les bases de données vectorielles (Sybase IQ)
    Hadoop un système totalement autonome ?
    Conséquences techniques et financières selon les architectures

    Architectures distribuées

    Problématiques et enjeux d’une architecture distribuée
    Des données cohérentes, disponibles et tolérantes aux pannes ?
    Les architectures massivement parallèles
    L’ouverture aux traitements complexes (datamining, machine learning, etc.)
    Paradigmes de calculs distribués
    Les bases NoSQL et le calcul distribué (exemple avec MongoDB)

    Qualité des données (dataquality)

    Liens entre infrastructure et qualité des données (exemples de problèmes)
    Pas de qualité pas d’analyse
    Les 4 V
    Base à chaud, base à froid
    Les apports d’un outil de Dataquality
    Pourquoi utiliser un ETL ?
    Illustration via Talend Data Integration
    Analyser les données en les fusionnant avec les données internes
    Le Master Data Management (MDM) : phase indispensable de la réconciliation des données Big Data avec les données décisionnelles ?

    Préparation et configuration du cluster Hadoop

    Principes de fonctionnement de Hadoop Distributed File System (HDFS)
    Principes de fonctionnement de MapReduce
    Design “type” du cluster
    Critères de choix du matériel

    Installation d’une plateforme Hadoop

    Type de déploiement
    Installation d’Hadoop
    Installation d’autres composants (Hive, Pig, HBase, Flume…)
    Quelques différences entre les distributions Cloudera, Hortonworks et MapR

    Gestion d’un cluster Hadoop

    Gestion des nœuds du cluster Hadoop
    Les TaskTracker, JobTracker pour MapReduce
    Gestion des tâches via les schedulers
    Gestion des logs
    Utiliser un manager

    Gestion des données dans HDFS

    Import de données externes (fichiers, bases de données relationnelles) vers HDFS
    Manipulation des fichiers HDFS

    Configuration avancée

    Gestion des autorisations et de la sécurité
    Reprise sur échec d’un name node (MRV1)
    NameNode high availability (MRV2/YARN)

    Monitoring et optimisation Tuning

    Monitoring (Ambari, Ganglia…)
    Benchmarking/profiling d’un cluster
    Les outils Apache GridMix, Vaaidya
    Choisir la taille des blocs
    Autres options de tuning (utilisation de la compression, configuration mémoire…)

    Architecture Hadoop avec Spark

    La philosophie de Spark par rapport à Hadoop
    Les différentes associations Hadoop/Spark
    Comparaison des performances
    Différences concernant la reprise après incident

    MapReduce Spark

    Maîtriser le fonctionnement de MapReduce Spark
    Configuration d’un nœud Hadoop pour le calcul MapReduce Spark
    Introduction à Hadoop Streaming pour le prototypage rapide de MapReduce Spark
    Écriture de MapReduce Spark pour la résolution de problèmes concrets

Objectifs de la formation

Cette formation Concevoir et piloter un projet Big Data vous permet de comprendre le contexte spécifique, le vocabulaire et les enjeux du Big Data afin de bien positionner les fondations d’un tel projet tant sur le plan humain, technique, sécurité, financier et juridique.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Comprendre les spécificités d’un projet Big Data
  • Comprendre les risques et le cadre juridique d’un projet Big Data
  • Comprendre l’ensemble des technologies et les liens entre elles
  • Comprendre les métiers concernés par un projet Big Data
  • Savoir constituer et piloter l’équipe d’un projet Big Data
  • Savoir mettre en place une gouvernance des données efficace
  • Savoir piloter le cycle de vie des données (collecte, exploitation, analyse, visualisation)
  • Savoir mettre en place des tests cohérents.

À qui s’adresse cette formation ?

Public :

Ce cours s’adresse aux chefs de projet et aux coordonnateurs de données (Data Steward).

Prérequis :

Pour suivre ce cours, il est demandé de connaître les bases de données relationnelles, le langage SQL et d’avoir une expérience en conduite de projet. Idéalement avoir suivi la formation Big Data : Enjeux, concepts, architectures et outils ou une formation générale sur le Big Data.

 Contenu du cours

  1. Définition et contexte spécifique des projets Big Data

    Les origines du Big Data
    Les données au cœur des enjeux
    Explosion du nombre de données
    Liens entre Big Data et internet des objets (IoT)
    Problématique des données structurées, semi-structurées, non structurées dans un projet Big Data
    Définition d’un système Big Data
    Architecture générale et fonctionnement
    Les différentes offres du marché

    Propriété de la donnée, environnement juridique du traitement, sécurité

    Sécurité éthique et enjeux juridiques
    Les données personnelles
    Les informations sensibles, interdites de collecte
    La CNIL régule les données numériques
    Les accords intra-pays

    Technologies, compétences et métiers

    Ranger les technologies dans les bonnes cases (Hadoop, MapReduce, Pig, Hive, Impala, Spark, Elasticsearch, etc.)
    Différences de savoir-faire pour le chef de projet avec la BI « traditionnelle »
    Léger zoom sur Hadoop
    Les métiers « informatiques » concernés par le Big Data (administrateur, développeur, analyste, data scientist, etc.)
    Quel élargissement des compétences pour les administrateurs et les développeurs Hadoop ?
    Synthèse : exemple d’une architecture Big Data en production et positionnement des métiers
    La journée type du chef de projet Big Data
    Conséquences financières des choix techniques

    Comprendre et traiter les spécificités d’un projet Big Data au sens organisationnel, méthodologique, technologique, économique, juridique et humain

    Quelle démarche méthodologique et quelles étapes clé du chantier ?
    Les prérequis à réunir et points de vigilance à surveiller ?
    Comment gouverner et piloter le chantier Big Data ?
    Quels sont les contributeurs internes à mobiliser ? Les profils et compétences nécessaires à intégrer ?
    La connaissance de la question

    Composer et piloter une équipe Big Data

    Hadoop dans le SI : Processus d’adoption
    Comment conserver les ressources humaines « rares » dans le contexte du Big Data ?
    Datalab : une équipe, un lieu, une approche
    Comment élaborer un Datalab ?

    Manager le processus de mise en place d’un projet Big Data

    Gouvernance des Données et « Culture Données »
    Définir une véritable stratégie Données
    Partager les enjeux
    Investir sur des initiatives ciblées et porteuses de valeur pour les métiers
    Rompre avec les visions en silos
    Promouvoir une « Culture Données »
    Savoir communiquer (marketing digital)

    Identifier les besoins et le type de données à traiter avec les métiers (use cases)

    À travers différents cas d’école piochés sur l’Open Data, nous effectuons des use cases permettant de définir les indicateurs clés à déterminer
    La viabilité de chaque effort est bien sûr mesurée par la détermination du ROI

    La collecte et le stockage des données

    Quelles données ?
    Quelles sources ?
    L’importance de la qualité des données (data quality)
    Exemple de traitement avec un ETL dédié Big Data
    Résumé : les différentes phases de la collecte dans un projet

    L’exploitation des données

    Données structurées, semi structurées et non structurées
    La réconciliation avec le référenciel interne
    La question du Master Data Management
    Big Data ou Smart Data ?

    L’analyse des données

    Définition de l’analyse statistique
    La Datascience
    La place du Data scientist dans un projet Big Data
    Datamining
    L’implémentation d’indicateurs à destination du décisionnel
    Résumé : les différentes phases et formes de l’analyse dans un projet

    La visualisation des données (Dataviz)

    Ce que les statistiques ne disent pas
    Les objectifs de la visualisation
    Quels graphes pour quels usages ?
    Représentation de données complexes (encodage visuel, visualisation interactive)
    Savoir communiquer sur les analyses de données (Data Storytelling)

    Piloter et maîtriser les risques des projets Big Data

    Différentes méthodes pour piloter un datalab :
    – Business Driven
    – Lean
    – Scrum

    Tests et analyses de performances

    Stratégie pour le code de débogage MapReduce
    Test local du code en utilisant LocalJobRunner
    Écriture et utilisation de fichiers journaux

    Études de cas / mises en situation