{"id":13033,"date":"2022-07-13T21:02:24","date_gmt":"2022-07-13T21:02:24","guid":{"rendered":"https:\/\/705consulting.com\/?page_id=13033"},"modified":"2022-07-13T21:17:03","modified_gmt":"2022-07-13T21:17:03","slug":"formation-big-data-concepts-et-architecture","status":"publish","type":"page","link":"https:\/\/705consulting.com\/index.php\/formation-big-data-concepts-et-architecture\/","title":{"rendered":"FORMATION BIG DATA \u2013 CONCEPTS ET ARCHITECTURE"},"content":{"rendered":"\t\t<div data-elementor-type=\"wp-page\" data-elementor-id=\"13033\" class=\"elementor elementor-13033\">\n\t\t\t\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-b0d6fb2 elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"b0d6fb2\" data-element_type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-aac3e30\" data-id=\"aac3e30\" data-element_type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t\t\t<div class=\"elementor-element elementor-element-c5fbe52 elementor-widget elementor-widget-toggle\" data-id=\"c5fbe52\" data-element_type=\"widget\" data-widget_type=\"toggle.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t<style>\/*! elementor - v3.7.8 - 02-10-2022 *\/\n.elementor-toggle{text-align:left}.elementor-toggle .elementor-tab-title{font-weight:700;line-height:1;margin:0;padding:15px;border-bottom:1px solid #d4d4d4;cursor:pointer;outline:none}.elementor-toggle .elementor-tab-title .elementor-toggle-icon{display:inline-block;width:1em}.elementor-toggle .elementor-tab-title .elementor-toggle-icon svg{-webkit-margin-start:-5px;margin-inline-start:-5px;width:1em;height:1em}.elementor-toggle .elementor-tab-title .elementor-toggle-icon.elementor-toggle-icon-right{float:right;text-align:right}.elementor-toggle .elementor-tab-title .elementor-toggle-icon.elementor-toggle-icon-left{float:left;text-align:left}.elementor-toggle .elementor-tab-title .elementor-toggle-icon .elementor-toggle-icon-closed{display:block}.elementor-toggle .elementor-tab-title .elementor-toggle-icon .elementor-toggle-icon-opened{display:none}.elementor-toggle .elementor-tab-title.elementor-active{border-bottom:none}.elementor-toggle .elementor-tab-title.elementor-active .elementor-toggle-icon-closed{display:none}.elementor-toggle .elementor-tab-title.elementor-active .elementor-toggle-icon-opened{display:block}.elementor-toggle .elementor-tab-content{padding:15px;border-bottom:1px solid #d4d4d4;display:none}@media (max-width:767px){.elementor-toggle .elementor-tab-title{padding:12px}.elementor-toggle .elementor-tab-content{padding:12px 10px}}.e-container>.elementor-widget-toggle{width:var(--container-widget-width,100%)}<\/style>\t\t<div class=\"elementor-toggle\" role=\"tablist\">\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-2071\" class=\"elementor-tab-title\" data-tab=\"1\" role=\"tab\" aria-controls=\"elementor-tab-content-2071\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a href=\"\" class=\"elementor-toggle-title\">FORMATION BIG DATA: ENJEUX, CONCEPTS, ARCHITECTURE ET OUTILS<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-2071\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"1\" role=\"tabpanel\" aria-labelledby=\"elementor-tab-title-2071\"><h2>Objectifs de la formation<\/h2><p>Le Big Data est un ph\u00e9nom\u00e8ne aux multiples facettes et il ne se r\u00e9sume pas \u00e0 une technologie.<\/p><p>Cette formation permettra de poss\u00e9der la vue d&#8217;ensemble des outils, technologies, possibilit\u00e9s et contraintes du Big Data n\u00e9cessaire \u00e0 une sereine initiation d&#8217;un projet Big Data.<\/p><p>\u00c0 l&#8217;issue de cette\u00a0<strong>formation Big Data<\/strong>, vous aurez acquis les connaissances et comp\u00e9tences n\u00e9cessaires pour :<\/p><ul><li>Disposer d\u2019une vision claire du Big Data et de ses enjeux<\/li><li>D\u00e9finir les enjeux strat\u00e9giques et organisationnels des projets Big Data en entreprise<\/li><li>Comprendre les technologies principalement utilis\u00e9es selon les processus de mise en place des projets Big Data<\/li><li>D\u00e9terminer les \u00e9l\u00e9ments de s\u00e9curit\u00e9, d&#8217;\u00e9thique et les enjeux juridiques<\/li><li>Consolider ses connaissances \u00e0 travers un cas d&#8217;usage<\/li><\/ul><h2>\u00c0 qui s&#8217;adresse cette formation ?<\/h2><p><strong>Public :<\/strong><\/p><p>Cette formation s&#8217;adresse aux DSI, directeurs techniques, chefs de projets, architectes, consultants, administrateurs de bases de donn\u00e9es, ing\u00e9nieurs syst\u00e8mes et r\u00e9seaux, d\u00e9veloppeurs, data scientists, et plus g\u00e9n\u00e9ralement toute personne d\u00e9sirant disposer d\u2019une vue globale et d\u00e9taill\u00e9e sur le Big Data.<\/p><p><strong>Pr\u00e9requis :<\/strong><\/p><p>Il est recommand\u00e9 d&#8217;avoir une culture g\u00e9n\u00e9rale de base en informatique (OS, base de donn\u00e9es, etc.).<\/p><h2>\u00a0Contenu du cours<\/h2><ol><li><h3>Contexte et opportunit\u00e9s du Big Data<\/h3><p>Les origines du Big Data<br \/>Les donn\u00e9es au c\u0153ur des enjeux<br \/>Explosion du nombre de donn\u00e9es<br \/>La place des objets connect\u00e9s dans le Big Data<br \/>Donn\u00e9es structur\u00e9es, semi-structur\u00e9es, non structur\u00e9es<br \/>Comment disposer de donn\u00e9es de \u00ab qualit\u00e9 \u00bb ?<br \/>Les limites des architectures actuelles<br \/>D\u00e9finition d\u2019un syst\u00e8me Big Data<br \/>Diff\u00e9rences entre BI, Big Data et Data Science ?<\/p><h3>S\u00e9curit\u00e9 \u00e9thique et enjeux juridiques du Big Data<\/h3><p>Les donn\u00e9es personnellesLes informations sensibles, interdites de collecte<br \/>La CNIL r\u00e9gule les donn\u00e9es num\u00e9riques<br \/>Les accords intra-pays<\/p><h3>Open data<\/h3><p>La philosophie des donn\u00e9es ouvertes et les objectifs<br \/>B\u00e9n\u00e9fices escompt\u00e9s<br \/>Synergie avec le Big Data<\/p><h3>Les projets Big Data en entreprise<\/h3><p>Sp\u00e9cificit\u00e9s d\u2019un projet Big Data<br \/>Enjeux strat\u00e9giques et organisationnels<br \/>L\u2019innovation constante acc\u00e9l\u00e8re le ph\u00e9nom\u00e8ne<br \/>Nouvelles technologies de transmission (vitesse de connexion accrue, mobiles en constante am\u00e9lioration)<br \/>Objets connect\u00e9s et domotique<br \/>Zoom sur le march\u00e9 des biens et services propos\u00e9s aux consommateurs<br \/>Fusionner les donn\u00e9es exog\u00e8nes et endog\u00e8nes pour mieux comprendre les usagers<br \/>M\u00e9thodes de traitement de l\u2019information : du traitement batch, au traitement temps r\u00e9el<br \/>Architectures d\u00e9cisionnelles d\u2019aujourd\u2019hui<br \/>Les lacs de donn\u00e9es (Datalake) en pleine \u00e9mergence<br \/>Exemple de cahier des charges<\/p><h3>Architecture et infrastructure Big Data<\/h3><p>Cohabitation des solutions SGBDR et NoSQL<br \/>Les outils permettant d\u2019extraire les donn\u00e9es (ETL)<br \/>La n\u00e9cessit\u00e9 de \u201cnettoyer\u201d les donn\u00e9es (dataquality)<br \/>Exemple de traitement avec un ETL d\u00e9di\u00e9 Big data<br \/>L\u2019apport d\u2019un MDM (Master Data Manager)<br \/>Le stockage avec Hadoop (base de donn\u00e9es Hbase, syst\u00e8me de fichiers distribu\u00e9 HDFS)<br \/>Solutions big data alternatives (Sybase IQ, SAP Hana, Vectorwise, HP Vertica, etc.)<\/p><h3>L\u2019analyse des donn\u00e9es et la visualisation<\/h3><p>D\u00e9finition de l\u2019analyse statistique<br \/>Requ\u00eater avec Hive<br \/>Analyser les donn\u00e9es (Pig, Mahout, etc.)<br \/>Int\u00e9grer les donn\u00e9es gr\u00e2ce \u00e0 Sqoop<\/p><h3>Le d\u00e9veloppement d\u2019applications Big Data<\/h3><p>La philosophie de MapReduce (clef, valeur)<br \/>L\u2019apport d\u2019Apache Spark<br \/>Machine learning et pr\u00e9diction des donn\u00e9es (Scala, Spark MLibs, etc.)<br \/>Interconnexion avec les outils SPSS, R, SAS<br \/>Conclusion : quelle famille et quel type de langage pour quel besoin ?<\/p><h3>La visualisation des donn\u00e9es (Dataviz)<\/h3><p>Ce que les statistiques ne disent pas<br \/>Data visualisation et cas d&#8217;usage concrets<br \/>Quels graphes pour quels usages ?<br \/>Repr\u00e9sentation de donn\u00e9es complexes (encodage visuel, visualisation interactive)<br \/>Savoir communiquer sur les analyses de donn\u00e9es (Data Storytelling)<br \/>Synth\u00e8se des principaux outils utilis\u00e9s dans les projets<\/p><h3>D\u00e9monstration d\u2019un environnement distribu\u00e9 Hadoop<\/h3><p>Les moteurs de recherche de grande envergure<br \/>Pr\u00e9sentation Lucene, Solr<br \/>M\u00e9canisme de traitement<br \/>Gestion des journaux applicatifs<br \/>M\u00e9canismes et architecture Apache Flume<br \/>La relation entre Cloud et Big Data<br \/>Motivation entre clouds publics et priv\u00e9s<br \/>Les clouds de stockage<br \/>Se reconcentrer sur les probl\u00e9matiques m\u00e9tiers, gr\u00e2ce aux services manag\u00e9s<\/p><h3>Cas d\u2019usage et success-stories<br \/><br \/><br \/><\/h3><\/li><\/ol><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-2072\" class=\"elementor-tab-title\" data-tab=\"2\" role=\"tab\" aria-controls=\"elementor-tab-content-2072\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a href=\"\" class=\"elementor-toggle-title\">FORMATION CERTIFICATION BIG DATA FOUNDATION (CERTIFICATION DU CLOUD CREDENTIAL COUNCIL)<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-2072\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"2\" role=\"tabpanel\" aria-labelledby=\"elementor-tab-title-2072\"><h2>Objectifs de la formation<\/h2><p>Cette<strong>\u00a0<\/strong><strong>formation Certifiante Big Data Foundation du CCC<\/strong>\u00a0(Cloud Credential Council) vous permet de comprendre le Big Data, ses r\u00e8gles de gouvernance, ce que permettent les technologies Hadoop et MongoDB. Vous apprenez les caract\u00e9risitques des sources de donn\u00e9es trait\u00e9es par le Big Data et comment les utiliser pour r\u00e9pondre aux probl\u00e9matiques de l&#8217;entreprise<\/p><p>\u00c0 l&#8217;issue de cette formation, vous aurez acquis les connaissances et les comp\u00e9tences n\u00e9cessaires pour :<\/p><ul><li>Comprendre le ph\u00e9nom\u00e8ne Big Data et les notions qu\u2019il recouvre<\/li><li>Expliquer le Data Mining<\/li><li>Appr\u00e9hender les outils applicables au process Big Data<\/li><li>Comprendre et installer les technologies du Big Data : Hadoop et MongoDB<\/li><li>R\u00e9aliser les contraintes, les limites mais aussi l\u2019int\u00e9r\u00eat du mode inductif permis par le Big Data<\/li><li>Passer dans les conditions optimales la certification internationale \u00abBig Data Foundation\u00bb du CCC, Cloud Credential Council.<\/li><\/ul><h2>\u00c0 qui s&#8217;adresse cette formation ?<\/h2><p><strong>Public :<\/strong><\/p><p>Ce cours est destin\u00e9 aux CDO (Chief Digital Officers), directions m\u00e9tiers, chefs de projets Big Data, Business Analysts, ing\u00e9nieurs analyst Big Data, d\u00e9veloppeurs, administrateusr r\u00e9seaux, architectes IT, consultants et op\u00e9rationnels.<\/p><p><strong>Pr\u00e9requis :<\/strong><\/p><p>Pour participer \u00e0 cette formation, des connaissances en langue anglaise et une culture de la Gestion des Syst\u00e8mes d\u2019Information est conseill\u00e9e pour bien comprendre l\u2019ensemble de la formation. La formation est enseign\u00e9e en fran\u00e7ais mais le support de cours officiel est en anglais<\/p><h2>\u00a0Contenu du cours<\/h2><ol><li><h3>Introduction<\/h3><p>Les objectifs, l\u2019agenda, les activit\u00e9s : discussion, th\u00e9orie, pr\u00e9sentation du Work-Labs<\/p><h3>Les fondamentaux du Big Data<\/h3><p>D\u00e9couvrir le Big Data : son histoire, ses caract\u00e9ristiques, son \u00e9volution depuis la d\u00e9duction jusqu&#8217;\u00e0 l\u2019industrialisation<br \/>Conna\u00eetre les 3 \u201cV\u201c du Big Data : Volum\u00e9trie exponentielle, V\u00e9locit\u00e9 augment\u00e9e, Vari\u00e9t\u00e9 des donn\u00e9es<br \/>Hadoop et MongoDB, deux technologies du Big Data : les m\u00e9thodes, les concepts, les utilisations<br \/>Les notions de priv\u00e9 et les codes d&#8217;\u00e9thique : la conformit\u00e9, les d\u00e9fis, l\u2019approche<br \/>Les projets Big Data : qui est impliqu\u00e9 ? qu\u2019est ce qui est impliqu\u00e9 ?<\/p><h3>Les sources du Big Data<\/h3><p>Savoir identifier les diff\u00e9rentes sources de donn\u00e9es issues des entreprises, des m\u00e9dias sociaux, du domaine public<br \/>Savoir comment acc\u00e9der aux sources Data<br \/>Apprendre \u00e0 obtenir les data des sources<\/p><h3>Data Mining<\/h3><p>Introduction au Data Mining<br \/>Les outils<br \/>Les concepts<\/p><h3>Les Technologies Big Data : vue en d\u00e9tail\u00a0<\/h3><p>Hadoop :<br \/>&#8211; Apprendre les fondamentaux<br \/>&#8211; Installer et configurer Hadoop, configurer MapReduce<br \/>MongoDB :<br \/>&#8211; Apprendre les fondamentaux<br \/>&#8211; Installer et configurer MongoDB<br \/>&#8211; Les bases de donn\u00e9es, le data Modelling<\/p><h3>R\u00e9visions de la certification du Cloud Credential Council (CCC)\u00a0<\/h3><p>pr\u00e9paration \u00e0 l&#8217;examen avec des QCM &#8220;blanc&#8221;<\/p><h3>Passage de l\u2019examen \u00ab Big Data Foundation \u00bb<\/h3><\/li><\/ol><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-2073\" class=\"elementor-tab-title\" data-tab=\"3\" role=\"tab\" aria-controls=\"elementor-tab-content-2073\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a href=\"\" class=\"elementor-toggle-title\">FORMATION BIG DATA: ARCHITECTURE ET INFRASTRUCTURE<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-2073\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"3\" role=\"tabpanel\" aria-labelledby=\"elementor-tab-title-2073\"><h2>Objectifs de la formation<\/h2><p>Cette formation vous pr\u00e9sente l\u2019architecture et l\u2019infrastructure sous-jacente d\u2019un projet Big Data. Elle commence par d\u00e9finir le cadre des projets Big Data puis explique en quoi la nature des donn\u00e9es manipul\u00e9es et leur volume impactent l\u2019architecture, que ce soit au niveau du stockage ou du traitement.\u00a0<\/p><p>\u00c0 l&#8217;issue de cette formation, vous aurez acquis les connaissances et les comp\u00e9tences n\u00e9cessaires pour :<\/p><ul><li>Comprendre l&#8217;architecture et l&#8217;infrastructure sous-jacentes d&#8217;un projet Big Data<\/li><li>D\u00e9terminer la nature des donn\u00e9es manipul\u00e9es<\/li><li>G\u00e9rer les donn\u00e9es de mani\u00e8re qualitative afin de r\u00e9aliser des analyses pertinentes et rigoureuses<\/li><li>Conna\u00eetre les architectures distribu\u00e9es dominantes du march\u00e9<\/li><li>Mettre en \u0153uvre un cluster Hadoop<\/li><li>Mettre en \u0153uvre un traitement MapReduce avec Spark<\/li><\/ul><h2>\u00c0 qui s&#8217;adresse cette formation ?<\/h2><p><strong>Public :<\/strong><\/p><p>Ce cours est destin\u00e9 aux administrateurs de clusters Hadoop, administrateurs de bases de donn\u00e9es, ing\u00e9nieurs syst\u00e8mes et r\u00e9seaux, d\u00e9veloppeurs.<\/p><p><strong>Pr\u00e9requis :<\/strong><\/p><p>Il n\u2019est pas n\u00e9cessaire de disposer d\u2019une culture Big Data, mais il faut conna\u00eetre l\u2019administration Linux (manipulation de fichiers, service, package, etc.) pour pouvoir r\u00e9aliser les travaux pratiques.<\/p><h2>\u00a0Contenu du cours<\/h2><ol><li><h3>D\u00e9finition et contexte sp\u00e9cifique des projets Big Data<\/h3><p>Les origines du Big Data<br \/>Les donn\u00e9es au c\u0153ur des enjeux<br \/>&#8211;\u00a0 Explosion du nombre de donn\u00e9es<br \/>&#8211;\u00a0 Liens entre Big Data et IoT (internet des objets)<br \/>&#8211;\u00a0 Donn\u00e9es structur\u00e9es, semi-structur\u00e9es, non structur\u00e9es<br \/>Les limites des architectures actuelles<br \/>D\u00e9finition d\u2019un syst\u00e8me Big Data<br \/>Principes de fonctionnement<br \/>Les diff\u00e9rentes offres des march\u00e9s<\/p><h3>Propri\u00e9t\u00e9 de la donn\u00e9e, environnement juridique du traitement, s\u00e9curit\u00e9<\/h3><p>S\u00e9curit\u00e9 \u00e9thique et enjeux juridiques<br \/>Les donn\u00e9es personnelles<br \/>Les informations sensibles, interdites de collecte<br \/>La CNIL r\u00e9gule les donn\u00e9es num\u00e9riques<br \/>Les accords intra-pays<\/p><h3>Impact des choix technologiques en mati\u00e8re d\u2019infrastructure et d\u2019architecture Big Data<\/h3><p>Les architectures d\u00e9cisionnelles \u00ab traditionnelles \u00bb (datastore, datawarehouse, datamart\u2026)<br \/>Philosophie des bases NoSQL : column family, orient\u00e9 document, cl\u00e9-valeur, graphe<br \/>Quelques acteurs (MongoDB, Cassandra\u2026)<br \/>Big Table\/ Big Query<br \/>Les database machine (Exadata)<br \/>Les bases de donn\u00e9es vectorielles (Sybase IQ)<br \/>Hadoop un syst\u00e8me totalement autonome ?<br \/>Cons\u00e9quences techniques et financi\u00e8res selon les architectures<\/p><h3>Architectures distribu\u00e9es<\/h3><p>Probl\u00e9matiques et enjeux d\u2019une architecture distribu\u00e9e<br \/>Des donn\u00e9es coh\u00e9rentes, disponibles et tol\u00e9rantes aux pannes ?<br \/>Les architectures massivement parall\u00e8les<br \/>L\u2019ouverture aux traitements complexes (datamining, machine learning, etc.)<br \/>Paradigmes de calculs distribu\u00e9s<br \/>Les bases NoSQL et le calcul distribu\u00e9 (exemple avec MongoDB)<\/p><h3>Qualit\u00e9 des donn\u00e9es (dataquality)<\/h3><p>Liens entre infrastructure et qualit\u00e9 des donn\u00e9es (exemples de probl\u00e8mes)<br \/>Pas de qualit\u00e9 pas d\u2019analyse<br \/>Les 4 V<br \/>Base \u00e0 chaud, base \u00e0 froid<br \/>Les apports d\u2019un outil de Dataquality<br \/>Pourquoi utiliser un ETL ?<br \/>Illustration via Talend Data Integration<br \/>Analyser les donn\u00e9es en les fusionnant avec les donn\u00e9es internes<br \/>Le Master Data Management (MDM) : phase indispensable de la r\u00e9conciliation des donn\u00e9es Big Data avec les donn\u00e9es d\u00e9cisionnelles ?<\/p><h3>Pr\u00e9paration et configuration du cluster Hadoop<\/h3><p>Principes de fonctionnement de Hadoop Distributed File System (HDFS)<br \/>Principes de fonctionnement de MapReduce<br \/>Design &#8220;type&#8221; du cluster<br \/>Crit\u00e8res de choix du mat\u00e9riel<\/p><h3>Installation d&#8217;une plateforme Hadoop<\/h3><p>Type de d\u00e9ploiement<br \/>Installation d&#8217;Hadoop<br \/>Installation d&#8217;autres composants (Hive, Pig, HBase, Flume&#8230;)<br \/>Quelques diff\u00e9rences entre les distributions Cloudera, Hortonworks et MapR<\/p><h3>Gestion d&#8217;un cluster Hadoop<\/h3><p>Gestion des n\u0153uds du cluster Hadoop<br \/>Les TaskTracker, JobTracker pour MapReduce<br \/>Gestion des t\u00e2ches via les schedulers<br \/>Gestion des logs<br \/>Utiliser un manager<\/p><h3>Gestion des donn\u00e9es dans HDFS<\/h3><p>Import de donn\u00e9es externes (fichiers, bases de donn\u00e9es relationnelles) vers HDFS<br \/>Manipulation des fichiers HDFS<\/p><h3>Configuration avanc\u00e9e<\/h3><p>Gestion des autorisations et de la s\u00e9curit\u00e9<br \/>Reprise sur \u00e9chec d&#8217;un name node (MRV1)<br \/>NameNode high availability (MRV2\/YARN)<\/p><h3>Monitoring et optimisation Tuning<\/h3><p>Monitoring (Ambari, Ganglia&#8230;)<br \/>Benchmarking\/profiling d&#8217;un cluster<br \/>Les outils Apache GridMix, Vaaidya<br \/>Choisir la taille des blocs<br \/>Autres options de tuning (utilisation de la compression, configuration m\u00e9moire&#8230;)<\/p><h3>Architecture Hadoop avec Spark<\/h3><p>La philosophie de Spark par rapport \u00e0 Hadoop<br \/>Les diff\u00e9rentes associations Hadoop\/Spark<br \/>Comparaison des performances<br \/>Diff\u00e9rences concernant la reprise apr\u00e8s incident<\/p><h3>MapReduce Spark<\/h3><p>Ma\u00eetriser le fonctionnement de MapReduce Spark<br \/>Configuration d\u2019un n\u0153ud Hadoop pour le calcul MapReduce Spark<br \/>Introduction \u00e0 Hadoop Streaming pour le prototypage rapide de MapReduce Spark<br \/>\u00c9criture de MapReduce Spark pour la r\u00e9solution de probl\u00e8mes concrets<\/p><\/li><\/ol><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t<div class=\"elementor-toggle-item\">\n\t\t\t\t\t<div id=\"elementor-tab-title-2074\" class=\"elementor-tab-title\" data-tab=\"4\" role=\"tab\" aria-controls=\"elementor-tab-content-2074\" aria-expanded=\"false\">\n\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon elementor-toggle-icon-left\" aria-hidden=\"true\">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-closed\"><i class=\"fas fa-caret-right\"><\/i><\/span>\n\t\t\t\t\t\t\t\t<span class=\"elementor-toggle-icon-opened\"><i class=\"elementor-toggle-icon-opened fas fa-caret-up\"><\/i><\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t\t<\/span>\n\t\t\t\t\t\t\t\t\t\t\t\t<a href=\"\" class=\"elementor-toggle-title\">FORMATION BIG DATA: CONCEVOIR ET PILOTER UN PROJET BIG DATA<\/a>\n\t\t\t\t\t<\/div>\n\n\t\t\t\t\t<div id=\"elementor-tab-content-2074\" class=\"elementor-tab-content elementor-clearfix\" data-tab=\"4\" role=\"tabpanel\" aria-labelledby=\"elementor-tab-title-2074\"><h2>Objectifs de la formation<\/h2><p>Cette\u00a0<strong>formation\u00a0Concevoir et piloter un projet Big Data<\/strong>\u00a0vous permet de comprendre le contexte sp\u00e9cifique, le vocabulaire et les enjeux du Big Data afin de bien positionner les fondations d\u2019un tel projet tant sur le plan humain, technique, s\u00e9curit\u00e9, financier et juridique.<\/p><p>\u00c0 l&#8217;issue de cette formation, vous aurez acquis les connaissances et les comp\u00e9tences n\u00e9cessaires pour :<\/p><ul><li>Comprendre les sp\u00e9cificit\u00e9s d\u2019un projet Big Data<\/li><li>Comprendre les risques et le cadre juridique d\u2019un projet Big Data<\/li><li>Comprendre l\u2019ensemble des technologies et les liens entre elles<\/li><li>Comprendre les m\u00e9tiers concern\u00e9s par un projet Big Data<\/li><li>Savoir constituer et piloter l\u2019\u00e9quipe d\u2019un projet Big Data<\/li><li>Savoir mettre en place une gouvernance des donn\u00e9es efficace<\/li><li>Savoir piloter le cycle de vie des donn\u00e9es (collecte, exploitation, analyse, visualisation)<\/li><li>Savoir mettre en place des tests coh\u00e9rents.<\/li><\/ul><h2>\u00c0 qui s&#8217;adresse cette formation ?<\/h2><p><strong>Public :<\/strong><\/p><p>Ce cours s&#8217;adresse aux chefs de projet et aux coordonnateurs de donn\u00e9es (Data Steward).<\/p><p><strong>Pr\u00e9requis :<\/strong><\/p><p>Pour suivre ce cours, il est demand\u00e9 de conna\u00eetre les bases de donn\u00e9es relationnelles, le langage SQL et d&#8217;avoir une exp\u00e9rience en conduite de projet. Id\u00e9alement avoir suivi la\u00a0formation Big Data : Enjeux, concepts, architectures et outils ou une formation g\u00e9n\u00e9rale sur le Big Data.<\/p><h2>\u00a0Contenu du cours<\/h2><ol><li><h3>D\u00e9finition et contexte sp\u00e9cifique des projets Big Data<\/h3><p>Les origines du Big Data<br \/>Les donn\u00e9es au c\u0153ur des enjeux<br \/>Explosion du nombre de donn\u00e9es<br \/>Liens entre Big Data et internet des objets (IoT)<br \/>Probl\u00e9matique des donn\u00e9es structur\u00e9es, semi-structur\u00e9es, non structur\u00e9es dans un projet Big Data<br \/>D\u00e9finition d\u2019un syst\u00e8me Big Data<br \/>Architecture g\u00e9n\u00e9rale et fonctionnement<br \/>Les diff\u00e9rentes offres du march\u00e9<\/p><h3>Propri\u00e9t\u00e9 de la donn\u00e9e, environnement juridique du traitement, s\u00e9curit\u00e9<\/h3><p>S\u00e9curit\u00e9 \u00e9thique et enjeux juridiques<br \/>Les donn\u00e9es personnelles<br \/>Les informations sensibles, interdites de collecte<br \/>La CNIL r\u00e9gule les donn\u00e9es num\u00e9riques<br \/>Les accords intra-pays<\/p><h3>Technologies, comp\u00e9tences et m\u00e9tiers<\/h3><p>Ranger les technologies dans les bonnes cases (Hadoop, MapReduce, Pig, Hive, Impala, Spark, Elasticsearch, etc.)<br \/>Diff\u00e9rences de savoir-faire pour le chef de projet avec la BI \u00ab traditionnelle \u00bb<br \/>L\u00e9ger zoom sur Hadoop<br \/>Les m\u00e9tiers \u00ab informatiques \u00bb concern\u00e9s par le Big Data (administrateur, d\u00e9veloppeur, analyste, data scientist, etc.)<br \/>Quel \u00e9largissement des comp\u00e9tences pour les administrateurs et les d\u00e9veloppeurs Hadoop ?<br \/>Synth\u00e8se : exemple d\u2019une architecture Big Data en production et positionnement des m\u00e9tiers<br \/>La journ\u00e9e type du chef de projet Big Data<br \/>Cons\u00e9quences financi\u00e8res des choix techniques<\/p><h3>Comprendre et traiter les sp\u00e9cificit\u00e9s d\u2019un projet Big Data au sens organisationnel, m\u00e9thodologique, technologique, \u00e9conomique, juridique et humain<\/h3><p>Quelle d\u00e9marche m\u00e9thodologique et quelles \u00e9tapes cl\u00e9 du chantier ?<br \/>Les pr\u00e9requis \u00e0 r\u00e9unir et points de vigilance \u00e0 surveiller ?<br \/>Comment gouverner et piloter le chantier Big Data ?<br \/>Quels sont les contributeurs internes \u00e0 mobiliser ? Les profils et comp\u00e9tences n\u00e9cessaires \u00e0 int\u00e9grer ?<br \/>La connaissance de la question<\/p><h3>Composer et piloter une \u00e9quipe Big Data<\/h3><p>Hadoop dans le SI : Processus d\u2019adoption<br \/>Comment conserver les ressources humaines \u00ab rares \u00bb dans le contexte du Big Data ?<br \/>Datalab : une \u00e9quipe, un lieu, une approche<br \/>Comment \u00e9laborer un Datalab ?<\/p><h3>Manager le processus de mise en place d\u2019un projet Big Data<\/h3><p>Gouvernance des Donn\u00e9es et \u00ab Culture Donn\u00e9es \u00bb<br \/>D\u00e9finir une v\u00e9ritable strat\u00e9gie Donn\u00e9es<br \/>Partager les enjeux<br \/>Investir sur des initiatives cibl\u00e9es et porteuses de valeur pour les m\u00e9tiers<br \/>Rompre avec les visions en silos<br \/>Promouvoir une \u00ab Culture Donn\u00e9es \u00bb<br \/>Savoir communiquer (marketing digital)<\/p><h3>Identifier les besoins et le type de donn\u00e9es \u00e0 traiter avec les m\u00e9tiers (use cases)<\/h3><p>\u00c0 travers diff\u00e9rents cas d\u2019\u00e9cole pioch\u00e9s sur l\u2019Open Data, nous effectuons des use cases permettant de d\u00e9finir les indicateurs cl\u00e9s \u00e0 d\u00e9terminer<br \/>La viabilit\u00e9 de chaque effort est bien s\u00fbr mesur\u00e9e par la d\u00e9termination du ROI<\/p><h3>La collecte et le stockage des donn\u00e9es<\/h3><p>Quelles donn\u00e9es ?<br \/>Quelles sources ?<br \/>L\u2019importance de la qualit\u00e9 des donn\u00e9es (data quality)<br \/>Exemple de traitement avec un ETL d\u00e9di\u00e9 Big Data<br \/>R\u00e9sum\u00e9 : les diff\u00e9rentes phases de la collecte dans un projet<\/p><h3>L\u2019exploitation des donn\u00e9es<\/h3><p>Donn\u00e9es structur\u00e9es, semi structur\u00e9es et non structur\u00e9es<br \/>La r\u00e9conciliation avec le r\u00e9f\u00e9renciel interne<br \/>La question du Master Data Management<br \/>Big Data ou Smart Data ?<\/p><h3>L\u2019analyse des donn\u00e9es<\/h3><p>D\u00e9finition de l\u2019analyse statistique<br \/>La Datascience<br \/>La place du Data scientist dans un projet Big Data<br \/>Datamining<br \/>L\u2019impl\u00e9mentation d\u2019indicateurs \u00e0 destination du d\u00e9cisionnel<br \/>R\u00e9sum\u00e9 : les diff\u00e9rentes phases et formes de l\u2019analyse dans un projet<\/p><h3>La visualisation des donn\u00e9es (Dataviz)<\/h3><p>Ce que les statistiques ne disent pas<br \/>Les objectifs de la visualisation<br \/>Quels graphes pour quels usages ?<br \/>Repr\u00e9sentation de donn\u00e9es complexes (encodage visuel, visualisation interactive)<br \/>Savoir communiquer sur les analyses de donn\u00e9es (Data Storytelling)<\/p><h3>Piloter et ma\u00eetriser les risques des projets Big Data<\/h3><p>Diff\u00e9rentes m\u00e9thodes pour piloter un datalab :<br \/>&#8211; Business Driven<br \/>&#8211; Lean<br \/>&#8211; Scrum<\/p><h3>Tests et analyses de performances<\/h3><p>Strat\u00e9gie pour le code de d\u00e9bogage MapReduce<br \/>Test local du code en utilisant LocalJobRunner<br \/>\u00c9criture et utilisation de fichiers journaux<\/p><h3>\u00c9tudes de cas \/ mises en situation<\/h3><\/li><\/ol><\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-top-column elementor-element elementor-element-f92389c\" data-id=\"f92389c\" data-element_type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t\t\t<div class=\"elementor-element elementor-element-efb6798 elementor-widget elementor-widget-image\" data-id=\"efb6798\" data-element_type=\"widget\" data-widget_type=\"image.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t<style>\/*! elementor - v3.7.8 - 02-10-2022 *\/\n.elementor-widget-image{text-align:center}.elementor-widget-image a{display:inline-block}.elementor-widget-image a img[src$=\".svg\"]{width:48px}.elementor-widget-image img{vertical-align:middle;display:inline-block}<\/style>\t\t\t\t\t\t\t\t\t\t\t\t<img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"284\" src=\"https:\/\/705consulting.com\/wp-content\/uploads\/2021\/01\/fous-1024x284.jpg\" class=\"attachment-large size-large\" alt=\"\" srcset=\"https:\/\/705consulting.com\/wp-content\/uploads\/2021\/01\/fous-1024x284.jpg 1024w, https:\/\/705consulting.com\/wp-content\/uploads\/2021\/01\/fous-300x83.jpg 300w, https:\/\/705consulting.com\/wp-content\/uploads\/2021\/01\/fous-768x213.jpg 768w, https:\/\/705consulting.com\/wp-content\/uploads\/2021\/01\/fous-1536x426.jpg 1536w, https:\/\/705consulting.com\/wp-content\/uploads\/2021\/01\/fous.jpg 1920w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/>\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":"<p>FORMATION BIG DATA: ENJEUX, CONCEPTS, ARCHITECTURE ET OUTILS Objectifs de la formation Le Big Data est un ph\u00e9nom\u00e8ne aux multiples facettes et il ne se r\u00e9sume pas \u00e0 une technologie. Cette formation permettra de poss\u00e9der la vue d&rsquo;ensemble des outils, technologies, possibilit\u00e9s et contraintes du Big Data n\u00e9cessaire \u00e0 une sereine initiation d&rsquo;un projet Big [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-13033","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/705consulting.com\/index.php\/wp-json\/wp\/v2\/pages\/13033","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/705consulting.com\/index.php\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/705consulting.com\/index.php\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/705consulting.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/705consulting.com\/index.php\/wp-json\/wp\/v2\/comments?post=13033"}],"version-history":[{"count":4,"href":"https:\/\/705consulting.com\/index.php\/wp-json\/wp\/v2\/pages\/13033\/revisions"}],"predecessor-version":[{"id":13038,"href":"https:\/\/705consulting.com\/index.php\/wp-json\/wp\/v2\/pages\/13033\/revisions\/13038"}],"wp:attachment":[{"href":"https:\/\/705consulting.com\/index.php\/wp-json\/wp\/v2\/media?parent=13033"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}