FORMATION HADOOP

  • Home
  • FORMATION HADOOP

Objectifs de la formation

Cette formation Hadoop vous invite à faire le point sur les différents éléments de l’écosystème Hadoop et leurs rôles respectifs.Egalement, elle vous aidera à comprendre l’architecture des applicatifs hadoop et à savoir quels sont les apports et les cas d’usage des solutions hadoop.

À qui s’adresse cette formation ?

Public :

Ce cours Hadoop cible principalement les chefs de projets, développeurs, et toute personne souhaitant comprendre les mécanismes Hadoop et le rôle de chaque composant.

Prérequis :

Aucun, mais un plus serai d’avoir des connaissances générales des systèmes d’information.

 Contenu du cours

  1. Introduction à l’écosystème Hadoop

    Rappels sur NoSQL. Le théorème CAP.
    Historique du projet hadoop
    Les fonctionnalités : stockage, outils ‘extraction, de conversion, ETL, analyse, …
    Exemples de cas d’utilisation sur des grands projets.
    Les principaux composants :
    HDFS pour le stockage et YARN pour les calculs.
    Les distributions et leux caractéristiques (HortonWorks, Cloudera, MapR, GreenPlum, Apache, …)

    L’architecture d’Hadoop

    Terminologie : NameNode, DataNode, ResourceManager
    Rôle et interactions des différents composants
    Présentation des outils d’infrastructure : ambari, avro, zookeeper;
    de gestion des données : pig, oozie, tez, falcon, pentaho, sqoop, flume;
    d’interfaçage avec les applications GIS;
    de restitution et requêtage : webhdfs, hive, hawq, impala, drill, stinger, tajo, mahout, lucene, elasticSearch, Kibana
    Les architectures connexes : spark, cassandra

    Exemples interactifs avec Hadoop

    Démonstrations sur une architecture Hadoop multi-noeuds.
    Mise à disposition d’un environnement pour des exemples de calcul

    Travaux Pratiques :

    Recherches dans des données complexes non structurées.

    Applications

    Cas d’usages de hadoop.
    Les infrastructures hyperconvergées avec les appliances hadoop
    Calculs distribués sur des clusters hadoop

Objectifs de la formation

Cette formation Big Data Analyse vous apportera les connaissances et compétences nécessaires pour:

  • Comprendre le fonctionnement d’Hadoop Distributed File System (HDFS) et YARN/MapReduce
  • Explorer HDFS
  • Suivre l’exécution d’une application YARN
  • Maitriser le fonctionnnement et l’utilisation des différents outils de manipulation de la donnée :
    • Hue : Utilisation de l’interface unifiée
    • Hive, Pig : Les générateurs de MapReduce
    • Tez : L’optimisation des générateurs de MapReduce
    • Sqoop : Comment importer les données de l’entreprise dans un cluster Hadoop?
    • Oozie : Comment organiser les exécutions des différentes applications ?

À qui s’adresse cette formation ?

Public :

Cette formation Big Data Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.

Prérequis :

Cecours nécessite d’avoir une expérience dans la manipulation de données. Une connaissance préliminaire d’Hadoop n’est pas exigée mais recommandée.

 Contenu du cours

  1. Introduction à Hadoop

    Présentation générale d’Hadoop
    Exemples d’utilisation dans différents secteurs
    Historique et chiffres clés : Quand parle-t-on de Big Data ?

    L’écosystème d’Hadoop

    Le système de fichier HDFS
    Le paradigme MapReduce et l’utilisation à travers YARN

    Manipulation des données dans un cluster Hadoop

    Hue : Comment fonctionne cette interface web ?
    Hive : Pourquoi Hive n’est pas une base de données ?

    Requête sur Hive

    Utilisation de HCatalog
    Utilisation avancée sur Hive
    Utilisation de fonctions utilisateurs
    Paramétrage de requête
    Pig : Fonctionnement de Pig

    Programmation avec Pig Latin

    Utilisation du mode Local
    Utilisation de fonctions utilisateurs
    Tez : Qu’est-ce que Tez ?

    Comment et quand l’utiliser ?

    Oozie : Fonctionnement de Oozie

    Création de Workflows avec Oozie

    Manipulation des workflows
    Ajout d’éléments d’exploitation dans les workflows
    Ajout de conditions d’exécution
    Paramétrage des workflows
    Sqoop : A quoi sert Sqoop ?

    Chargement des données depuis une base de données relationnelle

    Chargement des données depuis Hadoop
    Utilisation et paramétrage avancée
    Les particularités des distributions : Impala, Hawq
    Quelles sont les bonnes pratiques d’utilisation des différents outils ?

Objectifs de la formation

La gestion des ensembles de données volumineux offre aux entreprises de toutes tailles de nouvelles opportunités et de nouveaux défis à relever. Au cours de cette formation, vous allez acquérir les compétences pratiques de programmation nécessaires pour développer des solutions compatibles avec la plateforme Hadoop d’Apache grâce auxquelles vous pourrez traiter efficacement différents types de Big Data.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Développer des algorithmes parallèles efficaces avec MapReduce 
  • Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d’ensembles de données volumineux et variés et apporter ainsi de la valeur à votre entreprise 
  • Créer, personnaliser et déployer des tâches MapReduce pour synthétiser les données
  • Charger des données non structurées des systèmes HDFS et HBase

À qui s’adresse cette formation ?

Public :

Ce cours s’adresse aux Chefs de projets, Développeurs, Data-scientists, et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l’environnement Hadoop.

Prérequis :

Pour suivre cette foramtion dans les meilleures conditions possibles, il vous faut avoir une certaine connaissance d’un langage de programmation objet.

 Contenu du cours

  1. Introduction

    Les fonctionnalités du framework Hadoop
    Le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce
    Utilisation de yarn pour piloter les jobs mapreduce.

    MapReduce

    Principe et objectifs du modèle de programmation MapReduce.
    Fonctions map() et reduce().
    Couples (clés, valeurs).
    Implémentation par le framework Hadoop.
    Etude de la collection d’exemples.

    Travaux Pratiques:

    Rédaction d’un premier programme et exécution avec Hadoop.

    Programmation

    Configuration des jobs, notion de configuration.
    Les interfaces principales : mapper, reducer,
    La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.
    Partitioner, outputcollector, codecs, compresseurs..
    Format des entrées et sorties d’un job MapReduce : InputFormat et OutputFormat.

    Travaux Pratiques:

    Type personnalisés : création d’un writable spécifique. Utilisation. Contraintes.

    Outils complémentaires

    Mise en oeuvre du cache distribué.
    Paramétrage d’un job : ToolRunner, transmission de propriétés.
    Accès à des systèmes externes : S3, hdfs, har, …

    Travaux Pratiques:

    Répartition du job sur la ferme au travers de yarn.

    Streaming

    Définition du streaming map/reduce.
    Création d’un job map/reduce en python.
    Répartition sur la ferme.
    Avantage et inconvénients.
    Liaisons avec des systèmes externes.
    Introduction au pont HadoopR

    Travaux Pratiques:

    Suivi d’un job en streaming.

    Pig

    Pattern et best practices Map/reduce.
    Introduction à Pig.
    Caractéristiques du langage : latin.

    Travaux Pratiques:

    Installation/lancement de pig.Ecriture de scripts simples pig.

    Les fonctions de bases.
    Ajouts de fonctions personnalisées.
    Les UDF.
    Mise en oeuvre.

    Hive

    Simplification du requêtage.
    Syntaxe de base.

    Travaux Pratiques:

    Création de tables. Ecriture de requêtes.

    Comparaison pig/hive.

    Securité en environnement Hadoop

    Mécanisme de gestion de l’authentification.

    Travaux Pratiques:

    Configuration des ACLs

Objectifs de la formation

Apache Spark s’est imposé ces dernières années comme le framework big data de référence, et comme un outil central de l’écosystème hadoop. Cette formation Spark pour Développeurs Cloudera vous apprendra les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils plus récents.



À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Identifier et utiliser les outils appropriés à chaque situation dans un écosystème Hadoop
  • Utiliser Apache Spark et l’intégrer dans l’écosystème Hadoop
  • Utiliser Hive, Impala, Flume et Sqoop

À qui s’adresse cette formation ?

Public :

Cette formation s’adresse aux Développeurs ou aux Ingénieurs ayant déjà développé, chargés d’intégrer et d’enregistrer les données avec Hadoop.

Prérequis :

Les exemples Apache Spark et les exercices de « hands-on » sont présentés avec Scala et Python, donc il faut être à l’aise pour programmer dans l’un de ces langages.

 Contenu du cours

  1. INTRODUCTION À HADOOP ET À SON ÉCOSYSTÈME

    Introduction générale à hadoop
    Traitement de données

    Introduction aux exercices pratiques

    HDFS : LE SYSTÈME DE FICHIERS HADOOP

    Les composants d’un cluster hadoop
    L’architecture d’HDFS
    Utiliser HDFS

    LE TRAITEMENT DISTRIBUÉ SUR UN CLUSTER HADDOP

    L’architecture de YARN
    Travailler avec YARN

    LES BASES DE SPARK

    Introduction à Spark
    Démarrer et utiliser la console Spark
    Introduction aux Datasets et DataFrames Spark
    Les opérations sur les DataFrames

    MANIPULATION DES DATAFRAMES ET DES SCHEMAS

    Créer des DataFrames depuis diverses sources de données
    Sauvegarder des DataFrames
    Les schémas des DataFrames
    Exécution gloutonne et paresseuse de Spark

    1.     

    ANALYSER DES DONNÉES AVEC DES REQUÊTES SUR DATAFRAMES

    Requêter des DataFrames avec des expressions sur les colonnes nommées
    Les requêtes de groupement et d’aggrégation
    Les jointures

    LES RDD – STRUCTURE FONDAMENTALE DE SPARK

    Introduction aux RDD
    Les sources de données de RDD
    Créer et sauvegarder des RDD
    Les opérations sur les RDD

    TRANSFORMER LES DONNÉES AVEC DES RDD

    Écrire et passer des fonctions de transformation
    Fonctionnement des transformations de Spark
    Conversion entre RDD et DataFrames

    AGRÉGATION DE DONNÉES AVEC LES RDD DE PAIRES

    Les RDD clé-valeur
    Map-Reduce : principe et usage dans Spark
    Autres opérations sur les RDD de paires

    2.     

    REQUÊTAGE DE TABLES ET DE VUES AVEC SPARK SQL

    Requêter des tables en Spark en utilisant SQL
    Requêter des fichiers et des vues
    L’API catalogue de Spark

    TRAVAILLER AVEC LES DATASETS SPARK EN SCALA

    Les différences entre Datasets et DataFrames
    Créer des Datasets
    Charger et sauvegarder des Datasets
    Les opérations sur les Datasets

    ÉCRIRE, CONFIGURER ET LANCER DES APPLICATIONS SPARK

    Écrire une application Spark
    Compiler et lancer une application
    Le mode de déploiement d’une application
    L’interface utilisateur web des applications Spark
    Configurer les propriétés d’une application

    LE TRAITEMENT DISTRIBUÉ AVEC SPARK

    Rappels sur le fonctionnement de Spark avec YARN
    Le partitionnement des données dans les RDD
    Exemple : le partitionnement dans les requêtes
    Jobs, étapes et tâches

    Travaux Pratiques

    Plan d’exécution de Catalyst
    Le plan d’exécution de RDD

    PERSISTANCE DE LA DONNÉE DISTRIBUÉE

    La persistance des DataFrames et des Datasets
    Les niveaux de persistances
    Voir les RDD persistés

    LES ALGORITHMES ITÉRATIFS AVEC SPARK

    D’autres cas d’usages courants de Spark
    Les algorithmes itératifs en Spark
    Machine Learning avec Spark

    Travaux Pratiques

    K-means

    3.     

    INTRODUCTION À SPARK STRUCTURED STREAMING

    Introduction à Spark Streaming
    Créer des streaming DataFrames
    Transformer des DataFrames
    Exécuter des requêtes de streaming

    STRUCTURED STREAMING AVEC KAFKA

    Introduction
    Recevoir des messages Kafka
    Envoyer des messages Kafka

    AGGREGATION ET JOINTURES SUR DES STREAMING DATAFRAMES

    Aggregation sur des streaming DataFrames
    Jointure sur des streaming DataFrames

    Suppléments (Les parties de ce chapitre seront dispensées en fonction de l’avancement de la formation)

    LE TRAITEMENT DE MESSAGES AVEC KAFKA

    Introduction à Kafka
    Passer à l’échelle avec Kafka
    L’architecture d’un cluster Kafka
    La ligne de commande Kafka

Objectifs de la formation

Cette formation Hadoop Infrastructure Sécurisée vous apprendra à penser et à appliquer la sécurisation Hadoop sur tous ses aspects, des accès aux données.

À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Comprendre les mécanismes de sécurité Hadoop
  • Les mettre en œuvre

À qui s’adresse cette formation ?

Public :

Ce cours Hadoop sécurité intéressera les chefs de projet, administrateurs et plus globalement toute personne souhaitant sécuriser une infrastructure Hadoop.

Prérequis :

Pour suivre cette formation sur la sécurité avec Hadoop, il est nécessaire de connaître les principes de base d’Hadoop et des bases de données.

 Contenu du cours

  1. Introduction

    Rappels rapides sur l’ecosystème Hadoop
    Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
    Les risques et points à sécuriser dans un système distribué et plus particulièrement avec Hadoop

    Architecture : la sécurité Hadoop

    Sécurisation réseau
    Système d’exploitation
    Les rôles Hadoop
    Stratégies

    Kerberos

    Principe de fonctionnement

    Travaux Pratiques :

    Kerberisation d’une grappe Hadoop

    Sécurité des accès

    Authentification, autorisations, accounting

    Travaux Pratiques :

    Gestion des autorisations dans HDFS, YARN, HBase…
    Mise en œuvre des ACLs dans Zookeeper

    Apache Sentry

    Présentation du projet, architecture : sentry server, sentry plugin
    Gestion de l’authentification et des droits d’accès aux données

    Travaux Pratiques :

    Intégration avec Hadoop

    Sécurité des données (Sécurité Hadoop)

    Cryptage des données stockées – Cryptage des données en transit
    Mécanisme de sécurité des données en entrée et en consultation par des accès clients: interface Hadoop en ligne de commande, sqoop, oozie, HBase, webHDFS, httpFS

Objectifs de la formation

L’objectif premier de cette formation Hadoop Hbase est de vous faire intégrer le fonctionnement de HBase, notamment le fait de bien maîtriser la mise en place d’une configuration distribuée.

À qui s’adresse cette formation ?

Public :

Ce cours s’adresse aux Chefs de projet, administrateurs ainsi qu’à toute personne souhaitant stocker des données avec Hbase.

Prérequis :

Pour suivre ce stage dans les meilleures conditions possibles, il vous faut avoir certaines connaissance des principes de base Hadoop et des bases de données.

 Contenu du cours

  1. Introduction à Hadoop

    Rappels rapides sur l’ecosystème Hadoop.
    Les fonctionnalités du framework Hadoop.
    Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce.
    Présentation HBase. Historique. Lien avec HDFS.
    Format des données dans HBase.
    Définitions : table, région, ligne, famille de colonnes,cellules, espace de nommage, …
    Fonctionnalités : failover automatique, sharding,
    Interface avec des jobs MapReduce.

    Architecture Hbase

    HBase master node, Region Master, liens avec les clients HBase.
    Présentation du rôle de Zookeeper.

    Installation

    Choix des packages.
    Installation et configuration dans le fichier conf/hbase-site.xml
    Démarrage en mode standalone start-hbase.
    Test de connexion avec hbase shell.
    Installation en mode distribué.

    Travaux pratiques :

    Interrogations depuis le serveur http intégré.

    HBase utilisation : shell

    Présentation des différentes interfaces disponibles.

    Travaux pratiques avec hbase shell.

    Commandes de base, syntaxe, variables,
    Manipulation des données : create, list, put, scan, get
    Désactiver une table ou l’effacer : disable (enable), drop, …
    Programmation de scripts.
    Gestion des tables : principe des filtres.
    Mise en oeuvre de filtres de recherche, paramètres des tables.
    Présentation des espaces de nommage.

    Cluster HBase

    Fonctionnement en mode distribué
    Première étape : fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper)
    Passage au mode distribué : mise en oeuvre avec HDFS dans un environnement distribué.

    Travaux pratiques:

    Sur un exemple de tables réparties : mise en oeuvre des splits.

    Programmation

    Introduction, les APIs (REST, Avro, Thrift, Java, Ruby, …)
    Utilisation d’un client Java.
    Gestion des tables.Lien avec MapReduce.
    Principe des accès JMX.

    Travaux pratiques :

    Création d’un client JMX

Objectifs de la formation

Cette formation Hadoop Hortonworks vous apportera les compétences et connaissances pour maitriser l’administration d’Hadoop sur une distribution Hortonworks.

Tous les aspects importants sont abordés : les différents modes d’installation , la configuration ,les différents outils , l’administation en détail, la sécurité et enfin l’exploitation au quotidien.

À qui s’adresse cette formation ?

Public :

Cette formation Hadoop s’adresse aux Chefs de projet, administrateurs ainsi qu’à toute personne souhaitant mettre en oeuvre un système distribué avec Hadoop.

Prérequis :

Pour suivre ce cours dans de bonnes conditions il vous faut avoir de certaines connaissance des commandes des systèmes unix/linux.

 Contenu du cours

  1. Introduction

    Les fonctionnalités du framework Hadoop.
    Les différentes versions.
    Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
    Spécificités de chaque distribution.
    Architecture et principe de fonctionnement.
    Terminologie : NameNode, DataNode, ResourceManager, NodeManager.
    Rôle des différents composants.
    Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
    Oozie, Pig, Hive, HBase, …

    Les outils Hadoop

    Infrastructure/Mise en oeuvre :
    Avro, Ambari, Zookeeper, Pig, Tez, Oozie, Falcon, Pentaho
    Vue d’ensemble
    Gestion des données.
    Exemple de sqoop.
    Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ..

    Outils complémentaires:

    Spark, SparkQL, SparkMLib, Storm, BigTop, Zebra

    De développement:

    Cascading, Scalding, Flink/Pachyderm

    D’analyse :

    RHadoop, Hama, Chukwa, kafka

    Installation et configuration

    Trois modes d’installation : local, pseudo-distribué, distribué
    Première installation.
    Mise en oeuvre avec un seul noeud Hadoop.

    Configuration de l’environnement,étude des fichiers de configuration :

    core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
    Création des users pour les daemons hdfs et yarn,droits d’accès sur les exécutables et répertoires.
    Lancement des services.
    Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc ..

    Gestion de la grappe, différentes méthodes :

    Ligne de commandes, API Rest, serveur http intégré, APIS natives
    Exemples en ligne de commandes avec hdfs, yarn, mapred
    Présentation des fonctions offertes par le serveur http

    Travaux pratiques :

    Organisation et configuration d’une grappe hadoop

    Administration Hadoop

    Outils complémentaires à yarn et hdfs : jConsole, jconsole yarn
    Exemples sur le suivi de charges, l’analyse des journaux.
    Principe de gestion des noeuds, accès JMX.

    Travaux pratiques :

    Mise en oeuvre d’un client JMX

    Administration HDFS :

    Présentation des outils de stockage des fichiers, fsck, dfsadmin
    Mise en oeuvre sur des exemples simples de récupération de fichiers
    Gestion centralisée de caches avec Cacheadmin
    Déplacement d’un NameNode. Mise en mode maintenance.

    Haute disponibilité

    Mise en place de la haute disponibilité sur une distribution Ambari.

    Travaux pratiques :

    Passage d’un système HDFS en mode HA

    Sécurité

    Mécanismes de sécurité et mise en oeuvre pratique :
    Activation de la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode et DataNode. Sécurisation de yarn avec la mise en oeuvre d’un proxy et d’un Linux Container Executor.

    Travaux pratiques :

    Mise en place de la sécurité Kerberos sur une distribution Ambari. Création des utilisateurs. Travaux sur les droits d’accès et les droits d’exécution. Impact au niveau des files Yarn, Oozie et Tez.

    Exploitation

    Installation d’une grappe Hadoop avec Ambari. Tableau de bord. Lancement des services.
    Principe de la supervision des éléments par le NodeManager.
    Monitoring graphique avec Ambari.
    Présentation de Ganglia,Kibana

    Travaux pratiques :

    Visualisation des alertes en cas d’indisponibilité d’un noeud.
    Configuration des logs avec log4j.

Objectifs de la formation

Cette formation Hadoop Administration Cloudera vous apporte les compétences et connaissances nécessaires pour :

  • Connaître les principes du framework Hadoop
  • Savoir installer et configurer Hadoop
  • Maîtriser la configuration et la gestion des services avec Cloudera Manager

À qui s’adresse cette formation ?

 Public :

Cette formation Hadoop s’adresse aux chefs de projets, administrateurs systèmes et à toute personne qui gère ou maintient un système distribué avec Hadoop.

Prérequis :

Pour suivre ce cours dans de bonnes conditions il vous faut avoir certaines connaissances des commandes des systèmes Unix/Linux.

 Contenu du cours

  1. Introduction à Hadoop Cloudera

    Les fonctionnalités du framework Hadoop
    Les différentes versions
    Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE
    Spécificités de chaque distribution
    Architecture et principe de fonctionnement
    Terminologie : NameNode, DataNode, ResourceManager, NodeManager
    Rôle des différents composants
    Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Oozie, Pig, Hive, HBase…

    Les outils Hadoop

    Infrastructure / Mise en œuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie,
    Vue d’ensemble
    Gestion des données
    Exemple de sqoop
    Restitution : webhdfs, Hive, Hawq, Mahout, ElasticSearch…
    Outils complémentaires : Spark, SparkQL, SparkMLib, Storm, BigTop, Zebra
    Outils complémentaires de développement : Cascading, Scalding, Flink
    Outils complémentaires d’analyse : RHadoop, Hama, Chukwa, Kafka

    Installation et configuration

    Présentation de Cloudera Manager
    Installation en mode distribué
    Configuration de l’environnement, étude des fichiers de configuration : core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
    Création des users pour les daemons hdfs et yarn,droits d’accès sur les exécutables et répertoires.
    Lancement des services
    Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc…
    Gestion de la grappe, différentes méthodes : ligne de commandes, API Rest, serveur http intégré, API natives
    Exemples en ligne de commandes avec hdfs, yarn, mapred
    Présentation des fonctions offertes par le serveur HTTP

    Travaux Pratiques :

    Organisation et configuration d’une grappe Hadoop avec Cloudera Manager
    Traitement de données
    Requêtage SQL avec Impala

    Administration d’Hadoop

    Outils complémentaires à Yarn et hdfs : Jconsole, Jconsole Yarn
    Exemples sur le suivi de charges, l’analyse des journaux
    Principe de gestion des noeuds, accès JMX
    Administration HDFS : présentation des outils de stockage des fichiers, fsck, dfsadmin
    Mise en oeuvre sur des exemples simples de récupération de fichiers
    Gestion centralisée de caches avec Cacheadmin

    Haute disponibilité

    Mise en place de la haute disponibilité sur une distribution Cloudera
    Passafe d’un système HDFS en mode HA
    Explication et démonstration d’une fédération de cluster Hadoop

    Sécurité

    Mécanismes de sécurité et mise en œuvre pratique : Activation de la sécurité avec Kerberos dans core-site.xml
    Sécurisation de Yarn avec la mise en œuvre d’un proxy et d’un Linux Container Executor

    Exploitation

    Installation d’une grappe Hadoop. Lancement des services.
    Principe de la supervision des éléments par le NodeManager

    Travaux Pratiques :

    Visualisation des alertes en cas d’indisponibilité d’un noeud
    Configuration des logs avec log4j.

Objectifs de la formation

Cette formation Hadoop Cloudera Data Analyst se destine aux professionnels de la données amenés à accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.

 

À l’issue de cette formation officielle Hadoop Cloudera Data Analyst, vous aurez acquis les connaissances et compétences nécessaires pour :

  • Acquérir, stocker et analyser des données à l’aide de Hive et Impala
  • Effectuer des tâches fondamentales d’ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
  • Utiliser Hive et Impala pour améliorer la productivité sur les tâches d’analyse typiques
  • Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
  • Effectuer des requêtes complexes sur les jeux de données

À qui s’adresse cette formation ?

Public :

Ce cours officiel Hadoop Cloudera Data Analyst s’adresse aux analystes de données, spécialistes de la business intelligence, développeurs, architectes système et administrateurs de bases de données.

Prérequis :

Pour suivre cette formation Hadoop Cloudera Data Analyst, il est nécessaire de posséder des connaissances en SQL ainsi que des connaissances de base des lignes de commandes Linux. Il est recommandé également de connaître un langage de script comme Bash scripting, Perl, Python ou Ruby.

 Contenu du cours

  1. Jour 1

    Les fondamentaux d’Hadoop

    Pourquoi choisir Hadoop ?
    Présentation d’Hadoop
    Stockage de données : HDFS
    Traitement des données distribuées : YARN, MapReduce et Spark
    Traitement et analyse des données : Hive et Impala
    Intégration de base de données : Sqoop
    Les autres outils Hadoop
    Présentation des exercices

    Introduction à Hive et à Impala

    Présentation de Hive
    Présentation d’Impala
    Pourquoi utiliser Hive et Impala ?
    Schéma et stockage de données
    Comparaison de Hive et Impala avec les bases de données traditionnelles
    Cas d’utilisation

    Requêtes avec Hive et Impala

    Bases de données et tables
    Syntaxe de base des langages de requête Hive et Impala
    Types de données
    Utilisation de Hue pour exécuter des requêtes
    Utilisation de Beeline (Shell Hive)
    Utilisation de Impala Shell

    Jour 2

    Les opérateurs communs et fonctions built-in

    Opérateurs
    Fonctions scalaires
    Fonctions d’agrégation

    Gestion des données avec Hive et Impala

    Stockage de données
    Création de bases de données et de tables
    Chargement des données
    Modification des bases de données et des tables
    Simplification des requêtes au moyen de vues
    Enregistrement des résultats de requêtes

    Stockage de données et performances

    Tables partitionnées
    Chargement des données dans des tables partitionnées
    Quand utiliser le partitionnement
    Choisir un format de fichier
    Utilisation des formats de fichier Avro et Parquet

    Jour 3

    Analyse relationnelle de données avec Hive et Impala

    Jointure de jeux de données
    Fonctions communes intégrées
    Agrégation et fenêtrage

    Les fonctions analytiques et le fenêtrage

    Utiliser des fonctions analytiques
    Autres fonctions analytiques
    Fenêtres glissantes

    Données complexes avec Hive et Impala

    Données complexes avec Hive
    Données complexes avec Impala

    Analyse de texte avec Hive et Impala

    Utilisation d’expressions régulières avec Hive et Impala
    Traitement des données textuelles dans Hive avec des SerDes
    Analyse de sentiment et n-grams

    Jour 4

    Optimisation de Hive

    Comprendre les performances des requêtes
    Bucketing
    Indexation des données
    4Hive sur Spark

    Optimisation d’Impala

    Exécution de requête avec Impala
    Améliorer la performance d’Impala

    Extension de Hive et d’Impala

    SerDes et formats de fichier personnalisés dans Hive
    Transformation de données avec des scripts personnalisés dans Hive
    Fonctions définies par l’utilisateur
    Requêtes paramétrées

    Choisir le meilleur outil

    Comparaison de Pig, Hive, Impala et des bases de données relationnelles
    Critères de choix

    Module optionnel (en fonction de l’avancement) : Apache Kudu

    Qu’est-ce que Kudu
    Les tables Kudu
    Utiliser Impala avec Kudu

Objectifs de la formation

Intégré à la suite Hadoop, Pig est une plate-forme de haut niveau permettant la programmation parallèle de tâches MapReduce tournant dans un cluster Hadoop. Utilisé le plus souvent pour charger des données via des fichiers HDFS ou pour gérer des échanges de données entre des applications tierces, Pig pour le big data comprend deux éléments-clé : un compilateur et un langage de script nommé Pig Latin.

 

À l’issue de cette formation Développement de scripts avec Apache Pig vous aurez acquis les connaissances et les compétences nécessaires pour :

  • Comprendre le fonctionnement de Pig
  • Développer des requêtes en avec Pig Latin pour effectuer des transformations sur les données et des analyses de données
  • Intégrer des données de différents formats

À qui s’adresse cette formation ?

Public :

Cette formation Pig pour le développement de scripts s’adresse aux chefs de projet, aux data scientists et aux développeurs souhaitant utiliser Pig pour l’analyse de données.

Prérequis :

Des connaissances en langage Java ou Python, des bases Hadoop et des notions de calculs statistiques sont nécessaires pour suivre ce cours.

 Contenu du cours

  1. Introduction à Apache Pig

    Le projet Apache Pig, fonctionnalités, versions
    Présentation de Pig dans l’écosystème Hadoop
    Chaîne de fonctionnement
    Comparatif avec l’approche Hive ou Spark

    Mise en œuvre de Pig

    Rappels sur les commandes HDFS
    Prérequis techniques, configuration de Pig

    Travaux pratiques

    Exécution : les différents modes : interactif ou batch
    Principe de l’exécution de scripts Pig Latin avec Grunt

    Base Pig Latin

    Modèles de données avec Pig
    Intégration Pig avec MapReduce
    Les requêtes Latin : chargement de données, instructions
    Ordres de bases : LOAD, FOREACH, FILTER, STORE

    Travaux pratiques

    Création d’un ETL de base
    Contrôle d’exécution

    Transformation des données via des opérations de filtre avec Pig Latin

    Groupements, jointures, tris, produits cartésiens
    Transformation de base de la donnée
    Découpages
    Découpages sur filtres

    Analyse de la donnée

    Echantillonages
    Filtres
    Rangements avec rank et dense
    Calculs : min/max, sommes, moyennes…

    Travaux pratiques

    Traitements de chaînes de caractères
    Traitement de dates

    Intégration

    Formats d’entrées/sorties
    Interfaçage avro, json

    Travaux pratiques

    Chargement de données depuis HDFS vers HBase
    Analyse de données Pig/Hbase
    Restitution Json

    Extensions du Pig Latin

    Extension du Pig Latin
    Création de fonctions UDF en Java
    Intégration dans les scripts Pig

    Travaux pratiques

    Utilisation de Pig Latin depuis des programmes Python
    Execution de programmes externes, streaming

    Exploitation

    Installation d’une grappe Hadoop avec Ambari. Tableau de bord. Lancement des services.
    Principe de la supervision des éléments par le NodeManager.
    Monitoring graphique avec Ambari.
    Présentation de Ganglia,Kibana

    Travaux pratiques :

    Visualisation des alertes en cas d’indisponibilité d’un noeud.
    Configuration des logs avec log4j.