Objectifs de la formation
Cette formation Hadoop vous invite à faire le point sur les différents éléments de l’écosystème Hadoop et leurs rôles respectifs.Egalement, elle vous aidera à comprendre l’architecture des applicatifs hadoop et à savoir quels sont les apports et les cas d’usage des solutions hadoop.
À qui s’adresse cette formation ?
Public :
Ce cours Hadoop cible principalement les chefs de projets, développeurs, et toute personne souhaitant comprendre les mécanismes Hadoop et le rôle de chaque composant.
Prérequis :
Aucun, mais un plus serai d’avoir des connaissances générales des systèmes d’information.
Contenu du cours
Introduction à l’écosystème Hadoop
Rappels sur NoSQL. Le théorème CAP.
Historique du projet hadoop
Les fonctionnalités : stockage, outils ‘extraction, de conversion, ETL, analyse, …
Exemples de cas d’utilisation sur des grands projets.
Les principaux composants :
HDFS pour le stockage et YARN pour les calculs.
Les distributions et leux caractéristiques (HortonWorks, Cloudera, MapR, GreenPlum, Apache, …)L’architecture d’Hadoop
Terminologie : NameNode, DataNode, ResourceManager
Rôle et interactions des différents composants
Présentation des outils d’infrastructure : ambari, avro, zookeeper;
de gestion des données : pig, oozie, tez, falcon, pentaho, sqoop, flume;
d’interfaçage avec les applications GIS;
de restitution et requêtage : webhdfs, hive, hawq, impala, drill, stinger, tajo, mahout, lucene, elasticSearch, Kibana
Les architectures connexes : spark, cassandraExemples interactifs avec Hadoop
Démonstrations sur une architecture Hadoop multi-noeuds.
Mise à disposition d’un environnement pour des exemples de calculTravaux Pratiques :
Recherches dans des données complexes non structurées.
Applications
Cas d’usages de hadoop.
Les infrastructures hyperconvergées avec les appliances hadoop
Calculs distribués sur des clusters hadoop
Objectifs de la formation
Cette formation Big Data Analyse vous apportera les connaissances et compétences nécessaires pour:
- Comprendre le fonctionnement d’Hadoop Distributed File System (HDFS) et YARN/MapReduce
- Explorer HDFS
- Suivre l’exécution d’une application YARN
- Maitriser le fonctionnnement et l’utilisation des différents outils de manipulation de la donnée :
- Hue : Utilisation de l’interface unifiée
- Hive, Pig : Les générateurs de MapReduce
- Tez : L’optimisation des générateurs de MapReduce
- Sqoop : Comment importer les données de l’entreprise dans un cluster Hadoop?
- Oozie : Comment organiser les exécutions des différentes applications ?
À qui s’adresse cette formation ?
Public :
Cette formation Big Data Analyse de données en environnement Hadoop est destinée aux personnes qui devront manipuler les données dans un cluster Apache Hadoop.
Prérequis :
Cecours nécessite d’avoir une expérience dans la manipulation de données. Une connaissance préliminaire d’Hadoop n’est pas exigée mais recommandée.
Contenu du cours
Introduction à Hadoop
Présentation générale d’Hadoop
Exemples d’utilisation dans différents secteurs
Historique et chiffres clés : Quand parle-t-on de Big Data ?L’écosystème d’Hadoop
Le système de fichier HDFS
Le paradigme MapReduce et l’utilisation à travers YARNManipulation des données dans un cluster Hadoop
Hue : Comment fonctionne cette interface web ?
Hive : Pourquoi Hive n’est pas une base de données ?Requête sur Hive
Utilisation de HCatalog
Utilisation avancée sur Hive
Utilisation de fonctions utilisateurs
Paramétrage de requête
Pig : Fonctionnement de PigProgrammation avec Pig Latin
Utilisation du mode Local
Utilisation de fonctions utilisateurs
Tez : Qu’est-ce que Tez ?Comment et quand l’utiliser ?
Oozie : Fonctionnement de Oozie
Création de Workflows avec Oozie
Manipulation des workflows
Ajout d’éléments d’exploitation dans les workflows
Ajout de conditions d’exécution
Paramétrage des workflows
Sqoop : A quoi sert Sqoop ?Chargement des données depuis une base de données relationnelle
Chargement des données depuis Hadoop
Utilisation et paramétrage avancée
Les particularités des distributions : Impala, Hawq
Quelles sont les bonnes pratiques d’utilisation des différents outils ?
Objectifs de la formation
La gestion des ensembles de données volumineux offre aux entreprises de toutes tailles de nouvelles opportunités et de nouveaux défis à relever. Au cours de cette formation, vous allez acquérir les compétences pratiques de programmation nécessaires pour développer des solutions compatibles avec la plateforme Hadoop d’Apache grâce auxquelles vous pourrez traiter efficacement différents types de Big Data.
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Développer des algorithmes parallèles efficaces avec MapReduce
- Mettre en œuvre des tâches Hadoop pour extraire des éléments pertinents d’ensembles de données volumineux et variés et apporter ainsi de la valeur à votre entreprise
- Créer, personnaliser et déployer des tâches MapReduce pour synthétiser les données
- Charger des données non structurées des systèmes HDFS et HBase
À qui s’adresse cette formation ?
Public :
Ce cours s’adresse aux Chefs de projets, Développeurs, Data-scientists, et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l’environnement Hadoop.
Prérequis :
Pour suivre cette foramtion dans les meilleures conditions possibles, il vous faut avoir une certaine connaissance d’un langage de programmation objet.
Contenu du cours
Introduction
Les fonctionnalités du framework Hadoop
Le projet et les modules : Hadoop Common, HDFS, YARN, MapReduce
Utilisation de yarn pour piloter les jobs mapreduce.MapReduce
Principe et objectifs du modèle de programmation MapReduce.
Fonctions map() et reduce().
Couples (clés, valeurs).
Implémentation par le framework Hadoop.
Etude de la collection d’exemples.Travaux Pratiques:
Rédaction d’un premier programme et exécution avec Hadoop.
Programmation
Configuration des jobs, notion de configuration.
Les interfaces principales : mapper, reducer,
La chaîne de production : entrées, input splits, mapper, combiner, shuffle/sort, reducer, sortie.
Partitioner, outputcollector, codecs, compresseurs..
Format des entrées et sorties d’un job MapReduce : InputFormat et OutputFormat.Travaux Pratiques:
Type personnalisés : création d’un writable spécifique. Utilisation. Contraintes.
Outils complémentaires
Mise en oeuvre du cache distribué.
Paramétrage d’un job : ToolRunner, transmission de propriétés.
Accès à des systèmes externes : S3, hdfs, har, …Travaux Pratiques:
Répartition du job sur la ferme au travers de yarn.
Streaming
Définition du streaming map/reduce.
Création d’un job map/reduce en python.
Répartition sur la ferme.
Avantage et inconvénients.
Liaisons avec des systèmes externes.
Introduction au pont HadoopRTravaux Pratiques:
Suivi d’un job en streaming.
Pig
Pattern et best practices Map/reduce.
Introduction à Pig.
Caractéristiques du langage : latin.Travaux Pratiques:
Installation/lancement de pig.Ecriture de scripts simples pig.
Les fonctions de bases.
Ajouts de fonctions personnalisées.
Les UDF.
Mise en oeuvre.Hive
Simplification du requêtage.
Syntaxe de base.Travaux Pratiques:
Création de tables. Ecriture de requêtes.
Comparaison pig/hive.
Securité en environnement Hadoop
Mécanisme de gestion de l’authentification.
Travaux Pratiques:
Configuration des ACLs
Objectifs de la formation
Apache Spark s’est imposé ces dernières années comme le framework big data de référence, et comme un outil central de l’écosystème hadoop. Cette formation Spark pour Développeurs Cloudera vous apprendra les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils plus récents.
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Identifier et utiliser les outils appropriés à chaque situation dans un écosystème Hadoop
- Utiliser Apache Spark et l’intégrer dans l’écosystème Hadoop
- Utiliser Hive, Impala, Flume et Sqoop
À qui s’adresse cette formation ?
Public :
Cette formation s’adresse aux Développeurs ou aux Ingénieurs ayant déjà développé, chargés d’intégrer et d’enregistrer les données avec Hadoop.
Prérequis :
Les exemples Apache Spark et les exercices de « hands-on » sont présentés avec Scala et Python, donc il faut être à l’aise pour programmer dans l’un de ces langages.
Contenu du cours
INTRODUCTION À HADOOP ET À SON ÉCOSYSTÈME
Introduction générale à hadoop
Traitement de donnéesIntroduction aux exercices pratiques
HDFS : LE SYSTÈME DE FICHIERS HADOOP
Les composants d’un cluster hadoop
L’architecture d’HDFS
Utiliser HDFSLE TRAITEMENT DISTRIBUÉ SUR UN CLUSTER HADDOP
L’architecture de YARN
Travailler avec YARNLES BASES DE SPARK
Introduction à Spark
Démarrer et utiliser la console Spark
Introduction aux Datasets et DataFrames Spark
Les opérations sur les DataFramesMANIPULATION DES DATAFRAMES ET DES SCHEMAS
Créer des DataFrames depuis diverses sources de données
Sauvegarder des DataFrames
Les schémas des DataFrames
Exécution gloutonne et paresseuse de Spark1.
ANALYSER DES DONNÉES AVEC DES REQUÊTES SUR DATAFRAMES
Requêter des DataFrames avec des expressions sur les colonnes nommées
Les requêtes de groupement et d’aggrégation
Les jointuresLES RDD – STRUCTURE FONDAMENTALE DE SPARK
Introduction aux RDD
Les sources de données de RDD
Créer et sauvegarder des RDD
Les opérations sur les RDDTRANSFORMER LES DONNÉES AVEC DES RDD
Écrire et passer des fonctions de transformation
Fonctionnement des transformations de Spark
Conversion entre RDD et DataFramesAGRÉGATION DE DONNÉES AVEC LES RDD DE PAIRES
Les RDD clé-valeur
Map-Reduce : principe et usage dans Spark
Autres opérations sur les RDD de paires2.
REQUÊTAGE DE TABLES ET DE VUES AVEC SPARK SQL
Requêter des tables en Spark en utilisant SQL
Requêter des fichiers et des vues
L’API catalogue de SparkTRAVAILLER AVEC LES DATASETS SPARK EN SCALA
Les différences entre Datasets et DataFrames
Créer des Datasets
Charger et sauvegarder des Datasets
Les opérations sur les DatasetsÉCRIRE, CONFIGURER ET LANCER DES APPLICATIONS SPARK
Écrire une application Spark
Compiler et lancer une application
Le mode de déploiement d’une application
L’interface utilisateur web des applications Spark
Configurer les propriétés d’une applicationLE TRAITEMENT DISTRIBUÉ AVEC SPARK
Rappels sur le fonctionnement de Spark avec YARN
Le partitionnement des données dans les RDD
Exemple : le partitionnement dans les requêtes
Jobs, étapes et tâchesTravaux Pratiques
Plan d’exécution de Catalyst
Le plan d’exécution de RDDPERSISTANCE DE LA DONNÉE DISTRIBUÉE
La persistance des DataFrames et des Datasets
Les niveaux de persistances
Voir les RDD persistésLES ALGORITHMES ITÉRATIFS AVEC SPARK
D’autres cas d’usages courants de Spark
Les algorithmes itératifs en Spark
Machine Learning avec SparkTravaux Pratiques
K-means
3.
INTRODUCTION À SPARK STRUCTURED STREAMING
Introduction à Spark Streaming
Créer des streaming DataFrames
Transformer des DataFrames
Exécuter des requêtes de streamingSTRUCTURED STREAMING AVEC KAFKA
Introduction
Recevoir des messages Kafka
Envoyer des messages KafkaAGGREGATION ET JOINTURES SUR DES STREAMING DATAFRAMES
Aggregation sur des streaming DataFrames
Jointure sur des streaming DataFramesSuppléments (Les parties de ce chapitre seront dispensées en fonction de l’avancement de la formation)
LE TRAITEMENT DE MESSAGES AVEC KAFKA
Introduction à Kafka
Passer à l’échelle avec Kafka
L’architecture d’un cluster Kafka
La ligne de commande Kafka
Objectifs de la formation
Cette formation Hadoop Infrastructure Sécurisée vous apprendra à penser et à appliquer la sécurisation Hadoop sur tous ses aspects, des accès aux données.
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Comprendre les mécanismes de sécurité Hadoop
- Les mettre en œuvre
À qui s’adresse cette formation ?
Public :
Ce cours Hadoop sécurité intéressera les chefs de projet, administrateurs et plus globalement toute personne souhaitant sécuriser une infrastructure Hadoop.
Prérequis :
Pour suivre cette formation sur la sécurité avec Hadoop, il est nécessaire de connaître les principes de base d’Hadoop et des bases de données.
Contenu du cours
Introduction
Rappels rapides sur l’ecosystème Hadoop
Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
Les risques et points à sécuriser dans un système distribué et plus particulièrement avec HadoopArchitecture : la sécurité Hadoop
Sécurisation réseau
Système d’exploitation
Les rôles Hadoop
StratégiesKerberos
Principe de fonctionnement
Travaux Pratiques :
Kerberisation d’une grappe Hadoop
Sécurité des accès
Authentification, autorisations, accounting
Travaux Pratiques :
Gestion des autorisations dans HDFS, YARN, HBase…
Mise en œuvre des ACLs dans ZookeeperApache Sentry
Présentation du projet, architecture : sentry server, sentry plugin
Gestion de l’authentification et des droits d’accès aux donnéesTravaux Pratiques :
Intégration avec Hadoop
Sécurité des données (Sécurité Hadoop)
Cryptage des données stockées – Cryptage des données en transit
Mécanisme de sécurité des données en entrée et en consultation par des accès clients: interface Hadoop en ligne de commande, sqoop, oozie, HBase, webHDFS, httpFS
Objectifs de la formation
L’objectif premier de cette formation Hadoop Hbase est de vous faire intégrer le fonctionnement de HBase, notamment le fait de bien maîtriser la mise en place d’une configuration distribuée.
À qui s’adresse cette formation ?
Public :
Ce cours s’adresse aux Chefs de projet, administrateurs ainsi qu’à toute personne souhaitant stocker des données avec Hbase.
Prérequis :
Pour suivre ce stage dans les meilleures conditions possibles, il vous faut avoir certaines connaissance des principes de base Hadoop et des bases de données.
Contenu du cours
Introduction à Hadoop
Rappels rapides sur l’ecosystème Hadoop.
Les fonctionnalités du framework Hadoop.
Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce.
Présentation HBase. Historique. Lien avec HDFS.
Format des données dans HBase.
Définitions : table, région, ligne, famille de colonnes,cellules, espace de nommage, …
Fonctionnalités : failover automatique, sharding,
Interface avec des jobs MapReduce.Architecture Hbase
HBase master node, Region Master, liens avec les clients HBase.
Présentation du rôle de Zookeeper.Installation
Choix des packages.
Installation et configuration dans le fichier conf/hbase-site.xml
Démarrage en mode standalone start-hbase.
Test de connexion avec hbase shell.
Installation en mode distribué.Travaux pratiques :
Interrogations depuis le serveur http intégré.
HBase utilisation : shell
Présentation des différentes interfaces disponibles.
Travaux pratiques avec hbase shell.
Commandes de base, syntaxe, variables,
Manipulation des données : create, list, put, scan, get
Désactiver une table ou l’effacer : disable (enable), drop, …
Programmation de scripts.
Gestion des tables : principe des filtres.
Mise en oeuvre de filtres de recherche, paramètres des tables.
Présentation des espaces de nommage.Cluster HBase
Fonctionnement en mode distribué
Première étape : fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper)
Passage au mode distribué : mise en oeuvre avec HDFS dans un environnement distribué.Travaux pratiques:
Sur un exemple de tables réparties : mise en oeuvre des splits.
Programmation
Introduction, les APIs (REST, Avro, Thrift, Java, Ruby, …)
Utilisation d’un client Java.
Gestion des tables.Lien avec MapReduce.
Principe des accès JMX.Travaux pratiques :
Création d’un client JMX
Objectifs de la formation
Cette formation Hadoop Hortonworks vous apportera les compétences et connaissances pour maitriser l’administration d’Hadoop sur une distribution Hortonworks.
Tous les aspects importants sont abordés : les différents modes d’installation , la configuration ,les différents outils , l’administation en détail, la sécurité et enfin l’exploitation au quotidien.
À qui s’adresse cette formation ?
Public :
Cette formation Hadoop s’adresse aux Chefs de projet, administrateurs ainsi qu’à toute personne souhaitant mettre en oeuvre un système distribué avec Hadoop.
Prérequis :
Pour suivre ce cours dans de bonnes conditions il vous faut avoir de certaines connaissance des commandes des systèmes unix/linux.
Contenu du cours
Introduction
Les fonctionnalités du framework Hadoop.
Les différentes versions.
Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
Spécificités de chaque distribution.
Architecture et principe de fonctionnement.
Terminologie : NameNode, DataNode, ResourceManager, NodeManager.
Rôle des différents composants.
Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
Oozie, Pig, Hive, HBase, …Les outils Hadoop
Infrastructure/Mise en oeuvre :
Avro, Ambari, Zookeeper, Pig, Tez, Oozie, Falcon, Pentaho
Vue d’ensemble
Gestion des données.
Exemple de sqoop.
Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ..Outils complémentaires:
Spark, SparkQL, SparkMLib, Storm, BigTop, Zebra
De développement:
Cascading, Scalding, Flink/Pachyderm
D’analyse :
RHadoop, Hama, Chukwa, kafka
Installation et configuration
Trois modes d’installation : local, pseudo-distribué, distribué
Première installation.
Mise en oeuvre avec un seul noeud Hadoop.Configuration de l’environnement,étude des fichiers de configuration :
core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
Création des users pour les daemons hdfs et yarn,droits d’accès sur les exécutables et répertoires.
Lancement des services.
Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc ..Gestion de la grappe, différentes méthodes :
Ligne de commandes, API Rest, serveur http intégré, APIS natives
Exemples en ligne de commandes avec hdfs, yarn, mapred
Présentation des fonctions offertes par le serveur httpTravaux pratiques :
Organisation et configuration d’une grappe hadoop
Administration Hadoop
Outils complémentaires à yarn et hdfs : jConsole, jconsole yarn
Exemples sur le suivi de charges, l’analyse des journaux.
Principe de gestion des noeuds, accès JMX.Travaux pratiques :
Mise en oeuvre d’un client JMX
Administration HDFS :
Présentation des outils de stockage des fichiers, fsck, dfsadmin
Mise en oeuvre sur des exemples simples de récupération de fichiers
Gestion centralisée de caches avec Cacheadmin
Déplacement d’un NameNode. Mise en mode maintenance.Haute disponibilité
Mise en place de la haute disponibilité sur une distribution Ambari.
Travaux pratiques :
Passage d’un système HDFS en mode HA
Sécurité
Mécanismes de sécurité et mise en oeuvre pratique :
Activation de la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode et DataNode. Sécurisation de yarn avec la mise en oeuvre d’un proxy et d’un Linux Container Executor.Travaux pratiques :
Mise en place de la sécurité Kerberos sur une distribution Ambari. Création des utilisateurs. Travaux sur les droits d’accès et les droits d’exécution. Impact au niveau des files Yarn, Oozie et Tez.
Exploitation
Installation d’une grappe Hadoop avec Ambari. Tableau de bord. Lancement des services.
Principe de la supervision des éléments par le NodeManager.
Monitoring graphique avec Ambari.
Présentation de Ganglia,KibanaTravaux pratiques :
Visualisation des alertes en cas d’indisponibilité d’un noeud.
Configuration des logs avec log4j.
Objectifs de la formation
Cette formation Hadoop Administration Cloudera vous apporte les compétences et connaissances nécessaires pour :
- Connaître les principes du framework Hadoop
- Savoir installer et configurer Hadoop
- Maîtriser la configuration et la gestion des services avec Cloudera Manager
À qui s’adresse cette formation ?
Public :
Cette formation Hadoop s’adresse aux chefs de projets, administrateurs systèmes et à toute personne qui gère ou maintient un système distribué avec Hadoop.
Prérequis :
Pour suivre ce cours dans de bonnes conditions il vous faut avoir certaines connaissances des commandes des systèmes Unix/Linux.
Contenu du cours
Introduction à Hadoop Cloudera
Les fonctionnalités du framework Hadoop
Les différentes versions
Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE
Spécificités de chaque distribution
Architecture et principe de fonctionnement
Terminologie : NameNode, DataNode, ResourceManager, NodeManager
Rôle des différents composants
Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Oozie, Pig, Hive, HBase…Les outils Hadoop
Infrastructure / Mise en œuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie,
Vue d’ensemble
Gestion des données
Exemple de sqoop
Restitution : webhdfs, Hive, Hawq, Mahout, ElasticSearch…
Outils complémentaires : Spark, SparkQL, SparkMLib, Storm, BigTop, Zebra
Outils complémentaires de développement : Cascading, Scalding, Flink
Outils complémentaires d’analyse : RHadoop, Hama, Chukwa, KafkaInstallation et configuration
Présentation de Cloudera Manager
Installation en mode distribué
Configuration de l’environnement, étude des fichiers de configuration : core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
Création des users pour les daemons hdfs et yarn,droits d’accès sur les exécutables et répertoires.
Lancement des services
Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc…
Gestion de la grappe, différentes méthodes : ligne de commandes, API Rest, serveur http intégré, API natives
Exemples en ligne de commandes avec hdfs, yarn, mapred
Présentation des fonctions offertes par le serveur HTTPTravaux Pratiques :
Organisation et configuration d’une grappe Hadoop avec Cloudera Manager
Traitement de données
Requêtage SQL avec ImpalaAdministration d’Hadoop
Outils complémentaires à Yarn et hdfs : Jconsole, Jconsole Yarn
Exemples sur le suivi de charges, l’analyse des journaux
Principe de gestion des noeuds, accès JMX
Administration HDFS : présentation des outils de stockage des fichiers, fsck, dfsadmin
Mise en oeuvre sur des exemples simples de récupération de fichiers
Gestion centralisée de caches avec CacheadminHaute disponibilité
Mise en place de la haute disponibilité sur une distribution Cloudera
Passafe d’un système HDFS en mode HA
Explication et démonstration d’une fédération de cluster HadoopSécurité
Mécanismes de sécurité et mise en œuvre pratique : Activation de la sécurité avec Kerberos dans core-site.xml
Sécurisation de Yarn avec la mise en œuvre d’un proxy et d’un Linux Container ExecutorExploitation
Installation d’une grappe Hadoop. Lancement des services.
Principe de la supervision des éléments par le NodeManagerTravaux Pratiques :
Visualisation des alertes en cas d’indisponibilité d’un noeud
Configuration des logs avec log4j.
Objectifs de la formation
Cette formation Hadoop Cloudera Data Analyst se destine aux professionnels de la données amenés à accéder, manipuler, transformer et analyser des ensembles de données complexes, en utilisant SQL et les langages de script les plus courants.
À l’issue de cette formation officielle Hadoop Cloudera Data Analyst, vous aurez acquis les connaissances et compétences nécessaires pour :
- Acquérir, stocker et analyser des données à l’aide de Hive et Impala
- Effectuer des tâches fondamentales d’ETL avec les outils Hadoop (extraire, transformer et charger) : ingestion et traitement avec Hadoop
- Utiliser Hive et Impala pour améliorer la productivité sur les tâches d’analyse typiques
- Relier des jeux de données de diverses provenances pour obtenir une meilleure connaissance commerciale
- Effectuer des requêtes complexes sur les jeux de données
À qui s’adresse cette formation ?
Public :
Ce cours officiel Hadoop Cloudera Data Analyst s’adresse aux analystes de données, spécialistes de la business intelligence, développeurs, architectes système et administrateurs de bases de données.
Prérequis :
Pour suivre cette formation Hadoop Cloudera Data Analyst, il est nécessaire de posséder des connaissances en SQL ainsi que des connaissances de base des lignes de commandes Linux. Il est recommandé également de connaître un langage de script comme Bash scripting, Perl, Python ou Ruby.
Contenu du cours
Jour 1
Les fondamentaux d’Hadoop
Pourquoi choisir Hadoop ?
Présentation d’Hadoop
Stockage de données : HDFS
Traitement des données distribuées : YARN, MapReduce et Spark
Traitement et analyse des données : Hive et Impala
Intégration de base de données : Sqoop
Les autres outils Hadoop
Présentation des exercicesIntroduction à Hive et à Impala
Présentation de Hive
Présentation d’Impala
Pourquoi utiliser Hive et Impala ?
Schéma et stockage de données
Comparaison de Hive et Impala avec les bases de données traditionnelles
Cas d’utilisationRequêtes avec Hive et Impala
Bases de données et tables
Syntaxe de base des langages de requête Hive et Impala
Types de données
Utilisation de Hue pour exécuter des requêtes
Utilisation de Beeline (Shell Hive)
Utilisation de Impala ShellJour 2
Les opérateurs communs et fonctions built-in
Opérateurs
Fonctions scalaires
Fonctions d’agrégationGestion des données avec Hive et Impala
Stockage de données
Création de bases de données et de tables
Chargement des données
Modification des bases de données et des tables
Simplification des requêtes au moyen de vues
Enregistrement des résultats de requêtesStockage de données et performances
Tables partitionnées
Chargement des données dans des tables partitionnées
Quand utiliser le partitionnement
Choisir un format de fichier
Utilisation des formats de fichier Avro et ParquetJour 3
Analyse relationnelle de données avec Hive et Impala
Jointure de jeux de données
Fonctions communes intégrées
Agrégation et fenêtrageLes fonctions analytiques et le fenêtrage
Utiliser des fonctions analytiques
Autres fonctions analytiques
Fenêtres glissantesDonnées complexes avec Hive et Impala
Données complexes avec Hive
Données complexes avec ImpalaAnalyse de texte avec Hive et Impala
Utilisation d’expressions régulières avec Hive et Impala
Traitement des données textuelles dans Hive avec des SerDes
Analyse de sentiment et n-gramsJour 4
Optimisation de Hive
Comprendre les performances des requêtes
Bucketing
Indexation des données
4Hive sur SparkOptimisation d’Impala
Exécution de requête avec Impala
Améliorer la performance d’ImpalaExtension de Hive et d’Impala
SerDes et formats de fichier personnalisés dans Hive
Transformation de données avec des scripts personnalisés dans Hive
Fonctions définies par l’utilisateur
Requêtes paramétréesChoisir le meilleur outil
Comparaison de Pig, Hive, Impala et des bases de données relationnelles
Critères de choixModule optionnel (en fonction de l’avancement) : Apache Kudu
Qu’est-ce que Kudu
Les tables Kudu
Utiliser Impala avec Kudu
Objectifs de la formation
Intégré à la suite Hadoop, Pig est une plate-forme de haut niveau permettant la programmation parallèle de tâches MapReduce tournant dans un cluster Hadoop. Utilisé le plus souvent pour charger des données via des fichiers HDFS ou pour gérer des échanges de données entre des applications tierces, Pig pour le big data comprend deux éléments-clé : un compilateur et un langage de script nommé Pig Latin.
À l’issue de cette formation Développement de scripts avec Apache Pig vous aurez acquis les connaissances et les compétences nécessaires pour :
- Comprendre le fonctionnement de Pig
- Développer des requêtes en avec Pig Latin pour effectuer des transformations sur les données et des analyses de données
- Intégrer des données de différents formats
À qui s’adresse cette formation ?
Public :
Cette formation Pig pour le développement de scripts s’adresse aux chefs de projet, aux data scientists et aux développeurs souhaitant utiliser Pig pour l’analyse de données.
Prérequis :
Des connaissances en langage Java ou Python, des bases Hadoop et des notions de calculs statistiques sont nécessaires pour suivre ce cours.
Contenu du cours
Introduction à Apache Pig
Le projet Apache Pig, fonctionnalités, versions
Présentation de Pig dans l’écosystème Hadoop
Chaîne de fonctionnement
Comparatif avec l’approche Hive ou SparkMise en œuvre de Pig
Rappels sur les commandes HDFS
Prérequis techniques, configuration de PigTravaux pratiques
Exécution : les différents modes : interactif ou batch
Principe de l’exécution de scripts Pig Latin avec GruntBase Pig Latin
Modèles de données avec Pig
Intégration Pig avec MapReduce
Les requêtes Latin : chargement de données, instructions
Ordres de bases : LOAD, FOREACH, FILTER, STORETravaux pratiques
Création d’un ETL de base
Contrôle d’exécutionTransformation des données via des opérations de filtre avec Pig Latin
Groupements, jointures, tris, produits cartésiens
Transformation de base de la donnée
Découpages
Découpages sur filtresAnalyse de la donnée
Echantillonages
Filtres
Rangements avec rank et dense
Calculs : min/max, sommes, moyennes…Travaux pratiques
Traitements de chaînes de caractères
Traitement de datesIntégration
Formats d’entrées/sorties
Interfaçage avro, jsonTravaux pratiques
Chargement de données depuis HDFS vers HBase
Analyse de données Pig/Hbase
Restitution JsonExtensions du Pig Latin
Extension du Pig Latin
Création de fonctions UDF en Java
Intégration dans les scripts PigTravaux pratiques
Utilisation de Pig Latin depuis des programmes Python
Execution de programmes externes, streamingExploitation
Installation d’une grappe Hadoop avec Ambari. Tableau de bord. Lancement des services.
Principe de la supervision des éléments par le NodeManager.
Monitoring graphique avec Ambari.
Présentation de Ganglia,KibanaTravaux pratiques :
Visualisation des alertes en cas d’indisponibilité d’un noeud.
Configuration des logs avec log4j.
