Objectifs de la formation
Développer une bonne hygiène de vie est essentiel pour rester en bonne santé. Il en va de même avec les données. Pour concevoir un système capable de produire des données “saines” et de qualité, les entreprises doivent donc mettre en place une combinaison de mesures préventives, de traitements efficaces et de culture collaborative en interne.
À l’issue de cette formation Big Data Qualité des données vous aurez acquis les connaissances et compétences nécessaires pour :
- Décrire le jargon et la culture qualité des données
- Intégrer des projets de création de Data Lake, le nouveau challenge des SI
À qui s’adresse cette formation ?
Public :
Ce cours Big Data Qualité des données s’adresse principalement aux consultants BI, architectes SI, chefs de projets.
Prérequis :
Pour suivre cette formation Big Data Qualité des données il est nécessaire d’avoir des connaissances en SI
Contenu du cours
La gouvernance des données
Rôle de la gouvernance
Aspects de la gouvernance des données
Niveau d’intérêt dans la gouvernance des données
Organisation de la gouvernance des données
Zones de mise en valeur
Le coût de la faible qualité des données
Data Governance Committee et Staff
Les 5 niveaux de maturité
Les principaux drivers pour la gouvernance des données
La qualité des données
La qualité des données et le MDM
Les dimensions de la qualité des données
L’utilité de la qualité des données
Les technologies utilisées dans la Data Quality
La perception des éditeurs dans la qualité des données
Objectifs de la formation
Avec l’arrivée du Big Data, les données stockées par les entreprises proviennent de sources de données beaucoup plus nombreuses et diversifiées, intégrant notamment des données sociales, de l’open data et des données en provenance de l’internet des objets.
Cette formation propose un tour d’horizon des principaux risques de sécurité et les mesures à mettre en œuvre pour y répondre.
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Maît Utiliser les techniques de sécurité pour mieux protéger les SI dans le monde du Big Data.
À qui s’adresse cette formation ?
Public :
Ce cours Big Data Sécurité des données s’adresse aux consultants sécurité, administrateurs système, consultants SI.
Prérequis :
Pour suivre cette formation Big Data Sécurité des données il est conseillé d’avoir de fortes connaissances dans la sécurité réseau et système, avec une maîtrise des plateformes Hadoop.
Contenu du cours
Introduction
Sécuriser les frameworks de programmation des calculs distribués
Les meilleures solutions de sécurisation des Data Stores Non-Relationnels
Sécuriser les entrepôts de données et la journalisation des logs
Endpoint Input Validation / Filtering
La supervision de la sécurité et la conformité dans les traitements en temps réel
La scalabilité et la composabilité des moteurs de gestion de vie privée
Data Mining
Analytics
Renforcement des contrôles d’accès et la sécurisation de la communication par cryptographie
La granularité des contrôles d’accès
La granularité des audits
La provenance des données
Objectifs de la formation
L’objectif de cette formation est de vous rendre autonome dans l’analyse et la visualisation des données dans un contexte Big Data.
À l’issue de cette formation Business Objects BI 4, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Comprendre les spécificités du Big Data
- Connaître les concepts fondamentaux et technologies associées au Big Data
- Gérer, collecter et explorer des données
- Analyser et visualiser ces données
A QUI D’ADRESSE CETTE FORMATION?
Public :
Cette formation est destinée aux statisticiens, analystes de données (Data Analyst), consultants en informatique décisionnelle (BI), dataminers, développeurs, chefs de projets.
Prérequis :
Des connaissances de base sur le langage SQL, le développement et les statistiques (de niveau scolaire) sont nécessaires pour suivre ce cours.
Contenu du cours
Comprendre les spécificités du Big Data
Les origines du Big Data
Les données au cœur des enjeux (volume, diversité, IoT etc.)
Les limites des architectures actuelles et de la BI
Sécurité, éthique, environnement juridique (données personnelles, CNIL, accords internationaux, etc.)
Les concepts fondamentaux et technologies associées du Big Data (stockage, recherche, visualisation)
Le concept de Datalake
L’écosystème Hadoop, quel outil pour quel usage ?
Comprendre Hadoop et ses composants
Le système de fichiers répartis HDFS
Philosophie MapReduce
Quelles différences entre les distributions pour l’analyste ?
Différentes catégories de bases NoSQL (clé/valeur, documents, colonnes, graphes)
La philosophie open source et les alternatives propriétaires
Python, langage phare du Big Data
Solution Cloud ou on Premise, quels impacts ?
Moteur de recherche et Big Data, quand utiliser la stack Elasticsearch, Logstash, Kibana (ELK) ?
Impacts techniques et organisationnel
Gestion des données structurées ou non
Exemples de données non structurées
Manipuler les données avec différents formats de fichiers :
HDFS
Fichiers plats : CSV, JSON
Structures optimisées : Parquet, Avro
Organisation relationnelle : Hive metastore
Le Master Data Management (MDM) pour réconcilier les référentiels
Structurer vos données avec Hive (bases, tables, etc.)
La collecte et exploration des données
Intégrer les données avec un ETL
La phase de collecte des données
Les outils dédiés à la collecte:
Utiliser Scoop pour intégrer les données depuis une base de données relationnelle
Travailler en streaming avec Kafka et Spark Streaming
Utiliser le langage Pig latin pour intégrer les données
Utiliser Spark pour la collecte et l’exploration
L’analyse des données
Analyse en contexte Big Data
Vue générale des différentes méthodes d’analyse (exploration, segmentation, classification, estimation, prédiction)
Data Science et Machine Learning:
quels rôles pour quels usages ?
phase d’un projet de Data Science
domaines d’application
Interagir avec Hadoop en temps réel (traitement parallèle avec Impala, interroger les données Hive avec Spark)
Les frameworks orientés « analyse de données »
La visualisation des données (Dataviz)
Ce que les statistiques ne disent pas
Les objectifs de la visualisation
Quels graphes pour quels usages ?
Représentation de données complexes (encodage visuel, visualisation interactive)
Exemple de visualisations avec les standards du marché (Tableau, Power BI)
Savoir communiquer sur les analyses de données (Data Storytelling)
Objectifs de la formation
Cette formation présente l’essentiel de la Modélisation Statistique.
Elle vous permettra de comprendre son rôle dans le monde de l’analyse décisionnelle, du Big Data et du Data Mining ainsi que les mécanismes qui permettent de transformer et d’affiner des données pour en tirer des informations métiers utiles
À l’issue de cette formation, vous aurez acquis les connaissances et les compétences nécessaires pour :
- Dimensionner un échantillon de population
- Calculer des paramètres de position et dispersion (médiane, étendue, quantile, écart-type)
- Exploiter les paramètres statistiques pour comprendre une série de données
- Valider la précision d’une estimation, à l’aide des intervalles de confiance
- Découvrir des outils comme R et Excel pour la mise en œuvre des modèles étudiés
À qui s’adresse cette formation ?
Public :
Ce cours Modélisation statistique s’adresse principalement aux responsables marketing, responsables qualité, utilisateurs et gestionnaires métiers de bases de données, futurs Data Scientist…
Prérequis :
Pour suivre cette formation Modélisation statistique il est nécessaires d’avoir des connaissances de base en mathématiques et statistiques. Une connaissance de base d’Excel est préférable.
Contenu du cours
Rappels sur SAP Business Objects BI 4
Rappels des fondamentaux de la statistique descriptive
Définition de la statistique descriptive.
Analyse d’une population.
Méthodes d’échantillonnage.
Variables qualitatives et quantitatives.
Effectifs et calcul des fréquences.
Effectifs cumulés croissants et décroissants.
Représentation graphique des variables qualitatives et quantitatives.
Etude de cas
Application pratique sur excel d’analyses statistiques et interprétation
Démarche et modélisation d’une analyse statistique
Statistique descriptive.
Phase d’apprentissage.
Statistique prédictive pour estimer et anticiper.
Modélisation statistique d’un phénomène.
Paramètre de position et de dispersion
Mode, valeur modale, valeur la plus probable.
Moyenne d’une population (ou d’un échantillon).
Médiane, partager une série numérique.
Etendue, différence entre valeurs extrêmes.
Utiliser les quantiles.
Ecart-Type, calculer la dispersion d’un ensemble de données.
Calcul de la variance et de la covariance.
Etude de cas
Calcul de paramètres de position et de dispersion sur différents échantillonnages et comparaisons des résultats.
Tests et intervalle de confiance
Lois statistiques et intervalle de confiance.
Tests statistiques courants (Test de Student, Analyse de variances, Khi²).
Valider la précision d’une estimation. Amplitude de l’intervalle.
Etude de cas
Exercices sur le logiciel R.
Panorama des outils
Zoom sur le logiciel Open Source “R”.
Initiation au logiciel Open Source “R”.
Travaux pratiques
Utilisation de packages pour faire les analyses statistiques.
Objectifs de la formation
Cette formation Big Data Business Intelligence s’adresse aux personnes qui participent à des projets Big Data, Data Mining ou décisionnel et qui souhaitent soit comprendre le vocabulaire des statisticiens, afin de mieux appréhender l’analyse décisionnelle, soit avoir les bases suffisantes pour mettre en œuvre des calculs statistiques dans un projet Big Data.
A l’issue de cette formation WebIntelligence XI, vous aurez acquis les connaissances et compétences nécessaires pour :
- Comprendre le vocabulaire des statisticiens
- Éffectuer les calculs récurrents (moyennes, écart type, variance, etc.)
- Situer la frontière entre les statistiques et les probabilités tout en sachant effectuer des calculs probabilistes simples
- Appréhender ensuite les principales lois des statistiques afin de tester vos données
- Choisir le bon outil pour représenter vos études statistiques et ainsi bien communiquer dessus
À qui s’adresse cette formation ?
Public :
Ce cours s’adresse aux développeurs, analystes, chefs de projets, ou toute personne souhaitant s’initier au traitement des données statistiques et comprendre les concepts clés de l’analyse des données.
Prérequis :
Pour suivre ce stage, il est nécessaire d’avoir des connaissances scolaires de base (somme, moyenne, pourcentage).
Contenu du cours
Le vocabulaire de base
Qu’est-ce qu’un échantillon ?
Les différentes méthodes d’échantillonnage
Population et individus
Fréquence et Effectif
Distribution ou répartition
Vocabulaire pour les variables (qualitatives, quantitatives, discrètes, continues)
Fréquence, dispersion, etc.
Calcul fondamental en statistique descriptive
Les indicateurs de tendance (moyenne, médiane)
Les indicateurs de dispersion (variance, écart-type)
Les quantiles
Probabilités
Un petit mot sur les probabilitésDifférences entre arrangements et combinaisons
Exemples de calculs simples de probabilités (probabilité de gagner au loto, de gagner 10 fois de suite à pile ou face, etc.)
Tests et intervalles de confiance
Lois statistiques et intervalle de confiance
Savoir estimer des résultats à partir d’un échantillon (enquête, contrôle ponctuel)
Savoir calculer des intervalles de confiance simples
Pourquoi parle-t-on de loi « normale » ?
Rechercher le lien entre deux phénomènes : la corrélation
Prévoir de nouvelles valeurs grâce à la régression simple
Le Test de Student
L’analyse de variance
La loi du X2
Visualisation des données
Tour d’horizon des formats de base (histogramme, barres, nuage, etc.)
Quel format pour quel besoin ?
Les outils généralistes des statisticiens
Outils spécifiques (cartes, nuages de mots, etc.)
Mettre en scène ses résultats (timelines)
Intégration des schémas dans une page Web
L’évolution des statistiques pour le Big Data
L’approche statistique ou l’approche « Machine Learning »
Le vertige des grandes dimensions
Présentation des grandes méthodes (lasso, noyaux, forêts aléatoires, réseaux de neurones)
Objectifs de la formation
La DataViz ou encore Data Visualisation ou enfin en français la visualisation des données regroupe les techniques permettant de comprendre plus facilement la signification des données et surtout de façon plus pertinente qu’avec de simples données textuelles.
À qui s’adresse cette formation ?
Public :
Cette formation s’adresse aux chefs de projet, architectes, développeurs et data-scientists qui souhaitent mettre en oeuvre des solutions d’analyse et de visualisation des données.
Prérequis :
Afin de suivre ce cours des connaissances générales sur le Bigdata, le data-mining et l’analyse de données sont nécessaires.
Contenu du cours
Tour d’Horizon des différentes fonctionnalités des logiciels de DataViz
Le besoin : types de données, exemples de démarches et d’analyse
Définitions : apprentissage supervisé, apprentissage automatique
Arbres de décision, de régression, régression automatique
Classifieurs. Scoring
Fonctionnalités des outils de dataviz : analyses statistiques, classifications, rapprochements, production de recommandations, représentations graphiques
Présentation de quelques outils : Mahout, Giraph, Agile, spagobi
Mahout
Présentation Mahout.
Positionnement dans l’offre BigData et Machine Learning : Hadoop, Spark,..
Fonctionnalités. Mode autonome ou mode distribué
Exemples d’algorithmes fournis avec Mahout
Giraph
Principe du projet Giraph. Algorithmes de graphes. Infrastructure Hadoop. Cas d’utilisation
spagoBI
Historique de spagoBI, positionnement, fonctionnalités
Installation et démonstrations depuis l’interface web. Exemples d’analyse avec Cockpit
Objectifs de la formation
Gephi est un logiciel open source. C’est un des logiciels leaders en exploration et visualisation de données issues de graphiques et de réseaux (réseaux sociaux, réseaux de recherche scientifique, communautés…). VOSviewer se concentre sur les données issues de réseaux bibliographiques, dont les données textuelles (text mining).
.Cette formation vous permettra de savoir choisir le bon outil pour le bon traitement tout en donnant une place particulière à Gephi et VOSviewer.
À qui s’adresse cette formation ?
Public :
Cette formation s’adresse à toute personne concernée par l’utilisation d’un outil d’analyse et de visualisation de réseaux.
Prérequis :
Pour suivre cette formation, il est demandé d’avoir de bonnes connaissances pratiques d’internet ainsi que des outils d’information.
Contenu du cours
Passer de ses données brutes à une forme visuelle
Les grandes catégories d’expression visuelles des données et leurs usages
Focus sur les choix conceptuels pour :
– un traitement sémantique
– un traitement en réseau de données bibliométriques
Les outils à disposition pour traiter ses données sans coder
Les outils de programmation pour aller plus loin
Gephi et VOSviewer dans le panorama des outils de visualisation de réseaux
Présentation de Gephi et VOSviewer en scientométrie
Discussion de leurs fonctions et catégorisation en rapport à d’autres logiciels proches (CiteSpace, Netdraw, Sci Tool, Voyant, etc)
Examen de catégories supplémentaires d’outils de data visualisation de réseaux sociaux ou sémantiques : les plateformes web (D3.js, SigmaJS, etc)
Les librairies de visualisation en Python et R
Début d’un premier projet simple sur Gephi, de A à Z, à partir d’un réseau de co-auteurs déjà constitué
Gephi avancé
Fin du premier projet Gephi
Fonctions avancées : mesures de centralité, filtres, réseaux temporels (dynamiques)
Comment exporter son réseau sous plusieurs formats : csv, pdf, svg, png, et sous la forme d’une page Web ?
Présentation des plugins pour Gephi : pour ajouter de nouvelles fonctions
Ressources documentaires, forums et liens utiles
VOSviewer
Création d’une visualisation à partir d’un réseau de co-auteurs
Création d’une visualisation à partir d’un réseau sémantique
Présentation des paramètres avancés de VOSviewer
Conclusion
Objectifs de la formation
DigDash est un logiciel de tableaux de bord agiles qui permet la visualisation et l’analyse de données. Comme tous les outils BI de cette famille, il offre des services de chargement et de préparation des données (nettoyage, transformation, filtrage) afin de vous permettre de piloter votre activité simplement, rapidement et de façon autonome.
À l’issue de cette formation DigDash vous serez en mesure de :
- Savoir charger des données de différentes sources
- Créer des tableaux de bord interactifs
- Explorer vos données métiers
- Être capable de communiquer efficacement (Design, Data storytelling, Design)
- Savoir exporter vos documents
- Comprendre comment anticiper vos résultats (catégorisation, analyse prédictive, simulation)
À qui s’adresse cette formation ?
Public :
Ce cours DigDash cible principalement les analystes, statisticiens et marketeurs amenés à utiliser l’outil DigDash pour créer et consulter des tableaux de bord DigDash dans le cadre d’un projet Big Data.
Prérequis :
Aucun
Contenu du cours
Présentation de DigDash
Vue d’ensemble de la BI
Philosophie de DigDash
Le vocabulaire de DigDash
Exemples de tableaux de bord
Tour d’horizon des tutoriels disponibles
Les flux d’informations
Le studio de travail (parcours des menus)
Les éléments que l’on peut ajouter (@mail, agenda, graphique, Excel, PDF, etc.)
Notion de portefeuille et de flux d’informations
Se connecter à une source de données
Croiser les informations entre différentes sources
Les graphiques
Fonctionnalités pouvant être ajoutées à chaque type de graphe DigDash
Savoir déchiffrer un code erreur
Ateliers
Récupération de données de communications (coût, durée, qualité, …)
Croisement des données entre des sources différentes
Comparaisons par années
Ajout d’une fonction de lissage des informations et d’une fonction prédictive (coût pour l’année prochaine)
Simulation d’erreurs pour s’habituer au déchiffrage des codes et être autonome dans le diagnostic
Les tableaux de bord
Création d’un tableau de bord
Ajouter des éléments
Ajouter un flux d’information
Créer un graphique à partir d’un modèle de données ou en langage naturel
Effectuer des requêtes sur les données de notre tableau de bord
Ajout de site WEB
Ajout de dimension
Ajout de variable
Ajout de formules
Gérer différentes langues (dictionnaire des synonymes)
Conseils pour la conception de vos tableaux de bord (efficacité, communication, etc.)
Ateliers
Création d’un tableau de bord (chiffre d’affaires par région, meilleurs produits du CA, évolution du CA par année). Formules permettant de disposer d’informations supplémentaires
Création d’un graphique depuis le tableau de bord en langage naturel (« Coût de communication pour la France » par exemple)
Ajout d’un graphique permettant d’analyser une tendance (évolution d’une mesure selon une date)
Ajout de variable permettant de modifier des valeurs de références et l’analyse en temps réel de notre tableau
Exemple de scénario de DataStoryTelling pour « vendre » vos créations à vos collaborateurs