Prérequis et objectifs

Résultats attendus

Résultats attendus

Attestation de formation

Prérequis de la formation

Prérequis de la formation

Aucun

Objectifs de la formation

Objectifs de la formation

Connaitre les fonctionnements d'Hadoop Distributed File System (HDFS) et YARN / MapReduce
Savoir explorer HDFS et suivre l’exécution d’une application YARN
Déterminer les fonctionnements et l'utilisation les différents outils de manipulation des données

Objectifs de sortie

Objectifs de sortie

Comprendre ce que sont Hadoop et YARN
Connaître les différents outils et les Framework dans un environnement Hadoop 2.0
Appréhender MapReduce
Comprendre comment exécuter une tâche de MapReduce sur YARN
Exécuter des modifications en masse avec PIG
Savoir écrire des requêtes pour HIVE afin d’analyser ses données
Savoir utiliser Sqoop pour transférer les données entre Hadoop et une base de données relationnelle
Découverte d’autres briques : automatiser vos process avec Oozie
Utiliser une base de données No-SQL (HBase)

Domaines

Domaine(s)
Statistique appliquée
Data Warehouse

Contenu

Contenu

- Hadoop

  • Comprendre Hadoop et son écosystème
  • Quels impacts de l’arrivée d’Hadoop dans un SI traditionnel ?
  • Le Hadoop Distributed File System (HDFS)
  • Introduction aux données dans HDFS
  • MapReduce Framework et YARN

- Pig

  • Introduction à Pig
  • Programmation Pig avancée
  • Troubleshooting et optimisation avec Pig
  • Résolution des problèmes avec Pig
  • Utiliser l’UI Web d’Hadoop
  • Démo optionnelle : résolution d’un « Failed Job » avec l’UI Web
  • Echantillonnage de données et débogage
  • Vue d’ensemble des performances
  • Comprendre le plan d’exécution
  • Astuces pour améliorer la performance de vos « Pig Jobs »

- Hive

  • Programmation Hive
  • Utilisation de HCatalog
  • Programmation Hive avancée
  • Etendre Hive
  • Transformation de données avec des Scripts personnalisés
  • Fonctions définies par l’utilisateur
  • Paramétrer les requêtes
  • Exercices « Hands-On » : transformation de données avec Hive
  • Programmation Hive avancée (suite)
  • Analyse de données et statistiques

- Sqoop

  • Import/Export avec Sqoop (SGBDR <-> HDFS)
  • Sqoop, fonctions avancées
  • Définition de workflow avec Oozie

- Optionnel : (sous réserve de temps)

  • Introduction à H-Base
  • Exemple d’ingestion de données avec l’ETL Talend
  • Créer son propre cluster Hadoop (plateforme de test)

Sessions