Fondements Du Big Data TP1
Fondements Du Big Data TP1
Fondements Du Big Data TP1
MOHAMED CHERRADI
Ecole Nationale des Sciences Appliquées &&
Al Hoceima Anass EL HADDADI
TP 01 :
« Installation du Hadoop sous Windows. »
1. Objectif
Cette séance de TP constitue un premier pas vers l’utilisation d’outils Big Data. Nous avons fait le choix de
l’environnement Apache Hadoop, car c’est un Framework open-source de stockage distribué et de traitement
parallèle de données volumineuses sur un cluster HDFS.
Au terme de ce TP, vous serez capables d’installer et lancer toutes les composantes de Hadoop correctement.
Pour la configuration Hadoop, nous devons modifier les composantes répertoriés ci-dessous.
2. Installation
Hdfs-site.xml : Configurer HDFS, en particulier, les nœuds NameNode (NN), Secondary NameNode (SNN), et
les DataNode (DN)
o dfs.datanode.name.dir : Liste des répertoires dans lequel le DataNode stocke des blocs. Chaque block
est stocké dans un seul de ces répertoires.
o dfs.replication : Par défaut, HDFS réplique les blocks de données avec un facteur de 3. Lorsqu’il est
exécuté avec un seul DataNode, HDFS ne peut pas réplique les blocs de données en trois DataNodes. Ce
problème est résolu par la valeur 1.
Université Abdelmalek Essaadi Enseignants :
MOHAMED CHERRADI
Ecole Nationale des Sciences Appliquées &&
Al Hoceima Anass EL HADDADI
- Créer les métadonnées initiales dans le disque (fsimage), dans le répertoire spécifie.
b. Démarrage du NN et DN :
start-dfs
o mapreduce.framework.name : Runtime framework pour l’éxecution des jobs MapReduce. Elle peut
etre local, classic, ou yarn.
Université Abdelmalek Essaadi Enseignants :
MOHAMED CHERRADI
Ecole Nationale des Sciences Appliquées &&
Al Hoceima Anass EL HADDADI
Le fichier yarn.xml : Configuration des paramètres de YARN (Ressource Manager, Node Manager, …)
Stop-yarn