Big Data tp1

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

77 vues6 pages

Big Data tp1

Transféré par

hajrikoussay03

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 6

FST-SBZ A.U.

2024-2025 3ème LSI

TP 1 Big Data
Initiation à Hadoop File System (HDFS)

Objectif :

Ce TP constitue un premier pas vers l’utilisation d’outils Big Data. Nous avons fait le choix de
l’environnement Apache Hadoop, car c’est un framework open-source de stockage et de traitement de
données volumineuses sur un cluster de machines distribuées. Il est utilisé par un grand nombre de
contributeurs et utilisateurs.
Description :

Au terme de ce TP, vous serez capables :

− d’installer Hadoop Framework en mode pseudo-distribué et le configurer
− de manipuler des fichiers dans le système de fichiers distribués HDFS
Environnement logiciel :

− Apache Hadoop version 3.3.1 [http://hadoop.apache.org/]

− JDK : 1.8
Installation de Hadoop Framework :
Vous allez installer la version 3.3.1 de Hadoop. Pour cela, vous devez suivre les étapes suivantes :
Etape 1 : Télécharger Hadoop version 3.3.1 pour windows
Etape 2 : Extraction
Extraire le continu de fichier .tar.gz en utilisant le logiciel 7zip et le placer dans le dossier C:/big-data.
A la fin de cette étape, vous aurez le contenu suivant dans le dossier C:\big-data\hadoop-3.3.1

1
Adel BENALI
FST-SBZ A.U. 2024-2025 3ème LSI

Etape 3 : Ajout des fichiers winutils

télécharger les fichiers nécessaires au fonctionnement de hadoop sur windows de ce lien :
https://github.com/kontext-tech/winutils/tree/master/hadoop-3.3.1/bin. Placer ces fichiers dans le
dossier bin de hadoop-3.3.1 que vous avez téléchargé.
Le dossier bin devra contenir les fichiers suivants :

Etape 4 : installation de java JDK

Télécharger java JDK 1.8 et installer le de façon à ne pas avoir d’espace dans le chemin d’accès (par
exemple C:\Java\jdk1.8.0_161)
Configurer les variables d’environnement en ajoutant la variable JAVA-HOME avec la commande
suivante : SETX JAVA_HOME "C:\Java\jdk1.8.0_161"

Etape 5 : Ajouter la variable d’environnement HADOOP_HOME

De même que java JDK, configurer les variables d’environnement en ajoutant la variable
d’environnement avec la commande : SETX HADOOP_HOME "C:\big-data\hadoop-3.3.1"

Etape 6 : Configurer la variable d’environnement PATH

Ajouter à votre PATH le chemin d’accès aux dossiers bin de java et de hadoop :

• %JAVA_HOME%\bin
• %HADOOP_HOME%\bin

Vérifier que la configuration a été bien faite en tapant winutils.exe dans l’invite de commandes ou le
Windows PowerShell.
2
Adel BENALI
FST-SBZ A.U. 2024-2025 3ème LSI

Vous devez aussi pouvoir exécuter la commande hadoop –version et hadoop version

Etape 7 : Configurer Hadoop

Durant cette étape, vous allez configurer les composants suivants de hadoop : Core, YARN,
MapReduce, HDFS
Configurer core site
Ouvrez le fichier core-site.xml situé dans %HADOOP_HOME%\etc\hadoop
Remplacez la configuration avec :
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://0.0.0.0:9000</value>
</property>
</configuration>
3
Adel BENALI
FST-SBZ A.U. 2024-2025 3ème LSI

Configurer HDFS
Créez un dossier « data » dans le dossier hadoop-3.3.1 (le chemin selon ce tp : C:/big-data/hadoop-
3.3.1/). Dans ce dossier, créez deux dossiers « namenode » et « datanode ».
Ouvrez le fichier hdfs-site.xml situé dans %HADOOP_HOME%\etc\hadoop
Remplacez la configuration avec :
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///C:/big-data/hadoop-3.3.1/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/C:/big-data/hadoop-3.3.1/data/datanode</value>
</property>
</configuration>

Configurer MapReduce et YARN

Ouvrez le fichier mapred-site.xml situé dans %HADOOP_HOME%\etc\hadoop

Remplacez la configuration avec :
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
Ouvrez le fichier yarn-site.xml situé dans %HADOOP_HOME%\etc\hadoop
Remplacez la configuration avec :
<configuration>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShaffleHandler</value>
</property>
</configuration>

4
Adel BENALI
FST-SBZ A.U. 2024-2025 3ème LSI

Lancement de HDFS
1. On formate le système de fichiers : hdfs namenode –format

2. On démarre les démons (NameNode et DataNode) : %HADOOP_HOME%\sbin\start-dfs.cmd

3. Vous pouvez accéder à l’interface web de hadoop via l’adresse : http://localhost:9870/

5
Adel BENALI
FST-SBZ A.U. 2024-2025 3ème LSI

En cas de problème avec HDFS, il faut

1. arrêter le serveur hdfs avec la commande %HADOOP_HOME%\sbin\stop-dfs.cmd

2. supprimer tout les répertoires qui ont un rapport avec hadoop
3. et recommencer à hdfs namenode -format ...

Manipulation de HDFS :
Toutes les commandes interagissant avec le système de fichiers Hadoop commencent par hadoop fs.
Ensuite, les options rajoutées sont très largement inspirées des commandes Unix standard.
Dans cette section, nous allons utiliser les commandes du shell Hadoop de façon à importer des
données dans HDFS et à exporter des données à partir de HDFS. Ces commandes sont souvent
employées pour charger des données appropriées, à télécharger des données traitées, à maintenir le
système de fichiers et à consulter le contenu des dossiers. Il est donc indispensable de les connaître
pour exploiter efficacement HDFS.
La première étape est la création des répertoires nécessaires (votre espace de stockage)
hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/<votre user_name>
ou bien
hdfs dfs –mkdir -p /user/<votre user_name>

Réalisez les opérations minimales suivantes pour prendre en main hdfs :

1. Créer un dossier rep1 dans HDFS : hadoop dfs -mkdir rep1
2. Placer un fichier myfile.txt dans le répertoire créé : Pour copier le fichier myfile.txt dans
HDFS sous le répertoire rep1, il s’agit de se placer dans le répertoire local data où se trouve le
fichier, puis tapez la commande : hadoop fs -put myfile.txt rep1/
3. Lister le contenu du répertoire hdfs : hadoop dfs -ls rep1
4. Pour visualiser les dernières lignes du fichier, tapez :
hadoop fs -tail rep1/myfile.txt
5. Renommer le fichier dans hdfs :
hadoop fs -mv rep1/myfile.txt rep1/newfile.txt
6. Récupérer le fichier placé sur hdfs et l'enregistrer dans un fichier local :
hadoop fs -get rep1/newfile.txt

Voici une autre commande (à utiliser dans un cluster multi-nœuds mais vous pouvez la tester) :
• hdfs fsck /user/<votre user_name>-files -blocks : affiche la liste des blocs utilisés
par vos fichiers

6
Adel BENALI

Vous aimerez peut-être aussi

Cours Management Des SI
100% (1)
Cours Management Des SI
176 pages
Optimisation Des Bases de Données
50% (2)
Optimisation Des Bases de Données
267 pages
TP2 - BD
0% (1)
TP2 - BD
8 pages
Powerpoint: Guide de Formation Avec Exercices Et Cas Pratiques
Pas encore d'évaluation
Powerpoint: Guide de Formation Avec Exercices Et Cas Pratiques
36 pages
Hadoop Installation Sous Windows - Sysblog
Pas encore d'évaluation
Hadoop Installation Sous Windows - Sysblog
18 pages
Chapitre 2 - HDFS
Pas encore d'évaluation
Chapitre 2 - HDFS
23 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
16 pages
Réussir Son Projet CRM PDF
100% (1)
Réussir Son Projet CRM PDF
64 pages
TP01 Installation de Hadoop Sous Linux
100% (1)
TP01 Installation de Hadoop Sous Linux
10 pages
M1 BigData Sequence04 Activité03 Initiation Hadoop
Pas encore d'évaluation
M1 BigData Sequence04 Activité03 Initiation Hadoop
17 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
50 pages
Comprendre XSLT
100% (1)
Comprendre XSLT
287 pages
Procedure D'installation de Hadoop
100% (1)
Procedure D'installation de Hadoop
13 pages
tp1 Hdfs
Pas encore d'évaluation
tp1 Hdfs
7 pages
TP #1: Le Traitement Batch Avec Hadoop, Hdfs Et Mapreduce
Pas encore d'évaluation
TP #1: Le Traitement Batch Avec Hadoop, Hdfs Et Mapreduce
11 pages
TP1 Polytech
Pas encore d'évaluation
TP1 Polytech
11 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
11 pages
Support LPIC-201 2012 Impression
50% (2)
Support LPIC-201 2012 Impression
89 pages
Hadoop 3.3.6 On Ubuntu 22.04 LTS 1
Pas encore d'évaluation
Hadoop 3.3.6 On Ubuntu 22.04 LTS 1
13 pages
Jour1 Configuration Hadoop (4th Copy)
Pas encore d'évaluation
Jour1 Configuration Hadoop (4th Copy)
9 pages
TP BD Hadoop
Pas encore d'évaluation
TP BD Hadoop
7 pages
EXAMEN Tech Principal 2018
0% (1)
EXAMEN Tech Principal 2018
4 pages
Chapitre 2 - Fondement Du Big Data
Pas encore d'évaluation
Chapitre 2 - Fondement Du Big Data
37 pages
Simatic Hmi Wincc V7.5 Wincc: Scripting (VBS, Ansi-C, Vba)
Pas encore d'évaluation
Simatic Hmi Wincc V7.5 Wincc: Scripting (VBS, Ansi-C, Vba)
2 696 pages
tp1 Mapreduce
Pas encore d'évaluation
tp1 Mapreduce
15 pages
Installation-Hadoop Mastere
Pas encore d'évaluation
Installation-Hadoop Mastere
17 pages
Bigdata Part2
Pas encore d'évaluation
Bigdata Part2
42 pages
Big Data
Pas encore d'évaluation
Big Data
16 pages
Guide Complet Recommandation Hadoop
Pas encore d'évaluation
Guide Complet Recommandation Hadoop
40 pages
TP Hadoop
Pas encore d'évaluation
TP Hadoop
15 pages
Installation Hadoop
Pas encore d'évaluation
Installation Hadoop
22 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
18 pages
CHAPITRE2 Fondements Big Data HDFS 2024
Pas encore d'évaluation
CHAPITRE2 Fondements Big Data HDFS 2024
24 pages
Chapitre3 Mapreduce
Pas encore d'évaluation
Chapitre3 Mapreduce
23 pages
TP 1
Pas encore d'évaluation
TP 1
13 pages
Bill Gates
100% (1)
Bill Gates
12 pages
Réparer-Récupérer Une Partition
Pas encore d'évaluation
Réparer-Récupérer Une Partition
20 pages
Chap 1 - HDFS-11
Pas encore d'évaluation
Chap 1 - HDFS-11
43 pages
Big Data Analytics
Pas encore d'évaluation
Big Data Analytics
31 pages
TP2 - HDFS - Etudiants (Copy)
Pas encore d'évaluation
TP2 - HDFS - Etudiants (Copy)
4 pages
Atelier3-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3-KafkaLocal Said Ali Abdi
24 pages
Libgdx Programmation
Pas encore d'évaluation
Libgdx Programmation
2 pages
TP1 Big Data Installation
Pas encore d'évaluation
TP1 Big Data Installation
9 pages
Guide Dinstallation de Hadoop Sous Windows
Pas encore d'évaluation
Guide Dinstallation de Hadoop Sous Windows
7 pages
Tp1 Big Data
Pas encore d'évaluation
Tp1 Big Data
10 pages
Fondements Du Big Data TP1
Pas encore d'évaluation
Fondements Du Big Data TP1
3 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
7 pages
Rapport de Projet Big Data
Pas encore d'évaluation
Rapport de Projet Big Data
25 pages
TP N°1 - Installation Via Paquets
Pas encore d'évaluation
TP N°1 - Installation Via Paquets
6 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
4 pages
Résumé Advanced Big Data
Pas encore d'évaluation
Résumé Advanced Big Data
16 pages
TP BigData 02
Pas encore d'évaluation
TP BigData 02
3 pages
CR 1
Pas encore d'évaluation
CR 1
10 pages
TP 2 Procéduredinstallation de Hadoop 240927 201419
Pas encore d'évaluation
TP 2 Procéduredinstallation de Hadoop 240927 201419
14 pages
Compte Rendu tp1
Pas encore d'évaluation
Compte Rendu tp1
9 pages
Atelier 2 Big Data
Pas encore d'évaluation
Atelier 2 Big Data
14 pages
TP 1 Hadoop
Pas encore d'évaluation
TP 1 Hadoop
6 pages
TP5Bigdata INDIA 2023 2024
Pas encore d'évaluation
TP5Bigdata INDIA 2023 2024
5 pages
TP1 - HDFS VF
Pas encore d'évaluation
TP1 - HDFS VF
9 pages
Atelier3.1-KafkaLocal Said Ali Abdi
Pas encore d'évaluation
Atelier3.1-KafkaLocal Said Ali Abdi
12 pages
Version 2
Pas encore d'évaluation
Version 2
108 pages
TP 1
Pas encore d'évaluation
TP 1
10 pages
1atelier 1 - Installation Hadoop - V23-24
Pas encore d'évaluation
1atelier 1 - Installation Hadoop - V23-24
11 pages
Tp0 Installation Hadoopv2
Pas encore d'évaluation
Tp0 Installation Hadoopv2
13 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
10 pages
TP1 Hadoop
Pas encore d'évaluation
TP1 Hadoop
2 pages
TP1: Installation D'un Cluster Hadoop Avec Docker
Pas encore d'évaluation
TP1: Installation D'un Cluster Hadoop Avec Docker
4 pages
SCI TP Semaine 10
Pas encore d'évaluation
SCI TP Semaine 10
7 pages
Boudaoud F.
Pas encore d'évaluation
Boudaoud F.
98 pages
TP1 Hadoop-Initiation 2023
Pas encore d'évaluation
TP1 Hadoop-Initiation 2023
4 pages
TP BigData 01
Pas encore d'évaluation
TP BigData 01
3 pages
DS-2-Big Data Et Cloud
Pas encore d'évaluation
DS-2-Big Data Et Cloud
2 pages
Ecam-Epmi 2
Pas encore d'évaluation
Ecam-Epmi 2
33 pages
TP - AD, OpenVPN Et PFsense
Pas encore d'évaluation
TP - AD, OpenVPN Et PFsense
17 pages
Notice Installation SolidWorks EE 2009-2010
Pas encore d'évaluation
Notice Installation SolidWorks EE 2009-2010
28 pages
FT Evol pl7 v44
Pas encore d'évaluation
FT Evol pl7 v44
1 page
Cours VMware Virtualisation 6
Pas encore d'évaluation
Cours VMware Virtualisation 6
6 pages
BR Calibry Pip-Cal FR
Pas encore d'évaluation
BR Calibry Pip-Cal FR
12 pages
06-Tableaux en Java
Pas encore d'évaluation
06-Tableaux en Java
21 pages
Chapitre 2
Pas encore d'évaluation
Chapitre 2
106 pages
Info Pour Le Crack
0% (1)
Info Pour Le Crack
1 page
Trixbox - Installation Et Configuration Avec Softphone - Autres - IT-Connect
Pas encore d'évaluation
Trixbox - Installation Et Configuration Avec Softphone - Autres - IT-Connect
20 pages
Epreuve EDL
Pas encore d'évaluation
Epreuve EDL
2 pages
Pojet BI
Pas encore d'évaluation
Pojet BI
18 pages
Devoir Surveille - It 231 - Licence 2 - GL - S3 - 2024 - 2025
Pas encore d'évaluation
Devoir Surveille - It 231 - Licence 2 - GL - S3 - 2024 - 2025
2 pages
Quatrième
Pas encore d'évaluation
Quatrième
2 pages
CV 2024-09-24 Ikram Ech-Chababi
Pas encore d'évaluation
CV 2024-09-24 Ikram Ech-Chababi
1 page
Démarrer avec OpenBSD
D'Everand
Démarrer avec OpenBSD
Wesley Mouedine Assaby
3/5 (1)
Ubuntu Server 10.04
D'Everand
Ubuntu Server 10.04
MARTIN Pierre-Jean
5/5 (1)