Chapitre 2 - HDFS
Chapitre 2 - HDFS
Chapitre 2 - HDFS
Chapitre 2 :
HDFS (Hadoop
Distributed File System)
File Systems
1
03/10/2023
File Systems
2
03/10/2023
NameNode DataNode
3
03/10/2023
Secondary NameNode
• Le NameNode secondaire :
ü Il ne peut pas remplacer le NameNode principal en cas d’échec.
ü Il effectue des points de contrôle périodiques. (CheckPoint)
ü En cas d’échec de NameNode, les administrateurs Hadoop
doivent récupérer manuellement les données du NameNode
secondaire.
4
03/10/2023
Standby NameNode
• Le NameNode en veille :
ü Hadoop 1.0 NameNode est à point unique d’échec (SOPF).
ü Seulement disponible dans Hadoop 2.0.
ü fournit un basculement automatique en cas d’échec du
NameNode actif.
10
5
03/10/2023
11
12
6
03/10/2023
Les réplications
ü Les blocs sont répliqués sur plusieurs nœuds (par défaut 3R),
ü Permet une défaillance de nœud sans perte de données.
13
14
7
03/10/2023
Bloc 1
Bloc 1 Bloc 1
Un fichier Name
très Bloc 2
Node
grand
Bloc 3 Metadata : les
informations
Bloc 1 concernant les
fichiers et
blocs
15
Bloc 1
Bloc 1 Bloc 1
Un fichier Bloc 2
très Bloc 2
grand
Bloc 3
Bloc 2
Bloc 1
Bloc 2
16
8
03/10/2023
Bloc 1
Bloc 3
Bloc 1 Bloc 1
Un fichier Bloc 2
très Bloc 2
grand Bloc 3
Bloc 3
Bloc 2
Bloc 1
Bloc 3
Bloc 2
17
HDFS Configuration
HDFS Defaults
•• Block Size – 64 MB
• Replication Factor – 3
Web UI Port – 50070
HDFS conf file - /etc/hadoop/conf/hdfs-site.xml
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///data1/cloudera/dfs/nn,file:///data2/cloudera/dfs/nn</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>268435456</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>itracXXX.cern.ch:50070</value>
</property>
18
9
03/10/2023
Placement de bloc
• La stratégie actuelle :
ü Une réplique sur un nœud local,
ü la deuxième réplique sur un rack distant,
ü la troisième sur le même rack distant,
ü Des répliques supplémentaires sont placées au hasard
Rq: Les clients lisent à partir des répliques les plus proches.
19
10
03/10/2023
Placement de bloc
Rack 1 Rack 2 Rack m
Fichier
Bloc 2
11
03/10/2023
23
24
12
03/10/2023
25
26
13
03/10/2023
27
28
14
03/10/2023
Pannes temporaire :
ü Défaillance réseau
ü Défaillance logiciel
Pannes permanents :
ü Défaillance matérielle
29
15
03/10/2023
31
Les solutions :
32
16
03/10/2023
HA cluster
◎ Au moins deux
NameNodes;
◎ Au moins trois noeuds de
Zookeeper;
◎ Deux ou 3 Journal Nodes;
◎ Des nœuds esclaves
(DataNodes + Node
Manager).
33
34
17
03/10/2023
35
18
03/10/2023
37
19
03/10/2023
39
40
20
03/10/2023
41
42
21
03/10/2023
En montant le HDFS toutes les opérations sur HDFS peuvent être réalisé
en utilisant les utilitaires standard Unix comme : 'ls', 'cd', 'cp', 'mkdir',
'find', 'grep’.
43
◎ Sur Windows ou Mac, installer VirtualBox ou VMWare et créer une machine Ubuntu.
◎ Sur une machine Ubuntu suivre les étapes spécifié par la tuto suivante :
https://www.edureka.co/blog/install-hadoop-single-node-hadoop-cluster
44
22
03/10/2023
45
23