TD2(Chap3_4)

Télécharger au format rtf, pdf ou txt
Télécharger au format rtf, pdf ou txt
Vous êtes sur la page 1sur 6

TD2 : (question de Cours)

1) Modes d’exécution d’Hadoop et leurs


différences :
• Standalone (local mode) :
◦ Tout fonctionne sur un seul nœud sans HDFS.
◦ Utilisé pour le développement et le test rapide.
◦ Ne nécessite aucune configuration.
• Pseudo-distributed mode :
◦ Les démons HDFS (NameNode, DataNode) et YARN (ResourceManager,
NodeManager) tournent sur un seul nœud.
◦ Permet de simuler un cluster pour des tests à petite échelle.
• Fully-distributed mode :
◦ Hadoop s’exécute sur plusieurs nœuds dans un véritable environnement
de cluster.
◦ Idéal pour les environnements de production.

2) Modes d’installation de Hadoop


• Installation Manuelle :
• Avantages : Flexibilité totale, compréhension
approfondie du fonctionnement de chaque composant.
• Inconvénients : Long et complexe, nécessite une bonne
connaissance de l'architecture Hadoop.
• Installation avec un gestionnaire de distribution (ex.
Cloudera Manager, Ambari) :
• Avantages : Installation simplifiée, gestion centralisée
des configurations, mise à jour facile.
• Inconvénients : Moins de contrôle sur les
configurations, dépendance à l'outil de gestion.

3) Notion d’une distribution


Une distribution fait référence à une version d'un
logiciel qui inclut le logiciel de base ainsi que des outils,
des bibliothèques et des configurations
supplémentaires pour faciliter l'installation, la gestion
et l'utilisation. Dans le contexte de Hadoop, des
distributions comme Cloudera, Hortonworks, et MapR
intègrent Hadoop avec des outils complémentaires
pour améliorer son utilisation.

4) Étapes d’installation manuelle de Hadoop


1 Télécharger la distribution de Hadoop.
2 Installer Java (JDK) et configurer les variables
d'environnement.
3 Décompresser Hadoop et configurer les fichiers de
configuration (core-site.xml, hdfs-site.xml, etc.).
4 Formater le système de fichiers HDFS.
5 Démarrer les services Hadoop (NameNode, DataNode,
ResourceManager, NodeManager).
6 Vérifier que les services fonctionnent correctement.

5) Contenu des fichiers de configuration


• core-site.xml : Configuration de base de Hadoop,
incluant les paramètres du système de fichiers et les
adresses des services.
• hdfs-site.xml : Configuration spécifique à HDFS, comme
le répertoire de stockage des données et les
paramètres de réplication.
• mapred-site.xml : Configuration pour MapReduce,
spécifiant le framework à utiliser (par exemple, YARN).
• yarn-site.xml : Configuration pour YARN, incluant les
paramètres de gestion des ressources et des nœuds.
6) Commandes de démarrage / arrêt de
Hadoop
• Démarrer Hadoop :
⁃ start-dfs.sh
⁃ start-yarn.sh
• Arrêter Hadoop :
⁃ stop-yarn.sh
⁃ stop-dfs.sh

7) Interagir avec HDFS


Pour manipuler HDFS, utilisez les commandes suivantes
:
• Lister les fichiers :
⁃ hdfs dfs -ls /path
• Copier un fichier local vers HDFS :
⁃ hdfs dfs -put localfile /hdfs/path
• Copier un fichier de HDFS vers le système local :
⁃ hdfs dfs -get /hdfs/path localfile
• Supprimer un fichier :
⁃ hdfs dfs -rm /hdfs/path
Cependant , la commande cd ne put focntionner dans
hdfs
8) Classes à créer pour un projet Hadoop
Pour un projet Hadoop, il est généralement nécessaire
de créer :
• Mapper : Classe qui définit le traitement à effectuer sur
chaque paire clé/valeur.
• Reducer : Classe qui définit comment combiner les
résultats du Mapper.
• Driver : Classe principale qui configure et exécute le job
MapReduce.

9) Différence entre Pig et Hive


• Pig : Un langage de script (Pig Latin) utilisé pour le
traitement et requetage de données. Il est plus orienté
vers les développeurs et permet de traiter des données
de manière séquentielle.
• Hive : Un système de data warehouse qui permet
d'exécuter des requêtes SQL-like (HiveQL) sur des
données stockées dans HDFS. Il est plus orienté vers
les analystes de données.

10) Cadre d'utilisation de Hadoop (patrons


de conception)
Hadoop peut être utilisé dans divers scénarios,
notamment :
• Traitement de grandes quantités de données (batch
processing).
• Analyse de données en temps réel avec des outils
comme Apache Spark.
• Stockage et gestion de données non structurées.
• Intégration de données provenant de sources variées
(par exemple, bases de données, fichiers logs).
• Mise en place de pipelines de données pour le machine
learning et l'analyse prédictive.
11) Différence entre Hortonworks, Cloudera,
MapR
• Hortonworks : Connu pour sa distribution open source
de Hadoop, Hortonworks se concentre sur l'intégration
et la gestion des données à grande échelle avec une
forte emphase sur la communauté et l'open source.
• Cloudera : Propose une plateforme de gestion de
données qui inclut Hadoop et d'autres outils. Cloudera
se concentre sur la sécurité, la gestion des données et
l'analyse avancée.
• MapR : Offre une distribution de Hadoop avec des
fonctionnalités supplémentaires comme un système de
fichiers distribué (MapR-FS) et des capacités de
traitement en temps réel. MapR se distingue par sa
performance et sa flexibilité.

12) Signification de Hadoop Kernel


Le terme "Hadoop Kernel" fait référence à la
couche fondamentale de Hadoop qui gère les
opérations de base, y compris la gestion des
ressources, le stockage des données et le traitement
des tâches. Il est responsable de l'interaction entre les
différents composants de l'écosystème Hadoop.

13) Définir les paramètres suivants :


BlockSize et Replication Factor
• BlockSize : C'est la taille des blocs de données dans
HDFS. Par défaut, la taille est généralement de 128 Mo.
Un block size plus grand peut améliorer l'efficacité du
stockage et du traitement, mais peut également
entraîner des temps d'accès plus longs pour les petits
fichiers.
• Replication Factor : C'est le nombre de copies d'un bloc
de données qui sont stockées dans le cluster. Par
défaut, le facteur de réplication est de 3, ce qui assure
la tolérance aux pannes et la disponibilité des données.

14) Utilité de Sqoop


Sqoop est un outil utilisé pour transférer des données
entre Hadoop et des bases de données relationnelles. Il
permet d'importer des données de bases de données
vers HDFS et d'exporter des données de HDFS vers des
bases de données. Sqoop facilite l'intégration des
données et permet d'effectuer des analyses sur de
grandes quantités de données stockées dans Hadoop.

Vous aimerez peut-être aussi