Téléchargez comme RTF, PDF, TXT ou lisez en ligne sur Scribd
Télécharger au format rtf, pdf ou txt
Vous êtes sur la page 1sur 6
TD2 : (question de Cours)
1) Modes d’exécution d’Hadoop et leurs
différences : • Standalone (local mode) : ◦ Tout fonctionne sur un seul nœud sans HDFS. ◦ Utilisé pour le développement et le test rapide. ◦ Ne nécessite aucune configuration. • Pseudo-distributed mode : ◦ Les démons HDFS (NameNode, DataNode) et YARN (ResourceManager, NodeManager) tournent sur un seul nœud. ◦ Permet de simuler un cluster pour des tests à petite échelle. • Fully-distributed mode : ◦ Hadoop s’exécute sur plusieurs nœuds dans un véritable environnement de cluster. ◦ Idéal pour les environnements de production. •
2) Modes d’installation de Hadoop
• Installation Manuelle : • Avantages : Flexibilité totale, compréhension approfondie du fonctionnement de chaque composant. • Inconvénients : Long et complexe, nécessite une bonne connaissance de l'architecture Hadoop. • Installation avec un gestionnaire de distribution (ex. Cloudera Manager, Ambari) : • Avantages : Installation simplifiée, gestion centralisée des configurations, mise à jour facile. • Inconvénients : Moins de contrôle sur les configurations, dépendance à l'outil de gestion.
3) Notion d’une distribution
Une distribution fait référence à une version d'un logiciel qui inclut le logiciel de base ainsi que des outils, des bibliothèques et des configurations supplémentaires pour faciliter l'installation, la gestion et l'utilisation. Dans le contexte de Hadoop, des distributions comme Cloudera, Hortonworks, et MapR intègrent Hadoop avec des outils complémentaires pour améliorer son utilisation.
4) Étapes d’installation manuelle de Hadoop
1 Télécharger la distribution de Hadoop. 2 Installer Java (JDK) et configurer les variables d'environnement. 3 Décompresser Hadoop et configurer les fichiers de configuration (core-site.xml, hdfs-site.xml, etc.). 4 Formater le système de fichiers HDFS. 5 Démarrer les services Hadoop (NameNode, DataNode, ResourceManager, NodeManager). 6 Vérifier que les services fonctionnent correctement.
5) Contenu des fichiers de configuration
• core-site.xml : Configuration de base de Hadoop, incluant les paramètres du système de fichiers et les adresses des services. • hdfs-site.xml : Configuration spécifique à HDFS, comme le répertoire de stockage des données et les paramètres de réplication. • mapred-site.xml : Configuration pour MapReduce, spécifiant le framework à utiliser (par exemple, YARN). • yarn-site.xml : Configuration pour YARN, incluant les paramètres de gestion des ressources et des nœuds. 6) Commandes de démarrage / arrêt de Hadoop • Démarrer Hadoop : ⁃ start-dfs.sh ⁃ start-yarn.sh • Arrêter Hadoop : ⁃ stop-yarn.sh ⁃ stop-dfs.sh
7) Interagir avec HDFS
Pour manipuler HDFS, utilisez les commandes suivantes : • Lister les fichiers : ⁃ hdfs dfs -ls /path • Copier un fichier local vers HDFS : ⁃ hdfs dfs -put localfile /hdfs/path • Copier un fichier de HDFS vers le système local : ⁃ hdfs dfs -get /hdfs/path localfile • Supprimer un fichier : ⁃ hdfs dfs -rm /hdfs/path Cependant , la commande cd ne put focntionner dans hdfs 8) Classes à créer pour un projet Hadoop Pour un projet Hadoop, il est généralement nécessaire de créer : • Mapper : Classe qui définit le traitement à effectuer sur chaque paire clé/valeur. • Reducer : Classe qui définit comment combiner les résultats du Mapper. • Driver : Classe principale qui configure et exécute le job MapReduce.
9) Différence entre Pig et Hive
• Pig : Un langage de script (Pig Latin) utilisé pour le traitement et requetage de données. Il est plus orienté vers les développeurs et permet de traiter des données de manière séquentielle. • Hive : Un système de data warehouse qui permet d'exécuter des requêtes SQL-like (HiveQL) sur des données stockées dans HDFS. Il est plus orienté vers les analystes de données.
10) Cadre d'utilisation de Hadoop (patrons
de conception) Hadoop peut être utilisé dans divers scénarios, notamment : • Traitement de grandes quantités de données (batch processing). • Analyse de données en temps réel avec des outils comme Apache Spark. • Stockage et gestion de données non structurées. • Intégration de données provenant de sources variées (par exemple, bases de données, fichiers logs). • Mise en place de pipelines de données pour le machine learning et l'analyse prédictive. 11) Différence entre Hortonworks, Cloudera, MapR • Hortonworks : Connu pour sa distribution open source de Hadoop, Hortonworks se concentre sur l'intégration et la gestion des données à grande échelle avec une forte emphase sur la communauté et l'open source. • Cloudera : Propose une plateforme de gestion de données qui inclut Hadoop et d'autres outils. Cloudera se concentre sur la sécurité, la gestion des données et l'analyse avancée. • MapR : Offre une distribution de Hadoop avec des fonctionnalités supplémentaires comme un système de fichiers distribué (MapR-FS) et des capacités de traitement en temps réel. MapR se distingue par sa performance et sa flexibilité.
12) Signification de Hadoop Kernel
Le terme "Hadoop Kernel" fait référence à la couche fondamentale de Hadoop qui gère les opérations de base, y compris la gestion des ressources, le stockage des données et le traitement des tâches. Il est responsable de l'interaction entre les différents composants de l'écosystème Hadoop.
13) Définir les paramètres suivants :
BlockSize et Replication Factor • BlockSize : C'est la taille des blocs de données dans HDFS. Par défaut, la taille est généralement de 128 Mo. Un block size plus grand peut améliorer l'efficacité du stockage et du traitement, mais peut également entraîner des temps d'accès plus longs pour les petits fichiers. • Replication Factor : C'est le nombre de copies d'un bloc de données qui sont stockées dans le cluster. Par défaut, le facteur de réplication est de 3, ce qui assure la tolérance aux pannes et la disponibilité des données.
14) Utilité de Sqoop
Sqoop est un outil utilisé pour transférer des données entre Hadoop et des bases de données relationnelles. Il permet d'importer des données de bases de données vers HDFS et d'exporter des données de HDFS vers des bases de données. Sqoop facilite l'intégration des données et permet d'effectuer des analyses sur de grandes quantités de données stockées dans Hadoop.