Hadoop
Hadoop
Hadoop
Matricula; 20210691.
1. Introducción
o 3.2. Ventajas
5. Conclusión
6. Bibliografía
Ecosistema Hadoop
Introducción
Hadoop, desarrollado por Apache, ofrece una solución escalable y eficiente para enfrentar estos
desafíos. Su arquitectura se basa en dos componentes fundamentales:
El ecosistema Hadoop incluye herramientas complementarias como Hive, Pig y Spark, que
potencian su funcionalidad. Este documento se enfoca en HDFS, MapReduce y los modos de
operación de clúster, ofreciendo un panorama integral del funcionamiento de Hadoop en distintas
etapas y escalas.
1. Almacenamiento en Hadoop: HDFS
HDFS (Hadoop Distributed File System) es el sistema de archivos distribuido que permite
almacenar grandes cantidades de datos en un clúster.
Características principales:
• Compatibilidad: Diseñado para manejar datos grandes y trabajar junto con las
herramientas del ecosistema Hadoop.
Arquitectura básica:
• DataNode: Almacena los bloques de datos físicos y los replica según las configuraciones.
1. Map:
o Divide los datos de entrada en pares clave-valor.
o Este paso se realiza en paralelo en diferentes nodos del clúster.
2. Shuffle and Sort:
o Redistribuye los pares clave-valor basándose en sus claves, agrupándolos para su
procesamiento.
o Ordena los datos para simplificar la etapa de reducción.
3. Reduce:
o Consolida los resultados agrupados para generar la salida final.
o Los nodos que ejecutan esta tarea reciben los datos procesados del paso anterior.
Supongamos que queremos contar el número de ocurrencias de cada palabra en un gran conjunto
de documentos:
Hadoop puede operar en tres modos principales. Cada uno está diseñado para atender
necesidades específicas, desde pruebas de desarrollo hasta implementaciones en producción.
• En este modo, Hadoop se ejecuta completamente en una sola máquina sin necesidad de
un clúster real.
• Características:
o No utiliza HDFS ni múltiples nodos.
o Los archivos se procesan desde el sistema de archivos local de la máquina.
o Ideal para desarrollo y depuración inicial de código.
o Ejecuta MapReduce en un solo hilo.
• Ventajas:
o Configuración rápida y sencilla.
o Fácil de depurar.
• Desventajas:
o No es adecuado para manejar grandes volúmenes de datos.
• En este modo, Hadoop utiliza un solo nodo físico para emular un clúster distribuido.
• Características:
o El mismo nodo actúa como NameNode, DataNode, JobTracker y TaskTracker.
o Usa HDFS para almacenamiento y ejecuta procesos en modo distribuido, pero
todo está en una sola máquina.
o Es útil para pruebas avanzadas o demostraciones antes de implementar en
producción.
• Ventajas:
o Permite familiarizarse con la configuración y operación de un clúster distribuido.
o Menor consumo de recursos que un clúster completo.
• Desventajas:
o Limitado por los recursos de una sola máquina.