Examen BIG

Una plataforma de código abierto es un entorno o un conjunto de
herramientas y tecnologías que están disponibles para ser utilizadas, modificadas y

distribuidas libremente por cualquier persona
Características principales
Acceso al código fuente
Licencias abiertas
Colaboración comunitaria
Ejemplos de plataformas de código abierto

Linux
Apache HTTP Server
WordPress
El paradigma de "map-reduce" es un modelo de programación que

permite procesar y generar grandes conjuntos de datos de manera paralela y
distribuida
Fase de Map
aplica una función a cada elemento de un conjunto de datos de entrada para generar
un conjunto intermedio de pares clave-valor. La función de mapa es responsable de
transformar los datos de entrada en un formato que pueda ser procesado en la fase
de reducción
Implementaciones Populares
- Hadoop: Un framework de código abierto que implementa el paradigma

MapReduce. Utiliza el sistema de archivos distribuido Hadoop (HDFS) para el
almacenamiento y la gestión de datos.
-Apache Spark Un motor de procesamiento de datos en tiempo real que puede

ejecutar tareas de MapReduce de manera más eficiente mediante el uso de memoria
en lugar de disco.
- **Escalabilidad**: Puede manejar grandes volúmenes de datos distribuidos
en múltiples máquinas.
- **Flexibilidad**: Puede aplicarse a una amplia gama de problemas de

procesamiento de datos.
- **Tolerancia a fallos**: La redundancia y la reejecución de tareas fallidas

permiten una mayor confiabilidad.
El sistema de archivos distribuido de Hadoop, conocido como Hadoop

Distributed File System (HDFS), es un componente central del marco Hadoop,
diseñado para almacenar y gestionar grandes cantidades de datos de manera
distribuida en clústeres de servidores.
Características de HDFS
• Escalabilidad:
• Alta disponibilidad
• Tolerancia a fallos:
• Optimización para lectura/escritura de grandes volúmenes
• Acceso basado en flujo de datos
Arquitectura de HDFS
La arquitectura de HDFS se compone de dos tipos principales de nodos: el
NameNode y los DataNodes
1. **NameNode**:
- Actúa como el maestro del clúster HDFS.
- Mantiene la información de la estructura del sistema de archivos (metadata),

incluyendo el árbol de directorios y los bloques que forman cada archivo.
- Gestiona las operaciones de creación, borrado y renombrado de archivos y

directorios.
- No almacena los datos del usuario directamente.
2. **DataNodes**:
- Son los nodos trabajadores que almacenan los datos reales.
- Cada archivo se divide en bloques de tamaño fijo (por defecto, 128 MB) y estos
bloques se replican en varios DataNodes.
- Los DataNodes informan periódicamente al NameNode con informes de bloque

para mantener la integridad y consistencia de los datos.
Hadoop Common Actúa como la base sobre la cual se construyen otros módulos
y proporciona las herramientas y servicios necesarios para que el sistema Hadoop.
Características de Hadoop Common
1. Bibliotecas y Utilidades.
2. Configuración
3.Seguridad
4. **Interfaces de Programación de Aplicaciones (APIs
Componentes de Hadoop Common
1. **Sistema de Archivos (FileSystem)**: Un marco abstracto para los sistemas de

archivos que incluye implementaciones para HDFS, el sistema de archivos local y
otros.
2. **Configuración (Configuration)**: Una API que permite la configuración de

propiedades del sistema y de las aplicaciones.
3. **RPC (Remote Procedure Call)**: Un mecanismo que facilita la comunicación

entre nodos en el clúster Hadoop.
4. **Serialización**: Herramientas para la serialización y deserialización de datos,

cruciales para la eficiencia en la transferencia y almacenamiento de datos.
5. **Servicios y Daemons**: Servicios de soporte y daemons que son necesarios para

la operación de Hadoop, como scripts de inicio/parada y monitoreo del estado del
sistema.
6. **Utilidades Comunes**: Herramientas para tareas comunes como copiar archivos

entre diferentes sistemas de archivos, compresión y descompresión de datos, entre
otras.
Chukwa
Propósito Recolección y análisis de datos de monitoreo.
Descripción Chukwa es un sistema para la recopilación y análisis de grandes

volúmenes de datos de monitoreo
Uso Monitoreo y análisis de logs en tiempo real para obtener información sobre el
rendimiento y el estado de los sistemas distribuidos.
Flume
Propósito Ingesta de datos.

Descripción: Apache Flume es un servicio distribuido, confiable y disponible para
recopilar, agregar y mover grandes cantidades de datos de log desde múltiples
fuentes a un almacén de datos central
Uso: Recopilación y transferencia de datos de log desde múltiples fuentes

(servidores web, aplicaciones, etc.)
Hive
Propósito: Almacenamiento y consulta de datos mediante SQL.

Descripción: consulta y el manejo de grandes conjuntos de datos residiendo en
almacenamiento distribuido utilizando sintaxis SQL
Uso: Consultas y análisis de datos en Hadoop utilizando un lenguaje similar a SQL,

conocido como HiveQL,
Pig
Propósito Procesamiento de grandes conjuntos de datos.

Descripción: Apache Pig es una plataforma de alto nivel para crear programas que
ejecuten sobre Hadoop.
-Uso: Procesamiento y análisis de grandes volúmenes de datos con un lenguaje de

alto nivel que simplifica la programación de tareas de MapReduce.
Resumen
- **Chukwa**: Monitoreo y análisis de logs en tiempo real.

- **Flume**: Ingesta de datos de log a Hadoop.
- **Hive**: Almacenamiento y consulta de datos con SQL.
- **Pig**: Procesamiento de datos con un lenguaje de alto nivel.
La copia de datos básica en Hadoop generalmente

se refiere a la transferencia de datos entre sistemas
de archivos o dentro del mismo sistema HDFS.
Hadoop Streaming permite a los usuarios crear y ejecutar trabajos MapReduce

con cualquier lenguaje de programación que pueda leer desde la entrada estándar
(stdin) y escribir en la salida estándar (stdout).
Características de Hadoop Streaming

Flexibilidad en los Lenguajes de Programación:
Simplicidad:
Interoperabilidad: Puede interactuar con otros componentes del ecosistema Hadoop, como HDFS y YARN.

Examen BIG

Cargado por

Copyright:

Formatos disponibles

Examen BIG

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Examen BIG

Cargado por

Copyright:

Formatos disponibles

Una plataforma de código abierto es un entorno o un conjunto de

herramientas y tecnologías que están disponibles para ser utilizadas, modificadas y

Ejemplos de plataformas de código abierto

Apache HTTP Server

El paradigma de "map-reduce" es un modelo de programación que

- Hadoop: Un framework de código abierto que implementa el paradigma

-Apache Spark Un motor de procesamiento de datos en tiempo real que puede

- **Flexibilidad**: Puede aplicarse a una amplia gama de problemas de

- **Tolerancia a fallos**: La redundancia y la reejecución de tareas fallidas

El sistema de archivos distribuido de Hadoop, conocido como Hadoop

- Mantiene la información de la estructura del sistema de archivos (metadata),

- Gestiona las operaciones de creación, borrado y renombrado de archivos y

- No almacena los datos del usuario directamente.

- Los DataNodes informan periódicamente al NameNode con informes de bloque

Características de Hadoop Common

4. **Interfaces de Programación de Aplicaciones (APIs

Componentes de Hadoop Common

1. **Sistema de Archivos (FileSystem)**: Un marco abstracto para los sistemas de

2. **Configuración (Configuration)**: Una API que permite la configuración de

3. **RPC (Remote Procedure Call)**: Un mecanismo que facilita la comunicación

4. **Serialización**: Herramientas para la serialización y deserialización de datos,

5. **Servicios y Daemons**: Servicios de soporte y daemons que son necesarios para

6. **Utilidades Comunes**: Herramientas para tareas comunes como copiar archivos

Propósito Recolección y análisis de datos de monitoreo.

Descripción Chukwa es un sistema para la recopilación y análisis de grandes

Propósito Ingesta de datos.

Uso: Recopilación y transferencia de datos de log desde múltiples fuentes

Propósito: Almacenamiento y consulta de datos mediante SQL.

Uso: Consultas y análisis de datos en Hadoop utilizando un lenguaje similar a SQL,

Propósito Procesamiento de grandes conjuntos de datos.

-Uso: Procesamiento y análisis de grandes volúmenes de datos con un lenguaje de

- **Chukwa**: Monitoreo y análisis de logs en tiempo real.

La copia de datos básica en Hadoop generalmente

Hadoop Streaming permite a los usuarios crear y ejecutar trabajos MapReduce

Características de Hadoop Streaming

También podría gustarte

- Flexibilidad: Puede aplicarse a una amplia gama de problemas de

- Tolerancia a fallos: La redundancia y la reejecución de tareas fallidas

1. Sistema de Archivos (FileSystem): Un marco abstracto para los sistemas de

2. Configuración (Configuration): Una API que permite la configuración de

3. RPC (Remote Procedure Call): Un mecanismo que facilita la comunicación

4. Serialización: Herramientas para la serialización y deserialización de datos,

5. Servicios y Daemons: Servicios de soporte y daemons que son necesarios para

6. Utilidades Comunes: Herramientas para tareas comunes como copiar archivos

- Chukwa: Monitoreo y análisis de logs en tiempo real.