Examen BIG

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

Una plataforma de código abierto es un entorno o un conjunto de

herramientas y tecnologías que están disponibles para ser utilizadas, modificadas y


distribuidas libremente por cualquier persona

Características principales
Acceso al código fuente

Licencias abiertas

Colaboración comunitaria

Ejemplos de plataformas de código abierto


Linux

Apache HTTP Server

WordPress

El paradigma de "map-reduce" es un modelo de programación que


permite procesar y generar grandes conjuntos de datos de manera paralela y
distribuida

Fase de Map

aplica una función a cada elemento de un conjunto de datos de entrada para generar
un conjunto intermedio de pares clave-valor. La función de mapa es responsable de
transformar los datos de entrada en un formato que pueda ser procesado en la fase
de reducción

Implementaciones Populares

- Hadoop: Un framework de código abierto que implementa el paradigma


MapReduce. Utiliza el sistema de archivos distribuido Hadoop (HDFS) para el
almacenamiento y la gestión de datos.

-Apache Spark Un motor de procesamiento de datos en tiempo real que puede


ejecutar tareas de MapReduce de manera más eficiente mediante el uso de memoria
en lugar de disco.
- **Escalabilidad**: Puede manejar grandes volúmenes de datos distribuidos
en múltiples máquinas.

- **Flexibilidad**: Puede aplicarse a una amplia gama de problemas de


procesamiento de datos.

- **Tolerancia a fallos**: La redundancia y la reejecución de tareas fallidas


permiten una mayor confiabilidad.

El sistema de archivos distribuido de Hadoop, conocido como Hadoop


Distributed File System (HDFS), es un componente central del marco Hadoop,
diseñado para almacenar y gestionar grandes cantidades de datos de manera
distribuida en clústeres de servidores.

Características de HDFS

• Escalabilidad:
• Alta disponibilidad
• Tolerancia a fallos:
• Optimización para lectura/escritura de grandes volúmenes
• Acceso basado en flujo de datos

Arquitectura de HDFS
La arquitectura de HDFS se compone de dos tipos principales de nodos: el
NameNode y los DataNodes
1. **NameNode**:
- Actúa como el maestro del clúster HDFS.

- Mantiene la información de la estructura del sistema de archivos (metadata),


incluyendo el árbol de directorios y los bloques que forman cada archivo.

- Gestiona las operaciones de creación, borrado y renombrado de archivos y


directorios.

- No almacena los datos del usuario directamente.

2. **DataNodes**:
- Son los nodos trabajadores que almacenan los datos reales.

- Cada archivo se divide en bloques de tamaño fijo (por defecto, 128 MB) y estos
bloques se replican en varios DataNodes.

- Los DataNodes informan periódicamente al NameNode con informes de bloque


para mantener la integridad y consistencia de los datos.
Hadoop Common Actúa como la base sobre la cual se construyen otros módulos
y proporciona las herramientas y servicios necesarios para que el sistema Hadoop.

Características de Hadoop Common

1. Bibliotecas y Utilidades.

2. Configuración

3.Seguridad

4. **Interfaces de Programación de Aplicaciones (APIs

Componentes de Hadoop Common

1. **Sistema de Archivos (FileSystem)**: Un marco abstracto para los sistemas de


archivos que incluye implementaciones para HDFS, el sistema de archivos local y
otros.

2. **Configuración (Configuration)**: Una API que permite la configuración de


propiedades del sistema y de las aplicaciones.

3. **RPC (Remote Procedure Call)**: Un mecanismo que facilita la comunicación


entre nodos en el clúster Hadoop.

4. **Serialización**: Herramientas para la serialización y deserialización de datos,


cruciales para la eficiencia en la transferencia y almacenamiento de datos.

5. **Servicios y Daemons**: Servicios de soporte y daemons que son necesarios para


la operación de Hadoop, como scripts de inicio/parada y monitoreo del estado del
sistema.

6. **Utilidades Comunes**: Herramientas para tareas comunes como copiar archivos


entre diferentes sistemas de archivos, compresión y descompresión de datos, entre
otras.
Chukwa

Propósito Recolección y análisis de datos de monitoreo.

Descripción Chukwa es un sistema para la recopilación y análisis de grandes


volúmenes de datos de monitoreo

Uso Monitoreo y análisis de logs en tiempo real para obtener información sobre el
rendimiento y el estado de los sistemas distribuidos.

Flume

Propósito Ingesta de datos.


Descripción: Apache Flume es un servicio distribuido, confiable y disponible para
recopilar, agregar y mover grandes cantidades de datos de log desde múltiples
fuentes a un almacén de datos central

Uso: Recopilación y transferencia de datos de log desde múltiples fuentes


(servidores web, aplicaciones, etc.)

Hive

Propósito: Almacenamiento y consulta de datos mediante SQL.


Descripción: consulta y el manejo de grandes conjuntos de datos residiendo en
almacenamiento distribuido utilizando sintaxis SQL

Uso: Consultas y análisis de datos en Hadoop utilizando un lenguaje similar a SQL,


conocido como HiveQL,
Pig

Propósito Procesamiento de grandes conjuntos de datos.


Descripción: Apache Pig es una plataforma de alto nivel para crear programas que
ejecuten sobre Hadoop.

-Uso: Procesamiento y análisis de grandes volúmenes de datos con un lenguaje de


alto nivel que simplifica la programación de tareas de MapReduce.

Resumen

- **Chukwa**: Monitoreo y análisis de logs en tiempo real.


- **Flume**: Ingesta de datos de log a Hadoop.
- **Hive**: Almacenamiento y consulta de datos con SQL.
- **Pig**: Procesamiento de datos con un lenguaje de alto nivel.

La copia de datos básica en Hadoop generalmente


se refiere a la transferencia de datos entre sistemas
de archivos o dentro del mismo sistema HDFS.

Hadoop Streaming permite a los usuarios crear y ejecutar trabajos MapReduce


con cualquier lenguaje de programación que pueda leer desde la entrada estándar
(stdin) y escribir en la salida estándar (stdout).

Características de Hadoop Streaming


Flexibilidad en los Lenguajes de Programación:

Simplicidad:

Interoperabilidad: Puede interactuar con otros componentes del ecosistema Hadoop, como HDFS y YARN.

También podría gustarte