UD4_ S03_ Big Data

Curso:
Big Data
Preguntas
• ¿Conoces sistemas distribuidos? ¿Conoces el ecosistema hadoop?

Contenidos que veremos el día de hoy
Big Data: Procesamiento batch
1. Apache Hadoop
2. Datalake
3. Apache Spark
Al finalizar esta sesión, conocerá los
conceptos de Apache Hadoop en un
entorno de big data.
Nuestro objetivo
Big Data : Procesamiento batch
• Apache Hadoop
Apache Hadoop: Conceptos
Nodo:
Equipo físico que posee sus propios componentes hardware y software.
Rack:
Conjunto de 1 a n nodos.
Cluster:
Conjunto de 1 a n racks.
Apache Hadoop: Sistemas Distribuidos
Sistemas Distribuidos
Conjunto de ordenadores o nodos separados físicamente y conectados entre sí por una red de
comunicaciones; cada equipo posee sus componentes de hardware y software que el
programador percibe como un solo sistema. Frente a lo establecido por la Ley de Moore
(aproximadamente cada 2 años se duplica el número de transistores en un microprocesador).
Apache Hadoop: Escalabilidad
Escalamiento vertical: Ejemplo: Se puede añadir recursos a

un nodo (RAM, CPU, Disco), es fácil de
La escalabilidad vertical agrega más implementar, los datos están
recursos al servidor existente para consistentes, no es necesario hacer
aumentar su capacidad para almacenar balance de carga, hay un único punto
más datos. Los recursos pueden ser de fallo, hay un límite de hardware.
potencia de cálculo, disco duro, RAM, etc.
Este tipo de escalado está limitado a la
capacidad máxima de escalado del
servidor.
8
Apache Hadoop: Escalabilidad
Escalamiento horizontal: Ejemplo: Se puede añadir nodos a un

clúster, es más difícil de implementar,
El escalado horizontal permite que el los datos están divididos en varios
sistema se amplíe más para satisfacer la nodos, es necesario hacer balance de
creciente demanda. El almacenamiento carga, es más robusto a los fallos, se
escalable utiliza componentes de puede continuar escalando sin límite,
almacenamiento y hardware básicos de necesito software que se adapte a esas
bajo costo. Los componentes se pueden características.
agregar según sea necesario sin mucha
complejidad. Múltiples componentes se
conectan entre sí para trabajar como una
sola entidad.
9
Apache Hadoop: Modelos de distribución
La razón principal detrás de la distribución

de datos en un gran clúster es superar la
dificultad y reducir el costo de comprar
servidores caros.
Existen varios modelos de distribución
con los que se puede manejar un
aumento en el volumen de datos y
grandes volúmenes de solicitudes de
lectura o escritura, y se puede hacer que
la red tenga una alta disponibilidad.
La replicación y la fragmentación son las
dos técnicas principales de distribución de
datos.
10
Apache Hadoop: Fragmentación (sharding)
Es el proceso de partición de conjuntos de

datos muy grandes en fragmentos más
pequeños y fácilmente manejables
llamados fragmentos.
Los fragmentos particionados se
almacenan distribuyéndolos en varias
máquinas llamadas nodos.
No se almacenan dos fragmentos del
mismo archivo en el mismo nodo, cada
fragmento ocupa nodos separados y los
fragmentos repartidos en múltiples nodos
constituyen colectivamente el conjunto
de datos.
11
Apache Hadoop: Replicación de datos
La replicación es el proceso de crear

copias del mismo conjunto de datos en
varios servidores.
Cuando un nodo falla, los datos
almacenados en ese nodo se perderán.
Además, cuando un nodo está inactivo
por mantenimiento, el nodo no estará
disponible hasta que finalice el proceso de
mantenimiento.
Para superar estos problemas, el bloque
de datos se copia en varios nodos.
12
Apache Hadoop: Fragmentación y replicación
La fragmentación y la replicación se
pueden combinar para hacer que el
sistema sea tolerante a fallas y altamente
disponible.
La figura ilustra la combinación de

fragmentación y replicación donde el
conjunto de datos se divide en fragmento
A y fragmento B. El fragmento A se replica
en el nodo A y el nodo B; De manera
similar, el fragmento B se replica en el
nodo C y el nodo D.
13
Ecosistema Hadoop
Apache Hadoop
Apache Hadoop es una infraestructura de software bajo licencia libre usado para gestionar
tanto el almacenamiento como el procesamiento en un sistema distribuido.
Origen y características:
• Escrito en Java (juguete del desarrollador Doug Cutting)
• Lucene: Búsquedas e indexación de texto
• Nutch: Motor de búsquedas web en formato cluster distribuido
• Google File System (GFS) y Map Reduce: Año 2004
Ecosistema Hadoop
Procesamiento distribuido con Hadoop

Ecosistema Hadoop
Los componentes principales de Hadoop son:

• Hadoop Common: Conjunto de utilidades que dan
soporte a otros módulos de Hadoop.
• Hadoop Distributed File System (HDFS™): Sistema de
archivos distribuidos que proporciona alto rendimiento
en el acceso a los datos.
• Hadoop YARN: Framework para planificación de tareas
y gestión de recursos del cluster.
• Hadoop MapReduce: Un sistema basado en Yarn para
el procesamiento en paralelo de grandes conjuntos de
datos.
Hadoop: HDFS
Hadoop: HDFS
Hadoop: HDFS (Hadoop Distributed File System)
Hadoop: MapReduce
Ecosistema Hadoop
Actividad
Desarrollar el laboratorio planteado.

UD4_ S03_ Big Data

Cargado por

Copyright:

Formatos disponibles

UD4_ S03_ Big Data

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

UD4_ S03_ Big Data

Cargado por

Copyright:

Formatos disponibles

Curso:

• ¿Conoces sistemas distribuidos? ¿Conoces el ecosistema hadoop?

Big Data: Procesamiento batch

Escalamiento vertical: Ejemplo: Se puede añadir recursos a

Escalamiento horizontal: Ejemplo: Se puede añadir nodos a un

La razón principal detrás de la distribución

Es el proceso de partición de conjuntos de

La replicación es el proceso de crear

La figura ilustra la combinación de

Procesamiento distribuido con Hadoop

Los componentes principales de Hadoop son:

También podría gustarte