UD4_ S03_ Big Data
UD4_ S03_ Big Data
UD4_ S03_ Big Data
Big Data
Preguntas
1. Apache Hadoop
2. Datalake
3. Apache Spark
Al finalizar esta sesión, conocerá los
conceptos de Apache Hadoop en un
entorno de big data.
Nuestro objetivo
Big Data : Procesamiento batch
• Apache Hadoop
Apache Hadoop: Conceptos
Nodo:
Equipo físico que posee sus propios componentes hardware y software.
Rack:
Conjunto de 1 a n nodos.
Cluster:
Conjunto de 1 a n racks.
Apache Hadoop: Sistemas Distribuidos
Sistemas Distribuidos
Conjunto de ordenadores o nodos separados físicamente y conectados entre sí por una red de
comunicaciones; cada equipo posee sus componentes de hardware y software que el
programador percibe como un solo sistema. Frente a lo establecido por la Ley de Moore
(aproximadamente cada 2 años se duplica el número de transistores en un microprocesador).
Apache Hadoop: Escalabilidad
8
Apache Hadoop: Escalabilidad
9
Apache Hadoop: Modelos de distribución
10
Apache Hadoop: Fragmentación (sharding)
11
Apache Hadoop: Replicación de datos
12
Apache Hadoop: Fragmentación y replicación
La fragmentación y la replicación se
pueden combinar para hacer que el
sistema sea tolerante a fallas y altamente
disponible.
13
Ecosistema Hadoop
Apache Hadoop
Apache Hadoop es una infraestructura de software bajo licencia libre usado para gestionar
tanto el almacenamiento como el procesamiento en un sistema distribuido.
Origen y características:
• Escrito en Java (juguete del desarrollador Doug Cutting)
• Lucene: Búsquedas e indexación de texto
• Nutch: Motor de búsquedas web en formato cluster distribuido
• Google File System (GFS) y Map Reduce: Año 2004
Ecosistema Hadoop