Qué Es Hadoop

Hadoop es un framework de código abierto para procesar grandes cantidades de datos de forma distribuida. Permite almacenar y analizar estructurados, no estructurados y semi estructurados en clústeres de computadoras baratas. Big Data se refiere a grandes colecciones de datos que crecen rápidamente y son difíciles de manejar con bases de datos tradicionales. Hadoop es útil para procesar grandes cantidades de datos por lotes pero no para acceso aleatorio o transacciones en línea.

Cargado por

luis Alberto ruiz asto

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

106 vistas3 páginas

Qué Es Hadoop

Cargado por

luis Alberto ruiz asto

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 3

¿Qué es Hadoop?

Hola a todos y bienvenidos a Hadoop Fundamentals What is Hadoop. Mi nombre es Asma

Desai y cubriré este tema.

En este vídeo explicaremos qué es Hadoop y qué es Big Data. Definiremos algunos proyectos
de código abierto relacionados con Hadoop y daremos algunos ejemplos de Hadoop en acción.
Finalmente terminaremos con algunas soluciones de Big Data y la Nube. Imagine este
escenario: tiene 1 GB de datos que necesita procesar. Los datos se almacenan en una base de
datos relacional en su computadora de escritorio que no tiene problemas para manejar la
carga. Entonces su empresa comienza a crecer muy rápidamente y esos datos crecen a 10GB,
luego a 100GB, y comienza a alcanzar los límites de su computadora de escritorio actual.
¿Entonces, Qué haces? aumenta la escala invirtiendo en una computadora más grande, y luego
está bien por unos meses más. Cuando sus datos crecen de 1 TB a 10 TB, y luego a 100 TB,
nuevamente se está acercando rápidamente a los límites de esa computadora. Además, ahora
se le pide que alimente su aplicación con datos no estructurados provenientes de fuentes
como Facebook, Twitter, lectores RFID, sensores, etc. Su gerencia quiere derivar información
tanto de los datos relacionales como de los datos no estructurados y quiere esta información
lo antes posible. ¿Qué debe hacer? Hadoop puede ser la respuesta ¿Qué es Hadoop? Hadoop
es un proyecto de código abierto de la Fundación Apache. Es un marco escrito en Java
desarrollado originalmente por Doug Cutting, quien lo nombró en honor al elefante de juguete
de su hijo. Hadoop utiliza la tecnología MapReduce de Google como base. Está optimizado
para manejar cantidades masivas de datos que podrían estar estructurados, no estructurados.
o semiestructurada, utilizando hardware básico, es decir, computadoras relativamente
económicas. Este procesamiento paralelo masivo se realiza con gran rendimiento. Sin
embargo, es una operación por lotes que maneja cantidades masivas de datos, por lo que el
tiempo de respuesta no es inmediato. Actualmente, Las actualizaciones en el lugar no son
posibles en Hadoop, pero se admiten los anexos a los datos existentes. Ahora bien, ¿cuál es el
valor de un sistema si la información que almacena o recupera no es consistente? Hadoop
replica sus datos en diferentes computadoras, de modo que si una falla, los datos se
procesan en una de las computadoras replicadas. Hadoop no es adecuado para cargas de
trabajo de procesamiento de transacciones en línea donde se accede a los datos de forma
aleatoria en datos estructurados como una base de datos relacional.

Además, Hadoop no es adecuado para cargas de trabajo de procesamiento analítico en línea o

del sistema de soporte de decisiones en las que se accede de forma secuencial a datos
estructurados, como una base de datos relacional, para generar informes que proporcionen
inteligencia empresarial. A partir de la versión 2.6 de Hadoop, no es posible realizar
actualizaciones, pero sí es posible realizar agregados. Hadoop se utiliza para Big Data.
Complementa el procesamiento de transacciones en línea y el procesamiento analítico en
línea. NO reemplaza un sistema de base de datos relacional. Entonces, ¿qué es Big Data? Con
todos los dispositivos disponibles en la actualidad para recopilar datos, como lectores RFID,
micrófonos, cámaras, sensores, etc., estamos viendo una explosión en la recopilación de datos
en todo el mundo. Big Data es un término que se usa para describir grandes colecciones de
datos (también conocidos como conjuntos de datos) que pueden no estar estructurados y
crecer tanto y rápidamente que es difícil de administrar con una base de datos regular o
herramientas estadísticas. En términos de números, ¿qué estamos mirando? ¿Qué tan
GRANDE es el & quot; big data & quot ;? Bueno, hay más de 3.2 mil millones de usuarios de
Internet, y los teléfonos celulares activos han superado los 7.6 mil millones. Ahora hay más
teléfonos móviles en uso que personas en el planeta (7.400 millones). Twitter procesa 7 TB de
datos todos los días y Facebook procesa 600 TB de datos todos los días. Curiosamente,
alrededor del 80% de estos datos no están estructurados. Con esta enorme cantidad de datos,
las empresas necesitan una visión de datos rápida, confiable y más profunda. Por lo tanto, las
soluciones de Big Data basadas en Hadoop y otro software de análisis son cada vez más
relevantes. Esta lección continúa en el siguiente video.

¿Qué es Hadoop?

Esta es una lista de otros proyectos de código abierto relacionados con Hadoop:

- Eclipse es un IDE popular donado por IBM a la comunidad de código abierto

- Lucene es una biblioteca de motor de búsqueda de texto escrita en Java

- Hbase es una base de datos Hadoop

- Hive proporciona herramientas de almacenamiento de datos para extraer, transformar y

cargar (ETL) datos y consultar estos datos almacenados en archivos Hadoop

- Pig es un lenguaje de alto nivel que genera código MapReduce para analizar grandes
conjuntos de datos.

- Spark es un marco de computación en clúster

-ZooKeeper es un servicio de configuración centralizado y registro de nombres para grandes

sistemas distribuidos

-Ambari administra y monitorea los clústeres de Hadoop a través de una interfaz de usuario
web intuitiva

- Avro es un sistema de serialización de datos

- UIMA es la arquitectura para el desarrollo, descubrimiento, composición e implementación

para el análisis de datos no estructurados

- Yarn es un sistema operativo a gran escala para aplicaciones de big data

- Mapreduce es un marco de software para escribir fácilmente aplicaciones que procesan

grandes cantidades de datos

Hablemos ahora de ejemplos de Hadoop en acción.

A principios de 2011, Watson, una supercomputadora desarrollada por IBM, compitió en el

popular programa de preguntas y respuestas Jeopardy !. En ese concurso, Watson logró
vencer a los dos jugadores de Jeopardy más ganadores. Se ingresaron aproximadamente 200
millones de páginas de texto utilizando Hadoop para distribuir la carga de trabajo para cargar
esta información en la memoria. Una vez que se cargó esta información, Watson utilizó otras
tecnologías para la búsqueda y el análisis avanzados. En la industria de las telecomunicaciones,
tenemos a China Mobile, una empresa que creó un clúster de Hadoop para realizar la minería
de datos en los registros de datos de llamadas. China Mobile producía de 5 a 8 TB de estos
registros al día. Al usar un sistema basado en Hadoop, pudieron procesar 10 veces más datos
que cuando usaban su sistema anterior, y a una quinta parte del costo.
En los medios de comunicación tenemos el New York Times que quería alojar en su sitio web
todos los artículos de dominio público desde 1851 hasta 1922. Convirtieron artículos de 11
millones de archivos de imagen (4 TB) a 1,5 TB de documentos PDF. Esto fue implementado
por un empleado que ejecutó un trabajo en 24 horas en un clúster de Amazon EC2 Hadoop de
100 instancias a un costo muy bajo. En el campo tecnológico volvemos a contar con IBM con
IBM ES2, y tecnología de búsqueda empresarial basada en Hadoop, Nutch, Lucene y Jaql. ES2
está diseñado para abordar desafíos únicos de la búsqueda empresarial, tales como: - El uso de
vocabulario, abreviaturas y acrónimos específicos de la empresa ES2 puede realizar tareas de
minería para crear bibliotecas de acrónimos, patrones de expresión regular y reglas de
clasificación geográfica. También hay muchas empresas de Internet o redes sociales que
utilizan Hadoop, como: Yahoo, Facebook, Amazon, eBay, Twitter, StumbleUpon, Rackspace,
Ning, AOL, etc. Yahoo, por supuesto, es el mayor usuario de producción con una aplicación que
ejecuta Hadoop.

clúster que consta de unas 10.000 máquinas Linux. Yahoo también es el mayor contribuyente
al proyecto de código abierto Hadoop. Ahora bien, Hadoop no es una fórmula mágica
que resuelva todo tipo de problemas. Hadoop no es bueno para procesar
transacciones debido a su falta de acceso aleatorio. No es bueno cuando el trabajo no
se puede paralelizar o cuando hay dependencias dentro de los datos, es decir, el
registro uno debe procesarse antes que el registro dos. No es bueno para el acceso a
datos de baja latencia. No es bueno para procesar muchos archivos pequeños, aunque
se está trabajando en esta área, por ejemplo, Adaptive MapReduce de IBM. Y no es
bueno para cálculos intensivos con pocos datos. Ahora sigamos adelante y hablemos
de las soluciones de Big Data. Las soluciones de Big Data son más que solo Hadoop.
Pueden integrar soluciones analíticas al mezcle para obtener información valiosa que
pueda combinar datos heredados estructurados con datos nuevos no estructurados.
Las soluciones de big data también pueden usarse para derivar información de datos
en movimiento, por ejemplo, IBM tiene un producto llamado InfoSphere Streams que
se puede usar para determinar rápidamente el sentimiento del cliente hacia un nuevo
producto basado en comentarios de Facebook o Twitter. Por último, nos gustaría
terminar esta presentación con un pensamiento final: la computación en la nube ha
ganado una pista tremenda en los últimos años y se adapta perfectamente a las
soluciones de Big Data. Con la nube, un clúster de Hadoop se puede configurar en
minutos, a pedido, y puede funcionar durante el tiempo que sea necesario sin tener
que pagar más de lo que se usa.

También podría gustarte

Areas Verdes Santa Cruz
75% (4)
Areas Verdes Santa Cruz
56 páginas
Big Data (II Unidad)
Aún no hay calificaciones
Big Data (II Unidad)
80 páginas
Sierra J 1919 Discursos
100% (4)
Sierra J 1919 Discursos
358 páginas
Certificado Bancario de Moneda Extranjera en El Peru
100% (1)
Certificado Bancario de Moneda Extranjera en El Peru
28 páginas
Curso Big Data (Tema 1)
Aún no hay calificaciones
Curso Big Data (Tema 1)
32 páginas
Todo
100% (1)
Todo
231 páginas
Hadoop PDF
100% (2)
Hadoop PDF
58 páginas
Ebook - Hadoop, Sus Componentes, Ecosistema y Distribuciones
Aún no hay calificaciones
Ebook - Hadoop, Sus Componentes, Ecosistema y Distribuciones
37 páginas
Clase 3 PDF Asp
Aún no hay calificaciones
Clase 3 PDF Asp
123 páginas
Manual - Arquitectura Big Data (Ifct127po)
Aún no hay calificaciones
Manual - Arquitectura Big Data (Ifct127po)
457 páginas
Kallawaya Crevels Muysken Lenguas de Bolivia I 2009-10
Aún no hay calificaciones
Kallawaya Crevels Muysken Lenguas de Bolivia I 2009-10
22 páginas
Práctica de de Unidad 4
Aún no hay calificaciones
Práctica de de Unidad 4
12 páginas
Introducción A Apache Hadoop
Aún no hay calificaciones
Introducción A Apache Hadoop
26 páginas
BIGDATA
Aún no hay calificaciones
BIGDATA
26 páginas
Bda T1
Aún no hay calificaciones
Bda T1
17 páginas
04 Arquitecturas Big Data
100% (1)
04 Arquitecturas Big Data
23 páginas
Lectura 1 Big Data
Aún no hay calificaciones
Lectura 1 Big Data
49 páginas
Libroblanco Logopedia Def
Aún no hay calificaciones
Libroblanco Logopedia Def
212 páginas
Data Analysis With Python
Aún no hay calificaciones
Data Analysis With Python
8 páginas
Slides Hadoop
Aún no hay calificaciones
Slides Hadoop
49 páginas
¿Cuáles Son Las Principales Herramientas y Tecnologías para Acceder A La Información de Las Bases de Datos y Mejorar Tanto El Desempeño de Negocios Como La Toma de Decisiones?
Aún no hay calificaciones
¿Cuáles Son Las Principales Herramientas y Tecnologías para Acceder A La Información de Las Bases de Datos y Mejorar Tanto El Desempeño de Negocios Como La Toma de Decisiones?
18 páginas
Separata 02
Aún no hay calificaciones
Separata 02
30 páginas
03 Lectura B
Aún no hay calificaciones
03 Lectura B
3 páginas
Unidad 1 - Presentación
Aún no hay calificaciones
Unidad 1 - Presentación
28 páginas
Ecosistema Hadoop
Aún no hay calificaciones
Ecosistema Hadoop
19 páginas
Unidad 1 - Introduccion
Aún no hay calificaciones
Unidad 1 - Introduccion
13 páginas
Laboratorio N°9
Aún no hay calificaciones
Laboratorio N°9
7 páginas
Realiza Un Análisis Critico de Big Data Hadoop
Aún no hay calificaciones
Realiza Un Análisis Critico de Big Data Hadoop
3 páginas
Silabus Soldadura Oxiacetilénica 2021
Aún no hay calificaciones
Silabus Soldadura Oxiacetilénica 2021
5 páginas
Pdtplanillaelectrnica 130610163206 Phpapp01
Aún no hay calificaciones
Pdtplanillaelectrnica 130610163206 Phpapp01
37 páginas
Big data, machine learning y data science en python
De Everand
Big data, machine learning y data science en python
José Manuel Ortega
Aún no hay calificaciones
Concepto de Big Data
100% (1)
Concepto de Big Data
8 páginas
Proyecto Tecnologico
Aún no hay calificaciones
Proyecto Tecnologico
8 páginas
Práctica 2.1 Investigación Sobre Hadoop
Aún no hay calificaciones
Práctica 2.1 Investigación Sobre Hadoop
6 páginas
PIRE
Aún no hay calificaciones
PIRE
33 páginas
S1 - Clase 1 - Big Data
Aún no hay calificaciones
S1 - Clase 1 - Big Data
27 páginas
Big Data Tecnicas Herramientas y Aplicac-4
Aún no hay calificaciones
Big Data Tecnicas Herramientas y Aplicac-4
9 páginas
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
Aún no hay calificaciones
Big Data y Analytics - Tema 05 - Ingeniería de Procesado de Datos
43 páginas
Herramientas Big Data
Aún no hay calificaciones
Herramientas Big Data
31 páginas
Batch Processing PDF
Aún no hay calificaciones
Batch Processing PDF
49 páginas
Big Data WorkShop
Aún no hay calificaciones
Big Data WorkShop
72 páginas
Presentacion Clase 4. 04-03-2022
Aún no hay calificaciones
Presentacion Clase 4. 04-03-2022
39 páginas
Clase 4 - Herramientas Big Data Nov 15
Aún no hay calificaciones
Clase 4 - Herramientas Big Data Nov 15
31 páginas
01 Hadoop A
Aún no hay calificaciones
01 Hadoop A
36 páginas
18-Big Data
Aún no hay calificaciones
18-Big Data
3 páginas
Parte I - Big Data
Aún no hay calificaciones
Parte I - Big Data
132 páginas
Procesos - Hilos - Multihilos en La Programación Paralela 2018-7241
Aún no hay calificaciones
Procesos - Hilos - Multihilos en La Programación Paralela 2018-7241
9 páginas
Curso Big Data
Aún no hay calificaciones
Curso Big Data
11 páginas
Clase 02
Aún no hay calificaciones
Clase 02
24 páginas
Separata 02
Aún no hay calificaciones
Separata 02
16 páginas
04 Lab1 - Ejercicios de Prolog
Aún no hay calificaciones
04 Lab1 - Ejercicios de Prolog
58 páginas
4ta PC Topicos
Aún no hay calificaciones
4ta PC Topicos
23 páginas
Big Data Con Hadoop
Aún no hay calificaciones
Big Data Con Hadoop
10 páginas
Arquitectura Big Data
Aún no hay calificaciones
Arquitectura Big Data
11 páginas
Ensayo Tentativa
Aún no hay calificaciones
Ensayo Tentativa
5 páginas
Lectura 1
Aún no hay calificaciones
Lectura 1
16 páginas
Ecosistema Hadoop v1
Aún no hay calificaciones
Ecosistema Hadoop v1
3 páginas
Explorando La Ingenierías de Datos y Su Infraestructura
Aún no hay calificaciones
Explorando La Ingenierías de Datos y Su Infraestructura
4 páginas
Mineria de Datos - DataWarehouse Sesion 3
Aún no hay calificaciones
Mineria de Datos - DataWarehouse Sesion 3
43 páginas
Cultivo de Melon-Kayra
Aún no hay calificaciones
Cultivo de Melon-Kayra
20 páginas
Tutorial Hadoop
Aún no hay calificaciones
Tutorial Hadoop
40 páginas
Apache Hadoop: Introducción 2024 - Aprender BIG DATA
Aún no hay calificaciones
Apache Hadoop: Introducción 2024 - Aprender BIG DATA
1 página
CD - M8 AE1 Contenidos - 2023
Aún no hay calificaciones
CD - M8 AE1 Contenidos - 2023
12 páginas
CartillaBigData U1
Aún no hay calificaciones
CartillaBigData U1
13 páginas
La Nube Y Ciber Seguridad: Guía Rápida
De Everand
La Nube Y Ciber Seguridad: Guía Rápida
Marcia R.t. Pistorious
3/5 (1)
2 - Introduccion Al Ecosistema Apache Hadoop
Aún no hay calificaciones
2 - Introduccion Al Ecosistema Apache Hadoop
14 páginas
Psicotecnico
Aún no hay calificaciones
Psicotecnico
124 páginas
Big Data
Aún no hay calificaciones
Big Data
27 páginas
Birkát HaKohaním
Aún no hay calificaciones
Birkát HaKohaním
5 páginas
Hadoop
Aún no hay calificaciones
Hadoop
9 páginas
Plotino
Aún no hay calificaciones
Plotino
4 páginas
Hadoop
Aún no hay calificaciones
Hadoop
7 páginas
Big Data
Aún no hay calificaciones
Big Data
14 páginas
Resumen
Aún no hay calificaciones
Resumen
4 páginas
Quien Es Dios
Aún no hay calificaciones
Quien Es Dios
2 páginas
Big Data
Aún no hay calificaciones
Big Data
11 páginas
Ensayo Hadoop
Aún no hay calificaciones
Ensayo Hadoop
6 páginas
Ejercicio - Cruce Arroyo
Aún no hay calificaciones
Ejercicio - Cruce Arroyo
10 páginas
Introducciòn Al Big Data Con Apache Hadoop PDF
Aún no hay calificaciones
Introducciòn Al Big Data Con Apache Hadoop PDF
8 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
Documento
Aún no hay calificaciones
Documento
2 páginas
2025 Cantos Cuaresma
Aún no hay calificaciones
2025 Cantos Cuaresma
67 páginas
Estabilidad Medicamentos
Aún no hay calificaciones
Estabilidad Medicamentos
17 páginas
Causal 12, Ensayo Penal
Aún no hay calificaciones
Causal 12, Ensayo Penal
3 páginas
Esto Es Un T Tulo Esto Es Un T Tulo Centrado Aqu Va Un P Rrafo Con Negrita, Cursiva, Subrayado y Colores.
Aún no hay calificaciones
Esto Es Un T Tulo Esto Es Un T Tulo Centrado Aqu Va Un P Rrafo Con Negrita, Cursiva, Subrayado y Colores.
1 página
GAA-spa-2019-El Incidente de Desacato Como Garantia de Los Derechos Fundamentales
Aún no hay calificaciones
GAA-spa-2019-El Incidente de Desacato Como Garantia de Los Derechos Fundamentales
119 páginas
Llave Privada y Publica
Aún no hay calificaciones
Llave Privada y Publica
8 páginas
Codigos Repaso
Aún no hay calificaciones
Codigos Repaso
4 páginas
Practica 3 - Determinacion Del Numero de Reynolds
Aún no hay calificaciones
Practica 3 - Determinacion Del Numero de Reynolds
4 páginas
Comando S
Aún no hay calificaciones
Comando S
1 página
Eutanasia
Aún no hay calificaciones
Eutanasia
3 páginas
Guia de Recuperacion de Biología
Aún no hay calificaciones
Guia de Recuperacion de Biología
5 páginas
Informe Semana 45
Aún no hay calificaciones
Informe Semana 45
2 páginas
PREPARACIÓN PARA EXAMEN NOTARIADO. Iuridicas Escuela
Aún no hay calificaciones
PREPARACIÓN PARA EXAMEN NOTARIADO. Iuridicas Escuela
20 páginas
Infografia Zimbabue
Aún no hay calificaciones
Infografia Zimbabue
1 página