0% encontró este documento útil (0 votos)
106 vistas3 páginas

Qué Es Hadoop

Hadoop es un framework de código abierto para procesar grandes cantidades de datos de forma distribuida. Permite almacenar y analizar estructurados, no estructurados y semi estructurados en clústeres de computadoras baratas. Big Data se refiere a grandes colecciones de datos que crecen rápidamente y son difíciles de manejar con bases de datos tradicionales. Hadoop es útil para procesar grandes cantidades de datos por lotes pero no para acceso aleatorio o transacciones en línea.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
106 vistas3 páginas

Qué Es Hadoop

Hadoop es un framework de código abierto para procesar grandes cantidades de datos de forma distribuida. Permite almacenar y analizar estructurados, no estructurados y semi estructurados en clústeres de computadoras baratas. Big Data se refiere a grandes colecciones de datos que crecen rápidamente y son difíciles de manejar con bases de datos tradicionales. Hadoop es útil para procesar grandes cantidades de datos por lotes pero no para acceso aleatorio o transacciones en línea.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 3

¿Qué es Hadoop?

Hola a todos y bienvenidos a Hadoop Fundamentals What is Hadoop. Mi nombre es Asma


Desai y cubriré este tema.

En este vídeo explicaremos qué es Hadoop y qué es Big Data. Definiremos algunos proyectos
de código abierto relacionados con Hadoop y daremos algunos ejemplos de Hadoop en acción.
Finalmente terminaremos con algunas soluciones de Big Data y la Nube. Imagine este
escenario: tiene 1 GB de datos que necesita procesar. Los datos se almacenan en una base de
datos relacional en su computadora de escritorio que no tiene problemas para manejar la
carga. Entonces su empresa comienza a crecer muy rápidamente y esos datos crecen a 10GB,
luego a 100GB, y comienza a alcanzar los límites de su computadora de escritorio actual.
¿Entonces, Qué haces? aumenta la escala invirtiendo en una computadora más grande, y luego
está bien por unos meses más. Cuando sus datos crecen de 1 TB a 10 TB, y luego a 100 TB,
nuevamente se está acercando rápidamente a los límites de esa computadora. Además, ahora
se le pide que alimente su aplicación con datos no estructurados provenientes de fuentes
como Facebook, Twitter, lectores RFID, sensores, etc. Su gerencia quiere derivar información
tanto de los datos relacionales como de los datos no estructurados y quiere esta información
lo antes posible. ¿Qué debe hacer? Hadoop puede ser la respuesta ¿Qué es Hadoop? Hadoop
es un proyecto de código abierto de la Fundación Apache. Es un marco escrito en Java
desarrollado originalmente por Doug Cutting, quien lo nombró en honor al elefante de juguete
de su hijo. Hadoop utiliza la tecnología MapReduce de Google como base. Está optimizado
para manejar cantidades masivas de datos que podrían estar estructurados, no estructurados.
o semiestructurada, utilizando hardware básico, es decir, computadoras relativamente
económicas. Este procesamiento paralelo masivo se realiza con gran rendimiento. Sin
embargo, es una operación por lotes que maneja cantidades masivas de datos, por lo que el
tiempo de respuesta no es inmediato. Actualmente, Las actualizaciones en el lugar no son
posibles en Hadoop, pero se admiten los anexos a los datos existentes. Ahora bien, ¿cuál es el
valor de un sistema si la información que almacena o recupera no es consistente? Hadoop
replica sus datos en diferentes computadoras, de modo que si una falla, los datos se
procesan en una de las computadoras replicadas. Hadoop no es adecuado para cargas de
trabajo de procesamiento de transacciones en línea donde se accede a los datos de forma
aleatoria en datos estructurados como una base de datos relacional.

Además, Hadoop no es adecuado para cargas de trabajo de procesamiento analítico en línea o


del sistema de soporte de decisiones en las que se accede de forma secuencial a datos
estructurados, como una base de datos relacional, para generar informes que proporcionen
inteligencia empresarial. A partir de la versión 2.6 de Hadoop, no es posible realizar
actualizaciones, pero sí es posible realizar agregados. Hadoop se utiliza para Big Data.
Complementa el procesamiento de transacciones en línea y el procesamiento analítico en
línea. NO reemplaza un sistema de base de datos relacional. Entonces, ¿qué es Big Data? Con
todos los dispositivos disponibles en la actualidad para recopilar datos, como lectores RFID,
micrófonos, cámaras, sensores, etc., estamos viendo una explosión en la recopilación de datos
en todo el mundo. Big Data es un término que se usa para describir grandes colecciones de
datos (también conocidos como conjuntos de datos) que pueden no estar estructurados y
crecer tanto y rápidamente que es difícil de administrar con una base de datos regular o
herramientas estadísticas. En términos de números, ¿qué estamos mirando? ¿Qué tan
GRANDE es el & quot; big data & quot ;? Bueno, hay más de 3.2 mil millones de usuarios de
Internet, y los teléfonos celulares activos han superado los 7.6 mil millones. Ahora hay más
teléfonos móviles en uso que personas en el planeta (7.400 millones). Twitter procesa 7 TB de
datos todos los días y Facebook procesa 600 TB de datos todos los días. Curiosamente,
alrededor del 80% de estos datos no están estructurados. Con esta enorme cantidad de datos,
las empresas necesitan una visión de datos rápida, confiable y más profunda. Por lo tanto, las
soluciones de Big Data basadas en Hadoop y otro software de análisis son cada vez más
relevantes. Esta lección continúa en el siguiente video.

¿Qué es Hadoop?

Esta es una lista de otros proyectos de código abierto relacionados con Hadoop:

- Eclipse es un IDE popular donado por IBM a la comunidad de código abierto

- Lucene es una biblioteca de motor de búsqueda de texto escrita en Java

- Hbase es una base de datos Hadoop

- Hive proporciona herramientas de almacenamiento de datos para extraer, transformar y


cargar (ETL) datos y consultar estos datos almacenados en archivos Hadoop

- Pig es un lenguaje de alto nivel que genera código MapReduce para analizar grandes
conjuntos de datos.

- Spark es un marco de computación en clúster

-ZooKeeper es un servicio de configuración centralizado y registro de nombres para grandes


sistemas distribuidos

-Ambari administra y monitorea los clústeres de Hadoop a través de una interfaz de usuario
web intuitiva

- Avro es un sistema de serialización de datos

- UIMA es la arquitectura para el desarrollo, descubrimiento, composición e implementación


para el análisis de datos no estructurados

- Yarn es un sistema operativo a gran escala para aplicaciones de big data

- Mapreduce es un marco de software para escribir fácilmente aplicaciones que procesan


grandes cantidades de datos

Hablemos ahora de ejemplos de Hadoop en acción.

A principios de 2011, Watson, una supercomputadora desarrollada por IBM, compitió en el


popular programa de preguntas y respuestas Jeopardy !. En ese concurso, Watson logró
vencer a los dos jugadores de Jeopardy más ganadores. Se ingresaron aproximadamente 200
millones de páginas de texto utilizando Hadoop para distribuir la carga de trabajo para cargar
esta información en la memoria. Una vez que se cargó esta información, Watson utilizó otras
tecnologías para la búsqueda y el análisis avanzados. En la industria de las telecomunicaciones,
tenemos a China Mobile, una empresa que creó un clúster de Hadoop para realizar la minería
de datos en los registros de datos de llamadas. China Mobile producía de 5 a 8 TB de estos
registros al día. Al usar un sistema basado en Hadoop, pudieron procesar 10 veces más datos
que cuando usaban su sistema anterior, y a una quinta parte del costo.
En los medios de comunicación tenemos el New York Times que quería alojar en su sitio web
todos los artículos de dominio público desde 1851 hasta 1922. Convirtieron artículos de 11
millones de archivos de imagen (4 TB) a 1,5 TB de documentos PDF. Esto fue implementado
por un empleado que ejecutó un trabajo en 24 horas en un clúster de Amazon EC2 Hadoop de
100 instancias a un costo muy bajo. En el campo tecnológico volvemos a contar con IBM con
IBM ES2, y tecnología de búsqueda empresarial basada en Hadoop, Nutch, Lucene y Jaql. ES2
está diseñado para abordar desafíos únicos de la búsqueda empresarial, tales como: - El uso de
vocabulario, abreviaturas y acrónimos específicos de la empresa ES2 puede realizar tareas de
minería para crear bibliotecas de acrónimos, patrones de expresión regular y reglas de
clasificación geográfica. También hay muchas empresas de Internet o redes sociales que
utilizan Hadoop, como: Yahoo, Facebook, Amazon, eBay, Twitter, StumbleUpon, Rackspace,
Ning, AOL, etc. Yahoo, por supuesto, es el mayor usuario de producción con una aplicación que
ejecuta Hadoop.

clúster que consta de unas 10.000 máquinas Linux. Yahoo también es el mayor contribuyente
al proyecto de código abierto Hadoop. Ahora bien, Hadoop no es una fórmula mágica
que resuelva todo tipo de problemas. Hadoop no es bueno para procesar
transacciones debido a su falta de acceso aleatorio. No es bueno cuando el trabajo no
se puede paralelizar o cuando hay dependencias dentro de los datos, es decir, el
registro uno debe procesarse antes que el registro dos. No es bueno para el acceso a
datos de baja latencia. No es bueno para procesar muchos archivos pequeños, aunque
se está trabajando en esta área, por ejemplo, Adaptive MapReduce de IBM. Y no es
bueno para cálculos intensivos con pocos datos. Ahora sigamos adelante y hablemos
de las soluciones de Big Data. Las soluciones de Big Data son más que solo Hadoop.
Pueden integrar soluciones analíticas al mezcle para obtener información valiosa que
pueda combinar datos heredados estructurados con datos nuevos no estructurados.
Las soluciones de big data también pueden usarse para derivar información de datos
en movimiento, por ejemplo, IBM tiene un producto llamado InfoSphere Streams que
se puede usar para determinar rápidamente el sentimiento del cliente hacia un nuevo
producto basado en comentarios de Facebook o Twitter. Por último, nos gustaría
terminar esta presentación con un pensamiento final: la computación en la nube ha
ganado una pista tremenda en los últimos años y se adapta perfectamente a las
soluciones de Big Data. Con la nube, un clúster de Hadoop se puede configurar en
minutos, a pedido, y puede funcionar durante el tiempo que sea necesario sin tener
que pagar más de lo que se usa.

También podría gustarte