Qué Es Hadoop
Qué Es Hadoop
En este vídeo explicaremos qué es Hadoop y qué es Big Data. Definiremos algunos proyectos
de código abierto relacionados con Hadoop y daremos algunos ejemplos de Hadoop en acción.
Finalmente terminaremos con algunas soluciones de Big Data y la Nube. Imagine este
escenario: tiene 1 GB de datos que necesita procesar. Los datos se almacenan en una base de
datos relacional en su computadora de escritorio que no tiene problemas para manejar la
carga. Entonces su empresa comienza a crecer muy rápidamente y esos datos crecen a 10GB,
luego a 100GB, y comienza a alcanzar los límites de su computadora de escritorio actual.
¿Entonces, Qué haces? aumenta la escala invirtiendo en una computadora más grande, y luego
está bien por unos meses más. Cuando sus datos crecen de 1 TB a 10 TB, y luego a 100 TB,
nuevamente se está acercando rápidamente a los límites de esa computadora. Además, ahora
se le pide que alimente su aplicación con datos no estructurados provenientes de fuentes
como Facebook, Twitter, lectores RFID, sensores, etc. Su gerencia quiere derivar información
tanto de los datos relacionales como de los datos no estructurados y quiere esta información
lo antes posible. ¿Qué debe hacer? Hadoop puede ser la respuesta ¿Qué es Hadoop? Hadoop
es un proyecto de código abierto de la Fundación Apache. Es un marco escrito en Java
desarrollado originalmente por Doug Cutting, quien lo nombró en honor al elefante de juguete
de su hijo. Hadoop utiliza la tecnología MapReduce de Google como base. Está optimizado
para manejar cantidades masivas de datos que podrían estar estructurados, no estructurados.
o semiestructurada, utilizando hardware básico, es decir, computadoras relativamente
económicas. Este procesamiento paralelo masivo se realiza con gran rendimiento. Sin
embargo, es una operación por lotes que maneja cantidades masivas de datos, por lo que el
tiempo de respuesta no es inmediato. Actualmente, Las actualizaciones en el lugar no son
posibles en Hadoop, pero se admiten los anexos a los datos existentes. Ahora bien, ¿cuál es el
valor de un sistema si la información que almacena o recupera no es consistente? Hadoop
replica sus datos en diferentes computadoras, de modo que si una falla, los datos se
procesan en una de las computadoras replicadas. Hadoop no es adecuado para cargas de
trabajo de procesamiento de transacciones en línea donde se accede a los datos de forma
aleatoria en datos estructurados como una base de datos relacional.
¿Qué es Hadoop?
Esta es una lista de otros proyectos de código abierto relacionados con Hadoop:
- Pig es un lenguaje de alto nivel que genera código MapReduce para analizar grandes
conjuntos de datos.
-Ambari administra y monitorea los clústeres de Hadoop a través de una interfaz de usuario
web intuitiva
clúster que consta de unas 10.000 máquinas Linux. Yahoo también es el mayor contribuyente
al proyecto de código abierto Hadoop. Ahora bien, Hadoop no es una fórmula mágica
que resuelva todo tipo de problemas. Hadoop no es bueno para procesar
transacciones debido a su falta de acceso aleatorio. No es bueno cuando el trabajo no
se puede paralelizar o cuando hay dependencias dentro de los datos, es decir, el
registro uno debe procesarse antes que el registro dos. No es bueno para el acceso a
datos de baja latencia. No es bueno para procesar muchos archivos pequeños, aunque
se está trabajando en esta área, por ejemplo, Adaptive MapReduce de IBM. Y no es
bueno para cálculos intensivos con pocos datos. Ahora sigamos adelante y hablemos
de las soluciones de Big Data. Las soluciones de Big Data son más que solo Hadoop.
Pueden integrar soluciones analíticas al mezcle para obtener información valiosa que
pueda combinar datos heredados estructurados con datos nuevos no estructurados.
Las soluciones de big data también pueden usarse para derivar información de datos
en movimiento, por ejemplo, IBM tiene un producto llamado InfoSphere Streams que
se puede usar para determinar rápidamente el sentimiento del cliente hacia un nuevo
producto basado en comentarios de Facebook o Twitter. Por último, nos gustaría
terminar esta presentación con un pensamiento final: la computación en la nube ha
ganado una pista tremenda en los últimos años y se adapta perfectamente a las
soluciones de Big Data. Con la nube, un clúster de Hadoop se puede configurar en
minutos, a pedido, y puede funcionar durante el tiempo que sea necesario sin tener
que pagar más de lo que se usa.