Introducciòn Al Big Data Con Apache Hadoop PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

TECNOLÓGICO DE ESTUDIOS SUPERIORES DE

ECATEPEC

INGENIERÍA INFORMÁTICA

ALUMNO

RUIZ BARAJAS LUIS DIEGO

PROFESOR

LEONARDO MIGUEL MORENO VILLALBA

ASIGNATURA

DESARROLLO DE APLICACIONES WEB

INTRODUCCIÒN AL BIG DATA CON APACHE HADOOP

GRUPO
15601
TURNO

MATUTINO
¿Qué es Big Data?

Cuando hablamos de Big Data nos referimos a conjuntos de datos o


combinaciones de conjuntos de datos cuyo tamaño (volumen), complejidad
(variabilidad) y velocidad de crecimiento (velocidad) dificultan su
captura, gestión, procesamiento o análisis mediante tecnologías y
herramientas convencionales, tales como bases de datos relacionales y
estadísticas convencionales o paquetes de visualización, dentro del
tiempo necesario para que sean útiles.

Aunque el tamaño utilizado para determinar si un conjunto de datos


determinado se considera Big Data no está firmemente definido y sigue
cambiando con el tiempo, la mayoría de los analistas y profesionales
actualmente se refieren a conjuntos de datos que van desde 30-50
Terabytes a varios Petabytes.

La naturaleza compleja del Big Data se debe principalmente a la


naturaleza no estructurada de gran parte de los datos generados por las
tecnologías modernas, como los web logs, la identificación por
radiofrecuencia (RFID), los sensores incorporados en dispositivos, la
maquinaria, los vehículos, las búsquedas en Internet, las redes sociales
como Facebook, computadoras portátiles, teléfonos inteligentes y otros
teléfonos móviles, dispositivos GPS y registros de centros de llamadas.

En la mayoría de los casos, con el fin de utilizar eficazmente el Big


Data, debe combinarse con datos estructurados (normalmente de una base
de datos relacional) de una aplicación comercial más convencional, como
un ERP (Enterprise Resource Planning) o un CRM (Customer Relationship
Management).

¿Qué es hadoop?

Hadoop es un framework opensource para almacenar datos y ejecutar


aplicaciones en clusters de hardware básicos. Proporciona un
almacenamiento masivo para cualquier tipo de datos, un enorme poder de
procesamiento y la capacidad de manejar tareas o trabajos
prácticamente ilimitados. Esto básicamente y de forma muy concreta es
lo que es hadoop.
Hadoop es un sistema de código abierto que se utiliza para almacenar,
procesar y analizar grandes volúmenes de datos. Sus ventajas son
muchas:

• Aísla a los desarrolladores de todas las dificultades presentes


en la programación paralela.
• Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya
que permite distribuir el fichero en nodos, que no son otra cosa
que ordenadores con commodity-hardware.
• Es capaz de ejecutar procesos en paralelo en todo momento.
• Dispone de módulos de control para la monitorización de los
datos.
• Presenta una opción que permite realizar consultas.
• También potencia la aparición de distintos add- ons, que
facilitan el trabajo, manipulación y seguimiento de toda la
información que en él se almacena.

Los componentes básicos de Hadoop son los siguientes:

HDFS

Consiste en un sistema de archivo distribuido, que permite que el


fichero de datos no se guarde en una única máquina sino que sea capaz
de distribuir la información a distintos dispositivos.

MAPREDUCE

Se trata de un framework de trabajo que hace posible aislar al


programador de todas las tareas propias de la programación en
paralelo. Es decir, permite que un programa que ha sido escrito en los
lenguajes de programación más comunes se pueda ejecutar en un cluster
de Hadoop.

La gran ventaja es que hace posible escoger y utilizar el lenguaje y


las herramienta más adecuadas para la tarea concreta que se va a
realizar.
Ventajas de la plataforma Hadoop

Debido a estos atributos de gran capacidad de almacenamiento y


procesamiento sus ventajas son muchas:

• Aísla a los desarrolladores de todas las dificultades que puedan


surgir en la programación paralela.

• Su sistema de distribución es de gran ayuda al usuario, ya que


permite distribuir el fichero en nodos, ordenadores con commodity-
hardware.

• Tiene la capacidad de poder ejecutar procesos en paralelo en todo


momento.

• Dispone de módulos de control para la monitorización de los datos.

• Presenta una opción que permite realizar consultas.

• Potencia la aparición de distintos add- ons, que facilitan el


trabajo, manipulación y seguimiento de toda la información que en él
se almacena.

Otra de sus ventajas es que se puede implementar sobre hardware a un


coste relativamente bajo, siendo el software totalmente gratuito.

Esta circunstancia implica que aquella información que anteriormente


las empresas no podían procesar debido a los límites de la tecnología
existente o a barreras de tipo económico, ahora mismo pueda ser
almacenada, gestionada y analizada, gracias a Hadoop.

Cualquier organización que utilice Hadoop puede obtener información


nueva, al mismo tiempo que realiza cualquier tipo de análisis de
datos.
Su uso se está expandiendo cada vez más entre las empresas que lo
utilizan por el coste relativamente bajo que implica su
implementación, un rápido retorno de la inversión y la posibilidad de
afrontar nuevos retos y dar solución a problemáticas que antes no
podían asumir, o que quedaban sin respuesta.

¿Por qué es importante Hadoop?

• Capacidad para almacenar y procesar grandes cantidades de


cualquier tipo de datos rápidamente. Con volúmenes y variedad de
datos en constante aumento, especialmente de lo que se refiere a
medios de comunicación social y del Internet de las Cosas, esto
es una consideración clave.
• Poder de procesamiento. El modelo de computación distribuida de
Hadoop procesa rápidamente Big Data. Cuantos más nodos de
computación se utilizan, más poder de procesamiento tendrás.
• Tolerancia a fallos. Los datos y el procesamiento de aplicaciones
están protegidos contra fallos de hardware. Si un nodo disminuye,
los trabajos se redirigen automáticamente a otros nodos para
asegurarse de que la computación distribuida no falla. Se
almacenan automáticamente varias copias de todos los datos.
• Flexibilidad. A diferencia de las bases de datos relacionales
tradicionales, no es necesario reprocesar los datos antes de
almacenarlos. Puedes almacenar tantos datos como desees y decidir
cómo utilizarlos más tarde. Esto incluye datos no estructurados
como texto imágenes y vídeo.
• Bajo coste. El framework de código abierto es gratuito y utiliza
hardware básico para almacenar grandes cantidades de datos.
• Escalabilidad. Puedes hacer crecer fácilmente el sistema para
manejar más datos simplemente añadiendo nodos. Se requiere poca
administración.

¿Cuáles son los desafíos de usar Hadoop?


• La programación con MapReduce no es un buen partido para todos
los problemas. Es bueno para peticiones de información simples y
problemas que se pueden dividir en unidades independientes, pero
no es eficiente para tareas analíticas, iterativas e
interactivas. MapReduce es intensivo en ficheros y los
algoritmos iterativos requieren varias fases de distribución y
ordenación de mapas para completar. Esto crea varios archivos
entre fases de MapReduce y es ineficiente para la computación
analítica avanzada.
• Existe una brecha de talento ampliamente reconocida. Puede ser
difícil encontrar programadores de nivel que tengan suficientes
habilidades de Java para ser productivos con MapReduce. Esa es
una razón por la que los proveedores de las distribuciones
compiten para poner la tecnología relacional SQL encima de
Hadoop. Es mucho más fácil encontrar programadores con
habilidades de SQL que con habilidades de MapReduce. Y la
administración de Hadoop parece parte arte y parte ciencia,
requiriendo un bajo nivel de conocimiento de los sistemas
operativos, el Hardware y la configuración del kernel de Hadoop.
• Seguridad de datos. Otro desafío se centra en los problemas de
seguridad de datos fragmentados, aunque están surgiendo nuevas
herramientas y tecnologías. El protocolo de autenticación
Kerberos es un gran paso hacia la seguridad de los entornos
Hadoop.
• Gestión y gobierno de datos. Hadoop no tiene herramientas
completas y fáciles de utilizar para la gestión de datos,
limpieza de datos, gobernanza y metadatos. Especialmente carece
de herramientas para la calidad de los datos y la
estandarización.

¿Cómo se utiliza Hadoop?

Más allá de su objetivo original de buscar millones o miles de


millones de páginas web y devolver resultados relevantes, lo que es y
para qué sirve Hadoop es lo que muchas organizaciones buscan en
Hadoop. Las empresa buscan que Hadoop sea su próxima gran plataforma
de datos. Los usos más populares de hoy en día son:

• Almacenamiento y archivo de datos de bajo coste. El modesto coste


del hardware hace que Hadoop sea útil para almacenar y combinar
datos tales como datos transaccionales, de redes sociales, de
sensores, máquinas, científicos etc. El almacenamiento de bajo
coste permite mantener información que no se considera
actualmente crítica pero que podrías necesitar analizar más
adelante.
• Sandbox para descubrimiento y análisis. Debido a que Hadoop fue
diseñado para tratar volúmenes de datos en una variedad de
formas, puede ejecutar algoritmos analíticos. La analítica de Big
Data en Hadoop puede ayudar a una organización a operar de manera
más eficiente, descubrir nuevas oportunidades y obtener ventajas
competitivas. El enfoque sandbox o de entorno de pruebas ofrece
una oportunidad para innovar con una inversión mínima.
• Data lake. Los data lake permiten almacenar datos en su formato
original o exacto, tanto estructurados como sin estructurar, y
sin ningún tipo de procesamiento, con el objetivo de ofrecer una
visión sin modificar o sin refinar de los datos a los analistas
de datos para que puedan utilizarlos para descubrir y analizar.
Les ayuda a hacer preguntas nuevas o difíciles sin restricciones.
Los data lake no son un reemplazo de los almacenes de datos. De
hecho el cómo asegurar y gobernar data lakes es un tema enorme
para IT.
• Complementa tu data warehouse. Ya estamos viendo a Hadoop
colocándose junto a entornos de Data Warehouse, así como ciertos
conjuntos de datos que están siendo descargados del data
warehouse a Hadoop, o nuevos tipos de datos que van directamente
a Hadoop. El objetivo final de cada organización es contar con
una plataforma para almacenar y procesar datos de diferentes
esquemas, formatos etc., para soportar diferentes casos de uso
que se pueden integrar en diferentes niveles.
• IoT y Hadoop. Las cosas en el IoT necesitan saber qué comunicar y
cuándo actuar. En el núcleo de la IoT hay un flujo constante de
un torrente de datos. Hadoop es frecuentemente utilizado como
almacén de datos para millones o miles de millones de
transacciones. Las capacidades masivas de almacenamiento y
procesamiento también te permiten usar Hadoop como una sandbox de
descubrimiento y definición de patrones para ser monitorizados
para instrucciones prescriptivas. A continuación puedes mejorar
continuamente estas instrucciones ya que Hadoop se utiliza
constantemente con nuevos datos que no coinciden con los patrones
definidos anteriormente.
Conclusión

Hemos visto que es Hadoop y para qué sirve además de la importancia


que tiene en la actualidad para las empresas y los desafíos que supone
utilizarlo debido a alguna complicación para encontrar expertos en la
materia. Ahora puedes comenzar a utilizarlo para sacar el máximo
partido a tu big data. Pero recuerda que si necesitas ayuda lo ideal
es preguntar a un experto.

También podría gustarte