Amayo Ataypoma Blas Bustincio Carhuachagua
Amayo Ataypoma Blas Bustincio Carhuachagua
Amayo Ataypoma Blas Bustincio Carhuachagua
Índice:
Contenido
Introducción: 2
1. Marco Teórico: 3
2. Descripción de herramientas: 4
3. Comparativa de herramientas de Big Data: 5
4. Ventajas de las herramientas de Big Data: 7
5. Beneficios de las herramientas de Big Data: 9
6. Usos de las herramientas de Big Data: 11
7. Conclusiones: 12
8. Referencias bibliográficas: 13
Bibliografía 13
1
UD Big Data aplicada a los negocios
Introducción:
En el presente informe daremos a conocer lo que son las herramientas del Big Data
y como se aplican, identificando la necesidad por la que es necesaria analizarla,
señalando los pasos clave para lograrlo, argumentar buenas recomendaciones
basadas en presentaciones de datos y apoyar la competitividad, así mismo como
equipo reflejar en nuestro informe la capacidad de aprendizaje que tenemos con el
apoyo formativo de nuestro docente.
2
UD Big Data aplicada a los negocios
1. Marco Teórico:
Descripción de los pasos la metodología de procesamiento de datos
a. Recopilación de datos:
El procesamiento y análisis de datos parte recopilando los datos de las fuentes
de almacenamiento que estén disponibles y que contengan información de
calidad. Por lo que deberán estar en óptimas condiciones y actualizadas.
b. Preparación de datos:
En este punto comienza la preparación para su organización, la detección de
errores y el descarte de información repetitiva e incompleta. De este modo,
pasa a seleccionar la información necesaria y puntual con la que se trabajará
para el procesamiento y análisis de datos.
c. Introducción de datos:
En este paso los datos en bruto comienzan a tomar forma como información
útil, que podrá visualizarse.
d. Procesamiento y limpieza de datos:
En esta etapa, los datos procesados por la etapa anterior son finalmente
preparados y optimizados para su uso final. Esto ocurre a través de algoritmos
por medio de una técnica de programación denominada machine learning.
e. Interpretación de datos:
En este punto será cuando finalmente tendrás todo el resultado de las etapas
previas. De una forma totalmente entendible para ti y los miembros que la
requieran.
f. Almacenamiento de datos:
Finalmente, queda la última etapa de este proceso que consiste en el
almacenamiento de toda esta información útil resultante del procesamiento y
análisis de datos. (Group, 2020)
3
UD Big Data aplicada a los negocios
2. Descripción de herramientas:
Descripción de herramientas analíticas de Big data.
● Python:
“Python es un lenguaje de programación que cumple con lo planteado y se
viene perfilando como una opción recomendada para el desarrollo de software
libre.” (Challenger-Pérez, Díaz-Ricardo, & Becerra-García, 2014)
● Lenguaje R:
R es un entorno de software libre (licencia GNU GLP) y lenguaje de
programación interpretado, es decir, ejecuta las instrucciones directamente,
sin una previa compilación del programa a instrucciones en lenguaje máquina.
El término entorno, en R, se refiere a un sistema totalmente planificado y
coherente. (Rioja, 2019)
● Hadoop:
Es un framework opensource para almacenar datos y ejecutar aplicaciones en
clusters de hardware básicos. Proporciona un almacenamiento masivo para
cualquier tipo de datos, un enorme poder de procesamiento y la capacidad de
manejar tareas o trabajos prácticamente ilimitados. Esto básicamente y de
forma muy concreta. (Data P. , ¿Qué es Big Data Hadoop y para qué sirve?,
2017)
● Apache spark:
Es un framework de programación para procesamiento de datos
distribuidos diseñado para ser rápido y de propósito general. Como su propio
nombre indica, ha sido desarrollada en el marco del proyecto Apache, lo que
garantiza su licencia Open Source. (ESIC, 2018)
● Apache storm:
Es un sistema utilizado para procesar datos en tiempo real. Es de fuente
abierta y gratuita. Este gran sistema facilita el procesamiento de flujos
ilimitados de datos. Además, su uso resulta muy simple, y puede ser utilizado
con cualquier lenguaje de programación. (Data E. E., 2018)
4
UD Big Data aplicada a los negocios
PYTHON LENGUAJE R
Facilita trabajar con big data, machine learning R no ofrece un desarrollo de software de propósito
y data science. general como Python.
Python es más sencilla ya que utiliza una R ofrece una especialización para el análisis de big
sintaxis más cercana al inglés escrito para data, pero no para el desarrollo web de propósito
ejecutar los comandos. general.
Es uno de los lenguajes de programación más R es un tema que vas descubriendo poco a poco,
demandados en el mundo laboral. este no tiene fin.
Trabaja en la ciencia de datos orientada al Esta construido para las estadísticas.
negocio.
(edX, 2021)
5
UD Big Data aplicada a los negocios
Es una fuente abierta y gratuita, también se Permite guardar todo tipo de datos.
puede utilizar en cualquier lenguaje de
programación.
Cuenta con tres nodos: Es un motor de búsqueda y análisis de datos a la
- Nodo Nimbos ves es de código abierto, y es muy veloz.
- Nodo Zookeerper
- Nodo de supervisor
Es un sistema muy rápido, es capaz de Elacticsearch se puede conectar con Javascript,
procesar más de un millón de registros por Java, Go, PHP, NET, Python, API, etc.
segundo por nodo en un clúster de modesto
tamaño.
Se puede utilizar para analizar flujos en Elasticsearch utiliza Query DSL (Lenguaje de
tiempo real, realizar tareas de aprendizaje dominio específico) para realizar las consultas a
automático, etc. los documentos indexados.
Storm se compara con la plataforma Elacticsearch forma parte de los sistemas de
Hadoop, y la diferencia clave es que los datos gestión de eventos e información de seguridad,
no se colocan en el repositorio, sino que se específicamente en la plataforma ELK
reciben desde el exterior y se procesan en (Elacticsearch, long Stash, Kibana).
tiempo real. (Net, s.f.) También acepta de manera nativa otras
herramientas de visualización y exploración
pudiéndose utilizar Grafama y Kibana para tales
propósitos. (CUERVO, 2019)
6
UD Big Data aplicada a los negocios
que tiene una sintaxis similar al inglés, por lo que es fácil de leer, escribir
y aprender.
● Lenguaje R:
rápidamente.
● Hadoop:
7
UD Big Data aplicada a los negocios
programación en paralelo.
procesos en paralelo.
● Apache Spark:
✔ Una plataforma de código abierto con una comunidad activa, una de las
● Apache Storm:
8
UD Big Data aplicada a los negocios
✔ Escalable
✔ Tolerante a fallos
Perl.
9
UD Big Data aplicada a los negocios
integrados.
sistemas operativos.
desarrollarse libremente.
● Lenguaje R:
paquetes extras.
10
UD Big Data aplicada a los negocios
● Hadoop:
● Apache spark:
y el mantenimiento.
✔ Tiene una consola interactiva que permite analizar los datos de forma
● Apache storm:
11
UD Big Data aplicada a los negocios
automáticamente
✔ Storm garantiza que cada unidad de datos (tupla) se procese al menos una
vez
12
UD Big Data aplicada a los negocios
13
UD Big Data aplicada a los negocios
7. Conclusiones:
▪ El Big Data cuenta con las herramientas que para muchas empresas es la
oportunidad o la puerta del avance que buscan, ya que así pueden explotar todos
los datos internos y externos.
▪ Las herramientas que nos ofrecen una mejor calidad y eficacia a comparación de
las herramientas como EXCEL, para ello debemos estar preparados y aptos para
poder usarlo, de esa manera nuestra mentalidad se amplia potenciando nuestros
conocimientos, esto nos incentiva a querer aprender más de las tecnologías y
dándolo un buen eso, se podría decir que, estudiar todas las herramientas del Big
data es una inversión y no un gasto.
14
UD Big Data aplicada a los negocios
8. Referencias bibliográficas:
Bibliografía:
(s.f.).
(s.f.).
Api, M. (25 de Septiembre de 2015). Apache spark: las ventajas de al nuevo rey de big
data. Bbva Api_Msrket. . Obtenido de
https://www.bbvaapimarket.com/es/mundo-api/apache-spark-las-ventajas-de-us
ar-al-nuevo-rey-de-big-data/.
API_Market, B. (25 de Setiembre de 2015). Apache Spark: las ventajas de usar al
nuevo ‘rey’ de Big Data. Obtenido de
https://www.bbvaapimarket.com/es/mundo-api/apache-spark-las-ventajas-de-us
ar-al-nuevo-rey-de-big-data/
Arles, G. (16 de Septiembre de 2021). Lenguaje de programación R. vs Excel: ventajas
y desventajas. Obtenido de
https://www.integratecnologia.es/la-innovacion-necesaria/lenguaje-de-programa
cion-r-vs-excel-ventajas-y-desventajas/#:~:text=Tratamiento%20de%20datos%
3A%20R%20permite,preparaci%C3%B3n%20de%20datos%20que%20Excel.
Ayudaley. (s.f.). ¿Qué es Hadoop y para qué sirve en Big Data? Obtenido de
https://ayudaleyprotecciondatos.es/big-data/hadoop/
Calvo, D. (05 de Julio de 2018). Storm. Obtenido de https://www.diegocalvo.es/storm/
Challenger-Pérez, I., Díaz-Ricardo, Y., & Becerra-García, R. A. (2014). Ciencias
Holguín. El lenguaje de programación Python , 1. Obtenido de
https://www.redalyc.org/pdf/1815/181531232001.pdf
Cloud, G. (2007). ¿Qué es Apache Spark? Obtenido de
https://cloud.google.com/learn/what-is-apache-spark?hl=es
Cloudera. (s.f.). Finalidad de storm, s.f. . Obtenido de
https://es.cloudera.com/products/open-source/apache-hadoop/apache-storm.ht
ml
CUERVO, V. (26 de Febrero de 2019). EN ELASTICSEARCH. Obtenido de
https://www.arquitectoit.com/elasticsearch/que-es-elasticsearch/
Data, E. E. (06 de Marzo de 2018). Herramientas de Big data. Obtenido de
https://expertoenbigdata.com/apache-storm/
Data, P. (16 de Febrero de 2015). 5 ventajas de la arquitectura de Hadoop. Obtenido
de
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/402826/5-ventajas
-de-la-arquitectura-de-Hadoop.
Data, P. (27 de Enero de 2017). ¿Qué es Big Data Hadoop y para qué sirve? Obtenido
de
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/que-es-big-data-hado
op-y-para-que-sirve
edX, E. d. (25 de Mayo de 2021). R vs. Python para la ciencia de datos. Obtenido de
https://blog.edx.org/es/r-vs-python-para-la-ciencia-de-datos-explicacion-y-conse
jos-de-aprendizaje#:~:text=R%20no%20ofrece%20un%20desarrollo,CRAN%20
(Comprehensive%20R%20Archive%20Network)
15
UD Big Data aplicada a los negocios
16