ADR - Big Data - v2020
ADR - Big Data - v2020
Pipeline de datos:
los datos de entrada se
transforman en datos de
salida mediante una serie
de operaciones
Conceptos relacionados
DBD
Automatizadas
Data Science
Data Analytics
Data Engineering
(incluye tecnologías de Big Data)
Framework que permite el procesamiento distribuido de grandes conjuntos de datos. Diseñado para
escalar en procesamiento y almacenamiento. Incluye entre sus componentes mas destacados a
Hadoop Distributed File System (HDFS), que es un sistema de archivos distribuido diseñado para
ejecutarse en hardware básico y que posee una alta tolerancia a fallos.
http://hadoop.apache.org
Motor de análisis unificado para el procesamiento de datos a gran escala. Apache Spark es parte del
ecosistema de Hadoop, pero su uso se ha generalizado tanto que merece una categoría propia.
Puede llegar a obtener un comportamiento cien veces más rápido que el motor estándar de Hadoop.
http://spark.apache.org
Es uno de los lenguajes mejor valorados dentro de utilizados para varios proyectos / aplicaciones de
data science. Proporciona una gran funcionalidad para lidiar con matemática, estadística y funciones
científicas. Proporciona excelentes bibliotecas para tratar con aplicaciones de data science.
https://www.python.org
Subconjunto de Big Data analytics que intenta pronosticar eventos o comportamientos futuros
basándose en datos históricos. Se basa en técnicas de data mining, modelado y machine learning
para predecir lo que sucederá a continuación. Usos frecuentes de esta discipllina: detección de
fraudes, calificación crediticia, marketing, finanzas y análisis comercial.
En cualquier sistema informático, la memoria RAM, es en órdenes de magnitud más rápida que el
almacenamiento persistente No volátil.
Si una solución de análisis de Big Data puede procesar datos almacenados en la memoria, en lugar
de los localizados en un disco rígido, será capaz de funcionar mucho más rápido. Y eso es
exactamente lo que hace la tecnología de bases de datos en memoria.
Abarca todos los procesos relacionados con la disponibilidad, usabilidad e integridad de los datos.
Proporciona la base para asegurarse de que los datos utilizados para el análisis de Big Data sean
precisos y apropiados. Proporciona pistas de auditoría para que el negocio pueda ver dónde se
originaron los datos. Algunos proveedores de herramientas de Big Data governance: Collibra, IBM,
SAS, Informatica, Adaptive y SAP.
Tecnologías / Productos
Debido a que los repositorios de Big Data representan un objetivo atractivo para hackers y
amenazas avanzadas, la seguridad de los mismo es una preocupación importante y creciente para
las empresas. Cada vez más proveedores ofrecen soluciones de seguridad orientadas a cubrir de
manera integral la seguridad en soluciones de Big Data. Apache Ranger, del ecosistema Hadoop, es
uno de ellos.
https://ranger.apache.org
Si bien el concepto de inteligencia artificial ha existido casi desde que existieron las computadoras,
la tecnología solo se ha vuelto masivamente utilizable en los últimos años. De muchas formas, la
tendencia de Big Data ha impulsado avances en AI, particularmente en dos subconjuntos de la
disciplina: Machine Learning y Deep Learning.
Tecnologías / Productos
Se trata del análisis de grandes grupos de datos actuales (real-time) y "en movimiento" mediante el
uso de consultas (queries) continuas, llamadas flujos de eventos. Estas transmisiones se activan por
un evento específico que ocurre como resultado directo de una acción o un conjunto de acciones,
como una transacción financiera, falla de un equipo (HW), una publicación en una red social, un click
en un sitio web o alguna otra actividad medible.
De alguna forma, edge computing es lo opuesto cloud computing. En lugar de transmitir datos a un
servidor centralizado para su análisis, los sistemas de edge computing analizan datos muy cerca de
donde se crearon: dispositivos de IOT (Internet of Things) o servidores locales. La ventaja de edge
computing es que reduce la cantidad de información que debe transmitirse a través de la red,
disminuyendo así el tráfico y los costos relacionados.
La característica única de una base de datos blockchain es que una vez que se han escrito los
datos, no se pueden eliminar ni cambiar. Esto le brinda un potencial que aún está en desarrollo
sostenido. Es altamente seguro, lo que lo convierte en una excelente opción para aplicaciones de
Big Data en industrias sensibles como banca, seguros, atención médica y comercio minorista entre
otras otras.
Tecnologías / Productos
Analiza la información sobre posibles situaciones o escenarios, recursos disponibles, desempeño
pasado y desempeño actual ofrece recomendaciones sobre lo que debe hacerse para lograr un
resultado esperado. Por ejemplo, mientras que predictive analytics puede advertir a una empresa de
que el mercado de una línea de productos en particular está a punto de achicarse, el análisis
prescriptivo analizará varios cursos de acción en respuesta a esos cambios del mercado y
pronosticará los resultados más probables.
Desafíos para el negocio y para IT