Big Data
Big Data
INTRODUCCIÓN………………………………………………………………………………………………………………………………………………………3
BIG DATA…………………………………………………………………………………………………………………………………………………………………4
FUNCIONAMIENTO DE BIG DATA…………………………………………………………………………………………………………………….………5
CRECIMIENTO DE BIG DATA………………………………………………………………………………………………………………………….…………6
TECNOLOGÍAS DE ALMACENAMIENTO, PROCESAMIENTO Y ANÁLISIS DE BIG DATA……………………………………..…………7
ECOSISTEMA BÁSICO DE BIG DATA……………………………………………………………………………………………………………….…………8
SECTORES EN LOS QUE MÁS UTILIZAN EL BIG DATA…………………………………………………………………………………….………….9
IMPORTANCIA DE BIG DATA……………………………………………………………………………………………………………………………….…10
DESAFIOS DE BIG DATA…………………………………………………………………………………………………………………………………………11
EJEMPLOS DE BIG DATA………………………………………………………………………………………………………………………………….…….12
CONCLUSIÓN ……………………………………………………………………………………………………………………………………….………………13
INTRODUCCIÓN
Big Data es desde poco menos de dos años una de las grandes tendencias dentro del mundo de la tecnología y del marketing, uno de
esos “buzzwords” que en un momento dado empiezan a propagarse y aparecer por todo internet, las grandes empresas se interesan por
ello, se crea una industria alrededor y, de repente, todo el mundo sabe lo que es Big Data.
La tendencia se encuadra en un entorno que no nos suena para nada extraño: la proliferación de páginas web, aplicaciones de imagen y
vídeo, redes sociales, dispositivos móviles, apps, sensores, internet de las cosas, etc. capaces de generar, según IBM, más de 2.5
quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo han sido creados durante los últimos dos años.
Hablamos de un entorno absolutamente relevante para muchos aspectos, desde el análisis de fenómenos naturales como el clima o de
datos sismográficos, hasta entornos como salud, seguridad o, por supuesto, el ámbito empresarial.
Es precisamente en ese ámbito donde las empresas desarrollan su actividad donde está surgiendo un interés que convierte a Big data en
algo así como “the next buzzword” que no es más que vendedores de tecnología, de herramientas, consultores, entre otros. En un
momento en que la mayoría de los directivos nunca se han sentado delante de una simple página de Google Analytics y se sorprenden
poderosamente cuando ven lo que es capaz de hacer, llega un panorama de herramientas diseñadas para que cosas inmensamente más
grandes y complejas puedan tener sentido. Tenle miedo, mucho miedo.
BIG DATA
BIG DATA • Nació con el objetivo de cubrir • Estos datos debían cumplir con
unas necesidades no satisfechas características muy concretas
por las tecnologías existentes, definidas como las tres V’s:
como es el almacenamiento y • Volumen, hace referencia al
tratamiento de grandes tamaño de los datos que pueden
volúmenes de datos provenir de múltiples fuentes.
• Velocidad, define la rapidez con
que llegan los datos usando
unidades como tera, peta o exa
bytes
• Variedad hablamos de datos:
• Estructurados
• Semi-estructurados
• No estructurados
FUNCIONAMIENTO DE BIG DATA
INTEGRAR
concentra datos de numerosas fuentes GESTIONAR
y aplicaciones distintas. Los
mecanismos de integración de datos El big data requiere almacenamiento. ANALIZAR
convencionales, tales como ETL Su solución de almacenamiento puede
(extract, transform, load [extraer, residir en la nube, on premise o
transformar, cargar]). La inversión en big data se rentabiliza
ambas. Puede almacenar sus datos de en cuanto se analizan y utilizan los
Durante la integración, es necesario cualquier forma que desee e datos. Adquiera una nueva claridad
incorporar los datos, procesarlos y incorporar los requisitos de con un análisis visual de sus diversos
asegurarse de que estén formateados procesamiento de su preferencia y los conjuntos de datos. Continúe
y disponibles de tal forma que los motores de procesamiento necesarios explorando los datos para realizar
analistas empresariales puedan a dichos conjuntos de datos on- nuevos descubrimientos. Comparta
empezar a utilizarlos. demand. sus hallazgos con otras personas.
Construya modelos de datos con
aprendizaje automático e inteligencia
artificial. Ponga sus datos a trabajar.
CRECIMIENTO DE BIG DATA
HISTÓRICO DE •DISPOSITIVOS
REDES •INTERNET
DATOS CLICKSTREAM MÓVILES
SOCIALES •SENSORES
datos •Es una
Muy útiles si conocer la •La
acumulados • pueden llegar poderosa
podemos filtrar navegación y el incorporación
durante años, a generar herramienta si
y analizar el uso que hacen de los mismos a
que pueden auténticas somo capaces
feedback de nuestros las estructuras
arrojar montañas de de organizar
clientes de empresariales
nuestros datos para la información
estadísticas y nuestro sitio siguiendo BYOD
clientes y evaluar. que
tendencias muy web. (Bring Your
proveedores necesitamos.
representativas Own Device).
TECNOLOGÍAS DE ALMACENAMIENTO, PROCESAMIENTO Y ANÁLISIS DE BIG DATA
Almacenamiento
ECOSISTEMA BÁSICO DE BIG DATA
Sqoop
Hive
Spark
cualquier solución Big Facebook para facilitar la importación de datos las deficiencias de Map-
Data. Fundamentado en tarea de programar desde diversas bases de Reduce, Spark ofrece
el procesamiento tareas Map-Reduce para datos relacionales, resultados mucho mas
paralelo usando una hacer consultas en encargándose de la rápidos usando el mismo
tecnica llamada ‘Map- Hadoop. Permite conversión tipos de datos cluster que Hadoop. Su
Reduce’ y un sistema de consultar la data usando y de las transformaciones
mayor ventaja es que el
archivos distribuidos HQL (ANSI SQL con que sean necesarias.
procesamiento es en la
denominado ‘Hadoop algunas modificaciones).
memoria y no en el disco.
File-System (HDFS)’. El De esta manera, se
origen de su nombre es disminuye la dificultad al Además, tiene sus propios
todo un misterio obtener resultados de la módulos de SQL e
data Inteligencia Artificial.
SECTORES EN LOS QUE MÁS UTILIZAN EL BIG DATA
Mucha volatilidad
Cosas. integrar y obtener datos de rápidamente y eso hace
alta calidad de forma que tengan una validez
•Datos sectoriales muy corta. Para
recopilados por empresas rápida. Se necesita mucho
tiempo para transformar solucionarlo necesitamos
especializadas. un poder de procesamiento En 1987 la Organización
los tipos no estructurados
No existen estándares de
calidad de datos unificados
•Datos experimentales. en tipos estructurados y muy alto. Internacional de
procesar esos datos. Normalización (ISO) publicó
Si no lo hacemos bien, el las normas ISO 9000 para
procesamiento y análisis garantizar la calidad de
Y los tipos de datos también basado en estos datos productos y servicios. Sin
lo son: puede producir embargo, el estudio de los
1.Tipos de datos no conclusiones erróneas, que estándares de calidad de los
estructurados: documentos, pueden llevar a cometer
datos no comenzó hasta los
vídeos, audios, etc. errores en la toma de
decisiones. años noventa, y no fue hasta
2.Tipos de datos semi- 2011 cuando ISO publicó las
estructurados: software, normas de calidad de datos
hojas de cálculo, informes. ISO 8000.
3.Tipos de datos Estas normas necesitan
estructurados madurar y perfeccionarse. La
Solo el 20% de información calidad de datos de big data
es estructurada y eso puede es clave, no solo para poder
provocar muchos errores si obtener ventajas
no acometemos un competitivas sino también
proyecto de calidad de impedir que incurramos en
datos. graves errores estratégicos y
operacionales.
EJEMPLOS
12 Tb 21 Pb
Hadoop
día cluster
7 Pb
mes
1 Tb 7 Tb
Tweets/día Datos/día
75 Million 4 Billion
Graph
Scores/day Edg/day
14 Tb
Hadoop
cluster
CONCLUSIÓN
La naturaleza de la información hoy es diferente a la información en el pasado. Debido a la abundancia de sensores, micrófonos, cámaras, escáneres médicos,
imágenes, entre otros en nuestras vidas, los datos generados a partir de estos elementos serán dentro de poco el segmento más grande de toda la información
disponible.
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas
herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el
procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar.
Implementar una solución alrededor de Big Data implica de la integración de diversos componentes y proyectos que en conjunto forman el ecosistema necesario
para analizar grandes cantidades de datos. Sin una plataforma de Big Data se necesitaría que desarrollar adicionalmente código que permita administrar cada uno
de esos componentes como por ejemplo: manejo de eventos, conectividad, alta disponibilidad, seguridad, optimización y desempeño, depuración, monitoreo,
administración de las aplicaciones, SQL y scripts personalizados.
IBM cuenta con una plataforma de Big Data basada en dos productos principales: IBM InfoSphere BigInsights™ e IBM InfoSphere Streams™, además de su reciente
adquisición Vivisimo, los cuales están diseñados para resolver este tipo de problemas. Estas herramientas están construidas para ser ejecutadas en sistemas
distribuidos a gran escala diseñados para tratar con grandes volúmenes de información, analizando tanto datos estructurados como no estructurados.
Dentro de la plataforma de IBM existen más de 100 aplicaciones de ejemplo recolectadas del trabajo que se ha realizado internamente en la empresa para casos
de uso e industrias específicas. Estos aplicativos están implementados dentro de la solución de manera que las organizaciones puedan dedicar su tiempo a
analizar y no a implementar.
Esto es solo una pequeña parte de lo que hasta hoy se ha hecho en el área.