0% encontró este documento útil (0 votos)
203 vistas13 páginas

Big Data

Todo lo que debes saber sobre Big Data

Cargado por

Odalis Torrealba
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
203 vistas13 páginas

Big Data

Todo lo que debes saber sobre Big Data

Cargado por

Odalis Torrealba
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 13

INSTITUTO UNIVERSITARIO DE TECNOLOGÍA

“ANTONIO JOSÉ DE SUCRE”


EXTENSIÓN BARQUISIMETO
ESCUELA DE INFORMÁTICA

Profesor: Oscar Pereira


Autor: Alexis Humberto Almao
Cédula: V-15.691.375
Semestre: 5to
Asignatura: Seguridad Informática

Barquisimeto, abril 2019


ÍNDICE

INTRODUCCIÓN………………………………………………………………………………………………………………………………………………………3
BIG DATA…………………………………………………………………………………………………………………………………………………………………4
FUNCIONAMIENTO DE BIG DATA…………………………………………………………………………………………………………………….………5
CRECIMIENTO DE BIG DATA………………………………………………………………………………………………………………………….…………6
TECNOLOGÍAS DE ALMACENAMIENTO, PROCESAMIENTO Y ANÁLISIS DE BIG DATA……………………………………..…………7
ECOSISTEMA BÁSICO DE BIG DATA……………………………………………………………………………………………………………….…………8
SECTORES EN LOS QUE MÁS UTILIZAN EL BIG DATA…………………………………………………………………………………….………….9
IMPORTANCIA DE BIG DATA……………………………………………………………………………………………………………………………….…10
DESAFIOS DE BIG DATA…………………………………………………………………………………………………………………………………………11
EJEMPLOS DE BIG DATA………………………………………………………………………………………………………………………………….…….12
CONCLUSIÓN ……………………………………………………………………………………………………………………………………….………………13
INTRODUCCIÓN

Big Data es desde poco menos de dos años una de las grandes tendencias dentro del mundo de la tecnología y del marketing, uno de
esos “buzzwords” que en un momento dado empiezan a propagarse y aparecer por todo internet, las grandes empresas se interesan por
ello, se crea una industria alrededor y, de repente, todo el mundo sabe lo que es Big Data.

La tendencia se encuadra en un entorno que no nos suena para nada extraño: la proliferación de páginas web, aplicaciones de imagen y
vídeo, redes sociales, dispositivos móviles, apps, sensores, internet de las cosas, etc. capaces de generar, según IBM, más de 2.5
quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo han sido creados durante los últimos dos años.
Hablamos de un entorno absolutamente relevante para muchos aspectos, desde el análisis de fenómenos naturales como el clima o de
datos sismográficos, hasta entornos como salud, seguridad o, por supuesto, el ámbito empresarial.

Es precisamente en ese ámbito donde las empresas desarrollan su actividad donde está surgiendo un interés que convierte a Big data en
algo así como “the next buzzword” que no es más que vendedores de tecnología, de herramientas, consultores, entre otros. En un
momento en que la mayoría de los directivos nunca se han sentado delante de una simple página de Google Analytics y se sorprenden
poderosamente cuando ven lo que es capaz de hacer, llega un panorama de herramientas diseñadas para que cosas inmensamente más
grandes y complejas puedan tener sentido. Tenle miedo, mucho miedo.
BIG DATA

BIG DATA • Nació con el objetivo de cubrir • Estos datos debían cumplir con
unas necesidades no satisfechas características muy concretas
por las tecnologías existentes, definidas como las tres V’s:
como es el almacenamiento y • Volumen, hace referencia al
tratamiento de grandes tamaño de los datos que pueden
volúmenes de datos provenir de múltiples fuentes.
• Velocidad, define la rapidez con
que llegan los datos usando
unidades como tera, peta o exa
bytes
• Variedad hablamos de datos:
• Estructurados
• Semi-estructurados
• No estructurados
FUNCIONAMIENTO DE BIG DATA

INTEGRAR
concentra datos de numerosas fuentes GESTIONAR
y aplicaciones distintas. Los
mecanismos de integración de datos El big data requiere almacenamiento. ANALIZAR
convencionales, tales como ETL Su solución de almacenamiento puede
(extract, transform, load [extraer, residir en la nube, on premise o
transformar, cargar]). La inversión en big data se rentabiliza
ambas. Puede almacenar sus datos de en cuanto se analizan y utilizan los
Durante la integración, es necesario cualquier forma que desee e datos. Adquiera una nueva claridad
incorporar los datos, procesarlos y incorporar los requisitos de con un análisis visual de sus diversos
asegurarse de que estén formateados procesamiento de su preferencia y los conjuntos de datos. Continúe
y disponibles de tal forma que los motores de procesamiento necesarios explorando los datos para realizar
analistas empresariales puedan a dichos conjuntos de datos on- nuevos descubrimientos. Comparta
empezar a utilizarlos. demand. sus hallazgos con otras personas.
Construya modelos de datos con
aprendizaje automático e inteligencia
artificial. Ponga sus datos a trabajar.
CRECIMIENTO DE BIG DATA

Actualmente el ritmo de crecimiento de los datos es exponencial, de esta manera, es lógico


pensar en nuevas herramientas que nos ayuden en el tratamiento de estos silos de información,
que pueden provenir de múltiples y diferentes canales, como:

HISTÓRICO DE •DISPOSITIVOS
REDES •INTERNET
DATOS CLICKSTREAM MÓVILES
SOCIALES •SENSORES
datos •Es una
Muy útiles si conocer la •La
acumulados • pueden llegar poderosa
podemos filtrar navegación y el incorporación
durante años, a generar herramienta si
y analizar el uso que hacen de los mismos a
que pueden auténticas somo capaces
feedback de nuestros las estructuras
arrojar montañas de de organizar
clientes de empresariales
nuestros datos para la información
estadísticas y nuestro sitio siguiendo BYOD
clientes y evaluar. que
tendencias muy web. (Bring Your
proveedores necesitamos.
representativas Own Device).
TECNOLOGÍAS DE ALMACENAMIENTO, PROCESAMIENTO Y ANÁLISIS DE BIG DATA

Las tecnologías Big Data


Análisis
pueden clasificarse en
tres grandes grupos Procesamiento

Almacenamiento
ECOSISTEMA BÁSICO DE BIG DATA

La herramienta base de Desarrollado en Permite realizar tareas de Desarrollado para superar


Hadoop

Sqoop
Hive

Spark
cualquier solución Big Facebook para facilitar la importación de datos las deficiencias de Map-
Data. Fundamentado en tarea de programar desde diversas bases de Reduce, Spark ofrece
el procesamiento tareas Map-Reduce para datos relacionales, resultados mucho mas
paralelo usando una hacer consultas en encargándose de la rápidos usando el mismo
tecnica llamada ‘Map- Hadoop. Permite conversión tipos de datos cluster que Hadoop. Su
Reduce’ y un sistema de consultar la data usando y de las transformaciones
mayor ventaja es que el
archivos distribuidos HQL (ANSI SQL con que sean necesarias.
procesamiento es en la
denominado ‘Hadoop algunas modificaciones).
memoria y no en el disco.
File-System (HDFS)’. El De esta manera, se
origen de su nombre es disminuye la dificultad al Además, tiene sus propios
todo un misterio obtener resultados de la módulos de SQL e
data Inteligencia Artificial.
SECTORES EN LOS QUE MÁS UTILIZAN EL BIG DATA

Finanzas Seguros Ciencias Deportes Cultura


•Disponer de información •El público objetivo de las •Desde aplicaciones para •Análisis de la competencia, •El conocimiento de los
actualizada y a tiempo real aseguradoras es tan amplio ciencias naturales y del diseño de la estrategia de gustos, las tendencias y las
sobre el estado de los y variado como los riesgos cosmos, como la entrenamiento y apetencias del público
mercados nacionales e que estas asumen con su astronomía, la botánica y la competición más potencialmente dispuesto a
internacionales, sobre las actividad empresarial. Unos geología, hasta conveniente, y un largo consumir sus producciones
condiciones primarias y riesgos que se ven funcionalidades que etcétera hacen es determinante para
secundarias que pueden drásticamente minimizados permiten realizar análisis especialmente indicado el diseñar una buena
descubrir una buena mediante un correcto pormenorizados de los análisis de datos contenidos estrategia.
oportunidad de negocio o aprovechamiento de las casos y ofrecer en Big Data en el sector del
sobre el detalle de los herramientas Big Data: el tratamientos más deporte, tanto profesional
riesgos que se asumirán en acceso a datos relevantes personalizados en el ámbito como amateur.
cada operación que se permite realizar informes de las ciencias de la salud,
platee. transversales y pasando por las distintas
multivariables que aporten ciencias económicas y
información sobre salud, sociales que mayor ventaja
siniestralidad y morosidad, obtienen aprovechando los
entre otros. beneficios aportados por
estas herramientas.
IMPORTANCIA DE BIG DATA

Las grandes tecnologías de datos, como Hadoop y el


análisis basado en la nube, aportan importantes ventajas
Reducción de coste en términos de costes cuando se trata de almacenar
grandes cantidades de datos, además de identificar
maneras más eficientes de hacer negocios.

Con la velocidad de Hadoop y la analítica en memoria,


Más rápido, mejor toma de combinada con la capacidad de analizar nuevas fuentes de
datos, las empresas pueden analizar la información
decisiones inmediatamente y tomar decisiones basadas en lo que han
aprendido.

•Con la capacidad de medir las necesidades de los clientes


y la satisfacción a través de análisis viene el poder de dar a
los clientes lo que quieren. Con la analítica de Big Data,
Nuevos productos y servicios más empresas están creando nuevos productos para
satisfacer las necesidades de los clientes.
DESAFÍOS DE LA CALIDAD DE DATOS EN BIG DATA

Con tantas fuentes, tipos de

Muchas fuentes y tipos de datos


datos y estructuras
complejas, la dificultad de
integración de datos
aumenta.
el volumen de datos es

Tremendo volumen de datos


Las fuentes de datos de big enorme, y eso complica la
data son muy amplias: ejecución de un proceso de
•Datos de internet y calidad de datos dentro de
móviles. un tiempo razonable.
•Datos de Internet de las Es difícil recolectar, limpiar, Los datos cambian

Mucha volatilidad
Cosas. integrar y obtener datos de rápidamente y eso hace
alta calidad de forma que tengan una validez
•Datos sectoriales muy corta. Para
recopilados por empresas rápida. Se necesita mucho
tiempo para transformar solucionarlo necesitamos
especializadas. un poder de procesamiento En 1987 la Organización
los tipos no estructurados

No existen estándares de
calidad de datos unificados
•Datos experimentales. en tipos estructurados y muy alto. Internacional de
procesar esos datos. Normalización (ISO) publicó
Si no lo hacemos bien, el las normas ISO 9000 para
procesamiento y análisis garantizar la calidad de
Y los tipos de datos también basado en estos datos productos y servicios. Sin
lo son: puede producir embargo, el estudio de los
1.Tipos de datos no conclusiones erróneas, que estándares de calidad de los
estructurados: documentos, pueden llevar a cometer
datos no comenzó hasta los
vídeos, audios, etc. errores en la toma de
decisiones. años noventa, y no fue hasta
2.Tipos de datos semi- 2011 cuando ISO publicó las
estructurados: software, normas de calidad de datos
hojas de cálculo, informes. ISO 8000.
3.Tipos de datos Estas normas necesitan
estructurados madurar y perfeccionarse. La
Solo el 20% de información calidad de datos de big data
es estructurada y eso puede es clave, no solo para poder
provocar muchos errores si obtener ventajas
no acometemos un competitivas sino también
proyecto de calidad de impedir que incurramos en
datos. graves errores estratégicos y
operacionales.
EJEMPLOS

12 Tb 21 Pb
Hadoop
día cluster

7 Pb
mes

1 Tb 7 Tb
Tweets/día Datos/día

75 Million 4 Billion
Graph
Scores/day Edg/day

14 Tb
Hadoop
cluster
CONCLUSIÓN

La naturaleza de la información hoy es diferente a la información en el pasado. Debido a la abundancia de sensores, micrófonos, cámaras, escáneres médicos,
imágenes, entre otros en nuestras vidas, los datos generados a partir de estos elementos serán dentro de poco el segmento más grande de toda la información
disponible.

El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas
herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el
procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar.

Implementar una solución alrededor de Big Data implica de la integración de diversos componentes y proyectos que en conjunto forman el ecosistema necesario
para analizar grandes cantidades de datos. Sin una plataforma de Big Data se necesitaría que desarrollar adicionalmente código que permita administrar cada uno
de esos componentes como por ejemplo: manejo de eventos, conectividad, alta disponibilidad, seguridad, optimización y desempeño, depuración, monitoreo,
administración de las aplicaciones, SQL y scripts personalizados.

IBM cuenta con una plataforma de Big Data basada en dos productos principales: IBM InfoSphere BigInsights™ e IBM InfoSphere Streams™, además de su reciente
adquisición Vivisimo, los cuales están diseñados para resolver este tipo de problemas. Estas herramientas están construidas para ser ejecutadas en sistemas
distribuidos a gran escala diseñados para tratar con grandes volúmenes de información, analizando tanto datos estructurados como no estructurados.

Dentro de la plataforma de IBM existen más de 100 aplicaciones de ejemplo recolectadas del trabajo que se ha realizado internamente en la empresa para casos
de uso e industrias específicas. Estos aplicativos están implementados dentro de la solución de manera que las organizaciones puedan dedicar su tiempo a
analizar y no a implementar.

Esto es solo una pequeña parte de lo que hasta hoy se ha hecho en el área.

También podría gustarte