0% encontró este documento útil (0 votos)
182 vistas1 página

Big Data Con Python 2 18

Este documento introduce los conceptos de big data y ciencia de datos. Explica que la ciencia de datos es un campo interdisciplinario que combina aprendizaje automático, estadística, análisis avanzado, minería de datos y programación con el objetivo de extraer conocimiento útil a partir de grandes cantidades de datos. También describe brevemente algunas empresas líderes en el desarrollo de plataformas y soluciones de big data.

Cargado por

Poe
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
182 vistas1 página

Big Data Con Python 2 18

Este documento introduce los conceptos de big data y ciencia de datos. Explica que la ciencia de datos es un campo interdisciplinario que combina aprendizaje automático, estadística, análisis avanzado, minería de datos y programación con el objetivo de extraer conocimiento útil a partir de grandes cantidades de datos. También describe brevemente algunas empresas líderes en el desarrollo de plataformas y soluciones de big data.

Cargado por

Poe
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 1

Introducción

desarrollo más comunes: joins, ordenación secundaria y registros compuestos.


• Treelogic. Fundada en España en 1996, cuenta actualmente con SMYZER, una
herramienta para la monitorización de la información contenida en redes y medios
sociales en tiempo real. Treelogic no quiere faltar en el apogeo de desarrollos de
plataformas tecnológicas big data, de modo que creó en 2014 una versión open
source de un middleware que permitía de forma opaca para el cliente tratar datos
en tiempo real en combinación con datos históricos. Comercialmente la plataforma
se llamaba Lambdoop.
• Paradigma Tecnológico. Establecida en 2007 y dedicada a tecnologías web, creó
a finales de 2013 una start-up filial, Stratio. Con Stratio, Paradigma Tecnológico
ha centrado sus esfuerzos en el desarrollo y comercialización de una plataforma
big data a nivel internacional.
Entre las empresas y productos destacados anteriormente, todos ellos tenían en común
el enfoque de abstraerse de las distintas tecnologías que componen un entorno big data
principalmente a través de soluciones basadas en API, estas ofertas actuales están casi
siempre limitadas a un determinado tipo de funcionalidad o a soluciones específicas.
En paralelo al crecimiento del big data, del número y tamaño de los datos, de las apli-
caciones, de las plataformas, ha evolucionado una nueva área de conocimiento que da
respuesta a las nuevas necesidades de explotación de los mismos. Conocida globalmen-
te como data science o ciencia de los datos, se trata de un campo interdisciplinar que
combina machine learning, estadística, análisis avanzado, minería de datos, big data y
programación, con el objetivo de extraer conocimiento oculto y útil a partir de los da-
tos, mediante procesos de descubrimiento o de formulación y verificación de hipótesis
([IBM17], [NIST15]).

1.2 Los datos


Los datos recogen un conjunto de hechos (una base de datos, BD) y los patrones son
expresiones que describen un subconjunto de los datos (un modelo aplicable a ese
subconjunto). BD involucra un proceso iterativo e interactivo de búsqueda de modelos,
patrones o parámetros. Los patrones descubiertos han de ser válidos, novedosos para
el sistema (para el usuario siempre que sea posible) y potencialmente útiles.
Se han de definir medidas cuantitativas para los patrones obtenidos (precisión, utilidad,
beneficio obtenido...). Se debe establecer alguna medida de interés que considere la
validez, utilidad y simplicidad de los patrones obtenidos mediante alguna de las técnicas
de minería de datos. El objetivo final de todo esto es incorporar el conocimiento obtenido
en algún sistema real, tomar decisiones a partir de los resultados alcanzados o, simple-
mente, registrar la información conseguida y suministrársela a quien esté interesado.

19
E-Books & Papers for Statisticians

También podría gustarte