0 calificaciones0% encontró este documento útil (0 votos)
182 vistas1 página
Big Data Con Python 2 18
Este documento introduce los conceptos de big data y ciencia de datos. Explica que la ciencia de datos es un campo interdisciplinario que combina aprendizaje automático, estadística, análisis avanzado, minería de datos y programación con el objetivo de extraer conocimiento útil a partir de grandes cantidades de datos. También describe brevemente algunas empresas líderes en el desarrollo de plataformas y soluciones de big data.
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0 calificaciones0% encontró este documento útil (0 votos)
182 vistas1 página
Big Data Con Python 2 18
Este documento introduce los conceptos de big data y ciencia de datos. Explica que la ciencia de datos es un campo interdisciplinario que combina aprendizaje automático, estadística, análisis avanzado, minería de datos y programación con el objetivo de extraer conocimiento útil a partir de grandes cantidades de datos. También describe brevemente algunas empresas líderes en el desarrollo de plataformas y soluciones de big data.
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 1
Introducción
desarrollo más comunes: joins, ordenación secundaria y registros compuestos.
• Treelogic. Fundada en España en 1996, cuenta actualmente con SMYZER, una herramienta para la monitorización de la información contenida en redes y medios sociales en tiempo real. Treelogic no quiere faltar en el apogeo de desarrollos de plataformas tecnológicas big data, de modo que creó en 2014 una versión open source de un middleware que permitía de forma opaca para el cliente tratar datos en tiempo real en combinación con datos históricos. Comercialmente la plataforma se llamaba Lambdoop. • Paradigma Tecnológico. Establecida en 2007 y dedicada a tecnologías web, creó a finales de 2013 una start-up filial, Stratio. Con Stratio, Paradigma Tecnológico ha centrado sus esfuerzos en el desarrollo y comercialización de una plataforma big data a nivel internacional. Entre las empresas y productos destacados anteriormente, todos ellos tenían en común el enfoque de abstraerse de las distintas tecnologías que componen un entorno big data principalmente a través de soluciones basadas en API, estas ofertas actuales están casi siempre limitadas a un determinado tipo de funcionalidad o a soluciones específicas. En paralelo al crecimiento del big data, del número y tamaño de los datos, de las apli- caciones, de las plataformas, ha evolucionado una nueva área de conocimiento que da respuesta a las nuevas necesidades de explotación de los mismos. Conocida globalmen- te como data science o ciencia de los datos, se trata de un campo interdisciplinar que combina machine learning, estadística, análisis avanzado, minería de datos, big data y programación, con el objetivo de extraer conocimiento oculto y útil a partir de los da- tos, mediante procesos de descubrimiento o de formulación y verificación de hipótesis ([IBM17], [NIST15]).
1.2 Los datos
Los datos recogen un conjunto de hechos (una base de datos, BD) y los patrones son expresiones que describen un subconjunto de los datos (un modelo aplicable a ese subconjunto). BD involucra un proceso iterativo e interactivo de búsqueda de modelos, patrones o parámetros. Los patrones descubiertos han de ser válidos, novedosos para el sistema (para el usuario siempre que sea posible) y potencialmente útiles. Se han de definir medidas cuantitativas para los patrones obtenidos (precisión, utilidad, beneficio obtenido...). Se debe establecer alguna medida de interés que considere la validez, utilidad y simplicidad de los patrones obtenidos mediante alguna de las técnicas de minería de datos. El objetivo final de todo esto es incorporar el conocimiento obtenido en algún sistema real, tomar decisiones a partir de los resultados alcanzados o, simple- mente, registrar la información conseguida y suministrársela a quien esté interesado.