EA Big Data CC DA Rev
EA Big Data CC DA Rev
EA Big Data CC DA Rev
0 BIG DATA
ESTADO DEL ARTE INDUSTRIA 4.0 | Oportunidades I4.0 Galicia Página 1 de 103
Oportunidades Industria 4.0 en Galicia
ÍNDICE
1. INTRODUCCIÓN .................................................................................... 4
1.1 BIG DATA .............................................................................................................. 5
1.1.1 Definición/Descripción ...................................................................................... 5
1.1.2 Breve historia.................................................................................................... 7
1.1.3 Ventajas y limitaciones .................................................................................... 10
1.1.4 Tendencias ...................................................................................................... 11
1.1.5 Principales tecnologías en la industria.............................................................. 11
1.1.6 Herramientas Big Data .................................................................................... 12
1.1.7 Big Data: casos de uso ..................................................................................... 26
1.2 DATA ANALYTICS ................................................................................................ 29
1.2.1 Breve historia.................................................................................................. 29
1.2.2 Definición/Descripción .................................................................................... 30
1.2.3 Análisis avanzado de datos .............................................................................. 32
1.2.4 Ventajas y limitaciones .................................................................................... 46
1.2.5 Tendencias ...................................................................................................... 46
1.2.6 El binomio Big Data- Data Analytics ................................................................. 49
1.3 CLOUD COMPUTING ........................................................................................... 55
1.3.1 Breve Historia ................................................................................................. 55
1.3.2 Definición y características .............................................................................. 55
1.3.3 Ventajas y limitaciones .................................................................................... 58
1.3.4 Tendencias y casos de uso ............................................................................... 59
2. APLICACIONES POR SECTOR ................................................................. 63
2.1 AGROALIMENTACIÓN Y BIO ................................................................................ 63
2.1.1 Proyectos de I+D ............................................................................................. 64
2.2 AUTOMOCIÓN .................................................................................................... 65
2.2.1 Proyectos I+D .................................................................................................. 69
2.3 MADERA Y FORESTAL .......................................................................................... 69
2.4 NAVAL ................................................................................................................ 70
2.5 TEXTIL/MODA ..................................................................................................... 72
2.5.1 Proyectos de I+D ............................................................................................. 73
2.6 AERONÁUTICA .................................................................................................... 73
2.6.1 Proyectos de I+D ............................................................................................. 74
2.7 TICS .................................................................................................................... 74
1. INTRODUCCIÓN
1
http://www.mckinsey.com/
Al igual que todos los nuevos términos que surgen de los grandes avances tecnológicos, no existe
un consenso claro sobre cómo definir el término Big Data. Muchas definiciones están centradas
exclusivamente en el volumen de datos y otras tienen en consideración factores específicos
como el tiempo o incluso la industria. Sin embargo, existen algunas definiciones que han
capturado la esencia de lo que la mayoría entiende por dicho término.
Desde la presentación del término por el MGI (McKinsey Global Institute) en junio de 2011 [6]
han existido diversos intentos de acotación del concepto. MGI define Big Data como:
“Los conjuntos de datos cuyo tamaño está más allá de la habilidad de las herramientas software
de base de datos para capturar, almacenar, gestionar y analizar.”
La definición de Big Data dada por McKinsey tiene en consideración la variable temporal para
construir la definición Big Data. No se establece un límite mínimo del tamaño del conjunto de
datos que constituirá Big Data, es decir, el término variará en el tiempo y algunos conjuntos de
datos que actualmente son considerados Big Data no lo serán en el futuro, es decir, el término
cambiará con el tiempo de acuerdo al avance de la tecnología.
La empresa multinacional de auditoría Deloitte define el término como: “El término que se aplica
a conjuntos de datos cuyo volumen supera la capacidad de las herramientas informáticas de uso
común, para capturar, gestionar y procesar datos en un lapso de tiempo razonable”.
Del mismo modo otros autores [7,8] proporcionan diferentes definiciones de Big Data que hacen
referencia principalmente al tamaño de los conjuntos de datos. Así, Kord Davis y Doug Patterson
[9] afirman:
“Big Data son datos demasiado grandes para ser manejados y analizados por protocolos de
bases de datos tradicionales como SQL”.
Sin embargo, en la literatura encontramos autores que hacen referencia a otros aspectos de Big
Data. Es el caso de Edd Dumbill [10] que da la siguiente definición:
“Big Data son datos demasiado grandes, se mueven demasiado rápido o no encajan las
restricciones de sus arquitecturas de bases de datos”.
Otra definición que hace referencia a la multidimensionalidad de Big Data es la dada por la
consultora Gartner:
“Big Data son activos de información caracterizados por su alto volumen, velocidad y variedad
que demandan formas innovadoras y rentables de procesamiento de información para mejorar
la compresión y la toma de decisiones”.
CARACTERÍSTICAS
El volumen del conjunto de datos no es la principal característica que nos permite definir Big
Data. Varios autores han caracterizado Big Data mediante lo que se denomina como las tres V’s:
Volumen, Variedad y Velocidad. Sin embargo, cada vez más son los autores que incorporan más
V’s al conjunto de características de Big Data para completar dicha definición. Por ejemplo, IBM
introdujo Veracidad y, actualmente se consideran, también Valor y Visualización como dos
características fundamentales de Big Data.
Volumen: Gran cantidad de datos generados. En el año 2013 se generaron en el mundo en torno
a 4.4 zettabytes y se estiman que en el año 2020 se alcancen los 44 zettabytes (ZB). Las
organizaciones se enfrentan a volúmenes masivos de datos. Hay una tendencia en las principales
compañías de almacenar vastas cantidades de datos de múltiples tipos (redes sociales, datos de
salud, datos financieros, datos de sensores, etc.), por lo que surge la necesidad de procesar toda
esta cantidad de información, siendo posible gracias a las técnicas de análisis de Big Data.
Variedad: Erróneamente se asocia Big Data con fuentes de datos no estructurados. Sin embargo,
las fuentes de datos pueden ser de cualquier tipo:
○ Datos estructurados: La mayoría de las fuentes de datos tradicionales son datos
estructurados. Son datos que disponen de un esquema o formato fijos. Son los
datos provenientes de bases de datos relacionales, hojas de cálculo o archivos
con un formato fijo.
○ Datos semiestructurados: Son datos que no presentan un formato fijo pero
contienen etiquetas o marcadores que permiten formatear o separar los
elementos. Ejemplos típicos de datos semiestructurados son los registros Web,
logs de las conexiones a Internet, o cualquier otro texto etiquetado de XML o
HTML.
○ Datos no estructurados: Son datos sin tipos predefinidos sobre los que se tiene
poco o ningún control. Se almacenan en objetos o documentos sin ninguna
estructura. Datos de texto, fotografía, vídeo o audio, son datos no
estructurados. Ejemplos típicos son: imágenes digitales, mensajes de texto con
formato libre, como son el caso de SMS, correos electrónicos, mensajes de
WhatsApp, tweets u otros mensajes de redes sociales, etc. El continuo
crecimiento de este tipo de datos sin formato con un análisis complejo ha dado
lugar a la aparición de tecnologías tales como MapReduce, bases de datos
NoSQL, o herramientas como Apache Hadoop para su correcto y eficiente
procesamiento.
Velocidad: Rapidez con la que se generan y se mueven los datos. Existe un aumento creciente
de los flujos de datos en las organizaciones, de la frecuencia de la creación de registros, de las
actualizaciones en las grandes bases de datos y de la disponibilidad en el acceso y entrega de
datos. Este incremento del flujo de información requiere de un almacenamiento, procesamiento
y análisis adecuados, especialmente cuando lo que se necesita es una gestión en tiempo real.
Valor: Capacidad de extraer valor, es decir, información o conocimiento de los datos, que en
definitiva es el fin último de la tecnología Big Data. Así, la International Data Corporation define
las arquitecturas Big Data como:
“diseñadas para económicamente extraer valor a partir de grandes volúmenes de datos
permitiendo la captura, el descubrimiento y análisis rápido”.
Veracidad: Es lo que se ajusta a la verdad o al hecho, es decir, datos precisos y certeros.
Establecer la fiabilidad de los datos, o lo que es lo mismo, métodos para tratar la incertidumbre
de los mismos es uno de los retos de Big Data. Dicha incertidumbre puede ser causada por
En los últimos 20 años las mejoras en las tecnologías de adquisición y almacenamiento de datos
han originado un incremento exponencial de los datos disponibles en diferentes campos. Según
un informe del International Data Corporation (IDC), en 2011, la creación y copia de datos en el
mundo de manera global fue de 1.8ZB (≈ 1021B), lo que significó un incremento de casi nueve
veces en cinco años y se considera que esta cifra se duplicará al menos cada dos años en el
futuro cercano [3].
El comienzo de la sobrecarga de información podría datarse en 1880 cuando el censo de los
Estados Unidos tardaba 8 años en tabularse. Con el fin de acortar los tiempos de tabulado se
inventó la máquina tabuladora de Holreith (tarjetas perforadas). El boom demográfico de los
años 30 agravó este aumento de información. En 1940 las bibliotecas tuvieron que adaptar sus
métodos de almacenamiento para responder al rápido aumento de la demanda de nuevas
publicaciones e investigación. Es en esta década cuando los científicos empiezan a utilizar el
término “explosión de la información”. Término que aparece por primera vez en el periódico
Lawton Constitution en el año 1941.
En 1951 el concepto de memoria virtual es desarrollado por el físico alemán Fritz-Rudolf
Güntsch, como una idea que trataba el almacenamiento finito como infinito.
En la década de los 60 se desarrollan los primeros sistemas informáticos para la automatización
de los inventarios y en 1970, Edgar F. Codd, publicó un artículo en el que se explicaba la forma
en la que podía accederse a la información almacenada en bases de datos de gran tamaño, sin
saber cómo estaba estructurada la información, o dónde residía dentro de la base de datos. Es
el comienzo de las bases de datos relacionales
A mediados de la década de 1970, los sistemas de Planificación de Necesidades de Material
(MRP) se diseñaron como herramienta para las empresas de fabricación para organizar y
planificar su información.
En los años 80 los avances tecnológicos permitieron a todos los sectores beneficiarse de nuevas
formas de organizar, almacenar y generar datos. La expansión del sector de las comunicaciones
supone, de nuevo, un enorme crecimiento de la información.
En 2005 el enfoque se centra en la usabilidad del usuario final. Las empresas de SaaS (del inglés,
Software as a Service) entraron en escena para ofrecer una alternativa a Oracle y SAP más
centrada en la usabilidad del usuario final.
En 2006 nace Apache Hadoop como solución de código abierto para gestionar la explosión de
los datos en internet. Apache Hadoop es un framework de código abierto para almacenar y
procesar los datos que “permite el procesamiento en paralelo distribuido de enormes
cantidades de datos en servidores estándar del sector, económicos, que almacenan y procesan
los datos, y que pueden escalarse sin límite”, según la definición de Mike Olson. A partir de junio
de 2008 el término Big Data empieza a utilizarse con más frecuencia en artículos tecnológicos.
En 2010 aparecen los ERP en la nube, son las empresas Netsuite y Lawson Software, las primeras
que adoptaron estas tecnologías; ofreciendo a medianas empresas soluciones de sistemas ERP
ligeros, flexibles y asequibles.
En 2011, las principales tendencias emergentes de Inteligencia empresarial fueron los servicios
en la nube, la visualización de datos, el análisis predictivo y el Big Data.
En junio de 2012, se produce el Lanzamiento Mundial de IPv6. El Internet Protocol versión 6
(IPv6), versión más reciente del protocolo de Internet, proporciona un sistema de identificación
y localización para dispositivos dentro de una red y su enrutamiento a través de Internet. El IPv6
fue desarrollado por la Internet Engineering Task Force (IETF) para resolver el problema del
agotamiento de direcciones IPv4.
Noviembre 2014 se convierte en el año del Internet de las cosas (IoT). El IoT se ha convertido
en un potente habilitador para la transformación de negocios. Su enorme impacto afectará en
los próximos años a todos los sectores y todas las áreas de la sociedad. Existen enormes redes
de objetos físicos dedicados (cosas) que incorporan tecnología para detectar o interactuar con
su estado interno o medio externo.
En 2015 se populariza el término de smart city. Una ciudad inteligente (smart city) hace uso del
análisis de información contextual en tiempo real para mejorar la calidad y el rendimiento de
los servicios urbanos, reducir costes, optimizar recursos e interactuar de forma activa con los
ciudadanos.
Probablemente, la informática de Big Data sea la mayor innovación informática de la última
década. A día de hoy, tan solo hemos visto el potencial que tiene para recopilar, organizar y
procesar los datos en todos los aspectos de nuestras vidas [5].
1.1.4 Tendencias
Dada la magnitud y complejidad de los desarrollos, métodos, técnicas, etc. que actualmente se
incluyen bajo la denominación Big Data, dividiremos las tendencias en Tecnologías Big Data,
Herramientas Big Data y Bases de datos a Gran Escala, de forma que podamos extraer en cada
una de ellas las tendencias más significativas:
A medida que el gran mercado de análisis de datos se expande, las grandes compañías (Google
o Facebook) comienzan rápidamente a adoptar las principales tecnologías existentes en Big
Data. El informe TechRadar: Big Data, Q1 2016, de Forrester Research [11], evalúa la madurez y
la trayectoria de las diferentes tecnologías a lo largo de todo el ciclo de vida de los datos. De
dicho estudio se extrae que las empresas consideran clave las siguientes tecnologías
relacionadas con Big Data:
● Análisis predictivo: Soluciones de software y/o hardware que permiten a las empresas
descubrir, evaluar, optimizar e implementar modelos predictivos analizando grandes
fuentes de datos para mejorar el rendimiento del negocio o mitigar el riesgo.
● Bases de datos NoSQL: Sistemas de Bases de Datos alternativos a los tradicionales
sistemas de Bases de Datos Relacionales, donde el modo de consulta de los datos difiere
de la ejecución de sentencias SQL. Fundamentalmente se clasifican entre los siguientes
cuatro tipos: Documentales, orientados a columnas, clave-valor y basados en grafo.
● Search and Knowledge Discovery: Herramientas y tecnologías para apoyar la extracción
de autoservicio de información y nuevos conocimientos a partir de grandes repositorios
de datos estructurados y no estructurados que residen en múltiples fuentes como
sistemas de archivos, bases de datos, flujos, API (del inglés Application Programming
Interface) y otras plataformas y aplicaciones.
● Stream Analytics: Software que puede filtrar, agregar, enriquecer y analizar con un alto
rendimiento, datos de múltiples fuentes, dispares y en cualquier formato.
● In-memory data Fabric: Tecnologías de acceso de baja latencia y procesamiento de
grandes cantidades de datos mediante la distribución de datos a través de la memoria
dinámica de acceso aleatorio (DRAM), Flash o SSD de un sistema de computadora
distribuido (Apache Ignite).
● Almacenamiento Distribuido: Red de ordenadores donde los datos se almacenan en
más de un nodo, a menudo de forma replicada, para redundancia y rendimiento.
● Virtualización de Datos: Tecnología que proporciona información de varias fuentes de
datos, incluyendo grandes fuentes de datos como Apache Hadoop y almacenes de datos
distribuidos en tiempo real y tiempo cuasi-real.
Durante mucho tiempo hablar de Big Data era hablar de Apache Hadoop, sin embargo en la
actualidad han aparecido nuevas herramientas que completan o mejoran la captura, procesado,
almacenaje y análisis de datos. Estas nuevas herramientas surgen en forma de ecosistema con
múltiples componentes intercambiables en función de las necesidades del negocio. Además,
estos nuevos ecosistemas permiten su utilización de forma combinada, lo que hace compleja su
descripción puesto que depende de los componentes elegidos por el usuario. Teniendo en
cuenta la existencia de múltiples combinaciones posibles y la rapidez en la realización de nuevos
desarrollos también combinables, las herramientas con mayor capacidad en la actualidad son:
APACHE HADOOP
El framework Apache Hadoop nació en 2004 de la mano de Doug Cutting y Mike Cafarella, como
la mejor solución para manejar grandes volúmenes de datos no estructurados y apoyar la
distribución del motor de búsqueda Nutch.
Se trata de un proyecto Apache (organización no lucrativa) creada para dar soporte a proyectos
de software bajo la propia denominación Apache. Apache Hadoop es un framework de código
abierto para el almacenamiento y procesamiento de grandes volúmenes de datos de forma
distribuida. Está licenciado bajo la licencia Apache 2.0.
El framework de Apache Hadoop se compone de los siguientes módulos:
Los principales componentes de la primera generación de Apache Hadoop, Apache Hadoop 1.x,
son el Sistema de Archivos Distribuidos (HDFS) y el paradigma de procesamiento paralelo
MapReduce. Ambos son proyectos de código abierto, inspirados en las tecnologías Google
MapReduce y Google File System (GFS) creadas por Google.
el fichero, por lo tanto es más importante el tiempo de lectura de todo el conjunto de datos que
la latencia de leer el primer registro. No ofrece acceso aleatorio. Por otro lado, Hadoop HDFS no
requiere un hardware costoso y de grandes prestaciones, sino que está pensado para
ejecutarse en un clúster de máquinas con un hardware básico y para las cuales los fallos de
hardware son comunes. Así, HDFS está pensado para ofrecer tolerancia a fallos manteniendo el
servicio sin interrupciones. En caso de caída de un nodo, HDFS tiene la capacidad de repartir sus
bloques a otro nodo.
Al igual que un disco duro u otros sistemas de ficheros sobre un único disco, la unidad mínima
de lectura y escritura de HDFS es el bloque. Sin embargo, el tamaño de bloque de HDFS es mucho
mayor que en el caso de otros sistemas de ficheros. En HDFS el tamaño de bloque por defecto
es de 128MB mientras que en otros sistemas de ficheros los bloques son típicamente unos pocos
kilobytes. Al igual que en un sistema de ficheros corriente, HDFS divide los ficheros en bloques
que se almacenan como unidades independientes. A diferencia de los sistemas de ficheros sobre
un único disco, en HDFS un fichero que ocupe menos que el tamaño de bloque no ocupará el
bloque completo. Los bloques HDFS son grandes en comparación con los bloques de disco con
el objetivo de minimizar el costo de las búsquedas. Si el bloque es suficientemente grande, el
tiempo que tarda en transferir los datos desde el disco puede ser significativamente más grande
que el tiempo para buscar el inicio del bloque.
Para garantizar la disponibilidad de los bloques en caso de corrupción de bloques o fallos en las
máquinas, cada bloque es replicado por defecto tres veces. Así, si un bloque no está disponible,
se lee una copia de otra ubicación de forma transparente al cliente.
Un clúster HDFS está constituido por dos tipos de nodos sobre una arquitectura cliente-servidor
o maestro-trabajador: un namenode (el maestro) y un número de datanodes (trabajadores). El
namenode gestiona el espacio de nombres del sistema de ficheros, mantiene el árbol del sistema
de ficheros, y los metadatos y directorios que constituyen el árbol. Esta información se almacena
en el disco local en dos ficheros: la imagen del espacio de nombre y un fichero de log con los
cambios realizados. Además, el namenode conoce también la localización física de los bloques
que constituyen el fichero, es decir, en qué datanodes están almacenados dichos bloques. No
obstante, esta información no está persistida en disco localmente, sino que se obtiene de los
datanodes.
mezclan y ordenan las salidas intermedias de las tareas map y se agrupan produciendo un
conjunto de pares clave-valor finales.
Hadoop, mediante su modelo de programación MapReduce, permite a usuarios ordinarios que
no disponen de conocimientos de computación paralela, resolver problemas complejos sin
necesidad de preocuparse de otros detalles tales como la comunicación entre las máquinas del
clúster.
Apache Hadoop YARN es un gestor de los recursos de un clúster introducido en Hadoop 2 con
el objetivo de mejorar la implementación de MapReduce, aunque soporta otro tipo de
paradigmas de programación distribuida. YARN proporciona una API para solicitar y trabajar con
los recursos disponibles en un clúster, sin embargo el usuario normalmente no trabaja
directamente contra dicha API sino que utiliza otros frameworks de computación distribuida a
más alto nivel, como MapReduce o Apache Spark.
El objetivo de YARN es independizar la gestión de recursos, la planificación y monitorización de
tareas de MapReduce, para ello dispone de dos procesos: ResourceManager (uno por clúster)
para gestionar todos los recursos de todo el clúster y NodeManager (uno en cada nodo del
clúster) encargado de lanzar y monitorizar los Containers que ejecutarán una tarea específica
con los recursos (memoria, CPU,..) asignados.
En la evolución de Hadoop en el tiempo coexisten dos versiones, Hadoop 1 y Hadoop 2, es en la
segunda en la que se incluye MapReduce 2 incluyendo YARN, proporcionando las siguientes
ventajas: Escalabilidad (10000 nodos y 100000 tareas), disponibilidad, compatibilidad con
MapReduce, utilización mejorada del clúster y soporte para modelos de programación distintos
a MapReduce.
APACHE SPARK
escribir programas en cuatro lenguajes: Scala, Java, Python y R; y usa Resilient Distributed
Dataset (RDD) que es la abstracción de una colección de objetos de sólo lectura distribuidos en
varias máquinas de un clúster.
Spark ha demostrado ser una buena plataforma para construir herramientas de análisis. Para
ello ofrece módulos de machine learning (MLlib), procesamiento de grafos (GraphX), streaming
(Spark Streaming) y SQL (Spark SQL).
Ofrece dos tipos de operaciones sobre RDD: transformaciones y acciones. Una transformación
genera un nuevo RDD a partir de otro, mientras que una acción desencadena una computación
en un RDD cuyos resultados se pueden procesar, devolver al usuario o almacenar en
almacenamiento externo. Las acciones tienen un efecto inmediato, pero las transformaciones
no se ejecutan hasta que otra acción es ejecutada.
Spark usa el concepto de “job” (trabajo), al igual que MapReduce. Sin embargo en Spark este
concepto es más general, consiste en un grafo acíclico dirigido (DAG) de fases equivalentes a las
fases map y reduce. Un job se ejecuta en un contexto de aplicación, representado por una
instancia SparkContext, que sirve para agrupar y compartir variables. Existen dos maneras de
ejecutar un trabajo de Spark, de manera interactiva mediante una sesión de spark-shell o
mediante spark-submit.
OTRAS HERRAMIENTAS
Apache Avro: Sistema de serialización de datos independiente del lenguaje. Fue creado por
Doug Cutting para abordar el principal inconveniente de Hadoop Writables: la falta de
portabilidad del lenguaje. Los datos de Avro se describen usando un esquema que está siempre
presente en tiempo, lectura y escritura.
Cuando los datos de Avro se almacenan, su esquema se almacena con él, de modo que los
archivos pueden ser procesados más tarde por cualquier programa. Los esquemas de Avro son
escritos normalmente en JSON y los datos son codificados en formato binario. Existe un lenguaje
de más alto nivel llamado Avro IDL, cuyo objetivo es permitir a los desarrolladores crear
esquemas en un lenguaje más parecido a los lenguajes comunes de programación como Java,
C++ o Python.
HBase: Se trata de una base de datos columnar que se ejecuta sobre HDFS. Aunque
originalmente se ha definido como “column-oriented database”, quizás es más correcto
describirla como una “column-family-oriented database” porque las especificaciones de
almacenamiento se realizan a nivel de columna familiar. Las aplicaciones almacenan datos en
tablas etiquetadas. Las tablas de HBase están constituidas por filas y columnas, donde las celdas
son versionadas. Por defecto, la versión es un timestamp autoasignado en el momento de la
inserción. El contenido de la celda es un array de bytes. Las filas son ordenadas por una clave, la
clave primaria de la tabla, que también es un array de bytes.
Las columnas se agrupan en familias de tal forma que todos los elementos (todas las filas) de la
familia de columnas se almacenan juntos en el sistema de ficheros. Esto es distinto a las bases
de datos relacionales orientadas a filas, donde todas las columnas de una fila dada son
almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde noviembre del 2010.
Apache Kafka: Es una plataforma distribuida de streaming que ofrece las siguientes
capacidades:
● Publicar y suscribirse a los flujos de datos. Es decir, es similar a una cola de mensajes o
sistema de mensajería.
● Almacenar flujos de datos de forma tolerante a fallos.
● Procesar flujos de datos a medida que ocurren.
Kafka se ejecuta como un clúster en uno o más servidores. El clúster de Kafka almacena los flujos
de datos en categorías llamadas “topics”, donde cada registro consta de una clave, un valor y
una marca de tiempo.
Como se puede observar en la imagen que se muestra a continuación, Kafka consta de cuatro
APIs principales:
● API Producer: aplicación para publicar un flujo de datos en uno o más topics Kafka.
● API Consumer: permite que una aplicación se suscriba a uno o más topics y procese el
flujo de datos producido por ellos.
● API Streams: permite que una aplicación actúe como un procesador de flujo,
consumiendo un flujo de entrada de uno o más topics y produciendo un flujo de salida
a uno o más topics de salida.
● API Conector: permite crear y ejecutar productores o consumidores reutilizables que
conectan topics de Kafka a aplicaciones o a sistemas de datos existentes. Por ejemplo,
un conector a una base de datos relacional puede capturar cada cambio en una tabla.
Apache Oozie: Sistema planificador de flujo de trabajo para administrar los trabajos de Apache
Hadoop. El flujo de trabajo en Oozie se define como un grafo acíclico dirigido (DAG) de acciones.
Es decir, sólo hay un punto de entrada y de salida y todas las tareas y dependencias parten del
punto inicial al punto final, sin puntos de retorno.
Oozie está integrado con Hadoop soportando Java MapReduce, Streaming MapReduce, Apache
Pig, Apache Hive, Apache Sqoop.
Apache Pig: Se trata de una plataforma de alto nivel para el análisis de grandes conjuntos de
datos. Consiste en un lenguaje de alto nivel para expresar los programas de análisis de datos,
llamado Pig Latin, y en la propia infraestructura para ejecutar dichos programas. La característica
más destacada de los programas de Pig es que su estructura es susceptible de una gran
paralelización, lo que a su vez les permite manejar conjuntos de datos muy grandes.
ZooKeeper: Apache ZooKeeper es un servicio de coordinación de alto rendimiento para
aplicaciones distribuidas. Es un servicio centralizado para mantener información de
configuración, proporcionar sincronización distribuida y servicios de grupo. Se puede usar para
implementar el consenso, la administración del grupo, la elección del líder y los protocolos de
presencia. Ofrece una serie de herramientas para construir aplicaciones distribuidas que puedan
de forma segura manejar fallos parciales.
Apache Mahout: El principal objetivo de Apache Mahout es proporcionar un entorno para crear
de forma rápida, sencilla y robusta aplicaciones de aprendizaje máquina escalables. Su nombre
representa su íntima relación con Apache Hadoop, a pesar de esto ofrecen algoritmos que no
dependen de Hadoop, y su intención es proveer en el futuro implementaciones para plataformas
más adecuadas para el aprendizaje máquina, como Apache Spark.
Apache Lucene: Es un proyecto de Apache bastante popular para realizar búsquedas sobre
textos. Lucene provee de librerías para indexación y búsqueda de texto independientemente
del formato del archivo. Ha sido utilizado principalmente en la implementación de motores de
búsqueda aunque debe considerarse que no incluye funciones de "crawling" ni análisis de
documentos HTML. El concepto a nivel de arquitectura de Lucene es simple, básicamente los
documentos son divididos en campos de texto generando un índice sobre ellos. Apache Lucene
comúnmente se implementa junto a Nutch, un robot y motor de búsqueda que forma parte del
mismo proyecto. Nutch es una tecnología desarrollada en Java, y basa su arquitectura en la
plataforma Hadoop.
ElasticSearch: Servidor de búsqueda basado en Lucene. Provee un motor de búsqueda de texto
completo, distribuido y con capacidad de servir a múltiples clientes mediante servicios Web.
Elasticsearch, permite búsqueda escalable, con ejecución casi en tiempo real. Desarrollado en
Java y publicado como código abierto bajo las condiciones de la licencia Apache, ofrece un
conector para trabajar con Hadoop llamado Elasticsearch-Hadoop para búsquedas en tiempo
real en entornos Big Data.
Apache Zeppelin: Interfaz Web que permite realizar un análisis interactivo de datos de forma
simple y visual sobre grandes volúmenes de datos gestionados a través de Apache Spark. Está
en el concepto web notebook, introducido por iPython, que permite trabajar sobre un interfaz
web en lugar de sobre un shell. Zeppelin está pensado para poder integrarse perfectamente con
Spark y Hadoop.
Apache Flink: Framework de procesamiento distribuido pensado inicialmente para aplicaciones
de streaming. Este framework trata los procesamientos por lotes como un caso especial de flujo
de datos, de forma que se puede considerar un framework de procesamiento tanto por lotes
como en tiempo real. La herramienta incluye una serie de APIs, una API de streaming para Java
y Scala, una API de datos estáticos para Java, Scala, y Python y una API de consultas “SQL-like”
para código embebido en Java y Scala. Dada su orientación al flujo de datos su aplicación puede
ser preferible sobre Apache Spark en dominios en los que se procesan flujos de datos en tiempo
real.
Apache Storm: Sistema de computación distribuida en tiempo real, cuyas aplicaciones están
diseñadas como grafos acíclicos dirigidos. Storm está diseñado para procesar fácilmente flujos
sin límites y puede utilizarse con cualquier lenguaje de programación. Es altamente escalable y
proporciona garantías en los trabajos de procesamiento. Apache Storm se puede utilizar para
análisis en tiempo real, aprendizaje máquina distribuido, y muchos otros casos, especialmente
los de alta velocidad de datos. Storm puede funcionar en YARN e integrarse en los ecosistemas
Hasta hace unos años, los vastos conjuntos de datos eran tratados en Sistemas Data
Warehouse, mediante procesos en lotes, para obtener datos agregados que aportarían
información a un sistema de Business Intelligence (BI). Pero en la actualidad surge la necesidad
de obtener muchos de estos datos agregados de manera inmediata (tiempo real) y no es
asumible el tiempo que supone la ejecución de dichos procesos.
En este nuevo contexto, se extiende el uso del término NoSQL (Not only SQL), que se refiere a
los Sistemas de Gestión de Base de Datos que difieren del modelo clásico de implementación
relacional (RDBMS), fundamentalmente, en que no utilizan SQL como lenguaje principal para
realizar consultas, no permiten JOINs (uniones entre diferentes conjuntos de datos), la mayoría
no siguen el principio ACID (Atomicity, Consistency, Isolation and Durability) y son escalables
horizontalmente. Este término fue acuñado por Carlo Strozzi en 1998 y fue reutilizado por Eric
Evans en 2009, y el mismo sugiere la utilización del término Big Data para esta nueva generación
de Sistemas de Gestión de Bases de Datos.
“Una colección de datos que sirve de apoyo a la toma de decisiones, organizados por temas,
integrados, no volátiles y en los que el concepto de tiempo varía respecto a los sistemas
tradicionales”
Los Data Warehouse fueron creados en la década de los 90 y son un conjunto de datos que las
organizaciones utilizan como apoyo a la toma de decisiones y que pueden ser consultados
mediante las tecnologías de los Data Mining. Las principales características que definen los Data
Warehouse son:
● Organizado por temas: La organización por temas hace referencia al hecho de que los
datos se organizan de acuerdo a su semántica, independientemente de que aplicación
los utilice. De este modo, una compañía podría tener datos organizados por clientes,
proveedores, productos...
● La integración: Un Data Warehouse se compone de los datos que se obtienen de las
diversas fuentes de información de una organización, lo cual implica “poner en común”
toda esta información. La principal ventaja que se deriva del proceso de integración se
centra en la agrupación única de la estructura de la información evitando así el problema
que surge cuando cada una de las fuentes de datos de una organización disponga de sus
propios modelos estructurados, sus propias políticas de asignación de nombres a
campos, seguridad, y un sin fin de diferencias.
● No volatilidad: La principal función de un Data Warehouse es dar soporte a la toma de
decisiones. Para ello, Data Warehouse, no realiza actualizaciones de los datos, sino que
mantiene las diferentes versiones de los datos a lo largo del tiempo, permitiendo
recuperar el estado de los mismos en una organización en cualquier instante.
● Temporalidad: Los datos del Data Warehouse tienen un horizonte temporal de vida de
entre 5 y 10 años. Los cambios producidos en los datos a lo largo del tiempo quedan
registrados para que los informes que se puedan generar reflejen esas variaciones. En
los sistemas de gestión, los datos con los que se trabaja son los datos actuales, mientras
que los datos del Data Warehouse pueden verse como una serie de “snapshots” o
fotografías tomados en un momento del tiempo, que no sufren actualizaciones.
En base a lo anterior podemos destacar innumerables ventajas de los sistemas Data Warehouse
en el apoyo en la toma de decisiones de la empresa a cualquier nivel jerárquico, ya que consigue
proporcionar mejores productos a través de la optimización de tiempos de producción y toma
de decisiones. También permite analizar información relevante para la empresa con carácter
diario permitiendo agilizar la toma de decisiones que puedan afectar el desempeño o proyección
de la empresa.
No obstante, también existen ciertas desventajas a tener en cuenta como el alto coste que
conlleva la implementación del mismo. Desde la mera puesta en marcha del almacén de datos,
hasta el coste de mantenimiento pasando por los costos de adaptación de la empresa,
formación, mantenimiento, coste del Software y Hardware.
Los Sistemas de Bases de Datos NoSQL aportan: una gran flexibilidad en el cambio dinámico de
las estructuras de los datos, carácter descentralizado, y un coste económico muy inferior al de
los sistemas tradicionales para realizar el escalado en el volumen de datos, dado que soporta
escalabilidad horizontal (crecimiento en número de máquinas). Su principal hándicap, es que no
todos los Sistemas de Bases de Datos NoSQL ofrecen la atomicidad de instrucciones y la
integridad de los datos. Otras pequeñas limitaciones serían la falta de estandarización y la poca
usabilidad en algunas de las herramientas de administración de estos sistemas.
De entre los diferentes tipos de Sistemas de Bases de Datos NoSQL, podemos distinguir
principalmente las siguientes 4 clases:
● Sistemas de Bases de Datos Documentales.
En las bases de datos documentales los registros se consideran documentos con un
esquema flexible que depende de los atributos de cada documento. Suelen emplear
codificación JSON, BJSON o XML. Se podría decir que son los Sistemas de Bases de Datos
NoSQL más versátiles. Las implementaciones de este tipo de Sistemas de Bases de
Datos, más comunes son:
○ MongoDB: Es probablemente uno de los Sistemas de Bases de Datos NoSQL más
utilizado actualmente. MongoDB es usado por compañías como: Cisco, Bosch,
Ebay, Forbes IBM, Windows Azure, McAfee, el periódico The Guardian, el
periódico New York Times, el periódico Le Figaro, el CERN...
○ CouchDB: Es el sistema de bases de Datos NoSQL de Apache. Una de sus
características más interesantes es que los datos son accesibles a través de la
API REST.
○ Otros Ejemplos: SimpleDB, RavenDB, Basex, djondb, eXist, IBM Lotus Domino,
Terrastore, Riak.
● Sistemas de Bases de Datos orientados a Columnas/Tabulares. El origen de este tipo
de sistemas reside en posibilitar la realización de consultas y agregaciones sobre
cantidades enormes de datos. Su funcionamiento es similar al de los Sistemas de Bases
de Datos Relacionales, pero el almacenamiento se realiza por columnas, en lugar de por
filas (registros). En esta categoría encontramos los siguientes Sistemas NoSQL:
○ Cassandra: Mantiene un esquema híbrido entre Orientación a Columnas y
Clave-Valor.
○ HBase: Desarrollada sobre Java y mantenida por el proyecto Hadoop de Apache.
○ Otras: Apache Accumulo, BigTable, Hypertable, Mnesia, OpenLink Virtuoso,
LevelDB (Versión abierta de BigTable).
● Sistemas de Bases de Datos Clave-Valor. Son quizás, las que presentan un esquema más
sencillo, almacenando la información en un esquema simple de clave-valor, lo que se
traduce en que no se requiere de un modelo de datos fijo y se puede almacenar en una
estructura de datos u objeto de cualquier lenguaje de programación. Las
implementaciones de este tipo de Sistemas de Bases de Datos, más comunes son:
○ DynamoDB: Desarrollada por Amazon, exponiendo un modelo de datos similar
y que deriva del esquema de Dynamo. Es una opción de almacenamiento de
AWS (Amazon Web Services).
○ Apache Cassandra: Dispone de un esquema mixto entre orientación a columnas
y Clave-Valor.
Además de estas tipologías, debemos resaltar otros dos sistemas cuyas características hacen
que no puedan incluirse en las tipologías anteriores:
● Sistemas de Bases de Datos Multivalor. Se distinguen de los Sistemas de Bases de Datos
tradicionales, fundamentalmente, en que pueden hacer uso de atributos que
almacenan una lista de valores en lugar de un valor único. Son ejemplos de estas bases
de datos: Northgate Information Solutions, Extensible Storage Engine, jBase, Rocket U2,
OpenInsight, OpenQM, Reality, InterSystems Caché, D3 Pick database, InfinityDB.
● Sistemas de Bases de Datos Orientados a Objetos. Son los Sistemas de Bases de Datos
que combinan las funcionalidades propias de este tipo de sistemas con las capacidades
de un lenguaje orientado a objetos. Ejemplos: db4o, Eloquera, GemStone/S,
InterSystems Caché, JADE, NeoDatis ODB, ObjectDatabase++, ObjectDB, Objectivity/DB,
ObjectStore, ODABA, Perst, OpenLink Virtuoso, Versant Object Database, Wakanda,
ZODB.
En el marco de las Ciencias de la Computación, y en especial en el contexto NoSQL, dado su
carácter distribuido, tiene una importante relevancia el Teorema de CAP, también conocido
como Teorema de Brewer, el cual enuncia que no es posible para un sistema de cómputo
distribuido garantizar simultáneamente más de dos de las siguientes tres condiciones:
● Consistencia (Consistency): Todos los nodos han de poder ver la misma información de
manera simultánea.
● Disponibilidad (Availability): Cada petición a un nodo tiene la garantía de recibir siempre
una respuesta de confirmación o de error.
● Tolerancia al Particionado (Partition Tolerance): El sistema continúa operativo aunque
se hayan perdido o retrasado un número arbitrario de mensajes entre los nodos de la
arquitectura.
Las aplicaciones y usos de Big Data son múltiples y dependen de cada sector. Los sectores donde
más se ha expandido y donde su futuro crecimiento es más prometedor son [12]:
● Telecomunicación: Las compañías de telecomunicaciones están entre los precursores
de la adopción de Big Data. La explosión de datos, impulsada por aplicaciones tales
como registros de llamadas, monitoreo del tráfico de red, contenido digital, la gestión
de activos, hacen que este sector sea uno de los pioneros en el uso de estas tecnologías.
● Energía: La introducción de medidores inteligentes, sensores de todo tipo, etc. ha
incrementado la cantidad de datos disponibles, por lo que se prevé que el uso de Big
Data tendrá un incremento exponencial en los próximos años con el objetivo de un
mejor desempeño empresarial.
● Servicios financieros: El uso de Big Data focalizado en la identificación de perfiles
conductuales, identificación y evaluación del riesgo, o en la identificación de las
oportunidades de inversión, son algunos de los intereses más claros para el sector.
● Fabricación: En este sector la adopción de Big Data presenta diferencias entre los
distintos subsectores. Es en subsectores como la automoción o aeronáutica donde la
tecnología es más aceptada. Sin embargo, los beneficios que puede aportar Big Data
aplicado a la industria, junto con el apoyo de los estados en la aplicación de estas
BELK
Aplicación: Aumentar el número de clientes multicanal, optimizar
el stock, optimizar el formato de la tienda, y las decisiones de
horario
Resultado: Analizar a millones de consumidores a través de sus
bases de datos con censo de cliente, etnia, emigrantes, etc.
Smarter cities
Aplicación: Optimizar las inversiones de las ciudades en infraestructura
de transporte mejorando el flujo de tráfico.
Resultado: Se almacenan datos dispares como tráfico por carril,
características de los vehículos individuales, acciones realizadas por los
vehículos. El crecimiento del volumen de datos es continuo y en tiempo real.
CARGO SMART
Aplicación: Logística, diagnóstico y pronóstico. Mejora de las rutas de
las buques para ahorro de combustible, optimización de la tripulación y
gastos portuarios
Resultado: CargoSmart gestiona datos sobre la velocidad de los buques,
la ubicación en el puerto y en el mar, los tiempos de tránsito totales,
rutas, eventos de atraque, eventos de excepción de 5500 buques -
TIBCO
Rio Tinto
Aplicación: Minería y Extracción. La mina del futuro:
Automatización y análisis en la minería de hierro en Australia
Resultado: RTV "VirtualEYES" Herramienta de modelado 3D,
controlando el sistema de automatización de las minas en tiempo
real. Más de 200 sensores embebidos en camiones, alimentando
80.000 piezas de datos por segundo a operadores remotos. Inspección de minas a través de
UAV.
STUBHUB
Aplicación: Procesado y analizado de grandes volúmenes de datos
en tiempo real para fortalecer la experiencia del cliente, y mejorar
la detección y prevención del fraude
Resultado: Información analizada proveniente de 25 recursos de datos en un solo data
warehouse. Permitiendo analizar a 180 millones de clientes y desarrollando tickets
promocionales y campañas de promoción específicas.
El término “Data Science” o Ciencia de los Datos surge para dar sentido a una nueva disciplina
cuyo fin último es hacer inteligibles los grandes volúmenes de datos que se encuentran dentro
de Big Data.
En 1962 John W. Turkey [13] escribe “El futuro del Data Análisis” y en 1977 publica el artículo
“Exploratory Data Analysis”, en el que se argumenta que la importancia radica en el uso de los
datos para sugerir hipótesis que permitan testear y explorar los mismos, permitiendo extraer
conclusiones veraces. Ese mismo año la International Association for Statistical Computing
(IASC) establece que su misión principal consistirá en unir la estadística tradicional, la tecnología
informática y el conocimiento experto, para convertir los datos en información y conocimiento.
En 1989 se organiza en Estados Unidos la primera conferencia anual sobre Descubrimiento de
conocimiento y minería de datos (KDD, del inglés Knowledge Discovery in Databases).
En 1996, se utiliza por primera vez el término Data Science en la cumbre bienal de la
International Federation of Classification Societies, en una conferencia de título “Data Science,
classification and related methods”
En 1997 se lanza la revista “Data Mining and Knowledgde Discovery” (Minería de datos y
Descubrimiento del Conocimiento), como puede verse se invierte el orden de las
denominaciones en el título, respecto a 1989, lo que refleja la importancia creciente de la
Minería de Datos como el método más popular para extraer información y conocimiento de las
grandes bases de datos.
En septiembre de 2005 The National Science Board publica “Long lived Digital Data Collections:
Enabling Research and Education in the 21st” En el informe se define a los Científicos de Datos
como: "informáticos, ingenieros y programadores de bases de datos y de software, expertos en
estadística, bibliotecarios, y otros, cruciales para el éxito de la gestión de una colección de datos
digitales”.
En 2009 se publica el informe de la Interagency Working Group on Digital “Harnessing the power
of Digital Data for Science and Society”. En él se establece que se necesita identificar y promover
la aparición de nuevas disciplinas y especialistas expertos en abordar los retos complejos y
dinámicos de la preservación digital, el acceso sostenido a los datos, y la reutilización de datos.
Podríamos decir que los primeros análisis de datos se ejecutaron con las primeras hojas de
cálculo en los años 50 para la apoyar la toma de decisiones en las empresas. Estas hojas de
cálculo van evolucionando de la mano de las compañías de IT y SAS, pero trabajando siempre
con datos estructurados. Es, hace una década cuando, en Silicon Valley, empiezan a emerger las
aplicaciones para tratar información desestructurada y poder manejar los enormes volúmenes
de datos existentes hoy en día.
Data Analytics está íntimamente ligado a Big Data y en muchos informes aparece la expresión
Big Data Analytics, entendiendo por ello el conjunto de herramientas que permiten explotar los
datos de las enormes bases de datos conocidas como Big Data. En este sentido podríamos hablar
de: analítica predictiva, minería de datos, análisis estadístico, etc. Incluso en algunos informes
1.2.2 Definición/Descripción
“Data Analytics es la ciencia de examinar datos en bruto con el propósito de sacar conclusiones
sobre esa información.”
Data Analytics implica aplicar un proceso algorítmico o mecánico para obtener conocimiento;
por ejemplo, aplicar un proceso para buscar correlaciones significativas entre varias series de
datos. Las técnicas usadas tradicionalmente en productos BI (Business Intelligence) para
analizar y generar conocimiento de los datos en bruto están pensadas para trabajar con datos
estructurados. Estas técnicas no son suficientes para manejar Big Data, que engloba tanto datos
estructurados como semi estructurados y no estructurados. Por ello aparece un nuevo término:
“Big Data Analytics”.
“Big Data Analytics es el proceso de examinar grandes conjuntos de datos para descubrir
patrones ocultos, correlaciones desconocidas, tendencias de mercado, preferencias de los
clientes u otra información de negocio útil. Los resultados analíticos pueden conducir a una
comercialización más efectiva, detección de nuevas oportunidades de ingresos, un mejor servicio
al cliente, una mayor eficiencia operativa, ventajas competitivas sobre las organizaciones rivales
y otros beneficios empresariales.
El enfoque de Data Analytics reside en la inferencia, que es el proceso de derivar conclusiones
que se basan únicamente en lo que el investigador ya conoce.”
Así, el fin último del Big Data Analytics es proporcionar a las organizaciones y empresas un
mecanismo para tomar mejores decisiones, conocer mejor su negocio, generar posibles
oportunidades de negocio y verificar o refutar teorías y modelos existentes.
El término Data Analytics se refiere a un conjunto de aplicaciones que van desde la inteligencia
empresarial básica o Business Intelligence (BI), la elaboración de informes y el procesamiento
analítico en línea (OLAP, del inglés Online Analytical Processing) hasta diversas formas de análisis
avanzado como machine learning o data mining. Sin embargo, en la literatura, es común
encontrar el término Data Analytics referido específicamente a análisis avanzado de datos,
tratando las técnicas de BI como una categoría separada.
Según la consultora Gartner, “El análisis avanzado (Advanced Analytics) es el examen autónomo
o semiautónomo de datos a través de técnicas y herramientas sofisticadas más allá del Business
Intelligence (BI) tradicional, con el objetivo de descubrir conocimiento más detallado, hacer
recomendaciones y generar predicciones. Las técnicas de análisis avanzado incluyen data/text
mining o minería de datos, machine learning o aprendizaje máquina, pattern matching o
reconocimiento de patrones, forecasting o predicción, visualización, análisis semántico, análisis
de sentimientos, análisis de redes y clusters, estadística multivariante, análisis de gráficos,
simulación, procesamiento de eventos complejos y redes neuronales.”
Los sistemas Big Data han provocado un aumento considerable en la cantidad de información
que se puede procesar y extraer información de valor. Este hecho ha producido, a su vez, un
Cada uno de estos pasos tienen sus particularidades dependiendo del problema al que nos
enfrentemos, por ejemplo, en el reconocimiento de patrones a través de imágenes el
preprocesado y extracción de características cobra mucha importancia por el contrario inferir
patrones de consumo energético no necesita tanta preparación del conjunto de datos.
El proceso de análisis avanzado de datos comienza con la integración de datos de una o diversas
fuentes. Es aquí donde los analistas de datos identifican y tratan la información necesaria para
una aplicación particular. Es posible que sea necesario combinar datos de diferentes orígenes y
formatos, transformarlos y almacenarlos.
Una vez se han recopilado los datos, el siguiente paso es realizar un preprocesado de los
mismos, esto es, eliminar duplicidades, errores, datos de mala calidad u outliers que puedan
desvirtuar el análisis, adecuando todos los datos para asegurar un conjunto coherente.
Una vez el conjunto de datos se considera que está completo comienza la fase de análisis de
datos donde se aplican técnicas de machine learning o deep learning, etc. Para ello se construye
ENTRADA DE DATOS
Una vez recogido los datos sin procesar de las diferentes fuentes de información o sensores que
van a ser utilizados como conjunto de datos para el análisis avanzado es necesario realizar
diferentes transformaciones para conseguir que dicho conjunto sea significativo al problema
que queremos modelar. Por tanto, el propósito fundamental de la preparación de los datos es
manipular y transformar los datos en crudo (del inglés raw data, sin procesar) para fácilmente
poder inferir los patrones que contienen.
Una de las primeras técnicas a implementar cuando nos enfrentamos a un problema es el
preprocesado de los datos. Estas técnicas son muy diversas y dependen tanto del problema
como de la fuente de datos. Algunas de las técnicas de preprocesado que se pueden realizar son
la recuperación información incompleta, eliminación de outliers (valores atípicos), resolución de
conflictos, etc. Estas técnicas generan datos de mayor calidad de los cuales se podrán obtener
patrones/reglas de mayor calidad.
También como técnica de preprocesado puede ser considerada la recolección e integración
(data collecting and integration) de datos de diferentes fuentes de datos que permiten crear
conjuntos más homogéneos resolviendo los problemas de representación y codificación. Data
cleaning engloba todas aquellas técnicas que permiten resolver conflictos entre los datos,
eliminar valores atípicos y resuelve problemas de ruido y valores perdidos. Por último existen
técnicas para transformar los datos que realizando operaciones de agregación y sumarización
de los datos permiten obtener un conjunto de datos más cómodo para las siguientes fases del
aprendizaje.
Por otro lado tenemos las técnicas de extracción de características como por ejemplo la
reducción de la dimensionalidad del problema. La reducción de la dimensionalidad es el proceso
de reducir el número de variables o parámetros que se consideran en el análisis. En todos los
problemas de análisis avanzado de datos se aplican técnicas para reducir la dimensionalidad con
ANÁLISIS DE DATOS
Inferencia estadística
El objetivo principal del análisis estadístico es identificar tendencias en el conjunto de datos a
evaluar. Por ejemplo, un negocio minorista podría hacer uso del análisis estadístico para
encontrar patrones no estructurados y semi-estructurados a partir de los datos de los clientes
que dispone, pudiendo de esta manera, mejorar la experiencia cliente, y esto traducirse en un
aumento en las ventas.
El objetivo de la inferencia estadística es mejorar el conocimiento sobre la población a partir de
un conjunto representativo de miembros (muestra). Los métodos principales de inferencia
paramétrica son: estimación de los parámetros de la población y contrastes de hipótesis. Ambos
métodos se basan en el conocimiento de la distribución de probabilidad de un estadístico
muestral que se utiliza como estimador de los parámetros poblacionales a inferir.
La estimación de los parámetros consiste en inferir los valores de los parámetros o
características de la población, desconocidos a partir de los valores de la muestra. Esta
estimación está sujeta a un error por ello se construye un intervalo de confianza, esto es, un
rango de valores al que pertenece el parámetro poblacional con un determinado valor de
confianza o probabilidad.
Por otro lado, los métodos de contraste de hipótesis tienen como objetivo comprobar si un
determinado supuesto referido a un parámetro poblacional, es compatible con la evidencia
empírica contenida en la muestra.
Antes de la realización de cualquier proceso de inferencia estadística paramétrica es necesario
conocer la distribución de los datos, para ello se realiza una exploración de los mismos de la que
se obtendrá una serie de información como:
● Tablas de frecuencia.
● Gráficos e histogramas.
● Estadísticos resumen:
○ Medidas de posición: media, mediana, moda, cuantiles (cuartiles, deciles,
percentiles…).
○ Medidas de variabilidad: varianza, desviación típica, rango interquartil.
○ Medidas de apuntamiento y curtosis.
En estadística la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar
la relación de dependencia entre una variable dependiente Y, las variables independientes Xi y
un término aleatorio ε. Este modelo puede ser expresado como
= + + +. . . + +
donde:
● : variable dependiente, explicada o regresando.
● , , . . . , : variables explicativas, independientes o regresores.
● , , , . . . , : parámetros, miden la influencia que las variables explicativas tienen
sobre la variable dependiente. es la intersección o término "constante", las ( >
0)son los parámetros respectivos a cada variable independiente, y es el número de
parámetros independientes a tener en cuenta en la regresión.
● : es un término de error de media cero que refleja la perturbación aleatoria y recoge
todos aquellos factores de la realidad no controlables u observables y que por tanto se
asocian con el azar, y es la que confiere al modelo su carácter estocástico.
La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados que
fue publicada por Legendre en 1805, no obstante, Gauss publicó un trabajo en donde
desarrollaba de manera más detallada el método de los mínimos cuadrados [16] y en dónde se
incluía una versión del teorema de Gauss-Márkov.
El término regresión se utilizó por primera vez en un estudio que comparaba la estatura de
padres e hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al
valor medio, tendían a igualarse a éste, mientras que aquellos cuyos padres eran muy bajos
tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.
La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación
teórica de ese fenómeno.
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean
modelos basados en cualquier clase de función matemática. Los modelos lineales son una
explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico mucho más
extenso por parte de la matemática y la estadística.
Para poder crear un modelo de regresión lineal es necesario que la relación entre las variables
sea lineal, los errores en la medición de las variables explicativas sean independientes entre sí,
los errores dispongan varianza constante (Homocedasticidad), los errores tengan una esperanza
matemática igual a cero (los errores de una misma magnitud y distinto signo no son
equiprobables) o el error total sea la suma de todos los errores.
Árboles de decisión
Los árboles de decisión son una herramienta de apoyo a la decisión que utiliza una estructura
semejante a un árbol o un modelo de decisiones y sus posibles consecuencias, incluyendo los
resultados de posibles eventos, los costes de recursos y su utilidad. A diferencia del resto de
métodos que necesitan un alto componente de conocimiento para comprender el resultado este
tipo de técnicas son muy visuales y por tanto guían al lector en el proceso mental de decisión
seguido por el algoritmo.
Los árboles de decisión se usan habitualmente en operaciones de investigación, concretamente
en el análisis de decisiones, para ayudar a identificar la estrategia con mayor probabilidad de
alcanzar una meta, pero también son una herramienta popular en el aprendizaje automático.
En muchas ocasiones se aplican los árboles de decisión para el aprendizaje, utilizándolos como
un modelo predictivo que mapea ítems con sus resultados sobre su valor objetivo final. Dentro
de este tipo de árboles, se denominan Árboles de Clasificación si su variable de destino puede
resultar en un conjunto finito de valores. Si la variable de destino puede resultar en valores
continuos se denominan Árboles de Regresión.
La construcción de estos árboles se realiza a partir de tuplas de entrenamiento, donde cada una
de ellas va etiquetada con su correspondiente clase. Estos árboles de decisión se forman de una
forma, en cierto modo, similar a un diagrama de flujo. Cada nodo interno (no hoja) se
corresponde con una prueba en un atributo, cada una de las ramas denota el resultado de una
prueba, y finalmente cada nodo terminal (nodo hoja) tendría una etiqueta de clase.
Algunos de los algoritmos específicos más importantes para árboles de decisión son:
● ID3: Dado un conjunto de ejemplos, su uso se engloba en la búsqueda de hipótesis.
Consta de nodos, arcos y hojas. La elección del mejor atributo se realiza mediante la
entropía, eligiendo aquel que proporciona una mejor ganancia de información.
● C4.5: Se trata de una evolución realizada a partir del algoritmo ID3, especialmente
utilizado para clasificación. Algunas de las mejoras son el manejo de atributos con costos
diferentes, manejo de datos con valor faltante o, podado de árboles después de su
creación.
● MARS: El algoritmo MARS (Multivariate Adaptive Regression Splines) es una forma de
análisis regresivo introducida por J. H. Friedman en 1991. Se trata de una forma de
regresión no paramétrica y puede ser vista como una extensión de modelos lineales. Por
norma general son más flexibles que los modelos de regresión lineal, además de ser más
simples de entender e interpretar.
definición formal de red neuronal fue dada en 1943 por McCulloch y Pitts como una máquina
binaria con varias entradas y salidas [18].
La principal ventaja que aportan las redes neuronales reside en que son métodos
autoadaptativos impulsados por datos que pueden ajustarse sin ninguna especificación del
modelo subyacente. Son considerados aproximadores funcionales universales ya que las redes
neurales pueden aproximar cualquier función con exactitud. Las redes neuronales generan
modelos no lineales, lo que permite aproximaciones más precisas de las relaciones al mundo
real.
La modelización de las redes neuronales consta de una fase de entrenamiento donde se utiliza
un subconjunto de datos o patrones de entrenamiento para determinar los pesos de cada una
de las neuronas que componen la red. De manera iterativa se calculan los pesos con el objetivo
de minimizar el error cometido entre la salida obtenida por la red neuronal y la salida esperada.
Posteriormente se pasa a la fase de prueba donde el modelo generado se prueba con otro
conjunto de datos para determinar si este se ha ajustado demasiado a las particularidades de
los datos de entrenamiento.
Existen múltiples medidas estadísticas que se pueden calcular para determinar la precisión y el
ajuste de un modelo a los datos. Dependiendo del tipo de problema a resolver se seleccionarán
unas u otras. En la mayoría de los problemas se utiliza el error cuadrático medio2 (MSE, del
inglés Mean Squared Error), el promedio de los errores al cuadrado, esto es, la diferencia entre
el resultado esperado y el resultado dado por el modelo. Sin embargo, dependiendo de la
naturaleza del problema, se utilizan también otras medidas estadísticas más apropiadas. Por
ejemplo, para problemas de clasificación o segmentación binaria se utiliza: la sensibilidad y
especificidad3, precisión y recall4 o F1 score o F-score5.
El método más simple para seleccionar el modelo es el método de retención o holdout que
consiste en dividir el conjunto de datos en dos conjuntos predefinidos: entrenamiento y test.
Los algoritmos candidatos se entrenan sobre el mismo conjunto, el conjunto de entrenamiento,
y se prueban sobre el conjunto de test calculando la medida estadística correspondiente, es
decir, el valor cuantitativo que nos permitirá comparar los distintos algoritmos y seleccionar el
más preciso. Sin embargo, este método no es el más adecuado puesto que es altamente
dependiente del conjunto de datos. Por ejemplo, puede ocurrir que exista un modelo mejor que
otro en el conjunto original completo pero en el conjunto de test se comporte peor. Para
solucionar este problema, han surgido distintos métodos. El más utilizado de ellos es el conocido
como cross-validation o validación cruzada
Cross-validation consiste en dividir el conjunto de datos original en múltiples particiones en las
que se aplica el método de retención (entrenamiento y test en cada partición), y calcular la
media aritmética de los resultados en todas las particiones. De esta forma, la decisión no estará
desvirtuada por el conjunto de test utilizado y además obtenemos información adicional de
cómo se comporta el modelo en distintos conjuntos, es decir, de su variabilidad. Existen otras
variantes del método de cross-validation:
k-fold cross-validation: el conjunto de datos original es dividido aleatoriamente en k
subconjuntos de igual tamaño. Uno de los subconjuntos se utiliza como conjunto de test
para validar el modelo y el resto (k-1) constituyen el conjunto de entrenamiento. Este
proceso de validación se repite k veces. Finalmente se realiza la media aritmética de los
resultados de cada iteración para obtener un único resultado que determine la precisión
del modelo.
Leave-one-out: consiste en repetir el proceso de validación tantas veces como
observaciones existan en el conjunto de entrada. En cada iteración, se selecciona una
única observación para validar el modelo y el resto constituirá el conjunto de
entrenamiento. De esta forma, todas las observaciones del conjunto de entrada
formarán parte del conjunto de test pero una única vez. La validación leave-one-out es
equivalente a k-fold cross-validation cuando k es igual al número de observaciones del
conjunto de entrada.
2
https://es.wikipedia.org/wiki/Error_cuadr%C3%A1tico_medio
3
https://es.wikipedia.org/wiki/Sensibilidad_y_especificidad_(estad%C3%ADstica)
4
https://es.wikipedia.org/wiki/Precisi%C3%B3n_y_exhaustividad
5
https://es.wikipedia.org/wiki/Valor-F
6
Apache Singa, http://singa.apache.org/docs/overview.html
7
Apache Mahout, http://mahout.apache.org/
8
R project , https://www.r-project.org/
9
Amazon Machine Learning, https://aws.amazon.com/machine-learning/
10
Azure ML Studio, https://studio.azureml.net/
11
Caffe, http://caffe.berkeleyvision.org/
12
H2O, http://www.h2o.ai/
13
Massive Online Analysis, http://moa.cms.waikato.ac.nz/
14
Weka, http://www.cs.waikato.ac.nz/ml/weka/
15
MLlib, http://spark.apache.org/mllib/
16
NumPy, http://www.numpy.org/
17
R project , https://www.r-project.org/
18
Mlpack, http://mlpack.org/
19
Pattern, http://www.clips.ua.ac.be/pattern
20
Scikit-Learn, http://scikit-learn.org/stable/
21
Shogun, http://www.shogun-toolbox.org/
22
TensorFlow, https://www.tensorflow.org/
23
Theano, http://deeplearning.net/software/theano/
24
Torch, http://torch.ch/
25
Veles, https://velesnet.ml/
26
Keras, https://keras.io/
utilización directa puede resultar complicada. Para solventar este problema nace Keras,
una biblioteca de Python que se construye sobre Theano y TensorFlow y permite que la
implementación de los modelos de aprendizaje profundo sea considerablemente más
sencilla. Además ofrece soporte para procesamiento sobre CPU o GPU.
1.2.5 Tendencias
Las herramientas de Web analytics son usadas principalmente por los negocios online y
empresas de marketing para recoger y medir el tráfico web, con el fin de obtener un mayor
entendimiento del usuario y mejorar el sitio web. Las métricas más usadas para realizar el
análisis del sitio web son: número de visitas, visitas únicas, tiempo en la página, localización de
BELK
Aplicación: Aumentar el número de clientes multicanal, optimizar el stock,
optimizar el formato de la tienda, y las decisiones de horario
Resultado: Desarrollar modelos de tipología de cliente en función del nivel
de gasto, histórico para identificar y dirigirse a clientes de alto valor
añadido. Mejora del merchandising en tienda y optimización de la
colocación del producto en tienda mediante el análisis de los datos
obtenidos de los clientes.
Smarter cities
Aplicación: Optimizar las inversiones de las ciudades en infraestructura de
transporte mejorando el flujo de tráfico
Resultado Los datos de tráfico se diseccionan y analizan por carril, por
acción e incluso hasta el vehículo individual.
CARGO SMART
Aplicación: Logística, diagnóstico y pronóstico. Mejora de las rutas de las
buques para ahorro de combustible, optimización de la tripulación y
gastos portuarios
Resultado: CargoSmart gestiona datos sobre la velocidad de los buques,
la ubicación en el puerto y en el mar, los tiempos de tránsito totales, rutas,
eventos de atraque, eventos de excepción de 5500 buques – TIBCO.
Visualización en tiempo real, alerta y optimización de la velocidad y ruta del buque.
STUBHUB
Aplicación: Procesado y analizado de grandes volúmenes de datos en
tiempo real para fortalecer la experiencia del cliente, y mejorar la
detección y prevención del fraude
Resultado: Información analizada proveniente de 25 recursos de datos en un solo data
warehouse. Permitiendo analizar a 180 millones de clientes y desarrollando tickets
promocionales y campañas de promoción específicas.
KREDITECH
Aplicación: Ofrecer crédito a personas sin historial de crédito
Resultado: Desarrollo de un sofisticado modelo de puntuación basado en autoaprendizaje.
Obtención de datos dinámicos a través de redes sociales, uso del móvil, localización, e-
commerce.
Si bien ambas tecnologías pueden presentarse por separado es su comunión la que presenta un
potencial realmente disruptivo. Como consecuencia surge el concepto Big Data Analytics.
Según el estudio realizado por la consultora Gartner en 2015 “Big Data Industry Insight” [22] las
aplicaciones de Big Data Analytics son múltiples y diferentes para cada tipo de sector.
De esta forma podremos encontrar aplicaciones en los siguientes sectores:
● Industria
● Media y Comunicaciones
● Servicios
● Administración pública
● Educación
● Venta al por menor
● Banca
● Seguros
● Salud
● Transporte
De la misma forma, en dicho estudio se clasifican los procesos de negocio en los que Big Data
Analytics puede tener una implicación directa de mejora:
● Fortalecimiento de la experiencia del consumidor
● Eficiencia en la operativa de los procesos
● Segmentación de mercado
● Gestión del riesgo
● Desarrollo de nuevos productos
● Seguridad
● Cumplimiento de la regulación
En el mapa de calor resultado de este estudio que se muestra en la Ilustración 12, se puede
observar cómo la mejora de la experiencia del consumidor (Enhanced customer experience) es
el proceso de negocio en el que se ha priorizado más el uso de Big Data en todos los sectores. A
este proceso lo siguen la eficiencia en la operativa de los procesos y la segmentación de
mercado.
ILUSTRACIÓN 12: PRIORIZACIÓN DEL USO DE BIG DATA POR SECTORES. FUENTE: GARTNER
Por otro lado y según el estudio “Business opportunities: Big Data” realizado para la UE en Julio
de 2013 [23], las oportunidades de negocio y de mejora del negocio, que surgirán en el futuro
pueden clasificarse de la siguiente manera:
● Procesos de negocio horizontales o intersectoriales
● Procesos de negocio verticales
Big Data Analytics tiene aplicaciones directas para el apoyo a los procesos de negocio
industriales, no obstante muchos de los desafíos ante los que nos encontramos, no son sólo
desafíos tecnológicos, sino desafíos organizacionales que se ven claramente afectados por las
nuevas tecnologías.
Procesos horizontales en los que Big Data Analytics tienen y tendrán una aplicación directa:
● Gestión de relaciones con el cliente: mejora de la experiencia del cliente.
● Ventas y marketing: micro segmentación del cliente, análisis de los datos de redes
sociales y móviles en tiempo real, venta cruzada de productos, gestión dinámica de los
precios de venta al cliente, comercialización basada en localización.
● Cadena de suministro: optimización de la distribución y logística, gestión de la demanda
y cadena de suministro, gestión y optimización de stocks.
● Producción y operación: producción inteligente.
● Administración (finanzas, contabilidad, recursos humanos…): sistemas de apoyo a la
toma de decisiones, optimización de la planificación, detección de fraude.
● Investigación y desarrollo: Desde la generación de ideas hasta la gestión del ciclo de vida
del producto.
● Gestión de tecnologías de la información y comunicación de la empresa.
● Gestión del riesgo.
Aunque como vemos, podemos identificar oportunidades en cada proceso, no debemos pensar
en Big Data Analytics de forma estanca. Un uso efectivo de esta tecnología se expande y
entrecruza entre los procesos de negocio mencionados, uniendo la investigación y desarrollo, la
producción, operaciones, ventas, cadena de suministro, relaciones con el cliente, etc. para
aportar valor al negocio.
En la siguiente imagen se representan algunas de las oportunidades de negocio detectadas para
cada proceso empresarial horizontal.
ILUSTRACIÓN 13: OPORTUNIDADES DE BIG DATA ANALYTICS POR PROCESOS DE NEGOCIO INTERSECTORIALES. FUENTE: ELABORACIÓN PROPIA.
SERVICIOS FINANCIEROS
Modelado de catástrofes
Página 53 de 103
Oportunidades Industria 4.0 en Galicia
Es evidente que el despliegue de Big Data/Data Analytics en estas áreas ofrecerá enormes oportunidades a
las empresas de los distintos sectores para agilizar sus procesos, reducir costes, incrementar su eficiencia,
ofrecer mejores y/o nuevos productos y servicios. Al mismo tiempo, y desde el lado de la oferta de servicios
y tecnologías, surgen nuevas oportunidades para poder satisfacer las necesidades de los sectores. La
especialización será clave entre los ofertantes de estos nuevos servicios tecnológicos.
El término cloud computing hace referencia a una tecnología que aúna diferentes ideas tan diversas como
el almacenamiento de información, las comunicaciones entre ordenadores, la provisión de servicios o las
metodologías de desarrollo de aplicaciones, todo ello bajo el mismo concepto: “todo ocurre en la nube”.
Al igual que el resto de términos surgidos del vertiginoso desarrollo de la tecnología no existe una definición
estandarizada para definir Cloud Computing. Aunque en este caso las diferencias son mínimas, por ejemplo
el Instituto Nacional de Estándares y Tecnología americano (NIST) define cloud computing como:
"Un modelo para permitir un acceso conveniente a un conjunto compartido de recursos computacionales
configurables (por ejemplo, redes, servidores, almacenamiento, aplicaciones y servicios) bajo demanda que
se pueden aprovisionar y liberar rápidamente con un esfuerzo mínimo de gestión o una interacción entre el
proveedor de servicios."
Por otro lado, en 2009 Heiser J. definió Cloud Computing como:
‘‘Un estilo de computación altamente escalable donde las capacidades IT son proporcionadas ‘como servicio’
para el uso de usuarios externos”.
La principal razón para la existencia de diferentes percepciones sobre la computación en la nube es que a
diferencia de otros términos técnicos, no es una nueva tecnología, sino un nuevo modelo de operaciones
que reúne un conjunto de tecnologías existentes para operar de una manera diferente. De hecho, la mayoría
de las tecnologías utilizadas por la computación en nube como por ejemplo la virtualización, no son nuevas.
Centrándonos en la definición dada por el NIST, se identifican cinco características esenciales del cloud
computing: servicio a la carta, amplio acceso a la red, agrupación de recursos, elasticidad rápida y servicio
medido. El cloud computing tiene diversas formas de despliegue y cada una de ellas ofrece diferentes
ventajas a los usuarios que migran sus aplicaciones hacia la nube.
● Nube privada: En este caso la infraestructura de la nube es operada únicamente para una
organización aunque podría ser administrada por la organización o un tercero.
● Nube comunitaria: La infraestructura de la nube es compartida por varias organizaciones o
comunidad específica que tienen objetivos comunes y compartidos. Al igual que las nubes privadas
pueden ser administradas por las organizaciones o por un tercero.
● Nube pública: La infraestructura de la nube se pone a disposición del público en general o de un
gran grupo industrial y es propiedad de una organización que vende servicios en la nube.
● Nube híbrida: La infraestructura de la nube es una composición de dos o más nubes (privadas,
comunitarias o públicas) que siguen siendo entidades únicas, pero están unidas entre sí por una
tecnología normalizada o propietaria que permite la portabilidad de datos y aplicaciones (por
ejemplo, “cloud bursting· para balanceadores de carga entre distintas nubes).
ILUSTRACIÓN 14: “UNDERSTANDING THE CLOUD COMPUTING STACK: SAAS, PAAS, IAAS”. FUENTE:
HTTP://WWW.RACKSPACE.COM
En la práctica, los proveedores de servicios de la nube tienden a ofrecer servicios que pueden ser agrupados
en tres categorías [24]:
● Software como Servicio (SaaS): Los sistemas SaaS ofrecen al usuario la capacidad de utilizar las
aplicaciones del proveedor que se ejecutan en una infraestructura en la nube. Un ejemplo
tradicional de este tipo de aplicaciones son los gestores de correo electrónico como gmail o
aplicaciones más modernas como Dropbox, Evernote, etc. Las aplicaciones en la “nube” son
accesibles por varios dispositivos del cliente a través de una interfaz sencilla, como puede ser un
navegador web. El usuario del servicio no gestiona o controla la infraestructura subyacente del
servicio, que incluye la red de comunicaciones, los servidores, los sistemas operativos y el
almacenamiento.
● Plataforma como Servicio (PaaS): Los servicios PaaS ofrecen a los usuarios la capacidad de
desplegar en la infraestructura de nube aplicaciones creadas por ellos mismos o adquiridas. El
usuario no gestiona ni controla la infraestructura de la nube, incluyendo la red, los servidores, los
sistemas operativos o el almacenamiento, pero tiene control sobre las aplicaciones desplegadas y,
posiblemente, sobre las configuraciones del entorno de hospedaje de aplicaciones.
Existen múltiples proveedores de servicios PaaS, no obstante los principales son Amazon a través
de Amazon Web Service, Microsoft con su servicio Azure o Google con Google apps.
● Infraestructura como servicio (IaaS): En el caso de los sistemas IaaS el principal aporte es dotar al
usuario de la capacidad de procesamiento, almacenamiento, redes y otros recursos de computación
fundamentales donde se pueda desplegar y ejecutar cualquier software, pudiendo incluir sistemas
operativos y aplicaciones. El usuario no gestiona ni controla la infraestructura de la nube, pero si
tiene control sobre el sistema operativo, el almacenamiento, las aplicaciones implementadas y,
posiblemente, el control limitado de determinados componentes de red (por ejemplo, firewalls de
host).
IaaS un modelo de Cloud Computing que permite utilizar recursos informáticos y el hardware de un
proveedor en forma de servicio. Con ello, IaaS permite que los clientes puedan comprar recursos
hardware (servidores, sistemas de almacenamiento, conmutadores, routers, etc.) como si se tratara
de servicios totalmente externalizados. Con este modelo se pueden ampliar o reducir los recursos
informáticos físicos de una empresa, en un periodo de tiempo muy breve.
En la siguiente figura se muestran los recursos administrados por cada categoría y ejemplos de
plataformas reales que ofrecen servicios enmarcados en alguna de las categorías.
● Escalabilidad
● Ahorro de costes en equipamiento informático. Las aplicaciones son ejecutadas en la nube, por lo
que no se necesitan equipos con altas potencias de procesamiento.
● Menor coste en desarrollo de software
● Eliminación de defectos por mala configuración
● Actualizaciones instantáneas
● Mucha mayor capacidad de almacenamiento
● Acceso desde cualquier parte y desde cualquier dispositivo a los documentos o datos
TENDENCIAS
27
Amazon Web Services, http://aws.amazon.com
28
XenSource Inc, Xen, http://www.xensource.com
29
Microsoft Azure, https://azure.microsoft.com/es-es/
30
Google App Engine, https://appengine.google.com
31
Big Table, https://cloud.google.com/bigtable/
La siguiente tabla resume las tres principales ofertas de servicios de cloud computing en base a los tipos
de aplicación, modelos de computación, almacenamiento y escalado automático.
Autoescalado Sí Sí Sí
Firewall/ACL Sí Sí Sí
IP Pública Sí Sí Sí
Nube híbrida Sí Sí No
Hoy en día, las pequeñas y medianas empresas están cada vez más convencidas de que aprovechando la
potencia que ofrecen los servicios en la nube, pueden obtener acceso rápido a aplicaciones empresariales
que permitirán mejorar el rendimiento de los empleados, o aumentar drásticamente la capacidad de
cómputo de la empresa mientras se reduce el coste.
Uno de los servicios más demandados por las empresas en la actualidad es la gestión de grandes volúmenes
de datos. La mayoría de los proveedores de almacenamiento masivo de datos alquilan potentes servidores
a los que se puede acceder vía Internet. De esta forma, se puede acceder a la información almacenada a
través de aplicaciones sencillas que permiten sincronizar y acceder a dicha información desde múltiples
dispositivos en tiempo real.
Además, Cloud tiene ventajas al ofrecer servicios más escalables y tolerantes a fallos con rendimientos
mejores. La computación en la nube puede proporcionar multitud de recursos de computación debido a su
alta escalabilidad. Por tanto, las pequeñas empresas pueden hacer uso de estos servicios sin un alto coste,
únicamente aumentando los recursos de hardware cuando haya un aumento en la necesidad de
computación.
Cloud Computing pretende dotar a las empresas de una infraestructura donde se pueda acceder a la
información almacenada, independientemente de los sistemas físicos que se utilizan o de su ubicación real,
siempre y cuando se disponga de acceso a Internet. En definitiva:
La información ya no tiene que almacenarse necesariamente en los dispositivos informáticos de la empresa,
sino en los sistemas proporcionados por la “nube”. Ya no es necesario instalar aplicaciones informáticas en
los sistemas de la organización, sino que éstas se alojan y ejecutan en la nube, lo que permite liberar
recursos, tales como la memoria de los ordenadores de la organización o su consumo de energía. Los
recursos informáticos dispuestos en red son compartidos por varios usuarios y a través de distintos
dispositivos, pudiendo trabajar conjuntamente sobre el mismo contenido.
Como ejemplos de casos de uso reales de Cloud Computing en distintos sectores podemos identificar:
Spotify:
Aplicación: Personalizar la experiencia de los usuarios y
enriquecerla con datos relacionados con la música que escucha.
Resultado: El uso de Google Cloud Platform ha mejorado el tiempo
de ejecución de las consultas usadas para obtener información de
interés y ofrecérsela al usuario.
Hoteles NH:
Aplicación: Gestionar la agregación de valoraciones y opiniones de
clientes y usuarios en la web.
Resultado: El sistema de análisis utiliza la base de datos en la nube
de Google Cloud Platform para almacenar la información de los
clientes. También se hace uso de la máquina de traducción que
ofrece Google Cloud Platform. La traducción de las opiniones es
imprescindible para que el sistema pueda extraer conclusiones que mejoren el
posicionamiento web.
Bankinter:
Aplicación: Simulación de crédito-riesgo.
Resultado: Se utiliza la plataforma AWS de Amazon como parte integral de su aplicación de
simulación de crédito-riesgo. La aplicación utiliza complejos algoritmos para realizar cinco
millones de simulaciones. Gracias a AWS, Bankinter redujo el tiempo medio de las soluciones
de 23 horas a 20 minutos.
En la actualidad existen ya soluciones en el mercado como por ejemplo BYNSE, entre otras, que se
constituye como solución Big Data para la agricultura de precisión. Proporcionando información valiosa
sobre las necesidades actuales y futuras de los cultivos a los gestores agroalimentarios, para mejorar así la
gestión, ahorrar costes y mejorar la rentabilidad. [32]. Las tecnologías utilizadas por esta herramienta son
entre otras: cloud service, Big Data Cluster, Knowlegde Generator Framework, etc.
En España, proyectos como Hortysis – Innterconecta sobre “Control Remoto de Producción Hortícola en
Invernaderos e Integración con Previsiones de Demanda y Sistemas de Comercialización”
(http://www.hispatec.es/proyectos/hortisys-innterconecta-feder/) busca, a través de la obtención de datos
captados de forma automática y continúa, con modelos de estimación / predicción climática, conocer cómo
afectan las variables meteorológicas a las manifestaciones periódicas o estacionales de las especies y su
maduración.
El objetivo principal del proyecto HORTISYS es el control remoto de la producción en invernadero para:
Manejar los cultivos de forma que se ajusten las producciones a los tiempos óptimos de
comercialización en los principales mercados de consumo.
Maximizar rendimientos productivos de las plantas.
Planificación biológica de las plantas para el diseño de un modelo predictivo de la producción.
Diseño de un modelo de estimación de la demanda en función de las temperaturas e histórico de
consumo en los mercados de destino.
Diseño de un modelo de indicadores biológicos que permitan al productor controlar su cultivo y
adaptarlo a la potencial demanda calculada a través del modelo de estimación de demanda
anteriormente indicado.
Todos estos datos combinados con el modelo de estimación de la demanda, permiten al productor ajustar
su producción a las necesidades del mercado.
Desde el punto de vista de la venta al por menor de productos agroalimentarios y bio, la principal fortaleza
del uso de Big Data la encontramos en la mejora de la experiencia del cliente.
De este modo, podemos encontrar prácticas de Big Data Analytics, orientadas a:
DataBio Data Driven Bioeconomy [33]. Data Bio propone implementar una plataforma de big data de
vanguardia: la plataforma Big DATABIO
Regional crop monitoring and assessment with quantitative remote sensing and data assimilation. [34].
Su objetivo es aplicar técnicas avanzadas de asimilación de datos a múltiples tipos de datos de cultivos,
tanto de modelos de crecimiento de cultivos calibrados como de imágenes satelitales, para producir
estimaciones mejores de la productividad agrícola de China. De esta forma se podrán evaluar las posibles
geografías del futuro estrés agrícola en China.
PLANNING: MIDWEST: Cyberinfrastructure to Enhance Data Quality and Support Reproducible Results in
Sensor Originated Big Data. BD Spokes Project [35]. Este proyecto tiene como objetivo crear y fomentar una
comunidad multidisciplinaria centrada en la calidad de los datos y la reproducibilidad de los resultados de
la investigación para experimentos basados en sensores. El proyecto también dará como resultado avances
en el uso de circuitos integrados en el área de aplicaciones agrícolas en relación al uso de sensores y a la
calidad de los datos.
14TSB_ATC_IR Optimising Big Data to Drive Sustainable Agricultural Intensification [36]. Desarrollo de
aplicaciones móviles y servicios de datos web relacionados para proporcionar a los productores el acceso
síncrono y georreferenciado al banco de datos Soil-for-Life (SfL). Los productores podrán consultar datos
armonizados por parcela, campo por campo, tanto para operaciones históricas como actuales. Este
proyecto proporciona evidencia científica para apoyar sistemas de intensificación sostenible y para
mantener la salud del suelo a nivel de campo, granja y empresa.
2.2 AUTOMOCIÓN
Las aplicaciones dentro del vehículo están emergiendo cada vez más rápido (optimización de consumo,
sensórica de todo tipo, adaptación de cambios, protección de ciberataques, etc.) y es éste un ámbito que
seguirá creciendo a medida que los vehículos empiecen a estar conectados entre sí y con las
infraestructuras, y/o se avance hacia la conducción autónoma.
Las aplicaciones de Big Data en la fabricación en el sector automoción se centran en aspectos como:
Además de la aplicación puramente fabril mencionada anteriormente, el volumen de los datos generados
por un futuro automóvil conectado, junto con la conexión a las redes de su conductor o usuarios, abren
nuevos campos y modelos de negocio para el sector de la automoción, de forma que, poco a poco, ya no
sólo nos refiramos a procesos centrados en la fabricación si no a procesos centrados en el cliente, como por
ejemplo:
Ventas de paquetes de conexión incluidos en los vehículos nuevos (Audi, Mercedes-Benz y Tesla…)
Uso de datos de automóvil conectados para aumentar la eficiencia interna, la calidad y la
diferenciación del producto
Estrategia de diferenciación a través de la utilización de servicios conectados para reforzar la lealtad
del cliente de automoción
Establecimiento de un ecosistema integral de servicios al consumidor, con participación en los
ingresos derivado de la venta de datos por parte del usuario
Creación de sistemas para el uso de datos de clientes, tales como una base de datos de información
de clientes, que se monetizarán a través de futuros modelos de negocio (y aún no especificados),
especialmente en servicios de movilidad y opciones de transporte multimodal
De acuerdo con estas tendencias, nuevos operadores tecnológicos han irrumpido en el sector ya sea de
forma individual o a través de alianzas con los fabricantes, como por ejemplo:
Nvidia: que fabrica sistemas de información para cuadro de mando para la conducción y el establecimiento
y guiado de mapas autónomo.
Los sistemas de visualización de AUDI son realizados en colaboración con Nvidia. Mercedes-Benz y NVIDIA
han anunciado una asociación para traer el automóvil NVIDIA AI al mercado. El trabajo es parte de una
colaboración continúa enfocada en el aprendizaje profundo y la inteligencia artificial.
Volvo planea utilizar NVIDIA DRIVE como parte de su proyecto "Drive Me", que pondrá 100 vehículos de
prueba en un conjunto definido de carreteras en Gotemburgo.
Baidu y NVIDIA están colaborando en la primera plataforma de inteligencia artificial abierta para todos los
fabricantes de automoción. La colaboración combina la plataforma de computación en la nube de Baidu
con las soluciones de vehículo autónomo y aparcamiento autónomo de Nvidia, entre otras.
Las GPU NVIDIA alimentan los sistemas de navegación e información del automóvil de toda la línea de
automóviles BMW de próxima generación. Todos los BMWs llevan versiones de iDrive, navegación BMW y
sistema de información de vehículos de NVIDIA.
Los vehículos Tesla -Modelo S, Modelo X y el próximo Modelo 3- estarán equipados con un
"superordenador" integrado a bordo de NVIDIA, que puede proporcionar una capacidad de auto-
conducción completa.
El consorcio BMW, Audi y Daimler ha adquirido la empresa Here, que se dedica a la fabricación y servicios
de GPS y mapas para los vehículos. El consorcio pretende aprovechar el Hardware desarrollado por Here
para recopilar datos del vehículo y proporcionar recomendaciones a los conductores en tiempo real:
mejores rutas a escoger para llegar a su destino, la necesidad de realizar mantenimiento del vehículo, etc.
Drive Smart. Esta aplicación se instala de forma voluntaria en el SmartPhone de los conductores para
permitir la recogida de información relativa a la conducción, esencialmente localización GPS y velocidad.
Gracias al procesamiento de estos datos combinados con otros como velocidad máxima de la vía, sentido
de circulación de la vía, tráfico o meteorología, es capaz de analizar la conducción del conductor para así
poder ofrecerle recomendaciones que le permitan conducir mejor y, al mismo tiempo, identificar el perfil
del conductor. Los mejores conductores se benefician de descuentos en seguros de automóvil, gasolineras
u otros comercios, que al mismo tiempo se benefician de publicitar estos servicios mediante la aplicación.
Volvo está utilizando Big Data en el contexto de la inspección, el servicio y la venta de camiones Volvo, y
facilitando la gestión de riesgos para Volvo Used Trucks EMEA. [63]
Daimler AG busca la manera de maximizar el número de culatas producidas en su fábrica de Stuttgart a
través de ajustes de proceso específicos. La compañía quiere aumentar la productividad y acortar los
tiempos de fabricación. Con el software IBM® SPSS®, Daimler reúne datos sobre más de 500 factores que
incluyen dimensiones, tiempos, temperaturas, herramientas y muchos otros atributos de la producción de
culatas en todo el proceso de producción. Los datos se procesan a diario y se evalúan automáticamente de
varias formas con el software de análisis predictivo de IBM SPSS. Esto permite una monitorización completa
de todos los parámetros del proceso [38].
AutoRose es una compañía de automóviles que busca investigar el valor de mercado potencial de Big Data
dentro del espacio de la industria automotriz. El proyecto “A market investigation into alternate
monetisation methods for a connected car network infrastructure and how to create a network structure
which provides maximum value to all stakeholders” se enfoca en una cantidad de diferentes opciones de
utilización de datos y las percepciones relacionadas de seguridad y del conductor hacia ellas.
Cloud-LSVA - Cloud Large Scale Video Analysis [39]. Cloud-LSVA creará Tecnología Big Data para abordar la
falta de herramientas software y hardware para la lectura de datos de video a gran escala, orden de
magnitud petabyte. Las tecnologías dependen del análisis de video y otros datos de sensores del vehículo.
Las anotaciones de objetos, eventos y escenas de la circulación de los automóviles son fundamentales para
entrenar y probar las técnicas de visión por computador que son la base de los sistemas ADAS y de
navegación. El proyecto busca desarrollar una herramienta comercial que aborde la necesidad de una
anotación semiautomatizada y que aproveche la versatilidad de la computación en la nube para reducir
costes.
Prevención de incendios a través de una red de nodos inalámbricos desplegados capaces de captar
temperatura, humedad, dirección y velocidad del viento, etc. A partir de los datos obtenidos y la
introducción de Big Data Analytics se generan patrones predictivos que podrían ayudar a la
prevención contra el fuego, al disponer de información precisa y en el mismo momento en que un
incendio se produzca. Como ejemplo de proyectos desarrollados en esta temática destaca el
Proyecto de Investigación B105 Electronyc System de la Universidad Politécnica de Madrid,
desarrollos llevados a cabo por expertos de la Universidad Politécnica de Valencia y la empresa
ISDEFE, entre otros.
2.4 NAVAL
Big Data supone una oportunidad para la mejora de la productividad y competitividad del sector naval, tanto
en las fases de construcción o reparación como en las de mantenimiento.
La aplicabilidad de Big Data, además, puede abarcar tanto al proceso constructivo o de reparación, como al
mantenimiento.
Entre los posibles casos de aplicación de Big Data al sector, destacan tres:
En el primero de los casos, la obtención de información heterogénea, numérica y subjetiva del proceso y su
contexto, relativa a la fabricación de bloques de un mismo buque o de una serie de buques con
características similares facilita el análisis de los factores que influyen en la productividad de este tipo de
procesos; este enfoque puede aplicarse para análisis de bloques armados en el propio astillero o bien en
astilleros externos. La integración de información heterogénea y la aplicación de técnicas de tratamiento
basado en análisis clúster o en otras técnicas de analítica avanzada pueden ser abordadas a través de un
entorno tecnológico basado en el enfoque Big Data [43].
En el segundo de los casos, un entorno Big Data puede servir para dotar de inteligencia a los sistemas
semiasistidos o automáticos de conformado de chapa en caliente contando con información detallada de
la secuencia de operaciones de un número elevado de piezas de igual geometría.
En el tercer caso, buques en funcionamiento, el empleo de Big Data e inteligencia artificial es útil para la
optimización de los tiempos relativos a los procesos de mantenimiento así como a la reducción de fallos y
su análisis causal.
Como ejemplo práctico, Navantia, con un centro de producción en Ferrol y Fene, está buscando modernizar
su astillero gracias al proyecto Astillero 4.0, con el que planea construir al menos 5 fragatas F110 para la
Armada Española. Dentro del conjunto de tecnologías que posiblemente serán utilizadas, podrá encontrarse
Big Data. El objetivo será la modificación de las cadenas de producción, que pivotarán sobre el astillero
inteligente, garantizando una producción segura, rápida y adaptada en tiempo real según las necesidades
del mercado, y ofreciendo una mejor relación coste-beneficio y menos errores en la fabricación.
Así mismo se ha creado una Unidad Mixta de Investigación entre Navantia y la Universidad de A Coruña
[44] para el desarrollo de tecnologías habilitadoras de Industria 4.0 en el sector naval con líneas de
investigación como:
Modelado y simulación de procesos de fabricación de la planta y de los productos desarrollados
que permitan un astillero sostenible.
Aplicación de la automatización y robotización de los procesos y su digitalización (movilidad,
realidad aumentada, IoT, Big Data)
Etc.
Wärtsilä Genius Services [45]
Los productos Wärtsilä Genius - Optimizar, Predecir y Resolver - aplican los datos para optimizar los activos
de los clientes en tiempo real, mejorando la previsibilidad y ayudando a resolver problemas a través de
soluciones digitales.
Utilizando datos históricos y en tiempo real, Wärtsilä Genius Services está diseñado para optimizar, desde
la eficiencia energética de una sola instalación hasta la gestión de toda una flota. Esto último se logra
integrando la planificación dinámica avanzada de la travesía, los servicios de asesoramiento sobre la
eficiencia de los buques y el análisis energético, así como una amplia vigilancia de la situación de los
principales equipos.
El servicio de monitorización de la eficiencia del motor (EEMS) de Wärtsilä funciona con cualquier motor de
cuatro tiempos.
AkzoNobel and Tessella [46] han desarrollado una herramienta para la industria naviera de predicción del
rendimiento de las tecnologías de recubrimiento. Intertrac Vision utiliza miles de millones de puntos de
datos de rutas de barcos y el riesgo de contaminación y, a través de técnicas analíticas avanzadas, algoritmos
y modelos, proporciona evaluaciones precisas y completas de los recubrimientos. Genera un análisis
completo de coste-beneficio, y detalla el consumo estimado de combustible, el coste del combustible y las
emisiones de CO2, identificando la opción más eficiente en diferentes escenarios.
ABB AG ha desarrollado la herramienta EMMA Advisory Suite [47] que utiliza datos AIS sobre Apache HBase
para predecir el comportamiento de la navegación en situaciones de alto tráfico marítimo.
2.5 TEXTIL/MODA
Hasta hace relativamente poco, uno de los ámbitos más conocidos de aplicación de Análisis de Datos en el
sector textil era la medición de flujos de clientes, tanto dentro como fuera de los propios establecimientos
o centros comerciales. Sin embargo, dada la irrupción del e-commerce han surgido numerosas líneas de
aplicación de Big Data. Entre otras, Big Data permite detectar potenciales clientes, reducir costes de
marketing o personalizar acciones, la utilización de modelos para predecir picos de demanda en función de
históricos o tendencias por temporada, la realización de la planificación en función de las predicciones, y la
utilización de analítica predictiva para la realización de ofertas en punto de venta, ventas cruzadas,
recomendaciones online personalizadas, campañas personalizadas de promoción, etc.
Big Data permite diseñar prendas adecuadas y ajustadas a las necesidades del consumidor.
En los procesos de fabricación del sector textil Big Data tiene también claros ejemplos de aplicación:
Mantenimiento predictivo de maquinaria
Planificación y asignación óptima de recursos de producción
Predicción de fallos en cadenas de producción
Optimización logística de suministro y distribución
Pronóstico de la demanda
Eficiencia energética en producción
Despliegue óptimo de bienes y cadenas de producción (lay-outs)
Seguridad en la planta
Análisis de riesgos y predicción de fallos
Como ejemplos prácticos podemos destacar, el diseño de sistema de fabricación textil basado en big data
[48]. El sistema diseñado realizó un enlace de información efectivo entre la capa de planificación y la capa
de producción, proporcionando un nuevo método para la detección en tiempo real de la calidad de la tela.
Para el desarrollo del estudio se utilizó tecnología Hadoop, métodos teóricos de evidencia D-S, clustering
incremental, y algoritmos, entre otras tecnologías.
Inditex, en función de la aplicación de determinadas técnicas de clusterización, es capaz de predecir las
tallas que más se van a vender, en función de la localización de cada tienda.
SOMATCH - Support IT solution for creative fashion designers by integrated software systems to collect,
define and visualize textile and clothing trends through innovative image analysis from open data [49].
Herramienta para analítica de datos y visualización de grandes conjuntos de datos no estructurados,
relacionados con el uso y las preferencias de los productos de moda por parte de los consumidores,
apoyando la rápida reacción de las empresas a la dinámica del mercado y una mejor adaptación del diseño
a la demanda real de los consumidores. SOMATCH proporcionará a los diseñadores estimaciones de
tendencias y pronósticos de aceptación del usuario. Además integrará los sistemas con los nuevos
dispositivos SoA mobile y wearable (por ejemplo, Google Glass) para recopilar información y visualizar la
interpretación de tendencias.
2.6 AERONÁUTICA
El volumen de datos que pueden generarse en un avión a lo largo de todo un recorrido, como la temperatura
registrada en sensores repartidos por toda la aeronave, nivel de combustible, humedad, altitud, velocidad,
posición, imágenes de cabina, condiciones climáticas externas, etc. es muy elevado. Esto hace que este
sector sea proclive a la utilización de estas tecnologías, desde aspectos relacionados directamente con los
vuelos como la monitorización de rutas, o la seguridad de datos de cajas negras, etc. hasta los procesos de
fabricación, como los mencionados para otros sectores:
Eficiencia del mantenimiento de las aeronaves. Integración de fuentes de datos dispares, como
registros electrónicos de mantenimiento, datos paramétricos de aeronaves y datos operacionales
para crear un conjunto de Big Data, sobre el que nuevas tecnologías de análisis y optimización de
decisiones podrán ser aplicadas
Planificación y asignación óptima de recursos de producción
Predicción de fallos en cadenas de producción
Optimización logística de suministro y distribución
Pronóstico de la demanda
Eficiencia energética en producción
Despliegue óptimo de bienes y cadenas de producción (lay-outs)
Seguridad en la planta
Análisis de riesgos y predicción de fallos
Reducción del tiempo de pruebas de una aeronave [50]
Producción de series donde cada componente aeronáutico se personaliza siguiendo
especificaciones definidas potencialmente por cada cliente individual.
Entre algunos de los casos de uso se encuentran:
La Universidad de Michigan colaborando con IBM [51] para desarrollar sistemas de supercomputación
"centrados en datos” en campos tan diversos como diseño de motores y aviones, tratamiento de
enfermedades cardiovasculares, física de materiales, modelado climático y cosmología. Los sistemas de IBM
usan un enfoque acelerado basado en datos de GPU, integrando datasets masivos. ConFlux, el nuevo
sistema, permitirá que los clústeres de computación de alto rendimiento se comuniquen directamente y a
velocidades interactivas con operaciones de uso intensivo de datos. El proyecto establece un ecosistema de
hardware y software para permitir el modelado a gran escala basado en datos de problemas físicos
complejos, como el rendimiento de un motor de avión.
La compañía Lokad ha desarrollado un software de optimización cuantitativa para la cadena de suministro
aeronáutica (mantenimiento, reparación, reacondicionamiento y fabricantes de piezas originales). Las
aeronaves requieren una gran variedad de piezas, desde las más caras hasta las más baratas pero con un
alto grado de rotación. El hecho de que no se disponga de una pieza en un determinado momento se
traduce en altos costes, que pueden afectar tanto a la empresa fabricante como a la aerolínea. El software
desarrollado ofrece una solución estadística que proporciona una optimización exhaustiva del inventario a
través del pronóstico de la demanda de las aerolíneas.
En el caso de la evolución de las cajas negras, Big Data y Cloud Computing y la obtención de los datos en
tiempo real, tienen una gran relevancia. Las investigaciones actuales tratan de posibilitar el acceso a las
cajas negras antes de que el avión tome tierra, momento en el cual los datos son disponibles. De esta forma,
entraríamos en una nueva dimensión en la que el análisis de los datos de vuelo pasaría de ser de correctivo
a preventivo.
BRITISH AIRWAYS: el programa "Know Me" combina la información de fidelidad ya existente con los datos
recopilados de los clientes en función de su comportamiento en línea. Con la combinación de estas dos
fuentes de información, British Airways puede hacer ofertas más específicas [52].
DELTA: aerolínea que permite a los clientes rastrear sus maletas desde dispositivos móviles [52].
2.6.1 Proyectos de I+D
DART - Data-driven AiRcraft Trajectory prediction research. [53]. DART brindará comprensión sobre la
idoneidad de aplicar técnicas de big data para predecir las trayectorias de aeronaves.
2.7 TIC
La industria de las tecnologías de la información y comunicación es propicia para la aplicación de técnicas
de Análisis de Datos y/o Big Data. La aplicación de esta tecnología redundará en un incremento de la
eficiencia operacional, apoyo a la toma de decisiones en tiempo real, aumento de eficiencia en las campañas
de marketing, mejora de la experiencia con clientes, o la creación de modelos de negocio innovadores, etc.
El tratamiento de los datos y la obtención de información aportan valor añadido a las operaciones propias
del modelo de negocio de las empresas TIC. El sector TIC es uno de los primeros interesados en ofrecer
soluciones de captura y análisis de datos a sus clientes de forma que puedan obtener ventajas competitivas.
El sector se encuentra delante de una multitud de oportunidades de desarrollo de software relacionado
con [54]:
Para poder gestionar y extraer información y conocimiento de los datos disponibles es necesario el empleo
de técnicas de Big Data Analytics y Cloud Computing. Con estas herramientas podemos conseguir, por
ejemplo:
Analizar en tiempo real las variables de funcionamiento de los equipos
Analizar en tiempo real los datos meteorológicos
Extraer patrones de comportamiento de la instalación. Mantenimiento predictivo. Reducción de
tiempos de parada, etc.
Realizar predicciones que inciden directamente en la eficiencia y en los costes de la instalación
Extraer de patrones de consumo
Etc.
En el caso de la energía eólica, la realización de predicciones eólicas a corto y medio plazo tiene una
incidencia directa en las labores de operación y mantenimiento de los parques. Igualmente, para acudir al
mercado eléctrico es necesario disponer de predicciones horarias de producción con un día de antelación
(en el mercado diario).
La realización de predicciones en el sector eólico depende de multitud de factores, uno de ellos es el viento
y su carácter variable, lo que hace necesario el control de multitud de datos. Para extraer el conocimiento
y la información necesaria de todo este gran volumen de datos que inciden en la producción, gestión,
distribución, etc. se hace necesario la aplicación de técnicas de Big Data, como por ejemplo el Machine-
Learning o aprendizaje máquina.
Los modelos que actualmente están siendo más estudiados en relación a las energías renovables son, por
un lado los modelos de Bosques Aleatorios o de Gradient Boosting [30], y por otro lado, se está
demostrando la eficacia de las redes profundas [31].
Como ejemplos de la utilización de todas estas tecnologías, podemos destacar:
A.U.R.A. GAMESA, S.A. Mantenimiento predictivo de maquinaria eólica. La plataforma de monitorización
A.U.R.A. de NEM Solutions realiza diagnósticos expertos de la maquinaria eólica permitiendo un ajuste más
fino del mantenimiento predictivo
EA2 [32]: sistema de predicción de producción de energía eólica, desarrollado por IIC (UAM), capaz de llevar
a cabo la predicción horaria de parques individuales, pequeñas agrupaciones o áreas más amplias, que
puede complementarse con Argestes Planner, una herramienta de visualización que permite, en tiempo
real, analizar y comparar las predicciones realizadas.
EA2 está orientado operadores del sistema eléctrico, operadores de distribución, generadores de energía,
comercializadoras o, en general, empresas relacionadas con la eficiencia energética que requieran técnicas
de modelado y predicción de energía
El sistema se ofrece en modalidad Software as a Service (SaaS) que emite predicciones de producción eólica
para parques en cualquier parte del mundo, adaptándose a las características de cualquier mercado. Gracias
a su versatilidad se puede aplicar a un parque eólico o sobre un conjunto de parques como los de una granja,
agrupación o clúster, o incluso sobre una gran área como la Península Ibérica. Para la elaboración de las
predicciones EA2 utiliza técnicas de analítica predictiva y métodos de machine learning, como SVM redes
neuronales.
Esta herramienta ha sido aplicada al parque eólico experimental Sotavento, en Galicia.
Aristoles de Kaiserwetter ha desarrollado un sistema que combina el Internet de las cosas, el despliegue de
sensores, técnicas de análisis de Big Data y una infraestructura digital centralizada en la nube.
The Hybrid Renewable Energy Forecasting Solution (HyRef) de IBM, utiliza datos de equipos de monitoreo
como cámaras que siguen el movimiento de las nubes, datos meteorológicos, sensores en aerogeneradores
para monitorear velocidad, dirección y temperatura del viento, y realizar una predicción de condiciones
hasta un mes en adelante. El análisis de turbulencia y la tecnología de imágenes en la nube se usan para
predecir la generación de energía solar y eólica con precisión.
ILUSTRACIÓN 30. THE HYBRID RENEWABLE ENERGY FORECASTING SOLUTION (HYREF) DE IBM. FUENTE:
IBM'S HYREF SEEKS TO SOLVE WIND'S INTERMITTENCY PROBLEM
HTTP://WWW.RENEWABLEENERGYWORLD.COM/ARTICLES/2013/08/IBMS-HYREF-SEEKS-TO-SOLVE-
WINDS-INTERMITTENCY-PROBLEM.HTML
Intelligent Renewable Energy Performance Deep Analytics & Optimization IPAO de IBM proporciona
evaluación y mejora de la eficiencia de trabajo, evaluación de amenazas y mantenimiento predictivo,
recomendación de tipo de activos, optimización de piezas de repuesto a gran escala y optimización de
planes O & M. Además, iPAO ayuda a las plantas de energía renovable a proporcionar toda la gestión de la
operación del ciclo de vida, aumentar la eficiencia de los activos, ampliar la vida útil de los activos y mejorar
su nivel de gestión.
Vi-POC (Virtual Power Operating Center) recopila variables de instalaciones fotovoltaicas, eólicas,
cogeneración, biomasa, geotermia y de predicción del clima. El módulo de Big Data utiliza:
Enervalis [57] ha desarrollado una plataforma de TI enfocada en optimizar el uso de la energía verde.
Enervalis desarrolla software que proporciona soluciones de energía sostenible para vehículos eléctricos,
edificios y microrredes. La plataforma monitorea las fuentes de energía y los usuarios disponibles, y puede
predecir la demanda y el suministro de energía en el futuro a través de la predicción meteorológica, los
aportes de los usuarios, la Inteligencia Artificial y Big Data.
2.10 METALMECANICO
El sector metalmecánico puede beneficiarse de la mayor parte de las aplicaciones mencionadas para el resto
de sectores analizados pues, en la mayoría de los casos, éste forma parte de la propia cadena de valor de
sectores como los de automoción, aeronáutico, renovable o naval. Como por ejemplo:
Extracción de patrones de comportamiento de la instalación. Mantenimiento predictivo. Reducción
de tiempos de parada, etc.
Planificación y asignación óptima de recursos de producción
Predicción de fallos en cadenas de producción
Optimización logística de suministro y distribución
Pronóstico de la demanda
Eficiencia energética en producción
Despliegue óptimo de bienes y cadenas de producción (lay-outs)
Seguridad en la planta
Análisis de riesgos y predicción de fallos
Optimización del stock
Customización del producto: nuevos acabados y formas más ajustados a las necesidades del cliente
Como ejemplos de la utilización de esta tecnología, podemos destacar:
GESTAMP [61]. La plataforma Siemens de Big Data monitoriza las necesidades de consumo energético de
Gestamp y conecta sus infraestructuras a una solución cloud. Este sistema permite definir algoritmos
basados en los patrones de consumo para identificar y advertir sobre posibles fallos de los equipos. Los
datos del consumo energético pueden ser procesados a través de técnicas de análisis de datos para definir
de forma predictiva el mantenimiento, así como gestionar los procesos de producción o las previsiones de
consumo energético en base a las necesidades de producción futuras.
2.10.1 Proyectos I+D
MC-SUITE - ICT Powered Machining Software Suite[62]. MC-SUITE quiere aumentar la productividad de la
industria manufacturera, mejorando el desempeño de la simulación y el mecanizado, al correlacionar el
modelado de procesos utilizando computación de alto rendimiento, y la monitorización de las máquinas.
3.1 RETOS
A continuación, se describen brevemente algunos de los desafíos más relevantes, en los cuales se centra
gran parte de las investigaciones académicas:
● Captura y almacenamiento de datos: La distribución (alta concurrencia y el manejo de un alto
volumen de operaciones por cada servidor), replicación, migración, desempeño, confiabilidad y
escalabilidad.
● Transmisión de los datos: La transmisión de Big Data en las tecnologías orientadas a la nube y a
sistemas distribuidos tiene diferentes retos a abordar, entre los que se destacan: el ancho de banda,
la seguridad y la integridad de los datos.
● Procesamiento de los datos: desde la identificación de los datos hasta su recuperación,
aseguramiento de calidad, adición de valor, reutilización y preservación en el tiempo. El
inconveniente con las herramientas tradicionales (principalmente los modelos que trabajan con
datos estructurados) es que éstas no tienen la capacidad de manejar estos procesos con Big Data
de forma eficiente. Por lo tanto, el análisis de Big Data debe incluir técnicas innovadoras que van
desde la captura, representación y almacenamiento de los datos hasta su visualización después de
los procesos de análisis, teniendo en cuenta que dichas técnicas deben realizarse a bajo coste.
● La seguridad, privacidad y propiedad de los datos. Los entornos en los que se mueve Big Data son
entornos en la nube o manejan arquitecturas de datos compartidos. Este hecho hace que las
organizaciones tiendan a desconfiar de dichos entornos y ralenticen los procesos de adaptación de
estas tecnologías en las empresas. Los retos son numerosos y tienen que ver por un lado con
aspectos legales, reputación, seguridad nacional, competitividad, secretos de industria, etc. y por
otro con estructuras de información que puedan facilitar datos públicos, como los historiales
clínicos o los perfiles académicos.
● Análisis de datos:
Obtener una población correcta de los datos, obtención de datos limpios (libres de ruido) y veraces
(que puedan ser verificables), con el fin de evitar hechos falsos que puedan alterar la percepción de
la realidad.
Interpretar los datos, realizar proyecciones y tendencias a partir de los datos recolectados. Este
reto tiene que ver en gran parte con el anterior, ya que sin los datos adecuados, las interpretaciones
posiblemente serán incorrectas.
Definir y detectar anomalías.
● Arquitectura de los datos: Se plantean una serie de inquietudes:
Determinar cómo la integración de servicios en la nube permite el manejo de Big Data.
Facilitar el escalamiento de sistemas a través de Cloud Computing.
A pesar de las múltiples oportunidades que se vislumbran, las empresas aún están lejos de aprovecharla al
100% de las capacidades que el Big Data es capaz de ofrecer. El verdadero reto no está tanto en crear las
arquitecturas que permitan implementar Big Data (y su posterior análisis) en las organizaciones, si no en ser
capaces de separar, en el menor tiempo de respuesta posible, lo que es relevante de lo que no aporta valor
en todo el volumen de datos que se genere. La mayoría de los autores plantean que las organizaciones
deben determinar los objetivos de análisis para luego decidir qué datos almacenar y cómo serán devueltos
en forma de información valiosa. Las organizaciones que no se planteen objetivos claros desde el principio,
simplemente almacenarán datos que no sabrán cómo aprovechar en un futuro, dando lugar a frustraciones
y al abandono de esta tecnología. El informe de IDC “Big Data. Retos y Oportunidades” para Europa,
establece como principales inhibidores de la implantación de estas metodologías en las empresas los
reflejados en la siguiente ilustración.
ILUSTRACIÓN 23: INHIBIDORES PARA LA ADOPCIÓN DE BIG DATA. FUENTE: IDC BDA PULSE
SURVEY
En relación a las herramientas, propiamente dichas de Big Data, todavía existen numerosos retos a los que
enfrentarse:
● Medir el rendimiento a través de los distintos nodos operativos.
● Determinar, entre tanto componente co-dependiente, si el rendimiento es óptimo o no, y por qué.
● Medir el rendimiento del hardware y las múltiples conexiones necesarias para el funcionamiento
de estos sistemas.
● Monitorizar las infraestructuras de Big Data y TI en una misma arquitectura.
● Integrar datos clave en la infraestructura de Hadoop desde servidores propios.
Un número creciente de empresas está utilizando la tecnología para almacenar y analizar ingentes
cantidades de datos, incluyendo registros web, datos de flujo de clics, y contenido de redes sociales o incluso
una combinación de diferentes fuentes. Esta cantidad de información es utilizada por las empresas para
conseguir un mayor conocimiento de sus clientes y de sus negocios. Como resultado a esta nueva visión,
la clasificación de la información (niveles de privacidad) se vuelve aún más crítica. A continuación se
describirán brevemente algunos de los principales problemas de privacidad y seguridad que se generan en
los entornos Big Data.
La información recogida en los entornos Big Data proviene principalmente de las redes sociales, entornos
bancarios y los registros médicos. Estos entornos contienen información altamente privada y por tanto
susceptible de ser tratada con mayor seguridad.
Además, en estos entornos puede haber más tipos de actores que sólo proveedores y consumidores,
principalmente propietarios de datos, como los usuarios móviles y los usuarios de redes sociales. Los actores
no son meros usuarios que reciben información, también pueden ser dispositivos que recolectan más
información de diferentes fuentes para otros consumidores de datos diferentes.
El gran volumen de datos que maneja Big Data requiere su almacenamiento en diferentes medios, algunos
de los cuales pueden almacenar datos agregados. La agregación y el movimiento de dicha información entre
aplicaciones, pueden provocar la pérdida total o parcial de la misma, abriendo de esta forma otra puerta a
violaciones de seguridad y privacidad.
Por tanto, la seguridad y privacidad son importantes tanto para la calidad de los datos como para la
protección del contenido. La información en entornos Big Data con frecuencia se mueve de límites
individuales a colectivos, hacia una comunidad de interés, estado, fronteras nacionales e internacionales.
La procedencia, aborda el problema de la comprensión de la fuente original de los datos y de lo que se ha
hecho con ellos e incluye el aseguramiento de la información de los métodos a través de los cuales se
recogió la información. Por ejemplo, cuando se recibe información de sensores, es necesario rastrear la
calibración, la versión, el muestreo y la configuración del dispositivo.
La propiedad del dato como característica universal debe abordarse en el contexto de la seguridad y la
privacidad de Big Data. La propiedad es una característica (que puede o no ser visible para los usuarios) que
vincula a los datos con una o más entidades que poseen o pueden influir en lo que se puede hacer con los
datos (por ejemplo, las entidades bancarias pueden influír pero no pueden cambiar el historial de crédito).
En las bases de datos, la propiedad confiere los privilegios para crear, leer, actualizar y eliminar datos. La
transparencia de la propiedad permite la confianza y el control de los propietarios de los datos, así como la
apertura y la utilidad para las empresas y la sociedad. El mantenimiento de la procedencia de los datos
permite la trazabilidad a lo largo del ciclo de vida de los datos y controla la propiedad y el cambio de los
mismos.
Los frameworks de programación distribuidos fueron desarrollados teniendo en cuenta el volumen y la
velocidad de acceso, pero no se diseñaron para tener en cuenta la seguridad. Por ejemplo, aquellos nodos
que no funcionan correctamente pueden llegar a perder datos confidenciales. También, ataques a parte de
la infraestructura podrían comprometer una gran parte del sistema debido a los altos niveles de
conectividad. Si el sistema diseñado no gestiona la autenticación entre los nodos distribuidos, es posible la
intromisión de nuevos nodos no autenticados en la infraestructura que pueden extraer datos.
La búsqueda y selección de datos también pueden generar nuevos problemas relacionados con la privacidad
o la política de seguridad como la pérdida de datos en el proceso de búsqueda y selección. Es probable que
se necesite una combinación de las competencias del usuario y las protecciones del sistema, incluida la
exclusión de las bases de datos que permiten la re-identificación.
Debido a que puede haber procesos de procesamiento dispares entre el propietario de los datos, el
proveedor y el consumidor de datos, debe garantizarse la integridad de los mismos. Las prácticas de
aseguramiento de información de extremo a extremo para Big Data -por ejemplo, para verificabilidad- no
difieren de otros sistemas, sino que deben diseñarse a mayor escala.
Redefinir la seguridad de las bases de datos relacionales tradicionales hacia las bases de datos no
relacionales supone un gran reto, ya que estos sistemas no han sido diseñados teniendo en cuenta la
seguridad, delegando este problema a la creación de un middleware.
El movimiento y la agregación de datos entre aplicaciones provocan el análisis sistemático de posibles
amenazas y con ello la investigación y desarrollo continuo de nuevas técnicas para ofrecer sistemas más
seguros. Las amenazas que sufren los sistemas distribuidos incluyen los siguientes escenarios principales:
confidencialidad e integridad, procedencia, disponibilidad, consistencia, colusión, ataques de retroceso y
disputas de registros.
Otro de los principales problemas que surgen en términos de seguridad y privacidad es el elemento
humano. Al igual que el resto de problemas comentados con anterioridad, el elemento humano en los
sistemas Big Data también generará nuevos problemas. A medida que se disponga de más datos a través
de los motores de análisis, habrá más "analistas" que puedan acceder a dichos datos y por tanto generar
más problemas para preservar la seguridad y la privacidad. De manera similar, es probable que los analistas
tengan acceso a datos cuya procedencia desconozcan.
Por otro lado, las medidas de seguridad y privacidad en Big Data deben escalar de forma no lineal. Deberán
surgir nuevas regulaciones para abordar los riesgos detectados en entornos reales y percibidos a medida
que los usuarios y los reguladores tomen conciencia de las capacidades de Big Data. El aseguramiento de la
información, generará diferentes especializaciones dentro de la informática.
Apache Hadoop
Una tendencia en aumento es la transformación de Hadoop en una parte fundamental del entorno de TI
empresarial.
La principal tendencia que se puede observar con respecto a la implementación de Hadoop para análisis de
Big Data es la transformación de este framework y sus diferentes componentes relacionados, en
arquitecturas para el análisis de datos de cualquier tipo de industria (o al menos las más representativas).
Estas arquitecturas se encuentran apoyadas por la computación en la nube, haciendo posible la habilitación
de estas plataformas de análisis de datos como servicios.
NoSQL y Sistemas Híbridos
NoSQL, continuará siendo tendencia en la medida que se generen datos no estructurados a grandes
velocidades. Hoy en día, las tendencias apuntan a sistemas híbridos entre SQL y NoSQL para tomar lo mejor
de cada sistema manejador, como es el caso de HadoopDB [25]. HadoopDB combina Hadoop con
PostgreSQL [26] teniendo a PostgreSQL como capa de datos, Hadoop como capa de comunicación y
almacenamiento, y Hive como capa de traducción de SQL a MapReduce.
Existen otras arquitecturas implementadas generalmente como sistemas RDBMS paralelos capaces de
conectarse con Hadoop para la carga de datos y la ejecución de tareas MapReduce. La mayoría de estas
soluciones ofrecen una especie de semántica MapReduce-SQL nativo. Las tres representaciones más
destacadas de este estilo arquitectónico son Pivotal Greenplum [27], Aster Data – Teradata y HP Vertica
[28].
Compresión de Datos
A pesar de que los costos de almacenamiento de datos se han venido reduciendo, el enorme crecimiento
en el volumen de los datos hace que el almacenamiento sea uno de los elementos más costosos. Las
tecnologías actuales de compresión de datos utilizan una combinación de métodos orientados a filas y a
columnas que permiten almacenar datos para ahorrar espacio y mejorar el desempeño.
In-database Analytics
Este término hace referencia a las técnicas de análisis de datos que son aplicadas directamente en los DBMS.
Esto permite eliminar la necesidad de mover datos entre servidores, optimizando el data warehousing y
reduciendo costos de implementación. El hecho de no tener que mover los datos hacia otras fuentes de
almacenamiento para su análisis, permite a los analistas obtener información valiosa en mejores tiempos a
costes más bajos. Adicionalmente, esto permite apuntar hacia atributos de calidad como la seguridad,
escalabilidad y desempeño. Las principales compañías que suministran soluciones de data warehousing, en
la actualidad, incluyen análisis “In-database” como una de sus alternativas. Como por ejemplo: Teradata,
Oracle, IBM Netezza, Pivotal Greenplum, Sybase, ParAccel (Actian), SAS y Exasol.
Bases de Datos distribuidas. La distribución de las bases de datos es una tendencia que se seguirá
observando junto con otras que tiene que ver con la forma cómo se comparte el almacenamiento
y con las condiciones del teorema de CAP.
Bases de Datos “In-memory”: Actualmente son utilizadas tanto para sistemas transaccionales como
para sistemas analíticos interactivos y de streaming, donde la latencia y el tiempo de respuesta son
críticos. Estas bases de datos se implementan frecuentemente como modelos relacionales sin
logging o como modelos clave-valor en tablas o mapas hash.
Linked Data Oriented (LOA): Esta forma de almacenamiento y organización de los datos será
bastante utilizada en los próximos años por la facilidad con la que se accede al conocimiento y como
se representa.
Los sistemas capacitados para Machine o Deep Learning facilitarán mejores servicios y experiencia al cliente,
gestionarán la logística, analizarán registros médicos, etc. La mayor parte del valor potencial de estas
herramientas se encuentra se encuentra aún por descubrir. Estas nuevas tecnologías incrementarán las
ratios de productividad y la calidad de vida. Según una investigación de MGI [29] “A future that works:
automation, employment, and productivity”, machine learning puede ser el habilitador de la
automatización del 80% de las actividades empresariales. Los descubrimientos en procesado de lenguaje
natural pueden hacer que este efecto sea aún mayor.
ILUSTRACIÓN 31: APLICACIÓN DE MACHINE LEARNING EN TRABAJOS HABITUALES. FUENTE: THE AGE OF
ANALYTICS. COMPETING IN A DATA-DRIVEN WORLD. MCKINSEY GLOBAL INSTITUTE
El uso de Machine Learning junto con otras técnicas tendrá enormes rangos de uso, tal y como se refleja en
la siguiente ilustración, tomada del MGI [29].
ILUSTRACIÓN 32: IMPACTO DE MACHINE LEARNING COMBINADO CON OTRAS TECNOLOGÍAS. FUENTE:
MCKINSEY GLOBAL INSTITUTE ANALYSIS
Deep Learning, está todavía en la frontera del conocimiento, utilizando las redes neuronales para
incrementar las capacidades de las máquinas. Los últimos avances científicos se centran en el uso de deep
learning para reconocimiento de objetos y caras, así como en la generación de lenguaje.
3.3 CONCLUSIONES
3.3.1 Políticas De Apoyo
A nivel europeo, nacional y regional, se están llevando a cabo numerosas iniciativas con el fin de acelerar el
proceso de adaptación de Europa al nuevo paradigma tecnológico. De esta forma, se han iniciado
importantes proyectos como The Digital Single Market y Digital Agenda for Europe 2020, con los que la
Unión Europea pretende crear las condiciones necesarias para el futuro crecimiento económico. Como
parte de este esfuerzo, la Comisión Europea también ha lanzado un partenariado público-privado (PPP Big
Data), con el fin incrementar la posición europea en la economía digital.
A nivel nacional España ha elaborado la “Agenda Digital” y a nivel regional “A Axenda Galega”.
Digital Agenda for Europe 2020, aprobada en 2010, sienta las bases para impulsar la economía europea a
través de los beneficios económicos y sociales del mercado único digital.
La Agenda Digital para España, aprobada en 2013, establece la estrategia del Gobierno para desarrollar la
economía y la sociedad digital en nuestro país. Esta estrategia se configura como el paraguas de todas las
acciones del Gobierno en materia de Telecomunicaciones y de Sociedad de la Información.
La Agenda Digital de Galicia 2020, se desarrolla para crear una estrategia coordinada y alineada con las
estrategias de ámbito nacional y europeo, introduciendo elementos que permitan maximizar el impacto de
las políticas tecnológicas.
Según los informes de IDC “Q4 2015: Worldwide Server and Storage in Big Data Forecast, 2015–2019” y “Big
Data. Retos y Oportunidades”, el avance del impacto de estas tecnologías en la economía se prevé de la
siguiente forma:
● la cuota de mercado en EMEA, en servidores para Big Data crecerá de un 5,9% en 2015 a un 15,8%
en 2019,
● el valor económico del mercado de servidores pasará de 1000 millones de dólares en 2015 a 2700
millones en 2019,
● la cuota en capacidades almacenamiento alcanzará el 19,5% (19,8 exabytes) en 2019, con un valor
de 2700 millones de dólares,
● en 2019, se prevé que el gasto en soluciones de Big Data y Analítica sobre Cloud crecerá 4,5 veces
más rápido que las que están alojadas en entornos bajo premisa. Y se observa un claro crecimiento
de la utilización de la Cloud Pública para soluciones de Analítica de Datos en EMEA.
● se ha previsto un crecimiento del volumen de los datos no estructurados de un 80% en 2016
respecto al año anterior en EMEA.
Resumiendo datos recogidos del informe IDC FutureScape: Worldwide Big Data and Analytics 2016
Predictions:
● El gasto en la tecnología Big Data Analytic basada en la nube crecerá 4,5 veces más rápido que el
gasto en soluciones locales. La tecnología de código abierto representará el núcleo de esta nueva
arquitectura.
● El 50% del software de análisis de negocios incorporará análisis predictivos basados en
computación cognitiva.
● El gasto en herramientas de preparación de datos y visualización de autoservicios crecerá 2,5 veces
más rápido que las herramientas tradicionales.
● Los esfuerzos de monetización de datos darán lugar a que las empresas sigan las iniciativas de
transformación digital aumentando el número de sus propios datos en 100 veces o más.
● Las organizaciones capaces de analizar todos los datos relevantes y obtener información de valor,
lograrán 430$ mil millones más en beneficios de productividad sobre sus competidores menos
orientados analíticamente.
Las nuevas tecnologías relacionadas con el Big Data y el análisis de datos han originado la aparición de
oportunidades de negocio y nuevos perfiles de trabajadores.
IDC, en su informe “European Data Market Smart 2013/0063. D8 — Second Interim Report. Junio 2016.,
analiza el impacto de Big Data basándose en la tendencia de indicadores relacionados con Data
Trabajadores, Data Compañías y Data Usuarios. Para el análisis de los indicadores, IDC realiza comparativas
Data trabajadores
Se entiende por data trabajadores la mano de obra dedicada a recolectar, almacenar, gestionar y analizar
datos como la principal actividad de su trabajo.
La tendencia actual muestra una tendencia creciente en el número de “Data Trabajadores”. Con una
previsión a 2020, según el mencionado estudio de ECI, de 6.6 millones en 2020 en el escenario Challenge,
7.3 millones en el escenario Baseline, y 9.3 millones en el escenario High Growth. La tendencia general,
muestra un sólido y constante crecimiento de los Data trabajadores, en cualquiera de los tres escenarios.
ILUSTRACIÓN 16: CRECIMIENTO EN LOS PRÓXIMOS AÑOS DEL NÚMERO DE DATA TRABAJADORES.
FUENTE: EUROPEAN DATA MARKET MONITORING TOOL. IDC 2016
Además, no solo serán necesarios los Científicos de los Datos, si no gestores que sepan interpretar esos
datos en función del know-how empresarial, los llamados “data-literate managers”.
Data Compañías
Se entiende por data Compañías las organizaciones cuya principal actividad es la producción y entrega de
productos, servicios y tecnologías digitales.
El crecimiento potencial en EU de las Data Compañías y compañías relacionadas, es muy alto, pudiendo
llegar a alcanzar 360,000 unidades (escenario – high) en 2020, en el territorio europeo. Este alto crecimiento
es debido al impulso de las inversiones en Investigación y Desarrollo, y la continua innovación en tecnologías
de datos.
ILUSTRACIÓN 17: CRECIMIENTO EN LOS PRÓXIMOS AÑOS DEL NÚMERO DE DATA COMPAÑÍAS. FUENTE:
EUROPEAN DATA MARKET MONITORING TOOL. IDC 2016
Data Usuarios
Se entiende por Data Usuarios a las organizaciones que generan, explotan, capturan y analizan datos para
mejorar su negocio. Se prevé un sólido incremento de las compañías usuarias en los próximos años, tal y
como puede verse en la siguiente figura.
ILUSTRACIÓN 18: CRECIMIENTO EN LOS PRÓXIMOS AÑOS DEL NÚMERO DE DATA USUARIOS. FUENTE:
EUROPEAN DATA MARKET MONITORING TOOL. IDC 2016
La convergencia de distintas tecnologías y herramientas está acelerando el proceso de explosión de Big Data
Analytics y Cloud Computing en las empresas. Big Data Analytics ha modificado la dinámica de trabajo en
muchas organizaciones. Sin embargo, a día de hoy existen multitud de oportunidades sin explorar y sin
explotar.
Así mismo, y siguiendo el mismo estudio de MGI, no todo el impacto potencial establecido por MGI en 2011
ha sido conseguido, siendo la industria uno de los sectores que va más rezagado en comparación con otros
como: Sanidad, Sector Financiero o Venta al por menor.
En este estudio se establece que, por ejemplo:
● En Investigación y Desarrollo, el uso de Big Data en ingeniería concurrente o gestión del ciclo de
vida del producto, ha conseguido reducciones en el coste de un 10-30%, frente al 20-50% esperado
por MGI en 2011.
● En la Producción, el uso de “factorías Digitales”, sensores y analítica aplicada ha supuesto un
descenso en los costes de operación de 10-15% frente al 10-25% previsto por MGI en 2011.
En la próxima ilustración puede verse, de forma sectorial, el potencial que esta nueva era plantea para todos
los sectores:
Así mismo, serán las soluciones End to End, desde la captura de la información hasta la toma de decisión,
las que tomen fuerza, teniendo en cuenta que uno de sus elementos claves deberá ser la necesidad de
reducir la latencia.
En relación a los casos de uso en Europa, el informe de IDC “Big Data. Retos y Oportunidades”, establece
que, “el caso de uso relativo a la mejora de la participación del cliente, es el más implantado, mientras que
la mejora de las operaciones de procesos, se encuentra en un cuarto lugar”.
ILUSTRACIÓN 21: PERSPECTIVA ANÁLISIS DE MERCADO EN BIG DATA ANALYTICS. FUENTE: IDC MARKET
ANALYSIS PERSPECTIVE: EUROPEAN BIG DATA AND ANALYTICS SOFTWARE, 2016
MGI prevé, además, una nueva ola de impacto en la economía derivada de la maduración de las tecnologías
relacionadas con Machine Learning y Deep Learning. Tras el estudio realizado con 12 grupos de industria,
identificándose 300 casos de uso sobre los que valorar la utilización de Machine Learning, MGI concluyó
que el potencial de Machine Learning podría resumirse en la siguiente figura:
En los apartados anteriores se han identificado casos de uso para las tecnologías por separado: Big Data,
Data Analytics y Cloud Computing. A continuación se resaltan las tendencias futuras a nivel sectorial
implicando las tres tecnologías mencionadas:
Educación
Los datos como habilitadores de innovación tendrán el potencial de transformar la educación, no solo a
través de herramientas de formación on–line, sino integrando la analítica de datos con el software
educacional, de forma que se consiga adaptar los materiales de estudio a las debilidades o fortalezas de los
alumnos. Además, estas tecnologías nos ayudarán a conocer las competencias y habilidades del estudiante,
diseñando así materiales escolares individualizados. Las escuelas podrán obtener datos del
comportamiento de los estudiantes, identificar tendencias e intervenir en problemas como el absentismo.
Energía
Los contadores inteligentes podrán recoger y transmitir datos, formando parte clave de la red, realizando
previsiones de demanda, optimizando la producción de energía para un vecindario o ciudad. Así mismo se
podrán establecer políticas dinámicas de precio para reducir las puntas de consumo energético. Incluso los
electrodomésticos inteligentes podrán hacer un uso inteligente de los horarios más favorables para reducir
los costes de consumo. Globalmente, se espera que las reducciones de las emisiones de CO2 se reduzcan
en más de 20 billones de toneladas en 2020.
En Finlandia, Italia y Suecia se han instalado cerca de 45 millones de contadores inteligentes para
electricidad, y se espera que Europa tenga instalados 200 millones en 2020, cubriendo el 70% de los
consumidores europeos; y 45 millones de contadores inteligentes de gas, cubriendo el 40% de los
consumidores.
Gestión Ambiental
Uno de los avances más interesantes a este respecto es el desarrollo de sensores medioambientales
instalados en satélites, con la capacidad de transferir enormes cantidades de datos a la tierra. Los científicos
podrán monitorizar y realizar previsiones de calidad del aire, cambio climático, emisiones a la atmósfera,
prevenir catástrofes, tormentas, terremotos, incendios, creando las alertas necesarias para mitigar las
pérdidas de un posible desastre natural. El programa Copérnico, financiado por la UE, provee a los
observatorios terrestres de datos de satélites y sensores que monitorizan agua, tierra y aire.
Las políticas marítimo-pesqueras pueden ser, ahora, evaluadas en función de los datos obtenidos vía satélite
para medición de temperatura de océanos o color, etc.
Salud
Casi cualquier aspecto relacionado con la salud, desde el descubrimiento de nuevos fármacos hasta la
prevención de enfermedades, se van a ver beneficiados por las tecnologías de análisis de datos. Una vez
que las historias clínicas estén totalmente digitalizadas, se abre un enorme abanico de oportunidades
Open Data
Se espera que el mercado de bienes y servicios basados en Open Data, en la UE, alcance los 75,7 billones de
euros. Por ejemplo, se podrán usar datos de población demográfica, infraestructura, tráfico, etc. con el fin
de determinar la ubicación de negocio; y las aseguradoras podrán usar datos de salud pública, condiciones
ambientales, estadísticas criminológicas, para el establecimiento dinámico de sus precios.
Smart Cities
El Internet de las Cosas está reconfigurando las ciudades, de forma que los datos capturados faciliten la
realización de mejores servicios públicos y se mejore nuestra calidad de vida. La inclusión de sensores y
conectividad a las redes de una ciudad, desde la red semafórica hasta la red de saneamiento, permitirá
tomar decisiones con el fin de mejorar los servicios públicos y la vida de los ciudadanos.
Smart Manufacturing
Incrementar el ahorro, fortalecer la eficiencia operacional, mejorar la gestión de la calidad de los productos
y servicios, disminuir los tiempos de lanzamiento al mercado de nuevos productos, prevenir fallos de
equipos, y mejorar la gestión de las materias primas, son algunas de las ventajas que se pueden derivar de
la obtención de datos en la industria. Los datos obtenidos tanto en fábrica como fuera de fábrica,
redundarán en prestación de servicios y productos más económicos para la industria y más ajustados a las
necesidades de los usuarios.
Sector Financiero
El sector financiero es uno de los sectores donde la aplicación de Big Data es más inmediata. Según el último
informe de IDC “La Información: Valor diferencial en el Sector Financiero “, la evolución del gasto de las
instituciones financieras españolas en Hardware, Software, Comunicaciones y Servicios alrededor de Big
Data, para el periodo 2014-2018 prevé una Tasa de Crecimiento Anual Compuesta (en inglés, CAGR) de más
de un 18%.
Más del 70% de las entidades financieras españolas ya están utilizando de forma intensiva Big Data, o lo
esperan hacer en un plazo inferior a 12 meses. Los usos más comunes son: prevención del riesgo y fraude
ligado a las tarjetas de crédito, o reducción de riesgos crediticios utilizando Big Data, para analizar las ventas
de los Terminales Punto de Venta (TPV), de forma que la entidad financiera conozca si mejora o empeora
la facturación de un determinado negocio, sector o zona geográfica, etc.
4. BIBLIOGRAFÍA
REFERENCIAS
[1] H. Kagermann and W. Wahlster, “Securing the future of German manufacturing industry:
Recommendations for implementing the strategic initiative INDUSTRIE 4.0, “Working group,
Acatech –National Academy of Science and Engineering, Germany 2013. Final report of the
Industrie 4.0.
[2] Big Data for Modern Industry: Challenges and trends. Shen Yin Okyay Kaynak. 2015 IEEE.
[3] Gantz, John, and David Reinsel. "Extracting value from chaos." IDC iview 1142 (2011): 9-10.
[4] An architecture for a business and information system (Devlin & Murphy, IBM Systems Journal
1988).
[5] Big Data y la historia del almacenamiento de la información. Winshuttle.
http://www.winshuttle.es/big-data-historia-cronologica/.
[6] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, A.H. Byers, Big Data: The Next
Frontier for Innovation, Competition, and Productivity, McKinsey Global Institute, 2011.
[7] Cukier K Data, data everywhere: a special report on managing information. Economist
Newspaper, 2010
[8]. Big data and analytics—an IDC four pillar research area, IDC, Tech. Rep. 2013. [Online].
Available: http://www.idc.com/prodserv/FourPillars/bigData/index.jsp.
[9] K. Davis, D. Patterson, Ethics of Big Data: Balancing Risk and Innovation, O’Reilly Media, 2012.
[10] I. O’Reilly Media, Big Data Now: 2014 Edition, O’Reilly Media, 2014.
[11] Forrester Research, TechRadar: Big Data, Q1 March 10, 2016.
[12] IDC Research “The Digital Universe of Opportunities: Rich Data and the Increasing Value of
the Internet of Things”, March 2014.
[13] A Very Short History of Data Science. Gil Press. Revista Forbes May 28 2013.
[14] Big Data Analytics. Towi Best Practices report. SAS 2011.
[15]Silipo R. Adae I. Hart A. Berthold M. Seven Techniques for Dimensionality Reduction. Open for
Innovation KNIME, 2014.
[16]Gauss, C. F. (1823). Theoria combinationis observationum erroribus minimis obnoxiae.-
Gottingae, Henricus Dieterich 1823.
[17] Donald, E. K. (1999). The art of computer programming.
[18] W.S. McCulloch and W. Pitts. A logical calculus of ideas immanent in nervous activity. Bulletin
of Mathematical Biophysics, 5:115–133, 1943.
[19] Konishi, S. Kitagawa G. Information Criteria and Statistical Modeling, Spring 2008.
[20] D. R. Cox Principles of Statistical Inference. Cambridge University Press 2006.
[21] Wattenberg, Martin. "Baby names, visualization, and social data analysis." Information
Visualization, 2005. INFOVIS 2005. IEEE Symposium on. IEEE, 2005.
[22] Gartner. 2015 “Big Data Industry Insight”.
[23] Business opportunities: Big Data Jun 2013. IDC.
[24] RackSpace, “Understanding the Cloud Computing Stack: SaaS, PaaS, IaaS”. [Online]. Available:
http://www.rackspace.com/knowledge_center/sites/default/files/whitepaper_pdf/Understanding
-the-Cloud-Computing-Stack.pdf
ESTADO DEL ARTE DE BIG DATA | Noviembre 2017 Página 100 de 103
Oportunidades Industria 4.0 en Galicia
[61] La tecnología de Siemens permite a Gestamp reducir un 15% el consumo energético de sus
plantas. http://www.gestamp.com/prensa/comunicados-de-prensa?NewID=2528
[62] MC-SUITE - ICT Powered Machining Software Suite
http://cordis.europa.eu/project/rcn/198764_en.html].
[63] Volvo single view of vehicle: Building a big data service from scratch in the automotive
industry. Paweł Woźniak, Robert Valton, Morten Fjeld. Proceeding:CHI EA '15 Proceedings of the
33rd Annual ACM Conference Extended Abstracts on Human Factors in Computing Systems. Pages
671-678. Seoul, Republic of Korea — April 18 - 23, 2015
IDC: http://idcspain.com/
Mckinsey Global Institute: http://www.mckinsey.com/mgi/overview
Agenda Digital para España: www.agendadigital.gob.es/
Data. Unión Europea: https://ec.europa.eu/digital-single-market/en/big-data
Center for data innovation: http://www.datainnovation.org/
The Boston Consulting Group: http://www.thebostonconsultinggroup.es/
Gartner Research: http://www.gartner.com/technology/research.jsp
Computer Sciences Corporation: http://www.csc.com/
EFFRA European Factories of the Future Research Association: http://www.effra.eu/
National Academy of Science and Engineering. ACATECH http://www.acatech.de/
Germany Trade & Invest: www.gtai.com
PPP Big Data Value. http://www.bdva.eu/
KDD: http://www.kdd.org/explorations
Tic Beat: http://www.datainnovation.org/
Center for data innovation: http://www.datainnovation.org/
AT SCALE: http://info.atscale.com/atscale-business-intelligence-on-hadoop-benchmark
Skytree: http://www.skytree.net/company/pr/skytree-releases-2013-big-data-analytics-report/
IBM Institute for Business Value: https://www-935.ibm.com/services/us/gbs/thoughtleadership/
Leading edge forun: https://www.leadingedgeforum.com/
Roland Berger GmbH: https://www.rolandberger.com
World Economic Forum: https://www.weforum.org/
PricewaterhouseCoopers International Limited www.pwc.com/industry40
Excelacom: http://www.excelacom.com/
SAS Institute Inc. ("SAS"): https://www.sas.com/es_es/home.html
Kaggle Inc.: https://www.kaggle.com/
Hadoop: http://hadoop.apache.org/
Apache Spark: http://spark.apache.org/
Apache Avro: https://avro.apache.org/
Apache Flume: https://flume.apache.org/
Apache Kafka: https://kafka.apache.org/
Apache Oozie: http://oozie.apache.org/
Apache Pig: https://pig.apache.org/
ESTADO DEL ARTE DE BIG DATA | Noviembre 2017 Página 101 de 103
Oportunidades Industria 4.0 en Galicia
ESTADO DEL ARTE DE BIG DATA | Noviembre 2017 Página 102 de 103
Oportunidades Industria 4.0 en Galicia
InfiniteGraph: http://www.objectivity.com/products/infinitegraph/
Neo4j: https://neo4j.com/
Towi Research: https://tdwi.org/Home.aspx
The Internet of Food & Farm 2020 https://iof2020.eu/iof/iof2020
Hispatec: http://www.hispatec.es/proyectos/hortisys-innterconecta-feder/
Mobileye: http://www.mobileye.com/en-us/technology/features/
Nvidia: http://. www.nvidia.com/object/drive-px.html
IIC. http://www.iic.uam.es/soluciones/energia/ea2/
HyRef de IBM. http://www.renewableenergyworld.com/articles/2013/08/ibms-hyref-seeks-to-
solve-winds-intermittency-problem.html
Vi-POC (Virtual Power Operating Center: http://www.smau.it/milano15/partner_products/33555/
ESTADO DEL ARTE DE BIG DATA | Noviembre 2017 Página 103 de 103