Introducción Al Business Intelligence
Introducción Al Business Intelligence
Introducción Al Business Intelligence
Esquema
Ideas clave
Para estudiar este tema es suficiente con que leas las siguientes ideas clave.
Si empezamos a indagar un poco sobre ellas, las tres tienen significado diferente:
Los datos son elementos sin procesar, sacados de la realidad que a su vez genera nuevos
elementos y que por sí solos no generan nuevo conocimiento. Ejemplos de datos: el
precio de un producto, la edad, el nombre de una persona, etc.
La información es el principio del conocimiento. Son datos con un significado o
función especial o el resultado de combinar diferentes datos, es decir, son datos con
contexto.
El conocimiento es la información analizada que hace nuevos aportes a un área
específica.
Los datos son la principal fuente de información para el análisis de grandes volúmenes,
por lo que es fundamental que las empresas realicen una selección lo más adecuada y
cuidadosamente posible. La categorización de los datos es importante para cualquier
proyecto, en especial cuando se trabaja con grandes volúmenes (big data). La principal
categorización de los datos se basa en su estructura en la que nos encontramos
principalmente dos posibilidades:
» Estructurados: estos datos son aquellos que se tienen una estructura definida y que
no cambia independientemente de cuál sea su origen. Es decir, son aquellos datos que
poseen un modelo (o estructura) definido. Entre estos tipos de datos podemos
encontrar registros de bases de datos, que son el ejemplo más típico, datos de
sensores o los que se obtienen a partir del API de Twitter.
» No estructurados: estos datos son aquellos datos que no disponen de una estructura
bien definida. Es decir, son aquellos que no poseen un modelo (o estructura) definido
o que no están ordenados de alguna manera. Entre estos tipos de datos podemos
encontrar fotografías, vídeos o documentos de texto (Word, PDF, etc.).
Categorización de datos
1 . ESTRUCTURADOS 2. NO ESTRUCTURADOS
En cuanto a cómo se han generado los datos, nos podemos encontrar con los siguientes
tipos de datos:
» Creados: son aquellos generados por la propia empresa a través de los sistemas de
información.
» Compilados: son aquellos que se utilizan de otras grandes bases de datos, como
censos electorales, información obtenida de las administraciones públicas en salud,
vivienda, impuestos, etc.
» Experimentales: son los generados por simulaciones o pruebas para determinar la
validez de los sistemas.
» Web (Internet) y medios sociales: son aquellos que tienen origen en la red. Según
los expertos, es la fuente más grande del big data y una de las más utilizadas en la
actualidad. Se genera información en los clics de los vínculos y elementos, así como
en las búsquedas que se hacen, las publicaciones en las redes sociales (Twitter,
Facebook, LinkedIn…) y el contenido web como páginas, enlaces o imágenes.
Gracias a estos dispositivos, compañías como Google y Apple pueden saber dónde se
encuentra una persona en cada momento y, de esta manera, poder conocer los gustos
de comida, vestuario y diversión, entre otros.
Diferentes programas y usuarios deben poder utilizar los datos guardados. De allí el
término base «sistema de información».
Tipos de datos
» Numéricos: aquellos valores enteros o reales. Por ejemplo: la edad, el salario y las
horas trabajadas, entre otros.
» Fecha/hora: se identifican como campos de fecha/hora aquellos valores cuyo
contenido encaja con formatos de fecha/horas más usuales. Sus componentes pueden
ser: año, mes, día, hora, minutos o segundos.
» Texto: sus valores tienen texto libre, es decir, que no está limitado a un subconjunto
de etiquetas. Por ejemplo, el nombre de los empleados y el nombre del departamento,
entre otros.
» Alfanuméricos: son una combinación de los datos numéricos y datos de tipo texto,
como por ejemplo el número de DNI, la dirección, etc.
» Booleano: es un tipo con solo dos valores: verdadero y falso (Gagliardi et al., 1999).
La mayoría de las veces los datos no pueden ser utilizados de la manera en se encuentran
almacenados, pues pueden encontrarse en las ya mencionadas bases de datos o en
archivos planos, entre otros. Debido a la poca rigidez de los sistemas de calidad y control
al introducirlos a los diferentes sistemas, existen diferentes tipos de errores: datos
incompletos, datos con ruido, datos inconsistentes o duplicados.
Es necesario tener un proceso de calidad de los datos para minimizar los errores y
poder obtener un mayor rendimiento en el análisis; de lo contrario los algoritmos
generalmente ignoran el dato y se pierde información valiosa.
El autor Dorian Pyle define la preparación de los datos como «la manipulación y
transformación de los mismos sin refinar para que la información contenida en el
conjunto de datos pueda ser descubierta o estar accesible de forma más fácil» (Pyle,
1999).
» Limpieza: esta tarea puede involucrar: completar los datos faltantes, resolver los
problemas de ruido, y elimina valores extremos, corregir los datos inconsistentes
(Han, Kamber y Pei, 2006).
» Integración: los datos pueden provenir de diferentes fuentes y, por esta razón, es
necesario agruparlos en diferentes tablas para crear información homogénea. Los
datos que provienen de diferentes fuentes pueden tener diferentes formatos y escalas.
La recopilación tiene que ser coherente. Frecuentemente esta integración de datos se
realiza en una base de datos. (Herrera, Riquelme y Ruiz, 2004).
del personal (Sharma et al., 2009) y a nivel externo, producir ventajas sobre sus
competidores (Maureen, 2009).
En algunas ocasiones no se pueden lograr todos los beneficios que tiene el business
intelligence debido al proceso que se lleva a cabo al implementar un proyecto de estas
características, se pueden cometer errores en la definición del planteamiento de las
necesidades de conocimiento de la empresa y, al no determinar bien los problemas de
información que necesitan solución, generalmente causan el fracaso del proyecto.
Todas aquellas personas de la empresa que tienen que tomar decisiones. Dependiendo
del tipo de negocio, se deben hacer las preguntas necesarias para responder y establecer
el modelo de business intelligence que mejor se adapte.
Del mismo modo, los responsables pueden necesitar recoger más o menos información
dependiendo del tipo de problema a resolver. A partir de los datos que proporciona el
sistema de business intelligence se puede descubrir nuevos aportes (conocimiento). Los
beneficios del este pueden ser de distintos tipos (figura 5) (Puklavec, Oliveira y 3RSRYLþ
2018).
» Beneficios tangibles: son aquellos que la empresa puede cuantificar y que aportan
beneficios económicos a la empresa. Ejemplo: reducción de costes de producción,
generación de nuevos ingresos, reducción en tiempo de producción, evitar pérdidas
de clientes o materia prima, más aumentar la rentabilidad.
» Beneficios intangibles: son aquellos que no se pueden cuantificar pero que aportan
valor agregado a los servicios o productos y mejoran la posición competitiva.
Ejemplo: mejorar la atención al cliente, aumentar la satisfacción del cliente interno y
externo, tener información más actualizada.
Fuente: https://ingenieriadelsoftwareuah2015.files.wordpress.com/2015/04/bi-5.jpg
Una solución de este sistema parte de varias fuentes de datos que suelen ser
transformadas estructuralmente para optimizar el análisis, proceso al que se le
denomina ETL. Una vez la información está unificada se almacena en un data
warehouse que puede servir como base a distintos data marts. Los datos almacenados
en el data warehouse o data mart se explotan utilizando herramientas de visualización
o reporting. Esto lo podemos observar en la figura 6.
El término big data se usa para caracterizar conjuntos de datos grandes, diversos y que
cambian rápidamente, lo que es cada vez más frecuente en todas las organizaciones. Big
data requiere de sistemas de administración de bases de datos con capacidades más allá
de las que se ven en los sistemas estándar basados en SQL.
Sin embargo, aunque el volumen es, sin duda, un aspecto del big data (probablemente
el menos problemático), a medida que la tecnología se desarrolla, lo que fue grande en
el pasado será normal mañana y probablemente se piense que es bastante pequeño en
el futuro. Por consiguiente, para comprender qué hace que big data sea diferente,
también se debe considerar las dimensiones de la velocidad, la veracidad y la
variedad.
» Variedad: aunque tal vez no sea tan obvio como el volumen o la velocidad, en muchos
sentidos la variedad plantea el mayor problema para el análisis de big data. La
variedad se refiere a la cantidad de diferentes fuentes de las que pueden proceder los
datos y los formatos, estructuras y semántica que están asociadas a ellas (Estructura
se refiere tanto al formato en el que se almacenan los datos, como el número y la
longitud de los campos, y, más crucial, la semántica que debe asociarse con esos
campos. Para que una computadora pueda procesar datos de manera que sean válidos
y significativos para los seres humanos, los datos primero deben codificarse, es decir,
un valor semántico - efectivamente un significado - tiene que asignarse a cada
elemento de datos (Kimble, 2013).
Si bien estas cuatro variables (las 4 V’s) son las más prominentes, revistas especializadas
hablan de 5, 8 y hasta 10 V’s. En un artículo de febrero de 2017, el portal Transforming
Data with Intelligence proponía la siguiente lista de V’s: Volumen, Velocidad, Variedad,
Variabilidad, Veracidad, Validez, Vulnerabilidad, Volatilidad, Visualización y Valor
(https://tdwi.org/articles/2017/02/08/10-vs-of-big-data.aspx).
Las diferencias entre business intelligence y big data tienen consecuencias sobre
cómo están organizadas. Tradicionalmente, los equipos de business intelligence están
ubicados en organizaciones de consultoría internas, centros de excelencia o
departamentos de TI, donde proporcionan a los gerentes y ejecutivos reportes con
información bien definida, estable y útil. (Burton et al., 2006 y Davenport et al., 2012).
Sin embargo, dado que la mayoría de las iniciativas de big data carecen de preguntas
predefinidas y son de naturaleza mucho más experimental (Casey et al., 2013), los
especialistas de big data deben organizarse para que estén cerca de los productos y
procesos en las organizaciones, es decir, que compartan negocios y unidades (Davenport
et al., 2012). A continuación, se muestran algunas semejanzas y diferencias en las áreas
de competencia de business intelligence y big data.
Figura 7. Semejanzas y diferencias en las áreas de competencia de business intelligence y big data. Fuente:
Debortoli, Müller y Vom Brocke, 2014.
Tabla 1. Diferencias entre business intelligence, business analytics y big data. Fuente: Díaz, 2012.
Por otro lado, el business analytics es el análisis de las respuestas proporcionadas por el
business intelligence. Mientras que el business intelligence responde a la pregunta
«¿qué sucedió?», el business analytics responde a «¿por qué sucedió, volverá a pasar?»
El business intelligence incluye informes, monitoreo automatizado y alertas, tableros
y/o cuadros de mando integral; el business analytics, por el contrario, incluye análisis
(UNAM Acatlán. Actuaría)
Temas Selectos de Computación. Introducción al Business Intelligence
De hecho, las organizaciones impulsadas por datos que utilizan business analytics
obtienen una ventaja competitiva porque pueden usar los conocimientos para
(Thorlund, 2017):
» Los datos.
» Las personas.
» Los procesos.
» La tecnología.
Ayudan a recordar las cuatro áreas clave que se deben tener en cuenta al considerar la
implementación del business analytics.
Figura 9. Pilares del business analytics según Gartner. Fuente: Marrow, 2018.
Figura 10. Proceso de business analytics. Fuente: Schniederjans, M. J., Schniederjans, D. G., y Starkey,
2014.
La lógica del proceso en la figura 10 se basa inicialmente en una pregunta: ¿qué valiosa
información está encerrada en las fuentes de datos que la organización tiene
disponibles? En cada uno de los tres pasos que componen el proceso se deben responder
las preguntas adicionales, como se muestra en la figura 10. Responder a todas requiere
extraer la información de los datos a través de los tres pasos de análisis que comprenden
el proceso.
Además, también se pueden incorporar algunos de los datos en hojas de cálculo como
Excel y preparar tabulaciones cruzadas y tablas de contingencia para restringir los datos
a una estructura de datos más manejable. Se pueden calcular medidas simples de
tendencia central y dispersión para intentar capturar posibles oportunidades de mejora
(UNAM Acatlán. Actuaría)
Temas Selectos de Computación. Introducción al Business Intelligence
de los procesos. Otros métodos descriptivos de resumen analítico, que incluyen trazado
y gráficos, pueden ayudar a los responsables de la toma de decisiones a visualizar los
datos para comprender mejor las oportunidades de negocio.
Desde el paso 1, el análisis descriptivo analítico (véase figura 10), algunos patrones
o variables del comportamiento de la empresa se deben identificar para que representen
los objetivos y las oportunidades de negocio, sumado al posible comportamiento futuro
de las tendencias. Es probable que se requiera un esfuerzo adicional, la generación de
informes estadísticos detallados estrechamente enfocados en los datos y relacionados
con los objetivos del negocio para explicar lo que está ocurriendo (lo que sucedió en el
pasado).
Esto es como una búsqueda estadística de variables predictivas en los datos que pueden
conducir a encontrar patrones de comportamiento que una empresa podría aprovechar,
si los patrones de comportamiento ocurren en el futuro. Por ejemplo, una empresa
puede hallar en su información general de ventas que durante los tiempos de inactividad
económica, ciertos productos se venden a clientes de un nivel de ingresos específico y
con una determinada publicidad. Las variables de ventas, clientes y publicidad pueden
tener la forma de cualquiera de las escalas de datos descritas en la tabla 2
(Schniederjans, Schniederjans y Starkey, 2014).
En resumen, los tres componentes principales del proceso de BA, descriptivo, predictivo
y prescriptivo, pueden ayudar a una empresa a encontrar oportunidades en sus datos,
predecir tendencias que pronostican oportunidades futuras y ayudar a seleccionar una
línea de acción que optimice la distribución de recursos de la empresa para maximizar
el valor, el rendimiento y el desempeño.
Anderson, C. (junio, 2008). The end of theory: the data deluge makes the scientific
method obsolete. En Wired [en línea]. Recuperado de:
http://archive.wired.com/science/discoveries/magazine/16-07/pb_theory
Davenport, T. H., Barth, P. y Bean, R. (2012). How big data is different. MIT Sloan
Management Review, 54, 22–24.
Debortoli, S., Müller, O., y Vom-Brocke, J. (2014). Comparing business intelligence and
big data skills. Business and Information Systems Engineering, 6(5), 289-300.
Gagliardi, E. O., Grosso, A., Turull, J. M., Piffaretti, P., y Pereyra, S. R. (1999).
Computación de queries a bases de datos relacionales utilizando circuitos Booleanos.
En V Congreso Argentino de Ciencias de la Computación. Argentina.
Han, J., Kamber, M. y Pei, J. (2006). Data Mining, Concepts and Techniques (2º
edición). Massachusets: Morgan Kaufmann.
McAfee, A., y Brynjolfsson, E. (2012). Big data: the management revolution. Harvard
Business Review, 90(10), 61-67.
Popkin, J., y Hayward, B. (2004). Top 10 strategic technologies for 2005. En Gartner
Symposium/ITxpo.
Pyle, D. (1999). Data Preparation for Data Mining (The Morgan Kaufmann Series in
Data Management Systems). Massachusetts: Morgan Kaufmann.
Rosado, A. A., y Rico, D. W. (2010). Inteligencia de negocios: estado del arte. Scientia et
technica, 16(44), 321-326. Recuperado de:
http://revistas.utp.edu.co/index.php/revistaciencia/article/view/1803/1209
Sharma, S., Sharma, J. y Devi, A. (2009). Corporate social responsibility: the key role of
human resource management. Business Intelligence Journal, 2(1), 205-2013.
Recuperado de:
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.514.7758&rep=rep1&type=p
df
Weller, K. (2010). Knowledge Representation in the Social Semantic Web. New York:
De Gruyter.
+ Información
Webgrafía
BigML Support
Accede a la página web a través del aula virtual o desde la siguiente dirección:
https://support.bigml.com/hc/en-us/articles/207423645-Which-date-time-
formatsdoes-BigML-accept
Gartner
De aquí es sobre todo recomendable echarle una ojeada al glosario de Gartner. Gartner
es una consultora internacional especializada en tecnologías de información y
comunicación.