Examen Noriega

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 31

Temario Desarrollo de Inteligencia de Negocios

1 Introducción al modelado de datos


Datawarehouse
El DWH suele llenarse con procesos diarios, semanales o mensuales, por lo que es habitual
que la información que puedes consultar tenga algún retraso de al menos algunas horas, y
esto se debe a los procesos habituales de ETL que se utilizan para llenar los datos, y las
restricciones y comprobaciones que deben incorporar para asegurar la fiabilidad de los datos.
Dentro del Datawarehouse tienes diferentes grupos de tablas:

• Tablas de entrada: Contienen información directamente de la fuente de datos que


está tratando de analizar, a veces denominadas tablas ODS porque contienen
información extraída directamente de la base de datos ODS; que por lo general es un
clon, total o parcial, del sistema transaccional.
• Tablas temporales: Contienen información solo durante el proceso ETL, debido a
que se suelen utilizar para resolver algún proceso de cálculo que, por problemas de
rendimiento, complejidad u otras razones técnicas, no se puede resolver en un solo
paso. Estas son las tablas que consideraremos como en Área de Etapa. Se pueden
ubicar en una base de datos separada o dentro del almacén de datos (DWH).
• Tablas finales: Son el conjunto de tablas que serán publicadas en la herramienta BI
para su análisis. Este grupo de tablas estará directamente relacionado con los
modelos lógicos y físicos.

DataMart
La idea detrás del DataMart es aislar información de un área concreta dentro de la empresa.
Mientras que el DWH almacena toda la información, un DataMart contendrá información
departamental.
Según la estrategia, puede definir el DataMart como una parte del DWH o su DataMart se
puede ubicar en una base de datos separada y el DWH es la etapa anterior de su DataMart.
Puede aislar su DataMart del resto del entorno ubicándolo en un servidor diferente, en una
instancia de base de datos diferente, en una base de datos diferente, en un esquema de base
de datos diferente dentro de la misma base de datos o simplemente separándolo de una
manera lógica (por nombres de tablas, con prefijos o sufijos).
No hay una recomendación general para hacer esta separación, dependerá de la cantidad de
datos que administre dentro del DataMart en comparación con todo el entorno, su
presupuesto para implementar DataMart, el nivel de aislamiento que puede permitirse y la
parametrización que la implementación de su base de datos le permite realizar

Modelo lógico
Es muy posible que al ser parte del equipo de TI de una empresa que desea comenzar con
la definición de la estructura DWH requerida para respaldar el análisis de BI comience a
pensar en tablas, campos, tipos de datos, claves primarias, claves externas, vistas y otras
cosas técnicas, comenzando con la creación de una tabla de muestra que al final se convierte
en su tabla definitiva, pero luego puedes ver campos que faltan, no sabes cómo rellenarlos,
cómo se relacionan con el mismo campo en otras tablas, etc.
Se recomienda partir de una definición lógica del modelo requerido para implementar con
base en entidades y relaciones entre ellas en lugar de comenzar directamente con la
definición técnica.
Con un modelo lógico se puede ver qué tablas están relacionadas con otras, cuáles son los
campos que se pueden usar para unir esas tablas y se puede verificar fácilmente si los
requisitos del análisis comercial cumplen con el modelo que está proponiendo y su objetivo
principal.
Dentro de este modelo lógico, que se reflejará en el físico, encontramos tres tipos de tabla:
Hechos, Relaciones y Consulta.

Tablas de modelos lógico y físico


• Tablas de hechos: por lo general, son las tablas más grandes del modelo, ya que
contendrán datos comerciales para analizar, resumir y agregar en función de los
campos deseados. No se requiere tener el máximo nivel de detalle, de hecho, se
recomienda tener algunas tablas precalculadas para tener un mejor tiempo de
respuesta desde la interfaz de informes.
• Tablas de relación: Estas tablas se utilizan para relacionar múltiples conceptos entre
ellas. Pueden basarse en relaciones directas utilizadas para definir jerarquías lógicas,
como un horario que contiene la relación entre día, semana, mes, trimestre y año, o
pueden utilizarse para relacionar conceptos independientes como producto y cliente
en base a una tabla de hechos fuente.
• Tablas de consulta: También denominadas tablas maestras, contienen
principalmente el identificador del concepto y la descripción de este concepto, y
también pueden contener los identificadores de jerarquía superior en caso de que se
relacionen diferentes atributos. En el ejemplo de tiempo anterior, puede tener la tabla
de búsqueda para el día que contiene el identificador del día, el formato de la fecha y
el identificador del mes relacionados, y luego puede encontrar la tabla del mes que
contiene el identificador del mes, la descripción del mes y el identificador del año
relacionado. A veces, se puede usar una tabla de búsqueda para definir una relación.

Planteamiento
Has recibido la solicitud para implementar un almacén de datos dentro del servidor de base
de datos. Eres la persona elegida para liderar y tal vez desarrollar, pero esto siempre
dependerá del tamaño y los recursos de su empresa, una solución que debe permitirle a su
empresa el análisis de sus datos. Entonces, luego de hacer un análisis previo en base a tus
requerimientos de usuario, teniendo la base de datos disponible para avanzar y la información
suficiente para alimentar tu sistema debes comenzar con el desarrollo lógico y físico de la
solución de base de datos a la que se accederá desde la herramienta de BI.
Sabemos que tenemos un ERP disponible para usar como fuente de información; la base de
datos ya está elegida e instalada para asignar datos de la empresa.
El modelo a proponer es un análisis básico en diseño de copo de nieve que le permitirá
completar una tabla de hechos base, algunas tablas de dimensiones y búsquedas derivadas
para poder profundizar en la información desde el análisis de nivel superior hasta el más alto
nivel de detalle disponible.

Convención de nombres y nomenclatura


Antes de comenzar con el diseño de la base de datos, se recomienda definir una convención
de nomenclatura básica para facilitar la administración de la base de datos.
Cuando comenzamos con el desarrollo de un modelo, podemos pensar que la forma más
intuitiva de nombrar tablas es simplemente establecer un nombre para la información que
contiene, pero cuando el modelo comienza a crecer, podemos encontrar algunos problemas.
Imagina que tenemos una empresa que vende herramientas a mayoristas y también tenemos
un canal minorista para vender directamente a las personas.
Analizando nuestro entorno de ventas proveniente de la solución ERP, que usamos para
administrar las ventas a mayoristas, podemos tener una tabla que contiene nuestros
diferentes clientes dentro de este módulo de ventas ERP y podemos pensar en llamarlo
CLIENTES. Desarrollamos todo el análisis del módulo, incluidas múltiples dimensiones,
tablas de hechos, procesos relacionados con ETL, la herramienta de BI sobre el acceso a la
base de datos y cuando tenemos implementado todo el módulo de ventas, queremos analizar
los datos provenientes de nuestro CRM donde tenemos información para clientes minoristas.
En este momento tendremos un concepto diferente de clientes.
Lo que consideramos clientes en ventas son mayoristas para CRM y los clientes en CRM no
existían en ventas. La naturaleza de los clientes no es la misma, ni la fuente ni los campos
que tienes disponibles por lo que no tiene sentido mezclar todos los clientes en una sola tabla.
Podemos nombrar la tabla CRM_CLIENTES o MINORISTAS_CLIENTES, o cualquier otra
invención, pero luego comenzarán a complicarse los nombres.
Por otro lado, puedes pensar que es mejor tener tablas diferentes para los clientes y aplicar
una convención de nombres, pero, ¡ojo! Debe modificar los procesos de ETL, las referencias
de la base de datos, la interfaz de la herramienta de BI y cualquier otra dependencia de la
tabla CLIENTES.
Entonces, hay que invertirle algo de tiempo antes de comenzar el desarrollo en definir una
convención de nomenclatura que tendrá beneficios en el futuro.
En esta propuesta de convención de nomenclatura se recomienda utilizar un nombre con
diferentes partes separadas por “_”, siguiendo esta nomenclatura los nombres de los objetos
de la base de datos serían así:
TO_ST_AMB_NOMBREDESCRIPTIVO_SUFIJO
TO – Tipo de Objeto. Considerar máximo 2 letras para indicar su tipo:
T: Tabla
V: Vista
PR: Procedimiento
PK: Paquete
VM: Vista Materializada
F: Función
TR: Triggers (Desencadenadores)

TO_ST_AMB_NOMBREDESCRIPTIVO_SUFIJO
ST – Subtipo. Dimensionado en una sola letra, es una parte opcional especialmente utilizada
en tablas y vistas, que indica cual es el tipo de tabla o vista. En este ejercicio consideramos
tres tipos principales, relacionados con los tipos de tabla:
H: Tabla de Hechos.
C: Tabla de Consulta.
R: Tabla de Relación.
AMB – Parte relacionada al ambiente donde pertenece la tabla. Puede ser de entre 2 a 4
caracteres y varía dependiendo las necesidades. Una propuesta de ejemplo es:
DM: Datos maestros relacionados con clientes, productos, plantas, tiendas, tiempo o
cualquier otro dato que sea multifuncional.
VTA: Datos de ventas relacionados con el sistema de facturación.
FIN: Datos financieros relacionados con el sistema contable.
OP: Datos operativos relacionados con el proceso de producción.
RH: Subconjunto de información de recursos humanos.
ETP: Tablas de etapa provenientes del ERP u otras fuentes.
NombreDescriptivo – Es tan descriptiva que necesita mucha más explicación, debe
contener un nombre que permita identificar fácilmente qué información está contenida en la
tabla con palabras (o siglas) opcionalmente separadas por “_”. Ejemplo:
NOMBRE_DESCRIPTIVO.
Sufijo – Es una parte opcional recomendada especialmente para uso de marcado de tablas
temporales. En caso de necesitar cargar alguna tabla dada, necesita tres pasos, y se
recomienda que todos estos pasos tengan el mismo nombre que la tabla final, pero agregando
al final TMP1, TMP2 y TMP3 como sufijos.
Entonces, si tenemos una tabla (T) que es una consulta (C) del mes de facturación del
ambiente (entorno) de ventas (VTA), llamaremos a esta tabla:
T_C_VTA_FACTURACION_MES, sin ningún sufijo en este caso.
Nota: Al nombrar objetos en la base de datos, se debe validar cuál es el tamaño máximo de
nombre que permite. Como ejemplo, en Oracle el tamaño máximo del nombre de la tabla es
de 30 caracteres.

Modelado
Inicialmente vimos una descripción general del modelado de datos considerando
principalmente dos pasos en el proceso, definir el modelo lógico estableciendo un conjunto
de entidades, tipos de relaciones entre ellos y atributos que existen en cualquier tabla, y luego
seguir adelante con el modelo físico cuando ya definió todos los nombres de campo, tipos,
precisión y otras consideraciones físicas para la creación y ubicación de tablas.
Más es necesario agregar dos pasos al proceso de definición del modelo: el modelado de
negocios y el modelado dimensional. La figura abajo muestra todo el flujo de trabajo de
modelado.

Proceso para definición del modelo


2 Pasos del modelado
Modelo de negocios
El modelado de negocios está directamente relacionado con personas de negocios, usuarios
clave, propietarios de productos o cualquiera que sea el interlocutor desde el lado comercial.
Es una descripción de lo que debe proporcionar su proyecto de BI. La definición de lo que
desea analizar, qué dimensiones desea utilizar para el análisis y qué granularidad desea
aplicar para analizarlo.
Puede ser un texto descriptivo, una definición gráfica o una combinación de ambos en un
lenguaje que los usuarios comerciales deben comprender.
Una herramienta que puede ser útil para este análisis es una matriz de granularidad, donde
puede cruzar qué dimensiones se utilizan en cada análisis y en qué nivel.
Para obtener esta información, el primer paso siempre es hablar con los equipos comerciales
para obtener sus requerimientos y luego echar un vistazo a la información disponible para ver
si puede cumplir con los requerimientos definidos.

Matriz de granularidad

En esta matriz de granularidad se puede ver que tendremos seis dimensiones en nuestro
modelo: Cliente, Producto, Tiempo, Planta, Empleado y Moneda; y tendremos cuatro áreas
de análisis: Ventas, Finanzas, Servicio al Cliente y Stock.
Dentro de la matriz ubicamos por dimensiones disponibles que serán el nivel de la dimensión
que tendremos para cada área de análisis.

Modelo lógico
Una vez que hayamos recopilado todos los requisitos y los hayamos integrado en nuestro
análisis comercial, podremos definir qué entidades deben tenerse en cuenta en nuestro
sistema. Para ello necesitaremos analizar en detalle cuáles son los conceptos que nuestros
usuarios clave esperan tener disponibles para analizar, solo validando que tenemos la
posibilidad de obtenerlos de nuestro sistema fuente.
Parece bastante lógico que si tienen algún requerimiento de análisis es porque lo están
usando en el ERP de origen, pero no se debe aceptar esto como verdad hasta validarlo.
A veces, no tendremos la posibilidad de acceder directamente al ERP de origen, sino a un
entorno de prueba intermedio en el que solo se extraen algunas tablas y algunos campos y
no tendremos acceso a los necesarios para implementar la funcionalidad relacionada. Otras
veces, el usuario desea analizar la información a nivel agregado que consolida en un archivo
de Excel que debe incluir en sus sistemas de origen.
Definiremos diferentes entidades relacionadas con cada dimensión.
La entidad principal contendrá la relación de unión con la entidad central, y el resto estarán
adscritos a esta entidad principal de cada dimensión. Como ejemplo, la entidad de tiempo
estará relacionada con la entidad de ventas y las entidades de mes, trimestre y año estarán
relacionadas con la de tiempo.
También en la definición del modelo lógico definiremos cómo se relacionan esas entidades,
si es una relación de uno a uno, de uno a muchos o de muchos a muchos. En la propuesta
inicial del modelo que estamos definiendo todas las relaciones son de uno a muchos.
Al analizar algunas opciones avanzadas veremos alguna excepción por la relación entre
ventas y moneda que será de muchos a muchos.
En otras palabras, tendremos varias filas para un cliente en la entidad de ventas, pero solo
una fila en la entidad de dimensión de cliente.
Similar a esto, las entidades secundarias de la dimensión tendrán una relación de uno a
muchos con la entidad principal. Siguiendo con el ejemplo, tendremos varios clientes en un
país, por lo que varias filas para un país determinado en la entidad del cliente, pero una sola
entrada para un país en la entidad País del cliente.
Finalmente, en un modelo lógico necesitamos definir qué atributos se colocan en cada
entidad, es decir, qué características de los diferentes conceptos de negocio estarán
disponibles para cada una.
En productos podríamos pensar en color, tamaño, categoría, planta de fabricación, o
cualquier otro concepto relacionado con el producto. En clientes podemos pensar en región,
ciudad, dirección, país, correo electrónico, etc. Para la dimensión de tiempo podemos tener
día, trimestre, semana, semestre, año, día de la semana, mes del año u otros atributos
relacionados con hora.

Modelo dimensional
Durante el proceso de modelado lógico, se deberá identificar los hechos a tener en cuenta y
las dimensiones que pueden considerarse como grupos de atributos relacionados entre ellos.
A veces esto se considera como parte del modelo lógico, pero especialmente en casos de
gran complejidad, puede hacerlo en un análisis separado obteniendo como resultado el
modelo dimensional de sus datos.
Al definir los tipos de relación entre atributos, vemos que pueden tener los mismos tipos de
relación que para las entidades, uno a uno, uno a muchos y muchos a muchos, pero en este
caso estamos teniendo en cuenta la granularidad esperada para los campos dentro tablas en
lugar de granularidad de tablas.
A veces los tipos de relación tienen un significado similar, pero con una diferencia conceptual.
Una relación de uno a muchos entre dos atributos es, por ejemplo, en el caso de Región de
Cliente y Cliente, la región puede múltiples clientes, pero el cliente tiene solo una región.
En el caso de un Código telefónico del País del Cliente y el País del Cliente, la relación es
uno a uno, es decir, un país puede tener solo un código, y un código de país puede pertenecer
solo a un país. Finalmente, tenemos dimensiones como es Estatus (Estado) que en esta
versión definiremos como una sola dimensión de atributo.
Además, sumado a este análisis gráfico, deberíamos obtener una lista de hechos que
queremos analizar en nuestro proyecto, con una descripción sobre la fuente y las condiciones.

Modelo físico
Este es el último paso del modelado antes de continuar con la creación de objetos en la base
de datos.
En este paso es especialmente útil usar una herramienta de modelado de datos ya que luego
de definir la estructura de tablas, columnas, tipos de columnas, claves primarias, claves
foráneas, etc. nos brinda una interfaz gráfica donde la mayoría de ellas brinda la posibilidad
de generar scripts para la creación de todos los objetos en la base de datos.
En nuestro modelo físico definiremos a las tablas como objetos principales para ubicar la
información, y estarán directamente relacionadas con las entidades, pues cada entidad será
mapeada a una tabla física.
Dependiendo de las opciones disponibles en nuestra base de datos, tendremos la posibilidad
de definir algunos parámetros relacionados con cada tabla, como partición, ubicación,
esquema o propietario, compresión y muchas otras características que variarán según el
software de base de datos y también del software de modelado elegido.
El siguiente paso será definir qué campos contendrán nuestras tablas que hemos definido en
nuestro sistema, los cuales estarán estrechamente relacionados con los atributos del modelo
lógico y dimensional.
Para los campos, definiremos el nombre siguiendo nuestras convenciones de nomenclatura;
el tipo de campo, normalmente serán numéricos; carácter o fecha, con diferentes subtipos
según la base de datos; definiremos también el tamaño y precisión del campo y otros
parámetros como si pueden ser nulos o no, entre otros, que también dependen de la base de
datos y la herramienta de modelado de datos.
Con tablas y campos tenemos la base para definir un proyecto de trabajo, pero hay algunos
otros elementos que pueden ayudarnos a mejorar el rendimiento y la integridad de los datos
en nuestro sistema. Son índices, claves primarias y claves foráneas.
Un índice es una estructura ordenada que contiene diferentes valores de un campo y un
apuntador donde se ubican estos datos, mejorando el tiempo de respuesta del sistema
cuando buscamos un valor dado.
Una clave principal es un índice que también define el conjunto de campos cuyas
combinaciones de valores identifican una sola fila en la tabla, no puede existir el mismo valor
de combinación repetida de campos de la clave principal en más de una fila.
Por otro lado en una tabla de hechos es posible que no podamos definir una clave primaria,
dependerá de nuestro diseño, pero normalmente en entornos de DataWarehouse se tendrá
información agregada al nivel deseado lo que provoca implícitamente que la clave sea
establecida por columnas incluidas en la cláusula group by..
También podemos tener en nuestro sistema claves foráneas, que son la equivalencia física
de relaciones entre entidades.
El uso de claves foráneas tiene sus ventajas y desventajas, por lo que, si desea
implementarlas, debe saber de antemano qué problemas puede sufrir.
La principal ventaja es que garantizan la integridad de los datos en las tablas. Si en la tabla
de ventas tiene una clave externa por identificador de producto en la tabla de dimensiones
del producto, se asegurará de que no tenga datos relacionados con un código de producto
inexistente, por lo que unirse a la tabla de productos no le causará ninguna pérdida de datos.
Una desventaja principal es que pueden complicar el proceso ETL y también causar cierta
lentitud durante la carga de datos.
Cuando habilitamos una clave foránea no se puede truncar la tabla referenciada, ni borrar
registros que tengan información relacionada en las tablas dependientes, algo que parece
lógico pero que a veces el proceso ETL es más fácil de manejar truncando y recargando
completamente algunas tablas de búsqueda y dimensiones.
En lugar de eso, necesitaremos el uso de declaraciones de inserción/actualización (INSERT,
UPDATE) o declaraciones de combinación si su base de datos y su herramienta ETL tienen
esta posibilidad. También hay algunos proveedores de bases de datos que permiten
deshabilitar las restricciones de claves principales para volver a cargar las tablas de referencia
y habilitarlas nuevamente una vez que finaliza la carga.

Modelo de datos inicial

3 Reportes de negocio, analítica visual, administración del


desempeño de negocios
Acceso a datos
Después de cargar los datos en un DW la información es entregada a través de múltiples
mecanismos:
Reportes, estáticos que se entregan periódicamente.
Consultas (Queries), que pueden ser simples o muy complejos. Las consultas son peticiones
electrónicas sobre una información específica en un a BD, son el nivel más básico entre el
usuario y la BD.
Análisis interactivos, que pueden ser una serie de consultar ad hoc ejecutadas
interactivamente por usuarios avanzados.
Aplicaciones, especialmente las de sistemas de apoyo a la decisión (DSS) que traen datos
de un DW.

Reporte de negocio
Las herramientas de consulta y generación de informes brindan a los usuarios las principales
vías de acceso a los datos en sí.
Un reporte es un artefacto de comunicación, un documento escrito preparado con intención
especifica de información confiable en una forma presentable.
Si contiene información de negocio, entonces es llamado reporte de negocio, también se le
conoce como reporte empresarial.
Estos reportes son parte esencial del movimiento de BI para mejorar la administración en la
toma de decisiones.
Actualmente, estos reportes están más orientados visualmente, usando colores e iconos
gráficos que lucen como un cuadro de mando para mejorar el contenido de la información.
Estos reportes involucran procedimientos de ETL en coordinación de un DW y herramientas
de reporte.
Pueden distribuirse impresos o por email, pero típicamente se accede a ellos por una intranet
corporativa.
Las claves para cualquier reporte exitoso es que sean claros, breves, completos y correctos.
En cuestión de contenido y formato, podemos categorizarlos en:
1. Informales, de 10 paginas internos o de rutina.
2. Formales, de 10 a 100 páginas con resúmenes ejecutivos, estudio analítico o
profunda investigación.
3. Cortos, para informar sobre eventos o cambios en sistema.

La mayoría de las investigaciones en reporteo efectivo se dedica a los internos, para informar
a las partes interesadas y tomadores de decisiones.
También hay reportes externos entre empresas y gobiernos. La mayoría de estos reportes
formales están estandarizados.
Aunque existe una amplia variedad de reportes de negocio, los más utilizados para propósitos
administrativos se agrupan en tres categorías:
1. Administración de métricas.
2. Tipo tablero (dashboard).
3. Tipo cuadro de mando (scorecard).

Reporte de administración de métricas


En muchas organizaciones, el desempeño de negocios se administra mediante métricas
orientadas a resultados.
Para grupos externos, hay acuerdos de nivel de servicio (SLAs).
Para manejo interno, hay indicadores clave de desempeño (KPIs).
Normalmente existen objetivos empresariales acordados para ser rastreados por periodos de
tiempo.
Pueden usarse como parte de otras estrategias como el Six Sigma o la Administración de
Calidad Total (TQM).

Reporte de tipo tablero


Una idea popular en reportes de negocios en años recientes ha sido presentar un rango de
diferentes indicadores de desempeño en una página, como los tableros de auto.
Un tablero (dashboard) es una herramienta de visualización de datos que consolida y
presenta, en una sola pantalla, diferentes elementos que se pueden usar para reportar,
analizar, monitorear y controlar.
Los proveedores de tableros proveen un conjunto de reportes predefinidos, pero también
permiten personalizar con widgets, vistas y poner objetivos en las métricas.
Algo muy común es la semaforización para atraer atención a ciertas áreas.
Una organización puede tener múltiples tableros. Puede estar organizado por separadores
para roles específicos, departamentos, etc.

Reporte de cuadro de mando


Es un método desarrollado por Kaplan y Norton que intenta presentar una vista integrada de
éxito en una organización.
Los cuadros de mando (scorecards) son herramientas vinculadas a las estrategias y metas
de desempeño de negocio en una organización.
Además del desempeño financiero, estos balances en cuadro de mando muestran clientes,
procesos de negocio, y perspectivas de aprendizaje y crecimiento.
Muestra los indicadores clave de desempeño (KPIs) junto con sus asociados objetivos de
desempeño.
En contraste con los tableros, que brindan un estatus en un momento, el cuadro de mando
indica el progreso o escasez sobre metas específicas. Un cuadro de mando puede mostrarse
en un tablero.

Analítica visual
El término análisis visual fue acuñado recientemente y a menudo se usa imprecisamente para
significar solo visualización de información.
La analítica visual (visual analytics) es la combinación de la visualización y el análisis
predictivo.
La visualización se dirige a contestar “¿Qué pasó?” y está asociada con la inteligencia de
negocios, pero la analítica visual apunta a contestar “¿Por qué está pasando?”.
Visuales o no visuales, automatizado o manual, en linea o en papel, los reportes de negocio
son similares a contar una historia.

Administración de desempeño de negocio (BPM)


Los reportes de negocio y la administración de desempeño de negocio (Business
Performance Management) son los que permiten los analíticos y la inteligencia de negocios.
La BPM es un conjunto integrado de procesos, metodologías, métricas y aplicaciones
diseñados para manejar el desempeño financiero y operativo de una empresa. También
conocido como administración de desempeño corporativo (CPM - Gartner), administración de
desempeño empresarial (EPM - Oracle), y administración de estrategia empresarial (SEM -
SAP).
El término BPM es el primero y más generalmente usado, además no estar atado a ninguna
solución de proveedor.
Abarca tres componentes clave:

• Un conjunto de procesos analíticos y de gestión de circuito cerrado integrados


(respaldados por tecnología) que se ocupa de las actividades financieras y operativas.
• Herramientas para que las empresas definan objetivos estratégicos y luego midan y
gestionen el rendimiento en función de esos objetivos.
• Un conjunto básico de procesos, incluida la planificación financiera y operativa, la
consolidación y la elaboración de informes, el modelado, el análisis y el seguimiento
de los indicadores clave de rendimiento (KPis), vinculados a la estrategia organizativa.

Ciclo de circuito cerrado en BPM


Uno de los diferenciadores más significativos de la BPM ante otras herramientas de BI es el
enfoque estratégico.
Este enfoque vincula estrategia con ejecución para optimizar el desempeño de negocio.
El ciclo implica que el desempeño óptimo se logra:
1. Estableciendo metas y objetivos
2. Estableciendo iniciativas y planes para alcanzar las metas
3. Monitorear el desempeño actual contra metas y objetivos
4. Tomar acciones correctivas.

Estrategias, ¿a dónde queremos ir?


En un entorno empresarial, la estrategia es el arte y la ciencia de elaborar decisiones que
ayuden a las empresas a alcanzar sus objetivos.
Más específicamente, es el proceso de identificar y establecer la misión, visión y objetivos de
la organización, y desarrollar planes (en diferentes niveles de granularidad: estratégico,
táctico y operativo) para lograr estos objetivos.

Planes, ¿Cómo llegamos para allá?


Los planes operativos y financieros responden a dos preguntas:
¿Qué tácticas e iniciativas se seguirán para cumplir con los objetivos de desempeño
establecidos por el plan estratégico?
Un plan operativo traduce los objetivos y metas estratégicos de una organización en un
conjunto de tácticas e iniciativas bien definidas, requisitos de recursos y resultados esperados
para un período de tiempo futuro, generalmente, pero no siempre, un año.
La estrategia impulsa las tácticas y las tácticas impulsan los resultados. Básicamente, las
tácticas e iniciativas definidas en un plan operativo deben estar directamente vinculadas a los
objetivos y metas clave del plan estratégico.
¿Cuáles son los resultados financieros esperados de la ejecución de las tácticas?
El proceso de planificación financiera y presupuestación tiene una estructura lógica que
generalmente comienza con aquellas tácticas que generan algún tipo de ganancia o ingresos.

Monitoreo / Análisis, ¿Cómo vamos?


Un marco integral para monitorear el desempeño debe abordar dos cuestiones clave: qué
monitorear y cómo monitorear.
Debido a que es imposible mirar todo, una organización debe enfocarse en monitorear
problemas específicos.
Una vez que la organización ha identificado los indicadores (KPIs) o medidas a considerar,
necesita desarrollar una estrategia para monitorear esos factores y responder de manera
efectiva.

Actuar y ajustar, ¿Qué necesitamos cambiar?


Ya sea que una empresa esté interesada en hacer crecer su negocio o simplemente mejorar
sus operaciones, virtualmente todas las estrategias dependen de nuevos proyectos:

• Crear nuevos productos


• Ingresar a nuevos mercados
• Adquirir nuevos clientes o negocios
• Agilizar algunos procesos.
La mayoría de las empresas abordan estos nuevos proyectos con espíritu optimista en lugar
de objetividad, ignorando el hecho de que la mayoría de los nuevos proyectos y empresas
fracasan.
¿Cuál es la probabilidad de fallar? Depende del tipo de proyecto.
Ejemplos:

• Películas de Hollywood, fusiones y adquisiciones – 60 %


• Grandes proyectos de TI – 70 %
• Nuevos productos alimenticios – 80 %
• Nuevos productos farmacéuticos – 90 %
• La mayoría de proyectos nuevos – Entre 60 y 80 %
Por estos motivos, saber que debemos cambiar o hacer diferente se vuelve un asunto vital.

Medidas de desempeño
Todas las medidas son comparaciones.
Los números crudos tienen poco valor.
Por ejemplo, si dicen que un vendedor cumplió el 50 % de los negocios que tenía pendientes
en el mes no nos dice mucho.
En cambio, agregar que el mismo vendedor tuvo una tasa de negociación mensual de 30 %
el año pasado cambia.
En las medidas de desempeño, las comparaciones clave involucran estrategias, metas y
objetivos.
Las métricas operativas usadas para medir el desempeño se llaman usualmente indicadores
clave de desempeño (KPI).
Indicadores clave de desempeño (KPI)
Un KPI representa un objetivo estratégico y mide el desempeño frente a una meta.
Son multidimensionales, esto es, que tienen una variedad de características distintivas, como:

• Estrategia.
• Objetivos.
• Rangos.
• Codificaciones.
• Marcos de tiempo.
• Puntos de referencia.
Los KPI suelen distinguirse entre de resultado e impulsores.
Los Kpis de resultado, a veces conocidos como indicadores rezagados, miden el resultado
de la actividad pasada (por ejemplo, los ingresos). A menudo son de naturaleza financiera,
pero no siempre.
Los KPis impulsores, a veces conocidos como indicadores principales o impulsores de valor,
miden actividades que tienen un impacto significativo en los KPis de resultado (por ejemplo,
oportunidades de venta).
Los impulsores también son llamados operativos.

Tableros vs cuadros de mando


Ambos términos se usan casi de forma intercambiable.
Son similares, pero tienen sus diferencias.
Por un lado, ejecutivos y administradores usan el cuadro de mando para monitorear
lineamientos estratégicos y el éxito de sus objetivos.
Mientras que los tableros son usados en niveles tácticos y operativos.
Los administradores, supervisores y operadores usan los tableros operativos para monitorear
el desempeño detallado semanal, diario e incluso por horas.

Tableros
Los tableros brindan presentaciones visuales de información importante que está consolidada
y organizada en una sola pantalla para que la información se pueda digerir de un solo vistazo
y se pueda profundizar y explorar más fácilmente.
El siguiente es un tablero típico donde se muestra una variedad de KPIs que intenta dar a los
tomadores de decisiones una rápida y certera idea de que es lo que está pasando dentro de
la organización.
A la izquierda se ven los cambios en ingresos, gastos y márgenes en una linea de tiempo. A
la derecha dos indicadores que muestran gastos mensuales con regiones codificadas por
color (semáforo).

Cuadros de mando integrales


Estos son probablemente los más conocidos y usados para medir el desempeño.
El término integral se ha vuelto genérico, es usado para representar virtualmente todo tipo de
aplicación e implementación de cuadro de mando, sea integral o estratégico.
Sugieren ver a la organización desde cuatro perspectivas:
1. Clientes
2. Financiera
3. Procesos de negocio internos
4. Aprendizaje y crecimiento.

4 Enfoques de BI
Enfoques de la Inteligencia de Negocios
Existen diferentes enfoques de BI que le otorgan diferentes funcionalidades. Algunas
herramientas de BI combinan más de un enfoque en una sola plataforma, pero por lo general
no cubren todas las funcionalidades. Debe definir el alcance de su proyecto antes de poder
elegir correctamente qué partes de la solución necesitará.

• Consulta e informes
• Intercambio de información
• Tableros
• Importación de datos
• Descubrimiento de datos
• MOLAP (Procesamiento analítico multidimensional en línea)
• Data Mining (Minería de datos)

Consultas e informes
Las consultas e informes son la etapa inicial de las implementaciones típicas de BI, en la
medida en que el objetivo principal de un sistema de BI es entregar información en algún
formato integral para su análisis. Esta información proviene de una base de datos, por lo que
para obtener esta información se usa una consulta que es una solicitud al almacén de datos
(DW) para extraer datos de allí. Solo que la información devuelta está en un formato fácil de
usar para que los analistas puedan leerla.
Es decir, cuando hablamos de este enfoque nos referimos no solo a la posibilidad de acceder
al DW para extraer información, sino también a una herramienta que permite analizarla,
profundizar en detalles, comprobar cifras destacadas, comprobar comportamientos inusuales
fuera de estándar, tendencias, filtrar la información que obtiene y formatearla según los
estándares de la empresa.
El principal beneficio de esta herramienta es que no es necesario conocer el lenguaje SQL
para poder extraer información de la BD; este SQL es generado automáticamente por la
herramienta BI. En algunos casos la herramienta puede darle la posibilidad de modificar,
afinar o escribir directamente desde cero el SQL que está lanzando, en caso de que el modelo
en la herramienta de BI no esté completamente adaptado a la BD, o que necesita obtener
información de otro conjunto de tablas que no está asignada al catálogo de BI.

Intercambio de información
Los analistas de la empresa estarán encantados de tener la posibilidad de utilizar informes y
consultas ad hoc y realizar análisis complicados creando métricas complejas, pero la gran
mayoría de los empleados estarán encantados si pueden acceder directamente a informes
ya creados u obtener sus informes en sus buzones de email o en una ubicación compartida.
El enfoque estándar en un entorno de BI es tener un pequeño subconjunto de empleados con
capacidades de analista que obtendrán beneficios con la solución de consultas e informes,
pero luego tener un grupo de desarrolladores (pueden ser el mismo grupo de analistas) que
crearán informes para compartir con el resto de la organización, ya sea a través de la misma
herramienta de BI para que los usuarios puedan conectarse a la herramienta de BI para
ejecutar informes también con las capacidades de BI habilitadas, o a través de algún servicio
de distribución como el email o una carpeta compartida.
Esta distribución generalmente se puede hacer con una herramienta de BI, ya que la mayoría
de ellos permiten enviar correos electrónicos automáticamente.

Tableros
Para entender rápido los tableros de BI, podemos pensar en el tablero de un avión. Allí puede
encontrar múltiples indicadores provenientes de diferentes fuentes que le brindan una visión
general sobre el rendimiento de todo el avión, desde los motores principales hasta los
alerones. Al igual que en el tablero del avión, un tablero de BI es especialmente relevante
para tener información sobre alertas, en la medida en que debe prestar especial atención a
aquellas métricas que están fuera del rango de trabajo estándar.
Como se ha comentado anteriormente, debemos enfocar nuestros tableros a aquellas
métricas (KPIs) que son realmente relevantes para el análisis que estamos haciendo y
también deben ser realmente significativas al compararlas con años anteriores o con
objetivos.
Los tableros de BI también pueden ofrecer algunas funciones, como selectores dinámicos,
paneles de información, gráficos en los que, al hacer clic en una parte del gráfico, actúa
filtrando una visualización dependiente; acceder a información detallada; acceder a un tablero
relacionado; todas las opciones de formato que pueda requerir en cuanto a colores, fuentes,
estilos, imágenes y formas; múltiples diseños de información; información sobre
herramientas; o incrustación de medios, entre otras características.

Importación de datos
Una de las principales tendencias en las plataformas de BI es la posibilidad de analizar
rápidamente la información al permitir que el usuario acceda a un canal para importar sus
propios archivos de datos en una interfaz de BI para implementar tableros rápidos con
múltiples visualizaciones relacionadas, brindando al usuario BI de autoservicio.
Esta posibilidad también reduce el tiempo de desarrollo de proyectos de BI que históricamente
han sido grandes proyectos con largos plazos de entrega.
Dependiendo de la herramienta, podrá importar archivos en diferentes formatos (Excel, CSV,
texto), conectarse a sus propias fuentes de datos, conectarse a interfaces de servicios web
como Xquer o usar archivos que se encuentran en plataformas compartidas en la nube.

Descubrimiento de datos
Muy relacionado con la importación de datos está el enfoque de descubrimiento de datos que
consiste en un conjunto de visualizaciones especialmente destinadas a encontrar tendencias
y excepciones de una manera muy fácil utilizando una interfaz muy intuitiva.
Este tipo de interfaz es la evolución directa de los tableros al simplificar los controles y menús,
limitando las opciones permitidas, pero centrándose en las más potentes. Tal vez el usuario
no tenga una cuadrícula de alineación muy precisa para crear gráficos perfectos, pero puede
relacionar fácilmente un gráfico con otro y filtrar ambos con paneles de filtrado simples.
La idea principal detrás del descubrimiento de datos es permitir que el usuario cree sus
propios tableros sin tener un conocimiento sólido de las herramientas de BI, solo con una
interfaz muy intuitiva con las funcionalidades principales.

MOLAP
Las BD de procesamiento analítico en línea multidimensional (MOLAP) están orientadas a
brindar un mejor rendimiento en el proceso de consulta. Por lo general, se ven como un cubo
en la medida en que tienen múltiples dimensiones.
Un cubo tiene solo tres dimensiones, pero es una forma ilustrativa de dibujarlas para
distinguirlas de las tablas relacionales de una base de datos relacional. En lugar de múltiples
tablas con hechos, relaciones e información de búsqueda, las bases de datos MOLAP tienen
toda la información junta, precalculada en todas las dimensiones, en todos los niveles de las
diferentes dimensiones considerando la intersección con todos los niveles del resto de las
dimensiones.
Este cálculo previo tiene dos implicaciones principales con respecto al rendimiento. (1) Las
recuperaciones de información de la base de datos son muy ágiles, pero, por otro lado, (2) la
carga de información en la base de datos MOLAP puede llevar mucho tiempo; en otras
palabras, si desea tener un tiempo de carga razonable, deberá moderar el nivel de detalle de
sus cubos MOLAP.
Difícilmente encontraremos una base de datos MOLAP con el mismo, ni parecido, nivel de
detalle que un DW.
Las bases de datos MOLAP también suelen tener la posibilidad de que los usuarios finales
guarden datos en ellas, y esta función abre la posibilidad de que se utilicen como
herramientas de planificación y elaboración de presupuestos. Es bastante común encontrar
una base de datos MOLAP con una dimensión llamada Escenario o Versión que se puede
usar para contener datos reales del año actual y previsión del próximo año, también con
diferentes versiones de la previsión futura para poder hacer análisis futuros, como, por
ejemplo, ¿qué pasaría si el próximo año aumento un 15% mis ventas invirtiendo un 10% más
en publicidad?
A veces, MOLAP no se considera una funcionalidad clásica de BI en la medida en que BI
pretendía ser una herramienta analítica de la realidad sin capacidades de escritura, pero hoy
en día es bastante importante tener la posibilidad de dibujar escenarios jugando con
diferentes variables y una vez que tienes definido cuál es tu objetivo, cierra el ciclo de vida de
la empresa intentando alcanzarlo.

Data Mining
MOLAP permite imaginar cómo puede ser el futuro, pero el Data Mining permitirá predecirlo.
La minería de datos hace lo anterior en función de nuestra capacidad para detectar
tendencias y patrones ocultos. Como es de esperarse, estas capacidades predictivas se
basan en información pasada y fórmulas de pronóstico, por lo que, aunque se puede hacer
un muy buen trabajo definiéndolas, existirá la posibilidad de que un hecho inesperado pueda
cambiar por completo el escenario, provocando resultados completamente diferentes de la
planificación.
Con Data Mining intentamos encontrar un modelo que justifique la relación entre la entrada y
la salida de nuestro proceso, para entender mejor el negocio.
Es especialmente interesante encontrar estos patrones para prestar atención a los valores
inusuales, los resultados nulos y la dispersión de datos porque pueden brindarle información
sobre la validez del modelo.
Entonces, si se desea obtener los resultados más precisos posible, se debe ser muy
exhaustivo al definir el modelo de minería de datos, al incluir tantas variables como sea
posible para obtener el modelo comercial que permitirá predecir resultados futuros.
Los cálculos de pronóstico básicos se basan en dos componentes principales: resultados
anteriores y tendencia. Luego, debe comenzar el análisis sobre cómo varían según las
diferentes dimensiones.
Por lo general, se comienza con el tiempo para ver si hay algún comportamiento estacional,
ciclo intramensual o de varios años.
Luego se puede intentar ver si el producto está afectando de alguna manera, debido al ciclo
de vida del producto, que es la correlación entre la inversión en publicidad y los ingresos
netos, o cualquier otra variable que se desee considerar.

Elegir la herramienta de BI
Para decidir correctamente, se debe tener en cuenta si se desea optar por una solución
gratuita o si existe el presupuesto para comprar una edición comercial. Si en este punto se
cree poder ir por un proyecto piloto y luego tendremos el presupuesto para licencias para ir
por el gran proyecto, entonces una opción comercial con una solución gratuita para el piloto
sería una buena estrategia.
Generalmente las herramientas comerciales son más robustas, con soporte, con más
inversión para el desarrollo y la innovación, por lo que debería ser algo a considerar como
una opción válida si se encuentra en esta situación.
La estrategia de su proyecto puede ser un enfoque clásico con informes estáticos basados
en un almacén de datos estructurado y enfocado en grandes desarrollos a nivel de base de
datos que requieren conocimientos técnicos para desarrollar e implementar los requisitos del
usuario, o nuevos enfoques de descubrimiento de datos que se enfocan en visualizaciones y
alto dinamismo para el usuario final, dándole autonomía importando datos él mismo y jugando
con diferentes visualizaciones hasta encontrar los patrones requeridos.
Los proyectos de informes clásicos también requieren el desarrollo de una infraestructura
dentro de la herramienta que genere grandes esfuerzos a largo plazo en el desarrollo del
proyecto hasta que el usuario final pueda ver los resultados. Por el contrario, existen
soluciones más robustas, especialmente para entornos grandes con cientos de usuarios y
miles de ejecuciones de informes por mes.
Por otro lado, las nuevas plataformas de BI enfocadas en el autoservicio de los usuarios les
permiten investigar las perspectivas de los datos, al agregar capacidades de investigación
que facilitan la tarea de obtener información relevante de nuestros datos, tales como hacer
drill, paginar, filtrar, seleccionar, y cruzando información de múltiples fuentes.
La herramienta básica para el análisis clásico son informes y documentos donde los usuarios
pueden ver datos simples filtrados, ordenados, con la capacidad de exportar a Excel,
utilizando BI como abastecimiento para Excel.
La herramienta básica para el análisis de descubrimiento de datos es el tablero. Si bien puede
crear informes simples que le permitan realizar análisis estáticos con más o menos detalles,
un tablero contiene mucha información disponible, pero solo muestra porciones y agregados
de la información y luego permite filtrar, segmentar, agregar o explorar la información para
lograr un análisis significativo.
Si bien los informes y documentos se utilizan como una herramienta intermedia para extraer
y analizar datos, el tablero puede ser el resultado final en el sentido de que puede mostrarlo
directamente en una reunión y realizar algún análisis para mostrar sus hallazgos dentro de
los datos. Con base en esto, la apariencia visual y el diseño del tablero tienen al menos la
misma importancia que los datos.
No hay que preocuparse demasiado por elegir, ya que hay soluciones (especialmente las
comerciales) que tienen todos los enfoques disponibles para poder hacer un proyecto piloto
importando Excels para ver cómo se ven y luego desarrollar un proyecto con toda la estructura
relacionada dentro de la herramienta de BI, tablas, atributos, dimensiones, hechos,
jerarquías, métricas, filtros, etc.

5 Minería de datos
Minería de datos
La cantidad de información que mantienen las compañías ha alcanzado niveles realmente
increíbles. Los datos que requerían un almacenaje de un cuarto completo de documentos
ahora pueden ser renderizados digitalmente y colocado en unos milímetros cuadrados con
los dispositivos actuales.
Todavía es probable que la esperanza sea la que conduce tendencias en el almacenamiento
de datos, gente que dedica su vida a encontrar tendencias escondidas en precios de acciones
e indicadores económicos esperando transformar esta información en utilidades.
Esa es la finalidad de la minería de datos, examinar océanos de datos de negocio pasados
para encontrar guías hacia el futuro.
La minería de datos es una técnica que analiza grandes volúmenes de datos para determinar
patrones y relaciones, usando análisis estadístico avanzado y técnicas de modelado.
Conceptualmente, su objetivo es generar hipótesis y correlacionar factores que puedan
usarse para mejorar el negocio. Pueden develar asociaciones extrañas pero útiles, por
ejemplo, una tienda descubrió que casi la mitad de los clientes que compran pañales los
viernes por la tarde también compran cerveza, lo que indica que pueden poner cerca un
producto del otro.
Generalmente hablando, la minería de datos es una forma de desarrollar inteligencia a partir
de datos que una organización colecta, organiza y almacena.
Usa técnicas estadísticas, matemáticas y de inteligencia artificial para identificar patrones que
pueden tener forma de reglas de negocios, afinidades, correlaciones, tendencias o modelos
de predicción.

Antecedentes
El concepto de minería de datos ha existido desde los años 50 del siglo pasado, con las
primeras computadoras. Ya se pensaba en la IA, que fue acuñada en 1956, como una forma
de atacar problemas al aprender cuando realiza algo incorrecto e intentar otras variables.
La idea evolucionó con los sistemas expertos entre los años 80 y 90, el software era ya mas
poderoso con reconocimiento de patrones e inicia la minería de datos.
El Dr. Arno Penzias, premio nobel, reconoció a la minería de datos en una entrevista para
Computerworld de 1999 como aplicación clave de las BD en corporaciones del futuro cercano
“si no están haciendo eso, estarán fuera del negocio”.
Thomas Davenport en un artículo de 2006 para Harvard Business Review, argumenta que la
más reciente arma estratégica para las compañías es la toma de decisiones analítica con
ejemplos como Amazon. Incrementar utilidades al entender clientes, vendedores, procesos
de negocio y la extendida cadena de suministros lo mejor posible (Sharda et al, 2014, pág.
190).
Los datos que se generan en internet se incrementan rápidamente en volumen y complejidad.
En lo comercial, la minería de datos ha sido comúnmente usada para finanzas, venta en
mostrador, y sector salud.
El término describe el descubrimiento de conocimiento en grandes cantidades de datos. Ha
sido la elección popular de la comunidad ya que otros términos son: extracción de
conocimiento, análisis de patrones, arqueología de datos, cosecha de información, dragado
de datos.
Como inteligencia de negocios, la minería de datos es una frase que atrapa. Conforme se
han refinado más las técnicas se han vuelto herramientas para todo tipo de negocios, muchos
vendedores de software ven a la minería de datos como un componente esencial de BI.

Características y objetivos de la minería de datos


Los datos frecuentemente se encuentran enterrados profundamente dentro de grandes BD,
que algunas veces contienen datos de varios años. En ocasiones, los datos son depurados y
consolidados en un DW.
El ambiente de minería de datos es usualmente una arquitectura cliente/servidor o un sistema
basado en web.
Las nuevas y sofisticadas herramientas ayudan a eliminar la información enterrada en
archivos corporativos o registros públicos de archivo.
El minero es a menudo un usuario final, habilitado por ejercicios de datos y otras herramientas
de consulta poderosas para hacer preguntas ad hoc y obtener respuestas rápidamente, con
poca o ninguna habilidad de programación.
Encontrar riqueza a menudo implica encontrar un resultado inesperado y requiere que los
usuarios finales piensen de manera creativa durante todo el proceso, incluida la interpretación
de los hallazgos.
Las herramientas de minería de datos se combinan fácilmente con hojas de lectura y otras
herramientas de desarrollo de software. Por lo tanto, los datos extraídos se pueden analizar
e implementar de forma rápida y sencilla.
Debido a la gran cantidad de datos y los esfuerzos de búsqueda masivos, a veces es
necesario utilizar el procesamiento paralelo para la minería de datos.
Minería de datos
La minería de datos es una mezcla de múltiples disciplinas.
Inicialmente hablamos de IA, estadística, manejo de sistemas de información y sus BD, pero
implementa modelado matemático, reconocimiento de patrones y el aprendizaje de máquina.

¿Cómo funciona?
Usando datos existentes y relevantes, la minería de datos construye modelos para identificar
patrones entre estos atributos presentados.
En general, la minería de datos busca identificar cuatro tipos de patrones:
1. Asociaciones – Encuentran agrupaciones de cosas que suelen coexistir, como la
cerveza y los pañales, que van juntos en el análisis de la cesta de la compra.
2. Predicciones - Dicen la naturaleza de sucesos futuros de ciertos eventos basados en
lo que sucedió en el pasado, como predecir el ganador del Super Bowl o pronosticar
la temperatura absoluta de un día en particular.
3. Clústeres - Identifican agrupaciones naturales de cosas en función de sus
características conocidas, como la asignación de clientes en diferentes segmentos
según sus datos demográficos y comportamientos de compra anteriores.
4. Relaciones secuenciales - Descubren eventos ordenados por tiempo, como predecir
que un cliente bancario existente que ya tiene una cuenta corriente abrirá una cuenta
de ahorros seguida de una cuenta de inversión dentro de un año.
Algunos de estos patrones son explicativos (explican las interrelaciones y afinidades entre los
atributos) mientras otros son predictivos (prediciendo valores futuros de ciertos atributos).
Estos tipos de patrones han sido extraídos manualmente de los datos por los humanos por
siglos, pero el incremento de volumen de datos en tiempos modernos crea la necesidad de
enfoques automáticos.
Basados en la forma en que se extraen los patrones de los datos históricos, los algoritmos de
aprendizaje de los métodos de minería de datos pueden clasificarse en supervisados o no
supervisados.
Los algoritmos de aprendizaje supervisados incluyen en sus datos de entrenamiento atributos
descriptivos (variables independientes o de decisión), así como su atributo de clase (variable
de salida o de resultado).
Los algoritmos de aprendizaje no supervisados solo incluyen los atributos descriptivos en sus
datos de entrenamiento.
Las tareas de la minería de datos pueden clasificarse en tres categorías principales:
1. Predicción
2. Asociación
3. Agrupación (Clustering)

Predicción
Se refiere comúnmente al acto de decir el futuro. Difiere de simple adivinación tomando en
cuenta experiencias, opiniones, y otra información relevante.
Un término asociado con la predicción es el pronóstico. Muchos creen que son sinónimos, sin
embargo, hay una sutil, pero critica diferencia. La predicción es ampliamente basada en la
experiencia y la opinión, y el pronóstico en datos y modelos.
En la terminología de minería de datos, predicción y pronostico se usa indistintamente, incluso
el termino predicción predomina.
Dependiendo la naturaleza de lo predicho, esta puede ser llamada clasificación (lluvioso,
soleado) o regresión (24°c).

Clasificación (o inducción supervisada)


Es quizás la tarea más común de la minería de datos.
Su objetivo es analizar los datos históricos almacenados en una BD y generar
automáticamente modelos que predigan comportamientos futuros.
Las herramientas de clasificación comunes incluyen a las redes neuronales y a los árboles
de decisión (de machine learning), regresión logística y análisis discriminante (de las
estadísticas tradicionales), herramientas emergentes como conjuntos aproximados,
máquinas de vectores de soporte y algoritmos genéticos.

Agrupación (Clustering)
Particiona una colección de cosas (objetos, eventos, etc., presentado en un conjunto de
datos) en segmentos (o agrupaciones naturales) cuyos miembros comparten características
similares.
A diferencia de la clasificación, en el clustering las etiquetas de clase son desconocidas. Los
clústeres se establecen cuando los algoritmos seleccionados pasan a través de los datos
identificando las cosas en común en sus características.
Dado que los clústeres son determinados usando un algoritmo heurístico, y porque los
diferentes algoritmos pueden terminar con diferentes conjuntos de clústeres en los mismos
conjuntos de datos, la información deberá ser interpretada previamente por un experto, y
potencialmente ser modificada.
Las empresas a menudo utilizan eficazmente sus sistemas de minería de datos para realizar
la segmentación del mercado con análisis de clústeres.
El análisis de clústeres es un medio para identificar clases de elementos de modo que los
elementos de un clúster tengan más en común entre sí que con los elementos de otros.
Se puede utilizar para segmentar a los clientes y dirigir los productos de marketing adecuados
a los segmentos en el momento adecuado, en el formato adecuado y al precio adecuado.
Asociaciones
Las asociaciones, o aprendizaje de reglas de asociación en la minería de datos, es una
técnica popular y bien investigada para descubrir relaciones interesantes entre variables en
grandes bases de datos.
Gracias a las tecnologías de recopilación de datos automatizadas, como los lectores de
códigos de barras, el uso de reglas de asociación para descubrir regularidades entre
productos en transacciones a gran escala registradas por sistemas de punto de venta en los
supermercados se ha convertido en una tarea de descubrimiento de conocimiento común en
la industria minorista.
Dos derivados comúnmente utilizados de la minería de reglas de asociación son:
1. el análisis de enlaces
2. la minería de secuencias.
En el análisis de enlaces, el enlace entre muchos objetos de interés se descubre
automáticamente, como el enlace entre páginas web y las relaciones referenciales entre
grupos de autores de publicaciones académicas.
En la minería de secuencias, las relaciones se examinan en términos de su orden de aparición
para identificar asociaciones a lo largo del tiempo.
*Los algoritmos utilizados en la minería de reglas de asociación incluyen el popular Apriori
(donde se identifican conjuntos de elementos frecuentes) y FP-Growth, OneR, ZeroR y Eclat.

Visualización y pronóstico de series de tiempo


Dos técnicas que a menudo se asocian con la minería de datos son la visualización y el
pronóstico de series de tiempo.
La visualización se puede utilizar junto con otras técnicas de minería de datos para obtener
una comprensión más clara de las relaciones subyacentes.
A medida que la importancia de la visualización ha aumentado en los últimos años, ha surgido
un nuevo término, análisis visual. La idea es combinar análisis y visualización en un solo
entorno para una creación de conocimiento más fácil y rápida.
En el pronóstico de series de tiempo, los datos consisten en valores de la misma variable que
se capturan y almacenan a lo largo del tiempo en intervalos regulares. Luego, estos datos se
utilizan para desarrollar modelos de pronóstico para extrapolar los valores futuros de la misma
variable.

Minería de datos o estadísticas


La minería de datos y las estadísticas tienen mucho en común. Ambos buscan relaciones
dentro de los datos.
La mayoría considera que las estadísticas son la base de la minería de datos.
La principal diferencia entre los dos es que las estadísticas comienzan con una proposición e
hipótesis bien definidas, mientras que la minería de datos comienza con una declaración de
descubrimiento poco definida.
La estadística recopila datos de muestra (es decir, datos primarios) para probar la hipótesis,
mientras que la minería de datos y el análisis utilizan todos los datos existentes (es decir, a
menudo datos secundarios de observación) para descubrir patrones y relaciones novedosos.
Otra diferencia proviene del tamaño de los datos que utilizan.
La minería de datos busca conjuntos de datos que sean lo más "grandes" posible, mientras
que las estadísticas buscan el tamaño correcto de datos (si los datos son más grandes de lo
que se necesita / requiere para el análisis estadístico, se utiliza una muestra de los datos).
El significado de "datos grandes" es bastante diferente entre las estadísticas y la minería de
datos: aunque unos pocos cientos o miles de puntos de datos son lo suficientemente grandes
para un estadístico, varios millones o unos pocos miles de millones de puntos de datos se
consideran grandes para los estudios de minería de datos.
6 Minería de texto y análisis de sentimiento
Conceptos
Los datos e información disponibles electrónicamente crecen rápidamente y la mayoría de
los datos empresariales se almacena en documentos de texto virtualmente no estructurados.
Siempre decimos que el conocimiento es poder en el mundo de los negocios, pero el
conocimiento se deriva de los datos y la información, por lo que surge la necesidad de analizar
textos y minarlos para los negocios actuales.
De acuerdo a expertos el análisis de texto es un concepto amplio que incluye obtención de
información, extracción, minería de datos y minería web en la que la minería de textos se
enfoca primordialmente en descubrir nuevos y útiles conocimientos de fuentes de datos
textuales. Por lo tanto:
Análisis de texto = Extracción de información + Minería de texto

Minería de texto
El término análisis de texto se usa más comúnmente en el contexto de aplicaciones
comerciales, mientras que minería de texto se usa con frecuencia en los círculos de
investigación académica.
A pesar de que a veces se pueden definir de manera algo diferente, el análisis de texto y la
minería de texto generalmente se usan como sinónimos.
La minería de textos (también conocida como minería de datos de texto o descubrimiento de
conocimientos en bases de datos textuales) es el proceso semiautomático de extraer
patrones (información y conocimientos útiles) de grandes cantidades de fuentes de datos no
estructuradas.

Algunos beneficios
Los beneficios de la minería de textos son obvios en las áreas donde se generan grandes
cantidades de datos textuales, como en derecho (órdenes judiciales), investigación
académica (artículos de investigación), finanzas (informes trimestrales), medicina
(resúmenes de alta), biología (interacciones moleculares), tecnología (archivos de patentes)
y marketing (comentarios de los clientes).
Otra área en la que el procesamiento automatizado de texto no estructurado ha tenido un
gran impacto es en las comunicaciones electrónicas y el correo electrónico.
La minería de texto no solo se puede utilizar para clasificar y filtrar el correo electrónico no
deseado, sino que también se puede utilizar para priorizar automáticamente el correo
electrónico en función del nivel de importancia, así como para generar respuestas
automáticas.

Populares áreas de aplicación


• Extracción de información
• Rastreo de temas
• Resumen
• Categorización
• Creación de clústeres
• Vinculación de conceptos
• Respuesta a preguntas

Procesamiento de lenguaje natural (NLP)


De forma natural, nosotros (los humanos) no usamos palabras sin orden o estructura. Usamos
palabras en oraciones, que tienen estructura tanto semántica como sintáctica.
Por lo tanto, las técnicas automatizadas (como la minería de texto) deben buscar formas de
ir más allá de la interpretación de palabras mezcladas e incorporar una estructura más y más
semántica en sus operaciones.
La tendencia actual en la minería de texto es incluir muchas de las funciones avanzadas que
se pueden obtener mediante el procesamiento del lenguaje natural.
El NLP es un componente importante de la minería de textos y es un subcampo de la
inteligencia artificial y lingüística computacional.
Estudia el problema de "comprender" el lenguaje humano natural, con el fin de convertir
representaciones del lenguaje humano (como documentos textuales) en representaciones
más formales (en forma de datos numéricos y simbólicos) que sean más fáciles de manipular
por los programas de computadora.

Procesamiento de lenguaje natural (PLN)


La definición y el alcance de la palabra "comprensión" es uno de los principales temas de
discusión en la PLN.
Teniendo en cuenta que el lenguaje humano natural es vago y que una verdadera
comprensión del significado requiere un conocimiento extenso de un tema (más allá de lo que
está en las palabras, oraciones y párrafos).
¿Las computadoras alguna vez podrán entender el lenguaje natural de la misma manera y
con la misma precisión que los humanos? Probablemente no.
La PLN ha recorrido un largo camino desde los días del simple conteo de palabras, pero tiene
un camino aún más largo por recorrer para comprender realmente el lenguaje humano
natural.
Un área prominente donde se obtienen beneficios de la PLN es en la gestión de relación con
clientes (CRM).
Un área importante dentro de la CRM, es el análisis de sentimientos.

Análisis de sentimientos
Es una técnica que se utiliza para detectar opiniones favorables y desfavorables hacia
productos y servicios específicos utilizando una gran cantidad de fuentes de datos textuales
(comentarios de los clientes en forma de publicaciones en la Web).
La minería de textos también se utiliza para evaluar las quejas públicas.

Aplicaciones de la minería de textos


• Marketing – Incremento de ventas cruzando con conversaciones en call centers.
• Seguridad – Existe un sistema de vigilancia altamente clasificado de nombre
ECHELON, que supone el rastreo de crimen organizado.
• Biomédica – Analizando literatura médica en su interpretación masiva.
• Académica – De lo médico se ha pasado a las ciencias sociales.
Retomando el análisis de sentimientos
Los humanos somos seres sociales.
A menudo consultamos foros de discusión financiera antes de tomar una decisión de
inversión; pedir a nuestros amigos sus opiniones sobre un restaurante recién inaugurado o
una película recién estrenada; y realizar búsquedas en Internet y leer reseñas de
consumidores e informes de expertos antes de realizar una compra importante, como una
casa, un automóvil o un electrodoméstico.
Dependemos de las opiniones de los demás para tomar mejores decisiones, especialmente
en un área donde no tenemos mucho conocimiento o experiencia.

Análisis de sentimientos
El sentimiento es una palabra difícil de definir.
A menudo se vincula o se confunde con otros términos como creencia, punto de vista, opinión
y convicción.
El sentimiento tiene algunas propiedades únicas que lo distinguen de otros conceptos que tal
vez queramos identificar en el texto. A menudo queremos categorizar el texto por tema, lo
que puede implicar tratar con taxonomías completas de temas.
La clasificación de sentimientos, por otro lado, generalmente se ocupa de dos clases (positiva
versus negativa), un rango de polaridad (por ejemplo, calificaciones de estrellas para
películas) o incluso un rango en la fuerza de la opinión.
El análisis de sentimientos tiene muchos nombres. Seguido se le denomina minería de
opiniones, análisis de subjetividad y extracción de valoraciones, con algunas conexiones con
la computación afectiva (reconocimiento informático y expresión de emociones).
El análisis de sentimientos está tratando de responder a la pregunta "¿Qué sienten las
personas sobre un tema determinado?" profundizando en las opiniones de muchos utilizando
una variedad de herramientas automatizadas.
En un entorno empresarial, especialmente en marketing y gestión de relaciones con los
clientes, el análisis de sentimientos busca detectar opiniones favorables y desfavorables
hacia productos y / o servicios específicos utilizando una gran cantidad de fuentes de datos
textuales (comentarios de los clientes en forma de publicaciones web, tweets, blogs, etc.).
El sentimiento que aparece en el texto se presenta en dos sabores:

• Explícito, donde la oración subjetiva expresa directamente una opinión ("Es un día
maravilloso").
• Implícito, donde el texto implica una opinión (“La palanca se rompe con demasiada
facilidad").
Actualmente se estudian juntos y el reto incluye identificar sarcasmo.

Aplicaciones de análisis de sentimientos


• Voice of the customer (VOC)
• Voice of the market (VOM)
• Voice of the employee (VOE)
• Brand management
• Mercados financieros
• Política
• Inteligencia gubernamental
• Otras como mejorar diseño de sitios eCommerce, colocación de publicidad, motores
de búsqueda.

7 Minería Web
Introducción
La minería web es una de las tecnologías de más rápido crecimiento en inteligencia
empresarial y análisis empresarial.
Gracias a las herramientas y tecnologías de las redes sociales en Internet, todo el mundo lo
sabe todo. Las empresas exitosas son las que adoptan estas tecnologías de Internet y las
utilizan para mejorar sus procesos comerciales, de modo que puedan comunicarse mejor con
sus clientes, comprender sus necesidades y deseos y brindarles un servicio completo y
rápido. Centrarse en el cliente y mantenerlos contentos nunca ha sido un concepto tan
importante para las empresas como lo es ahora, en esta era de Internet y las redes sociales.
Aunque los datos textuales no estructurados en forma de páginas web codificadas en HTML
o XML son el contenido dominante de la web, la infraestructura web también contiene
información de hipervínculos (conexiones a otras páginas web) e información de uso
(registros de las interacciones de los visitantes con los sitios web), los cuales proporcionan
datos valiosos para el descubrimiento de conocimientos. El análisis de esta información
puede ayudarnos a hacer un mejor uso de los sitios web y también a mejorar las relaciones
y el valor para los visitantes de nuestros propios sitios web

Desafíos
La Web también plantea grandes desafíos para el descubrimiento de conocimiento eficaz y
eficiente:

• La Web es demasiado grande para una minería de datos eficaz. La Web es tan
grande y está creciendo tan rápidamente que es difícil incluso cuantificar su tamaño.
Debido a esto, no es factible configurar un almacén de datos (DW) para replicar,
almacenar e integrar todos los datos en la Web, lo que hace que la recopilación e
integración de datos sea un desafío.
• La Web es demasiado compleja. La complejidad de una página web es mucho
mayor que la de una página en una colección de documentos de texto tradicional. Las
páginas web carecen de una estructura unificada. Contienen mucho más estilo de
creación y variación de contenido que cualquier conjunto de libros, artículos u otro
documento tradicional basado en texto.
• La Web es demasiado dinámica. La Web no solo crece rápidamente, sino que su
contenido se actualiza constantemente. Blogs, noticias, resultados del mercado de
valores, informes meteorológicos, resultados deportivos, precios, anuncios de
empresas y muchos otros tipos de información se actualizan periódicamente en la
Web.
• La Web no es específica de un dominio. La Web sirve a una amplia diversidad de
comunidades y conecta miles de millones de estaciones de trabajo. Los usuarios de
la web tienen antecedentes, intereses y propósitos de uso muy diferentes. La mayoría
de los usuarios pueden no tener un buen conocimiento de la estructura de la red de
información y pueden no ser conscientes del alto costo de una búsqueda particular
que realizan.
• La Web lo tiene todo. Se dice que el 99 % de la información en la Web es inútil para
el 99 % de sus usuarios. Si bien esto puede no parecer obvio, es cierto que una
persona en particular generalmente está interesada en solo una pequeña parte de la
Web, mientras que el resto de la Web contiene información que no es interesante para
el usuario y puede inundar los resultados deseados. Encontrar la parte de la Web que
es realmente relevante para una persona y la tarea que se está realizando es un tema
destacado en la investigación relacionada con la Web.

¿Qué es el Web Mining?


La minería web (o minería de datos web) es el proceso de descubrir relaciones intrínsecas
(es decir, información interesante y útil) a partir de datos web, que se expresan en forma de
información textual, de enlace o de uso.
El término minería web fue utilizado por primera vez por Etzioni (1996) y es un área en
constante evolución de la tecnología y la práctica empresarial.
La minería web es esencialmente lo mismo que la minería de datos que utiliza datos
generados en la Web pues su objetivo es convertir vastos depósitos de transacciones
comerciales, interacciones con clientes y datos de uso del sitio web en información procesable
(es decir, conocimiento) para promover una mejor toma de decisiones en la empresa.

¿Web Analytics?
Debido a la creciente popularidad del término analítico (analytics), hoy en día muchos han
comenzado a llamar a la minería web analítica web. Sin embargo, estos dos términos no son
lo mismo.
Aunque el análisis web se centra principalmente en los datos de uso del sitio web, la minería
web incluye todos los datos generados a través de Internet, incluidos los datos de
transacciones, sociales y de uso. Mientras que el análisis web tiene como objetivo describir
lo que ha sucedido en el sitio web (empleando una metodología de análisis descriptivo
predefinida y basada en métricas), la minería web tiene como objetivo descubrir patrones y
relaciones previamente desconocidos (empleando una metodología de análisis prescriptiva o
predictiva novedosa).
Desde una perspectiva general, el análisis web puede considerarse parte de la minería web.

Taxonomía simple del Web Mining


Minería de contenido web y de estructura web
La minería de contenido web se refiere a la extracción de información útil de las páginas web.
Los documentos pueden extraerse en algún formato legible por máquina para que las técnicas
automatizadas puedan extraer alguna información de estas páginas web.
Los rastreadores (crawlers) web (también llamados arañas) se utilizan para leer
automáticamente el contenido de un sitio web. La información recopilada puede incluir
características del documento similares a las que se utilizan en la minería de texto, pero
también puede incluir conceptos adicionales, como la jerarquía del documento. Este proceso
automatizado (o semiautomatizado) de recopilación y extracción de contenido web se puede
utilizar para la inteligencia competitiva (recopilación de inteligencia sobre los productos,
servicios y clientes de los competidores). También se puede utilizar para recopilar y resumir
información/noticias/opiniones, análisis de sentimientos, recopilación automatizada de datos
y estructuración para modelos predictivos.
Como ejemplo ilustrativo del uso de la minería de contenido web como herramienta de
recopilación de datos automatizada, considere que los autores (Sharda y Delen) del libro
consultado han desarrollado modelos por más de 10 años para predecir el éxito financiero de
películas de Hollywood antes de que se estrenen.
Los datos que utilizan para entrenar los modelos provienen de varios sitios web, cada uno de
los cuales tiene una estructura de página jerárquica diferente.
Dicha recopilación de este gran conjunto de variables en miles de películas (de los últimos
años) en estos sitios web es un proceso propenso a errores y que requiere mucho tiempo.
Por lo tanto, utilizan la minería de contenido web y estas arañas como tecnología habilitadora
para recopilar, verificar, validar (si el elemento de datos específico está disponible en más de
un sitio web, los valores se validan entre sí, mientras que las anomalías se capturan y
registran) y almacenar automáticamente estos valores en una base de datos relacional. De
esa manera, aseguran la calidad de los datos mientras ahorran un tiempo valioso (días o
semanas) en el proceso.

Minería de contenido web e hipervínculos


Además del texto, las páginas web también contienen hipervínculos que apuntan a otra
página. Los hipervínculos contienen una cantidad significativa de anotaciones humanas
ocultas que potencialmente pueden ayudar a inferir automáticamente la noción de centralidad
o autoridad.
Cuando un desarrollador de una página web incluye un enlace que apunta a otra, esto puede
considerarse como la aprobación de esa otra página por parte del desarrollador. El respaldo
colectivo de una página dada por parte de diferentes desarrolladores en la Web puede indicar
la importancia de la página y, naturalmente, puede conducir al descubrimiento de páginas
web autorizadas. Por lo tanto, la gran cantidad de información de enlaces web proporciona
una rica colección de información sobre la relevancia, la calidad y la estructura de los
contenidos de la web y, por lo tanto, es una fuente muy importante para la minería web.

Ejemplo gráfico de un algoritmo para la relevancia de las páginas según su


rango

Minería de contenido web y motores de búsqueda


La minería de contenido web también se puede utilizar para mejorar los resultados producidos
por los motores de búsqueda. De hecho, la búsqueda es quizás la aplicación más
predominante de minería de contenido web y minería de estructuras web.
Una búsqueda en la web para obtener información sobre un tema específico generalmente
arroja unas pocas páginas web relevantes y de alta calidad junto con una gran cantidad de
páginas web inutilizables.
La idea de autoridad (de páginas) surge de un trabajo anterior de recuperación de información
que usaba citas entre artículos de revistas para evaluar el impacto de los trabajos de
investigación. Aunque ese fue el origen de la idea, existen diferencias significativas entre las
citas en artículos de investigación y los hipervínculos en páginas web.
1. No todos los hipervínculos representan un respaldo (algunos enlaces se crean con
fines de navegación y otros son para publicidad paga). Si la mayoría de los
hipervínculos son del tipo de respaldo, la opinión colectiva aún prevalecerá.
2. Por intereses comerciales y competitivos, una autoridad rara vez tendrá su página
web dirigida a autoridades rivales en el mismo dominio. Por ejemplo, Microsoft puede
preferir no incluir enlaces en sus páginas web a los sitios web de Apple, porque esto
puede considerarse como una aprobación de la autoridad de su competidor.
3. Las páginas autorizadas rara vez son particularmente descriptivas. Por ejemplo, la
página Web principal de Yahoo! puede no contener la autodescripción explícita de
que, de hecho, es un motor de búsqueda web.

Estructura de un motor de búsqueda de internet típico

Páginas concentradoras (hubs)


Otra categoría de páginas web son las concentradoras (hubs). Una página concentradora
(hub) es una o más páginas web que proporcionan una colección de enlaces a páginas
autorizadas, sitios destacados sobre un tema de interés específico. Una hub puede ser una
lista de enlaces recomendados en la página de inicio de un individuo, sitios de referen cia
recomendados en la página web de un curso o una lista de recursos ensamblada
profesionalmente sobre un tema específicoS
Las hubs juegan el papel de otorgar implícitamente las autoridades en un campo limitado. En
esencia, existe una estrecha relación simbiótica entre estas y las páginas autorizadas; una
buena hub es buena porque apunta a muchas buenas autoridades, y una buena autoridad es
buena porque muchas hubs buenas la señalan. Estas relaciones entre hubs y autoridades
hacen posible recuperar automáticamente contenido de alta calidad de la Web.
El algoritmo de referencia y conocido públicamente más popular que se utiliza para calcular
hubs y autoridades es la búsqueda de temas inducida por hipervínculos (HITS, por sus siglas
en inglés).
Originalmente fue desarrollado por Kleinberg (1999) y desde entonces ha sido mejorado por
muchos investigadores. HITS es un algoritmo de análisis de enlaces que califica las páginas
web utilizando la información de hipervínculos que contienen. En el contexto de la búsqueda
web, el algoritmo HITS recopila un conjunto de documentos base para una consulta
específica. Luego calcula recursivamente los valores de hub y autoridad para cada
documento.

Minería de estructuras web


La minería de estructuras web es el proceso de extraer información útil de los enlaces
incrustados en los documentos web. Se utiliza para identificar páginas y hubs autorizados,
que son las piedras angulares de los algoritmos contemporáneos de clasificación de páginas
que son fundamentales para los motores de búsqueda populares como Google y Yahoo!. Así
como los enlaces que llevan a una página web pueden indicar la popularidad (o autoridad) de
un sitio, los enlaces dentro de la página web (o el sitio web de la competencia) pueden indicar
la profundidad de la cobertura de un tema específico.
El análisis de enlaces es muy importante para comprender las interrelaciones entre un gran
número de páginas web, lo que conduce a una mejor comprensión de una comunidad o clan
web específica.

¡SUERTE!

También podría gustarte