Examen Noriega
Examen Noriega
Examen Noriega
DataMart
La idea detrás del DataMart es aislar información de un área concreta dentro de la empresa.
Mientras que el DWH almacena toda la información, un DataMart contendrá información
departamental.
Según la estrategia, puede definir el DataMart como una parte del DWH o su DataMart se
puede ubicar en una base de datos separada y el DWH es la etapa anterior de su DataMart.
Puede aislar su DataMart del resto del entorno ubicándolo en un servidor diferente, en una
instancia de base de datos diferente, en una base de datos diferente, en un esquema de base
de datos diferente dentro de la misma base de datos o simplemente separándolo de una
manera lógica (por nombres de tablas, con prefijos o sufijos).
No hay una recomendación general para hacer esta separación, dependerá de la cantidad de
datos que administre dentro del DataMart en comparación con todo el entorno, su
presupuesto para implementar DataMart, el nivel de aislamiento que puede permitirse y la
parametrización que la implementación de su base de datos le permite realizar
Modelo lógico
Es muy posible que al ser parte del equipo de TI de una empresa que desea comenzar con
la definición de la estructura DWH requerida para respaldar el análisis de BI comience a
pensar en tablas, campos, tipos de datos, claves primarias, claves externas, vistas y otras
cosas técnicas, comenzando con la creación de una tabla de muestra que al final se convierte
en su tabla definitiva, pero luego puedes ver campos que faltan, no sabes cómo rellenarlos,
cómo se relacionan con el mismo campo en otras tablas, etc.
Se recomienda partir de una definición lógica del modelo requerido para implementar con
base en entidades y relaciones entre ellas en lugar de comenzar directamente con la
definición técnica.
Con un modelo lógico se puede ver qué tablas están relacionadas con otras, cuáles son los
campos que se pueden usar para unir esas tablas y se puede verificar fácilmente si los
requisitos del análisis comercial cumplen con el modelo que está proponiendo y su objetivo
principal.
Dentro de este modelo lógico, que se reflejará en el físico, encontramos tres tipos de tabla:
Hechos, Relaciones y Consulta.
Planteamiento
Has recibido la solicitud para implementar un almacén de datos dentro del servidor de base
de datos. Eres la persona elegida para liderar y tal vez desarrollar, pero esto siempre
dependerá del tamaño y los recursos de su empresa, una solución que debe permitirle a su
empresa el análisis de sus datos. Entonces, luego de hacer un análisis previo en base a tus
requerimientos de usuario, teniendo la base de datos disponible para avanzar y la información
suficiente para alimentar tu sistema debes comenzar con el desarrollo lógico y físico de la
solución de base de datos a la que se accederá desde la herramienta de BI.
Sabemos que tenemos un ERP disponible para usar como fuente de información; la base de
datos ya está elegida e instalada para asignar datos de la empresa.
El modelo a proponer es un análisis básico en diseño de copo de nieve que le permitirá
completar una tabla de hechos base, algunas tablas de dimensiones y búsquedas derivadas
para poder profundizar en la información desde el análisis de nivel superior hasta el más alto
nivel de detalle disponible.
TO_ST_AMB_NOMBREDESCRIPTIVO_SUFIJO
ST – Subtipo. Dimensionado en una sola letra, es una parte opcional especialmente utilizada
en tablas y vistas, que indica cual es el tipo de tabla o vista. En este ejercicio consideramos
tres tipos principales, relacionados con los tipos de tabla:
H: Tabla de Hechos.
C: Tabla de Consulta.
R: Tabla de Relación.
AMB – Parte relacionada al ambiente donde pertenece la tabla. Puede ser de entre 2 a 4
caracteres y varía dependiendo las necesidades. Una propuesta de ejemplo es:
DM: Datos maestros relacionados con clientes, productos, plantas, tiendas, tiempo o
cualquier otro dato que sea multifuncional.
VTA: Datos de ventas relacionados con el sistema de facturación.
FIN: Datos financieros relacionados con el sistema contable.
OP: Datos operativos relacionados con el proceso de producción.
RH: Subconjunto de información de recursos humanos.
ETP: Tablas de etapa provenientes del ERP u otras fuentes.
NombreDescriptivo – Es tan descriptiva que necesita mucha más explicación, debe
contener un nombre que permita identificar fácilmente qué información está contenida en la
tabla con palabras (o siglas) opcionalmente separadas por “_”. Ejemplo:
NOMBRE_DESCRIPTIVO.
Sufijo – Es una parte opcional recomendada especialmente para uso de marcado de tablas
temporales. En caso de necesitar cargar alguna tabla dada, necesita tres pasos, y se
recomienda que todos estos pasos tengan el mismo nombre que la tabla final, pero agregando
al final TMP1, TMP2 y TMP3 como sufijos.
Entonces, si tenemos una tabla (T) que es una consulta (C) del mes de facturación del
ambiente (entorno) de ventas (VTA), llamaremos a esta tabla:
T_C_VTA_FACTURACION_MES, sin ningún sufijo en este caso.
Nota: Al nombrar objetos en la base de datos, se debe validar cuál es el tamaño máximo de
nombre que permite. Como ejemplo, en Oracle el tamaño máximo del nombre de la tabla es
de 30 caracteres.
Modelado
Inicialmente vimos una descripción general del modelado de datos considerando
principalmente dos pasos en el proceso, definir el modelo lógico estableciendo un conjunto
de entidades, tipos de relaciones entre ellos y atributos que existen en cualquier tabla, y luego
seguir adelante con el modelo físico cuando ya definió todos los nombres de campo, tipos,
precisión y otras consideraciones físicas para la creación y ubicación de tablas.
Más es necesario agregar dos pasos al proceso de definición del modelo: el modelado de
negocios y el modelado dimensional. La figura abajo muestra todo el flujo de trabajo de
modelado.
Matriz de granularidad
En esta matriz de granularidad se puede ver que tendremos seis dimensiones en nuestro
modelo: Cliente, Producto, Tiempo, Planta, Empleado y Moneda; y tendremos cuatro áreas
de análisis: Ventas, Finanzas, Servicio al Cliente y Stock.
Dentro de la matriz ubicamos por dimensiones disponibles que serán el nivel de la dimensión
que tendremos para cada área de análisis.
Modelo lógico
Una vez que hayamos recopilado todos los requisitos y los hayamos integrado en nuestro
análisis comercial, podremos definir qué entidades deben tenerse en cuenta en nuestro
sistema. Para ello necesitaremos analizar en detalle cuáles son los conceptos que nuestros
usuarios clave esperan tener disponibles para analizar, solo validando que tenemos la
posibilidad de obtenerlos de nuestro sistema fuente.
Parece bastante lógico que si tienen algún requerimiento de análisis es porque lo están
usando en el ERP de origen, pero no se debe aceptar esto como verdad hasta validarlo.
A veces, no tendremos la posibilidad de acceder directamente al ERP de origen, sino a un
entorno de prueba intermedio en el que solo se extraen algunas tablas y algunos campos y
no tendremos acceso a los necesarios para implementar la funcionalidad relacionada. Otras
veces, el usuario desea analizar la información a nivel agregado que consolida en un archivo
de Excel que debe incluir en sus sistemas de origen.
Definiremos diferentes entidades relacionadas con cada dimensión.
La entidad principal contendrá la relación de unión con la entidad central, y el resto estarán
adscritos a esta entidad principal de cada dimensión. Como ejemplo, la entidad de tiempo
estará relacionada con la entidad de ventas y las entidades de mes, trimestre y año estarán
relacionadas con la de tiempo.
También en la definición del modelo lógico definiremos cómo se relacionan esas entidades,
si es una relación de uno a uno, de uno a muchos o de muchos a muchos. En la propuesta
inicial del modelo que estamos definiendo todas las relaciones son de uno a muchos.
Al analizar algunas opciones avanzadas veremos alguna excepción por la relación entre
ventas y moneda que será de muchos a muchos.
En otras palabras, tendremos varias filas para un cliente en la entidad de ventas, pero solo
una fila en la entidad de dimensión de cliente.
Similar a esto, las entidades secundarias de la dimensión tendrán una relación de uno a
muchos con la entidad principal. Siguiendo con el ejemplo, tendremos varios clientes en un
país, por lo que varias filas para un país determinado en la entidad del cliente, pero una sola
entrada para un país en la entidad País del cliente.
Finalmente, en un modelo lógico necesitamos definir qué atributos se colocan en cada
entidad, es decir, qué características de los diferentes conceptos de negocio estarán
disponibles para cada una.
En productos podríamos pensar en color, tamaño, categoría, planta de fabricación, o
cualquier otro concepto relacionado con el producto. En clientes podemos pensar en región,
ciudad, dirección, país, correo electrónico, etc. Para la dimensión de tiempo podemos tener
día, trimestre, semana, semestre, año, día de la semana, mes del año u otros atributos
relacionados con hora.
Modelo dimensional
Durante el proceso de modelado lógico, se deberá identificar los hechos a tener en cuenta y
las dimensiones que pueden considerarse como grupos de atributos relacionados entre ellos.
A veces esto se considera como parte del modelo lógico, pero especialmente en casos de
gran complejidad, puede hacerlo en un análisis separado obteniendo como resultado el
modelo dimensional de sus datos.
Al definir los tipos de relación entre atributos, vemos que pueden tener los mismos tipos de
relación que para las entidades, uno a uno, uno a muchos y muchos a muchos, pero en este
caso estamos teniendo en cuenta la granularidad esperada para los campos dentro tablas en
lugar de granularidad de tablas.
A veces los tipos de relación tienen un significado similar, pero con una diferencia conceptual.
Una relación de uno a muchos entre dos atributos es, por ejemplo, en el caso de Región de
Cliente y Cliente, la región puede múltiples clientes, pero el cliente tiene solo una región.
En el caso de un Código telefónico del País del Cliente y el País del Cliente, la relación es
uno a uno, es decir, un país puede tener solo un código, y un código de país puede pertenecer
solo a un país. Finalmente, tenemos dimensiones como es Estatus (Estado) que en esta
versión definiremos como una sola dimensión de atributo.
Además, sumado a este análisis gráfico, deberíamos obtener una lista de hechos que
queremos analizar en nuestro proyecto, con una descripción sobre la fuente y las condiciones.
Modelo físico
Este es el último paso del modelado antes de continuar con la creación de objetos en la base
de datos.
En este paso es especialmente útil usar una herramienta de modelado de datos ya que luego
de definir la estructura de tablas, columnas, tipos de columnas, claves primarias, claves
foráneas, etc. nos brinda una interfaz gráfica donde la mayoría de ellas brinda la posibilidad
de generar scripts para la creación de todos los objetos en la base de datos.
En nuestro modelo físico definiremos a las tablas como objetos principales para ubicar la
información, y estarán directamente relacionadas con las entidades, pues cada entidad será
mapeada a una tabla física.
Dependiendo de las opciones disponibles en nuestra base de datos, tendremos la posibilidad
de definir algunos parámetros relacionados con cada tabla, como partición, ubicación,
esquema o propietario, compresión y muchas otras características que variarán según el
software de base de datos y también del software de modelado elegido.
El siguiente paso será definir qué campos contendrán nuestras tablas que hemos definido en
nuestro sistema, los cuales estarán estrechamente relacionados con los atributos del modelo
lógico y dimensional.
Para los campos, definiremos el nombre siguiendo nuestras convenciones de nomenclatura;
el tipo de campo, normalmente serán numéricos; carácter o fecha, con diferentes subtipos
según la base de datos; definiremos también el tamaño y precisión del campo y otros
parámetros como si pueden ser nulos o no, entre otros, que también dependen de la base de
datos y la herramienta de modelado de datos.
Con tablas y campos tenemos la base para definir un proyecto de trabajo, pero hay algunos
otros elementos que pueden ayudarnos a mejorar el rendimiento y la integridad de los datos
en nuestro sistema. Son índices, claves primarias y claves foráneas.
Un índice es una estructura ordenada que contiene diferentes valores de un campo y un
apuntador donde se ubican estos datos, mejorando el tiempo de respuesta del sistema
cuando buscamos un valor dado.
Una clave principal es un índice que también define el conjunto de campos cuyas
combinaciones de valores identifican una sola fila en la tabla, no puede existir el mismo valor
de combinación repetida de campos de la clave principal en más de una fila.
Por otro lado en una tabla de hechos es posible que no podamos definir una clave primaria,
dependerá de nuestro diseño, pero normalmente en entornos de DataWarehouse se tendrá
información agregada al nivel deseado lo que provoca implícitamente que la clave sea
establecida por columnas incluidas en la cláusula group by..
También podemos tener en nuestro sistema claves foráneas, que son la equivalencia física
de relaciones entre entidades.
El uso de claves foráneas tiene sus ventajas y desventajas, por lo que, si desea
implementarlas, debe saber de antemano qué problemas puede sufrir.
La principal ventaja es que garantizan la integridad de los datos en las tablas. Si en la tabla
de ventas tiene una clave externa por identificador de producto en la tabla de dimensiones
del producto, se asegurará de que no tenga datos relacionados con un código de producto
inexistente, por lo que unirse a la tabla de productos no le causará ninguna pérdida de datos.
Una desventaja principal es que pueden complicar el proceso ETL y también causar cierta
lentitud durante la carga de datos.
Cuando habilitamos una clave foránea no se puede truncar la tabla referenciada, ni borrar
registros que tengan información relacionada en las tablas dependientes, algo que parece
lógico pero que a veces el proceso ETL es más fácil de manejar truncando y recargando
completamente algunas tablas de búsqueda y dimensiones.
En lugar de eso, necesitaremos el uso de declaraciones de inserción/actualización (INSERT,
UPDATE) o declaraciones de combinación si su base de datos y su herramienta ETL tienen
esta posibilidad. También hay algunos proveedores de bases de datos que permiten
deshabilitar las restricciones de claves principales para volver a cargar las tablas de referencia
y habilitarlas nuevamente una vez que finaliza la carga.
Reporte de negocio
Las herramientas de consulta y generación de informes brindan a los usuarios las principales
vías de acceso a los datos en sí.
Un reporte es un artefacto de comunicación, un documento escrito preparado con intención
especifica de información confiable en una forma presentable.
Si contiene información de negocio, entonces es llamado reporte de negocio, también se le
conoce como reporte empresarial.
Estos reportes son parte esencial del movimiento de BI para mejorar la administración en la
toma de decisiones.
Actualmente, estos reportes están más orientados visualmente, usando colores e iconos
gráficos que lucen como un cuadro de mando para mejorar el contenido de la información.
Estos reportes involucran procedimientos de ETL en coordinación de un DW y herramientas
de reporte.
Pueden distribuirse impresos o por email, pero típicamente se accede a ellos por una intranet
corporativa.
Las claves para cualquier reporte exitoso es que sean claros, breves, completos y correctos.
En cuestión de contenido y formato, podemos categorizarlos en:
1. Informales, de 10 paginas internos o de rutina.
2. Formales, de 10 a 100 páginas con resúmenes ejecutivos, estudio analítico o
profunda investigación.
3. Cortos, para informar sobre eventos o cambios en sistema.
La mayoría de las investigaciones en reporteo efectivo se dedica a los internos, para informar
a las partes interesadas y tomadores de decisiones.
También hay reportes externos entre empresas y gobiernos. La mayoría de estos reportes
formales están estandarizados.
Aunque existe una amplia variedad de reportes de negocio, los más utilizados para propósitos
administrativos se agrupan en tres categorías:
1. Administración de métricas.
2. Tipo tablero (dashboard).
3. Tipo cuadro de mando (scorecard).
Analítica visual
El término análisis visual fue acuñado recientemente y a menudo se usa imprecisamente para
significar solo visualización de información.
La analítica visual (visual analytics) es la combinación de la visualización y el análisis
predictivo.
La visualización se dirige a contestar “¿Qué pasó?” y está asociada con la inteligencia de
negocios, pero la analítica visual apunta a contestar “¿Por qué está pasando?”.
Visuales o no visuales, automatizado o manual, en linea o en papel, los reportes de negocio
son similares a contar una historia.
Medidas de desempeño
Todas las medidas son comparaciones.
Los números crudos tienen poco valor.
Por ejemplo, si dicen que un vendedor cumplió el 50 % de los negocios que tenía pendientes
en el mes no nos dice mucho.
En cambio, agregar que el mismo vendedor tuvo una tasa de negociación mensual de 30 %
el año pasado cambia.
En las medidas de desempeño, las comparaciones clave involucran estrategias, metas y
objetivos.
Las métricas operativas usadas para medir el desempeño se llaman usualmente indicadores
clave de desempeño (KPI).
Indicadores clave de desempeño (KPI)
Un KPI representa un objetivo estratégico y mide el desempeño frente a una meta.
Son multidimensionales, esto es, que tienen una variedad de características distintivas, como:
• Estrategia.
• Objetivos.
• Rangos.
• Codificaciones.
• Marcos de tiempo.
• Puntos de referencia.
Los KPI suelen distinguirse entre de resultado e impulsores.
Los Kpis de resultado, a veces conocidos como indicadores rezagados, miden el resultado
de la actividad pasada (por ejemplo, los ingresos). A menudo son de naturaleza financiera,
pero no siempre.
Los KPis impulsores, a veces conocidos como indicadores principales o impulsores de valor,
miden actividades que tienen un impacto significativo en los KPis de resultado (por ejemplo,
oportunidades de venta).
Los impulsores también son llamados operativos.
Tableros
Los tableros brindan presentaciones visuales de información importante que está consolidada
y organizada en una sola pantalla para que la información se pueda digerir de un solo vistazo
y se pueda profundizar y explorar más fácilmente.
El siguiente es un tablero típico donde se muestra una variedad de KPIs que intenta dar a los
tomadores de decisiones una rápida y certera idea de que es lo que está pasando dentro de
la organización.
A la izquierda se ven los cambios en ingresos, gastos y márgenes en una linea de tiempo. A
la derecha dos indicadores que muestran gastos mensuales con regiones codificadas por
color (semáforo).
4 Enfoques de BI
Enfoques de la Inteligencia de Negocios
Existen diferentes enfoques de BI que le otorgan diferentes funcionalidades. Algunas
herramientas de BI combinan más de un enfoque en una sola plataforma, pero por lo general
no cubren todas las funcionalidades. Debe definir el alcance de su proyecto antes de poder
elegir correctamente qué partes de la solución necesitará.
• Consulta e informes
• Intercambio de información
• Tableros
• Importación de datos
• Descubrimiento de datos
• MOLAP (Procesamiento analítico multidimensional en línea)
• Data Mining (Minería de datos)
Consultas e informes
Las consultas e informes son la etapa inicial de las implementaciones típicas de BI, en la
medida en que el objetivo principal de un sistema de BI es entregar información en algún
formato integral para su análisis. Esta información proviene de una base de datos, por lo que
para obtener esta información se usa una consulta que es una solicitud al almacén de datos
(DW) para extraer datos de allí. Solo que la información devuelta está en un formato fácil de
usar para que los analistas puedan leerla.
Es decir, cuando hablamos de este enfoque nos referimos no solo a la posibilidad de acceder
al DW para extraer información, sino también a una herramienta que permite analizarla,
profundizar en detalles, comprobar cifras destacadas, comprobar comportamientos inusuales
fuera de estándar, tendencias, filtrar la información que obtiene y formatearla según los
estándares de la empresa.
El principal beneficio de esta herramienta es que no es necesario conocer el lenguaje SQL
para poder extraer información de la BD; este SQL es generado automáticamente por la
herramienta BI. En algunos casos la herramienta puede darle la posibilidad de modificar,
afinar o escribir directamente desde cero el SQL que está lanzando, en caso de que el modelo
en la herramienta de BI no esté completamente adaptado a la BD, o que necesita obtener
información de otro conjunto de tablas que no está asignada al catálogo de BI.
Intercambio de información
Los analistas de la empresa estarán encantados de tener la posibilidad de utilizar informes y
consultas ad hoc y realizar análisis complicados creando métricas complejas, pero la gran
mayoría de los empleados estarán encantados si pueden acceder directamente a informes
ya creados u obtener sus informes en sus buzones de email o en una ubicación compartida.
El enfoque estándar en un entorno de BI es tener un pequeño subconjunto de empleados con
capacidades de analista que obtendrán beneficios con la solución de consultas e informes,
pero luego tener un grupo de desarrolladores (pueden ser el mismo grupo de analistas) que
crearán informes para compartir con el resto de la organización, ya sea a través de la misma
herramienta de BI para que los usuarios puedan conectarse a la herramienta de BI para
ejecutar informes también con las capacidades de BI habilitadas, o a través de algún servicio
de distribución como el email o una carpeta compartida.
Esta distribución generalmente se puede hacer con una herramienta de BI, ya que la mayoría
de ellos permiten enviar correos electrónicos automáticamente.
Tableros
Para entender rápido los tableros de BI, podemos pensar en el tablero de un avión. Allí puede
encontrar múltiples indicadores provenientes de diferentes fuentes que le brindan una visión
general sobre el rendimiento de todo el avión, desde los motores principales hasta los
alerones. Al igual que en el tablero del avión, un tablero de BI es especialmente relevante
para tener información sobre alertas, en la medida en que debe prestar especial atención a
aquellas métricas que están fuera del rango de trabajo estándar.
Como se ha comentado anteriormente, debemos enfocar nuestros tableros a aquellas
métricas (KPIs) que son realmente relevantes para el análisis que estamos haciendo y
también deben ser realmente significativas al compararlas con años anteriores o con
objetivos.
Los tableros de BI también pueden ofrecer algunas funciones, como selectores dinámicos,
paneles de información, gráficos en los que, al hacer clic en una parte del gráfico, actúa
filtrando una visualización dependiente; acceder a información detallada; acceder a un tablero
relacionado; todas las opciones de formato que pueda requerir en cuanto a colores, fuentes,
estilos, imágenes y formas; múltiples diseños de información; información sobre
herramientas; o incrustación de medios, entre otras características.
Importación de datos
Una de las principales tendencias en las plataformas de BI es la posibilidad de analizar
rápidamente la información al permitir que el usuario acceda a un canal para importar sus
propios archivos de datos en una interfaz de BI para implementar tableros rápidos con
múltiples visualizaciones relacionadas, brindando al usuario BI de autoservicio.
Esta posibilidad también reduce el tiempo de desarrollo de proyectos de BI que históricamente
han sido grandes proyectos con largos plazos de entrega.
Dependiendo de la herramienta, podrá importar archivos en diferentes formatos (Excel, CSV,
texto), conectarse a sus propias fuentes de datos, conectarse a interfaces de servicios web
como Xquer o usar archivos que se encuentran en plataformas compartidas en la nube.
Descubrimiento de datos
Muy relacionado con la importación de datos está el enfoque de descubrimiento de datos que
consiste en un conjunto de visualizaciones especialmente destinadas a encontrar tendencias
y excepciones de una manera muy fácil utilizando una interfaz muy intuitiva.
Este tipo de interfaz es la evolución directa de los tableros al simplificar los controles y menús,
limitando las opciones permitidas, pero centrándose en las más potentes. Tal vez el usuario
no tenga una cuadrícula de alineación muy precisa para crear gráficos perfectos, pero puede
relacionar fácilmente un gráfico con otro y filtrar ambos con paneles de filtrado simples.
La idea principal detrás del descubrimiento de datos es permitir que el usuario cree sus
propios tableros sin tener un conocimiento sólido de las herramientas de BI, solo con una
interfaz muy intuitiva con las funcionalidades principales.
MOLAP
Las BD de procesamiento analítico en línea multidimensional (MOLAP) están orientadas a
brindar un mejor rendimiento en el proceso de consulta. Por lo general, se ven como un cubo
en la medida en que tienen múltiples dimensiones.
Un cubo tiene solo tres dimensiones, pero es una forma ilustrativa de dibujarlas para
distinguirlas de las tablas relacionales de una base de datos relacional. En lugar de múltiples
tablas con hechos, relaciones e información de búsqueda, las bases de datos MOLAP tienen
toda la información junta, precalculada en todas las dimensiones, en todos los niveles de las
diferentes dimensiones considerando la intersección con todos los niveles del resto de las
dimensiones.
Este cálculo previo tiene dos implicaciones principales con respecto al rendimiento. (1) Las
recuperaciones de información de la base de datos son muy ágiles, pero, por otro lado, (2) la
carga de información en la base de datos MOLAP puede llevar mucho tiempo; en otras
palabras, si desea tener un tiempo de carga razonable, deberá moderar el nivel de detalle de
sus cubos MOLAP.
Difícilmente encontraremos una base de datos MOLAP con el mismo, ni parecido, nivel de
detalle que un DW.
Las bases de datos MOLAP también suelen tener la posibilidad de que los usuarios finales
guarden datos en ellas, y esta función abre la posibilidad de que se utilicen como
herramientas de planificación y elaboración de presupuestos. Es bastante común encontrar
una base de datos MOLAP con una dimensión llamada Escenario o Versión que se puede
usar para contener datos reales del año actual y previsión del próximo año, también con
diferentes versiones de la previsión futura para poder hacer análisis futuros, como, por
ejemplo, ¿qué pasaría si el próximo año aumento un 15% mis ventas invirtiendo un 10% más
en publicidad?
A veces, MOLAP no se considera una funcionalidad clásica de BI en la medida en que BI
pretendía ser una herramienta analítica de la realidad sin capacidades de escritura, pero hoy
en día es bastante importante tener la posibilidad de dibujar escenarios jugando con
diferentes variables y una vez que tienes definido cuál es tu objetivo, cierra el ciclo de vida de
la empresa intentando alcanzarlo.
Data Mining
MOLAP permite imaginar cómo puede ser el futuro, pero el Data Mining permitirá predecirlo.
La minería de datos hace lo anterior en función de nuestra capacidad para detectar
tendencias y patrones ocultos. Como es de esperarse, estas capacidades predictivas se
basan en información pasada y fórmulas de pronóstico, por lo que, aunque se puede hacer
un muy buen trabajo definiéndolas, existirá la posibilidad de que un hecho inesperado pueda
cambiar por completo el escenario, provocando resultados completamente diferentes de la
planificación.
Con Data Mining intentamos encontrar un modelo que justifique la relación entre la entrada y
la salida de nuestro proceso, para entender mejor el negocio.
Es especialmente interesante encontrar estos patrones para prestar atención a los valores
inusuales, los resultados nulos y la dispersión de datos porque pueden brindarle información
sobre la validez del modelo.
Entonces, si se desea obtener los resultados más precisos posible, se debe ser muy
exhaustivo al definir el modelo de minería de datos, al incluir tantas variables como sea
posible para obtener el modelo comercial que permitirá predecir resultados futuros.
Los cálculos de pronóstico básicos se basan en dos componentes principales: resultados
anteriores y tendencia. Luego, debe comenzar el análisis sobre cómo varían según las
diferentes dimensiones.
Por lo general, se comienza con el tiempo para ver si hay algún comportamiento estacional,
ciclo intramensual o de varios años.
Luego se puede intentar ver si el producto está afectando de alguna manera, debido al ciclo
de vida del producto, que es la correlación entre la inversión en publicidad y los ingresos
netos, o cualquier otra variable que se desee considerar.
Elegir la herramienta de BI
Para decidir correctamente, se debe tener en cuenta si se desea optar por una solución
gratuita o si existe el presupuesto para comprar una edición comercial. Si en este punto se
cree poder ir por un proyecto piloto y luego tendremos el presupuesto para licencias para ir
por el gran proyecto, entonces una opción comercial con una solución gratuita para el piloto
sería una buena estrategia.
Generalmente las herramientas comerciales son más robustas, con soporte, con más
inversión para el desarrollo y la innovación, por lo que debería ser algo a considerar como
una opción válida si se encuentra en esta situación.
La estrategia de su proyecto puede ser un enfoque clásico con informes estáticos basados
en un almacén de datos estructurado y enfocado en grandes desarrollos a nivel de base de
datos que requieren conocimientos técnicos para desarrollar e implementar los requisitos del
usuario, o nuevos enfoques de descubrimiento de datos que se enfocan en visualizaciones y
alto dinamismo para el usuario final, dándole autonomía importando datos él mismo y jugando
con diferentes visualizaciones hasta encontrar los patrones requeridos.
Los proyectos de informes clásicos también requieren el desarrollo de una infraestructura
dentro de la herramienta que genere grandes esfuerzos a largo plazo en el desarrollo del
proyecto hasta que el usuario final pueda ver los resultados. Por el contrario, existen
soluciones más robustas, especialmente para entornos grandes con cientos de usuarios y
miles de ejecuciones de informes por mes.
Por otro lado, las nuevas plataformas de BI enfocadas en el autoservicio de los usuarios les
permiten investigar las perspectivas de los datos, al agregar capacidades de investigación
que facilitan la tarea de obtener información relevante de nuestros datos, tales como hacer
drill, paginar, filtrar, seleccionar, y cruzando información de múltiples fuentes.
La herramienta básica para el análisis clásico son informes y documentos donde los usuarios
pueden ver datos simples filtrados, ordenados, con la capacidad de exportar a Excel,
utilizando BI como abastecimiento para Excel.
La herramienta básica para el análisis de descubrimiento de datos es el tablero. Si bien puede
crear informes simples que le permitan realizar análisis estáticos con más o menos detalles,
un tablero contiene mucha información disponible, pero solo muestra porciones y agregados
de la información y luego permite filtrar, segmentar, agregar o explorar la información para
lograr un análisis significativo.
Si bien los informes y documentos se utilizan como una herramienta intermedia para extraer
y analizar datos, el tablero puede ser el resultado final en el sentido de que puede mostrarlo
directamente en una reunión y realizar algún análisis para mostrar sus hallazgos dentro de
los datos. Con base en esto, la apariencia visual y el diseño del tablero tienen al menos la
misma importancia que los datos.
No hay que preocuparse demasiado por elegir, ya que hay soluciones (especialmente las
comerciales) que tienen todos los enfoques disponibles para poder hacer un proyecto piloto
importando Excels para ver cómo se ven y luego desarrollar un proyecto con toda la estructura
relacionada dentro de la herramienta de BI, tablas, atributos, dimensiones, hechos,
jerarquías, métricas, filtros, etc.
5 Minería de datos
Minería de datos
La cantidad de información que mantienen las compañías ha alcanzado niveles realmente
increíbles. Los datos que requerían un almacenaje de un cuarto completo de documentos
ahora pueden ser renderizados digitalmente y colocado en unos milímetros cuadrados con
los dispositivos actuales.
Todavía es probable que la esperanza sea la que conduce tendencias en el almacenamiento
de datos, gente que dedica su vida a encontrar tendencias escondidas en precios de acciones
e indicadores económicos esperando transformar esta información en utilidades.
Esa es la finalidad de la minería de datos, examinar océanos de datos de negocio pasados
para encontrar guías hacia el futuro.
La minería de datos es una técnica que analiza grandes volúmenes de datos para determinar
patrones y relaciones, usando análisis estadístico avanzado y técnicas de modelado.
Conceptualmente, su objetivo es generar hipótesis y correlacionar factores que puedan
usarse para mejorar el negocio. Pueden develar asociaciones extrañas pero útiles, por
ejemplo, una tienda descubrió que casi la mitad de los clientes que compran pañales los
viernes por la tarde también compran cerveza, lo que indica que pueden poner cerca un
producto del otro.
Generalmente hablando, la minería de datos es una forma de desarrollar inteligencia a partir
de datos que una organización colecta, organiza y almacena.
Usa técnicas estadísticas, matemáticas y de inteligencia artificial para identificar patrones que
pueden tener forma de reglas de negocios, afinidades, correlaciones, tendencias o modelos
de predicción.
Antecedentes
El concepto de minería de datos ha existido desde los años 50 del siglo pasado, con las
primeras computadoras. Ya se pensaba en la IA, que fue acuñada en 1956, como una forma
de atacar problemas al aprender cuando realiza algo incorrecto e intentar otras variables.
La idea evolucionó con los sistemas expertos entre los años 80 y 90, el software era ya mas
poderoso con reconocimiento de patrones e inicia la minería de datos.
El Dr. Arno Penzias, premio nobel, reconoció a la minería de datos en una entrevista para
Computerworld de 1999 como aplicación clave de las BD en corporaciones del futuro cercano
“si no están haciendo eso, estarán fuera del negocio”.
Thomas Davenport en un artículo de 2006 para Harvard Business Review, argumenta que la
más reciente arma estratégica para las compañías es la toma de decisiones analítica con
ejemplos como Amazon. Incrementar utilidades al entender clientes, vendedores, procesos
de negocio y la extendida cadena de suministros lo mejor posible (Sharda et al, 2014, pág.
190).
Los datos que se generan en internet se incrementan rápidamente en volumen y complejidad.
En lo comercial, la minería de datos ha sido comúnmente usada para finanzas, venta en
mostrador, y sector salud.
El término describe el descubrimiento de conocimiento en grandes cantidades de datos. Ha
sido la elección popular de la comunidad ya que otros términos son: extracción de
conocimiento, análisis de patrones, arqueología de datos, cosecha de información, dragado
de datos.
Como inteligencia de negocios, la minería de datos es una frase que atrapa. Conforme se
han refinado más las técnicas se han vuelto herramientas para todo tipo de negocios, muchos
vendedores de software ven a la minería de datos como un componente esencial de BI.
¿Cómo funciona?
Usando datos existentes y relevantes, la minería de datos construye modelos para identificar
patrones entre estos atributos presentados.
En general, la minería de datos busca identificar cuatro tipos de patrones:
1. Asociaciones – Encuentran agrupaciones de cosas que suelen coexistir, como la
cerveza y los pañales, que van juntos en el análisis de la cesta de la compra.
2. Predicciones - Dicen la naturaleza de sucesos futuros de ciertos eventos basados en
lo que sucedió en el pasado, como predecir el ganador del Super Bowl o pronosticar
la temperatura absoluta de un día en particular.
3. Clústeres - Identifican agrupaciones naturales de cosas en función de sus
características conocidas, como la asignación de clientes en diferentes segmentos
según sus datos demográficos y comportamientos de compra anteriores.
4. Relaciones secuenciales - Descubren eventos ordenados por tiempo, como predecir
que un cliente bancario existente que ya tiene una cuenta corriente abrirá una cuenta
de ahorros seguida de una cuenta de inversión dentro de un año.
Algunos de estos patrones son explicativos (explican las interrelaciones y afinidades entre los
atributos) mientras otros son predictivos (prediciendo valores futuros de ciertos atributos).
Estos tipos de patrones han sido extraídos manualmente de los datos por los humanos por
siglos, pero el incremento de volumen de datos en tiempos modernos crea la necesidad de
enfoques automáticos.
Basados en la forma en que se extraen los patrones de los datos históricos, los algoritmos de
aprendizaje de los métodos de minería de datos pueden clasificarse en supervisados o no
supervisados.
Los algoritmos de aprendizaje supervisados incluyen en sus datos de entrenamiento atributos
descriptivos (variables independientes o de decisión), así como su atributo de clase (variable
de salida o de resultado).
Los algoritmos de aprendizaje no supervisados solo incluyen los atributos descriptivos en sus
datos de entrenamiento.
Las tareas de la minería de datos pueden clasificarse en tres categorías principales:
1. Predicción
2. Asociación
3. Agrupación (Clustering)
Predicción
Se refiere comúnmente al acto de decir el futuro. Difiere de simple adivinación tomando en
cuenta experiencias, opiniones, y otra información relevante.
Un término asociado con la predicción es el pronóstico. Muchos creen que son sinónimos, sin
embargo, hay una sutil, pero critica diferencia. La predicción es ampliamente basada en la
experiencia y la opinión, y el pronóstico en datos y modelos.
En la terminología de minería de datos, predicción y pronostico se usa indistintamente, incluso
el termino predicción predomina.
Dependiendo la naturaleza de lo predicho, esta puede ser llamada clasificación (lluvioso,
soleado) o regresión (24°c).
Agrupación (Clustering)
Particiona una colección de cosas (objetos, eventos, etc., presentado en un conjunto de
datos) en segmentos (o agrupaciones naturales) cuyos miembros comparten características
similares.
A diferencia de la clasificación, en el clustering las etiquetas de clase son desconocidas. Los
clústeres se establecen cuando los algoritmos seleccionados pasan a través de los datos
identificando las cosas en común en sus características.
Dado que los clústeres son determinados usando un algoritmo heurístico, y porque los
diferentes algoritmos pueden terminar con diferentes conjuntos de clústeres en los mismos
conjuntos de datos, la información deberá ser interpretada previamente por un experto, y
potencialmente ser modificada.
Las empresas a menudo utilizan eficazmente sus sistemas de minería de datos para realizar
la segmentación del mercado con análisis de clústeres.
El análisis de clústeres es un medio para identificar clases de elementos de modo que los
elementos de un clúster tengan más en común entre sí que con los elementos de otros.
Se puede utilizar para segmentar a los clientes y dirigir los productos de marketing adecuados
a los segmentos en el momento adecuado, en el formato adecuado y al precio adecuado.
Asociaciones
Las asociaciones, o aprendizaje de reglas de asociación en la minería de datos, es una
técnica popular y bien investigada para descubrir relaciones interesantes entre variables en
grandes bases de datos.
Gracias a las tecnologías de recopilación de datos automatizadas, como los lectores de
códigos de barras, el uso de reglas de asociación para descubrir regularidades entre
productos en transacciones a gran escala registradas por sistemas de punto de venta en los
supermercados se ha convertido en una tarea de descubrimiento de conocimiento común en
la industria minorista.
Dos derivados comúnmente utilizados de la minería de reglas de asociación son:
1. el análisis de enlaces
2. la minería de secuencias.
En el análisis de enlaces, el enlace entre muchos objetos de interés se descubre
automáticamente, como el enlace entre páginas web y las relaciones referenciales entre
grupos de autores de publicaciones académicas.
En la minería de secuencias, las relaciones se examinan en términos de su orden de aparición
para identificar asociaciones a lo largo del tiempo.
*Los algoritmos utilizados en la minería de reglas de asociación incluyen el popular Apriori
(donde se identifican conjuntos de elementos frecuentes) y FP-Growth, OneR, ZeroR y Eclat.
Minería de texto
El término análisis de texto se usa más comúnmente en el contexto de aplicaciones
comerciales, mientras que minería de texto se usa con frecuencia en los círculos de
investigación académica.
A pesar de que a veces se pueden definir de manera algo diferente, el análisis de texto y la
minería de texto generalmente se usan como sinónimos.
La minería de textos (también conocida como minería de datos de texto o descubrimiento de
conocimientos en bases de datos textuales) es el proceso semiautomático de extraer
patrones (información y conocimientos útiles) de grandes cantidades de fuentes de datos no
estructuradas.
Algunos beneficios
Los beneficios de la minería de textos son obvios en las áreas donde se generan grandes
cantidades de datos textuales, como en derecho (órdenes judiciales), investigación
académica (artículos de investigación), finanzas (informes trimestrales), medicina
(resúmenes de alta), biología (interacciones moleculares), tecnología (archivos de patentes)
y marketing (comentarios de los clientes).
Otra área en la que el procesamiento automatizado de texto no estructurado ha tenido un
gran impacto es en las comunicaciones electrónicas y el correo electrónico.
La minería de texto no solo se puede utilizar para clasificar y filtrar el correo electrónico no
deseado, sino que también se puede utilizar para priorizar automáticamente el correo
electrónico en función del nivel de importancia, así como para generar respuestas
automáticas.
Análisis de sentimientos
Es una técnica que se utiliza para detectar opiniones favorables y desfavorables hacia
productos y servicios específicos utilizando una gran cantidad de fuentes de datos textuales
(comentarios de los clientes en forma de publicaciones en la Web).
La minería de textos también se utiliza para evaluar las quejas públicas.
Análisis de sentimientos
El sentimiento es una palabra difícil de definir.
A menudo se vincula o se confunde con otros términos como creencia, punto de vista, opinión
y convicción.
El sentimiento tiene algunas propiedades únicas que lo distinguen de otros conceptos que tal
vez queramos identificar en el texto. A menudo queremos categorizar el texto por tema, lo
que puede implicar tratar con taxonomías completas de temas.
La clasificación de sentimientos, por otro lado, generalmente se ocupa de dos clases (positiva
versus negativa), un rango de polaridad (por ejemplo, calificaciones de estrellas para
películas) o incluso un rango en la fuerza de la opinión.
El análisis de sentimientos tiene muchos nombres. Seguido se le denomina minería de
opiniones, análisis de subjetividad y extracción de valoraciones, con algunas conexiones con
la computación afectiva (reconocimiento informático y expresión de emociones).
El análisis de sentimientos está tratando de responder a la pregunta "¿Qué sienten las
personas sobre un tema determinado?" profundizando en las opiniones de muchos utilizando
una variedad de herramientas automatizadas.
En un entorno empresarial, especialmente en marketing y gestión de relaciones con los
clientes, el análisis de sentimientos busca detectar opiniones favorables y desfavorables
hacia productos y / o servicios específicos utilizando una gran cantidad de fuentes de datos
textuales (comentarios de los clientes en forma de publicaciones web, tweets, blogs, etc.).
El sentimiento que aparece en el texto se presenta en dos sabores:
• Explícito, donde la oración subjetiva expresa directamente una opinión ("Es un día
maravilloso").
• Implícito, donde el texto implica una opinión (“La palanca se rompe con demasiada
facilidad").
Actualmente se estudian juntos y el reto incluye identificar sarcasmo.
7 Minería Web
Introducción
La minería web es una de las tecnologías de más rápido crecimiento en inteligencia
empresarial y análisis empresarial.
Gracias a las herramientas y tecnologías de las redes sociales en Internet, todo el mundo lo
sabe todo. Las empresas exitosas son las que adoptan estas tecnologías de Internet y las
utilizan para mejorar sus procesos comerciales, de modo que puedan comunicarse mejor con
sus clientes, comprender sus necesidades y deseos y brindarles un servicio completo y
rápido. Centrarse en el cliente y mantenerlos contentos nunca ha sido un concepto tan
importante para las empresas como lo es ahora, en esta era de Internet y las redes sociales.
Aunque los datos textuales no estructurados en forma de páginas web codificadas en HTML
o XML son el contenido dominante de la web, la infraestructura web también contiene
información de hipervínculos (conexiones a otras páginas web) e información de uso
(registros de las interacciones de los visitantes con los sitios web), los cuales proporcionan
datos valiosos para el descubrimiento de conocimientos. El análisis de esta información
puede ayudarnos a hacer un mejor uso de los sitios web y también a mejorar las relaciones
y el valor para los visitantes de nuestros propios sitios web
Desafíos
La Web también plantea grandes desafíos para el descubrimiento de conocimiento eficaz y
eficiente:
• La Web es demasiado grande para una minería de datos eficaz. La Web es tan
grande y está creciendo tan rápidamente que es difícil incluso cuantificar su tamaño.
Debido a esto, no es factible configurar un almacén de datos (DW) para replicar,
almacenar e integrar todos los datos en la Web, lo que hace que la recopilación e
integración de datos sea un desafío.
• La Web es demasiado compleja. La complejidad de una página web es mucho
mayor que la de una página en una colección de documentos de texto tradicional. Las
páginas web carecen de una estructura unificada. Contienen mucho más estilo de
creación y variación de contenido que cualquier conjunto de libros, artículos u otro
documento tradicional basado en texto.
• La Web es demasiado dinámica. La Web no solo crece rápidamente, sino que su
contenido se actualiza constantemente. Blogs, noticias, resultados del mercado de
valores, informes meteorológicos, resultados deportivos, precios, anuncios de
empresas y muchos otros tipos de información se actualizan periódicamente en la
Web.
• La Web no es específica de un dominio. La Web sirve a una amplia diversidad de
comunidades y conecta miles de millones de estaciones de trabajo. Los usuarios de
la web tienen antecedentes, intereses y propósitos de uso muy diferentes. La mayoría
de los usuarios pueden no tener un buen conocimiento de la estructura de la red de
información y pueden no ser conscientes del alto costo de una búsqueda particular
que realizan.
• La Web lo tiene todo. Se dice que el 99 % de la información en la Web es inútil para
el 99 % de sus usuarios. Si bien esto puede no parecer obvio, es cierto que una
persona en particular generalmente está interesada en solo una pequeña parte de la
Web, mientras que el resto de la Web contiene información que no es interesante para
el usuario y puede inundar los resultados deseados. Encontrar la parte de la Web que
es realmente relevante para una persona y la tarea que se está realizando es un tema
destacado en la investigación relacionada con la Web.
¿Web Analytics?
Debido a la creciente popularidad del término analítico (analytics), hoy en día muchos han
comenzado a llamar a la minería web analítica web. Sin embargo, estos dos términos no son
lo mismo.
Aunque el análisis web se centra principalmente en los datos de uso del sitio web, la minería
web incluye todos los datos generados a través de Internet, incluidos los datos de
transacciones, sociales y de uso. Mientras que el análisis web tiene como objetivo describir
lo que ha sucedido en el sitio web (empleando una metodología de análisis descriptivo
predefinida y basada en métricas), la minería web tiene como objetivo descubrir patrones y
relaciones previamente desconocidos (empleando una metodología de análisis prescriptiva o
predictiva novedosa).
Desde una perspectiva general, el análisis web puede considerarse parte de la minería web.
¡SUERTE!