Este documento trata sobre los conceptos básicos de data warehouse, data marts y minería de datos. Explica definiciones, procesos, herramientas y consideraciones de diseño relacionadas con cada tema.
0 calificaciones0% encontró este documento útil (0 votos)
55 vistas22 páginas
Este documento trata sobre los conceptos básicos de data warehouse, data marts y minería de datos. Explica definiciones, procesos, herramientas y consideraciones de diseño relacionadas con cada tema.
Este documento trata sobre los conceptos básicos de data warehouse, data marts y minería de datos. Explica definiciones, procesos, herramientas y consideraciones de diseño relacionadas con cada tema.
Este documento trata sobre los conceptos básicos de data warehouse, data marts y minería de datos. Explica definiciones, procesos, herramientas y consideraciones de diseño relacionadas con cada tema.
Descargue como PPT, PDF, TXT o lea en línea desde Scribd
Descargar como ppt, pdf o txt
Está en la página 1de 22
Unidad 6.
Base de datos para el soporte de toma
de decisiones 6.1.1 Definicin Y objetivo
6.1 Bodegas de datos(Data warehouse)
Un Data Warehouse es una coleccin de datos orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar necesidades empresariales 1.3.2 Funcionamiento Un data warehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales.
* El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la informacin Institucional. * La innovacin de la Tecnologa de Informacin dentro de un ambiente data warehousing, puede permitir a cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones ms efectivo.
*Las organizaciones tienen que aprovechar sus recursos de informacin para crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de data warehouse.
2.1.3 consideraciones de Diseo
El diseo de un DW debe estar orientado a optimizar las consultas relacionadas con los aspectos del negocio que se desean estudiar, esto conduce a una estructura en estrella en la que el centro es la tabla fact o hecho que representa al factor principal por el que se desea analizar la base de datos. Alrededor de esta tabla aparecen las tablas dimensin, que representan los diferentes aspectos relacionados con el principal y que influyen en el estudio. * Entre los aspectos a tener en cuenta al afrontar el diseo de un DW hay que tener especial cuidado al:
*Identificar las tablas de hechos, ya que es posible tener ms de una. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos . 6.1.4 herramientas para extraer transformar y cargar fuentes de datos En los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacn de datos (o en cualquier base de datos). Implican las siguientes operaciones: * Extraccin. Accin de obtener la informacin deseada a partir de los datos almacenados en fuentes externas. *Transformacin. Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos.
*Repositorio Propio de Datos: informacin relevante, metadatos. *interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas ms sofisticadas (OLAP, EIS, minera de datos).
Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacn de datos objetivo normal.
*El sistema ETL, realiza las siguientes acciones : *Extraccin de los datos.
*Filtrado de los datos: limpieza, consolidacin.
*Carga inicial del almacn: ordenacin, agregaciones.
*Refresco del almacn: operacin peridica que propaga los cambios de las fuentes externas al almacn de datos.
6.2 Procesamiento y anlisis en lnea (OLAP).
6.2.1 Definiciones y conceptos OLAP (Procesamiento Analtico en Lnea / On LineAnalytical Processing) es una solucin utilizada en la Inteligencia de negocios cuyo objetivo es agilizar la consulta de grandes cantidades de datos para extraer algn tipo de informacin
6.2.2 Requerimientos funcionales de los sistemas OLAP.
Construir un datawarehouse y/o datamart.
Uso de herramientas de almacenamiento (bases de datos multidimensionales), herramientas de extraccin y coleccin, herramientas para reportes de usuario final y herramientas para anlisi inteligentes. Un servidor que sea altamente escalable. Un segundo servidor para las herramientas de consulta de datos.
6.2.3 Operadores para manejo de cubos de datos del estndar SQL3.
Qu es SQL3
El SQL3 es una extensin del estndar de bd SQL92 que incluye soporte para la administracin de bd orientadas a objetos.
SQL3 es un estndar para productos y no un producto en s.
Los cubos de informacin o cubos OLAP funcionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indefinido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos.
Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de informacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener informacin calculada.
3.2.4 diseo de consultas de base de datos Dimensionales El modelo UDM proporciona las siguientes ventajas:
Mejora notablemente el modelo del usuario.
Proporciona consultas de alto rendimiento que admiten un anlisis interactivo, incluso con grandes volmenes de datos.
Captura las reglas de negocio del modelo para proporcionar un anlisis mejorado.
Admite cerrar el ciclo, lo que permite que los usuarios acten segn los datos que ven.
3.2.5 UTILIZACION DE HERRAMIENTAS PARA OLAP Herramientas OLAP (On-Line Analytical Processing). Permiten obtener informacin generando consultas multidimensionales, con columnas y filas mviles y diversos grados de agrupamiento para diferentes parmetros.
Modelo Multidimensional:
Modelo estilo hoja de clculo.
a. Elementos:
b. Visin de Relaciones :
6.3 MERCADO DE DATOS DATA MARK Introduccin de data Mart
Los productos Data Warehouse han nacido para resolver problemas de anlisis de grandes masas de informacin, en empresas donde una pequea diferencia en el valor de una variable, puede afectar la cuenta de resultado con unas diferencias de millones de dlares.
Data Mart se destaca por una definicin de requerimientos ms fcil y rpida. Tambin se simplifica el desarrollo de todo el mecanismo de su base de datos y con ello baja substancialmente todo el coste del proyecto, as como su duracin.
Normalmente, Data Mart resuelve aplicaciones a nivel departamental, aunque en ocasiones se desarrolla una aplicacin que integre todas ellas y proporciona las funciones de un EIS (Executive Information System).
6.3.1 Definiciones o conceptos Definicin Un Data mart es una versin especial de almacn de datos (data warehouse). Son subconjuntos de datos con el propsito de ayudar a que un rea especfica dentro del negocio pueda tomar mejores decisiones. Los datos existentes en este contexto pueden ser agrupados, explorados y propagados de mltiples formas para que diversos grupos de usuarios realicen la explotacin de los mismos de la forma ms conveniente segn sus necesidades.
6.3.2 Fase de construccin Construccin del Data mart: Esta actividad tiene el objetivo de construir el modelo de datos, la metadata de la herramienta de Explotacin y La Arquitectura del Modelo Multidimensional en la herramienta de explotacin. * Construccin de los Procesos de Cargas: En sta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos. * Construccin de los reportes analticos: Consiste en construir los reportes, tableros de control, dashboard, scorecard. * Construccin de los procesos de prueba:Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados. 6.4 Minera de datos (Data mining) La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos Seleccin del conjunto de datos,. Anlisis de las propiedades de los datos, Transformacin del conjunto de datos de entrada, Seleccionar y aplicar la tcnica de minera de datos Extraccin de conocimiento, Interpretacin y evaluacin de datos, 6.4.1 Definiciones y conceptos El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.
Es una herramienta capaz de abarcar una amplia gama de dominios, desde aquellos de la recuperacin y extraccin de informacin, presentacin, resumen de multidocumentos, minera de datos aplicada a textos.
El datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes neuronales.
6.4.2 Aplicaciones de la minera de datos Negocios
La minera de datos puede contribuir significativamente en las aplicaciones de administracin empresarial basada en la relacin con el cliente. En lugar de contactar con el cliente de forma indiscriminada a travs de un centro de llamadas o enviando cartas, slo se contactar con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promocin. * En lugar de crear modelos para predecir qu clientes pueden cambiar, la empresa podra construir modelos separados para cada regin y/o para cada tipo de cliente.
Hbitos de compra en supermercados
El ejemplo clsico de aplicacin de la minera de datos tiene que ver con la deteccin de hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza.
Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano.
El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas. * Patrones de fuga
Un ejemplo ms habitual es el de la deteccin de patrones de fuga. En muchas industrias como la banca, las telecomunicaciones.
A estos clientes y en funcin de su valor se les podran hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo ltimo de retenerlos.
* 6.4.3 Diseo de la minera de base de datos Un proceso tpico de minera de datos consta de los siguientes pasos generales: 1. Seleccin del conjunto de datos, tanto en lo que se refiere a las variables dependientes, como a las variables objetivo, como posiblemente al muestreo de los registros disponibles. 2. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos). 3. Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema 4. Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o segmentacin.
5. Evaluar los resultados contrastndolos con un conjunto de datos previamente reservado para validar la generalidad del modelo. 6.4.4 Obtencin de informacin a travs de patrones de bsquedas Modelo o patrn
Un modelo es una descripcin global del conjunto de datos. Toma una perspectiva completa y total. En contraste un patrn es una propiedad local de los datos, tal vez slo la tienen ciertas instancias o atributos.
El reconocimiento de patrones, tambin llamado lectura de patrones, identificacin de figuras y reconocimiento de formas es el reconocimiento de patrones en seales. No slo es un campo de la informtica sino un proceso fundamental que se encuentra en casi todas las acciones humanas.
Entre las aplicaciones del reconocimiento de patrones son el reconocimiento de voz, la clasificacin de documentos, el reconocimiento de escritura y el reconocimiento de caras humanas.
6.4.5 Tcnicas y herramientas de la minera de datos.
La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin de los modelos de compra en lnea.
Los ms importantes de ellos son:
La importancia que han cobrado los datos no estructurados (texto, pginas de Internet).
La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet.
La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, que frente a un fraude con una tarjeta de crdito).
Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.