Informe Etl
Informe Etl
Informe Etl
SISTEMAS Y COMPUTACION
En este tema veremos que esta herramienta nos ayudara a ordenar de una forma
más sencilla la información de un negocio, son una de las alternativas más dinámicas
de mostrar la información almacenada de forma abstracta en una manera más
explícita para que un humano experto la interprete, haciendo evidentes los patrones
para tomar decisiones en base a la información.
ÍNDICE
ETL - EXTRAER, TRANSFORMAR Y CARGAR ................................................................. 4
1. CONTENIDO ...................................................................................................................... 4
A. Proceso de Extracción ........................................................................................... 4
B. Proceso de Transformación ................................................................................ 6
C. Proceso de Carga ...................................................................................................... 7
D. ¿Cómo funcionan las Herramientas ETL? .................................................... 8
E. La Evolución de los Procesos ETL ................................................................... 9
F. Desafíos para los Procesos y Herramientas ETL ................................... 10
METODOLOGIA KIMBALL ........................................................................................................ 12
2. CONTENIDO .................................................................................................................... 12
3. RESUMEN ........................................................................................................................ 15
4. SUMMARY ....................................................................................................................... 16
5. RECOMENDACIONES ................................................................................................. 17
6. CONCLUSIONES ........................................................................................................... 17
7. APRECIACIÓN DEL EQUIPO ................................................................................... 18
8. GLOSARIO DE TÉRMINOS ....................................................................................... 18
9. LINKOGRAFÍA ............................................................................................................... 20
ETL - EXTRAER, TRANSFORMAR Y CARGAR
1. CONTENIDO
Extract, Transform and Load («Extraer, Transformar y Cargar», frecuentemente
abreviado ETL) es el proceso que permite a las organizaciones mover datos desde
múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra Base de
Datos, Data Mart, o Data Warehouse para analizar, o en otro sistema operacional
para apoyar un Proceso de Negocio.
Los procesos ETL también se pueden utilizar para la integración con Sistemas
Heredados. Se convirtieron en un concepto popular en los años 1970.
A. Proceso de Extracción
C. Proceso de Carga
Hasta hace unos años, al hablar de procesos ETL sólo se hacía referencia a lo
siguiente:
Procesos de extracción de datos.
Procesos de transformación de datos.
Procesos de carga de datos.
Gestión de metadatos.
Servicios de administración y operacionales.
Actualmente, es necesario hablar de integración de datos (Data
Integration) como evolución de los procesos ETL. Aspectos tan importantes y
decisivos para un buen resultado a nivel de sistema como la calidad o el perfil
del dato, se han incorporado a la definición de ETL y por eso hoy día en ella se
encuentran incluidos todos los siguientes puntos:
Servicios de acceso a datos.
Data profiling.
Data quality.
Procesado de datos operacionales.
Servicios de transformación: CDC, SCD, Validación, Agregación.
Acceso en tiempo real.
ETL.
Transporte de datos.
Gestión de metadatos.
Servicios de entrega.
Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado
puede causar importantes problemas operativos. Puede suceder que, en un
sistema operacional, el rango de valores de los datos o la calidad de éstos no
coincidan con las expectativas de los diseñadores a la hora de especificarse
las reglas de validación o transformación.
Para evitar este tipo de situaciones, es recomendable realizar durante el
análisis un examen completo de la validez de los datos (Data Profiling) del
sistema de origen, para identificar las condiciones necesarias para que los
datos puedan ser tratados adecuadamente por las reglas de transformación
especificadas. Esto conducirá a una modificación de las reglas de validación
implementadas en el proceso ETL.
Normalmente los Data Warehouse son alimentados de manera asíncrona
desde distintas fuentes, que obedecen a propósitos muy diferentes. El proceso
ETL es clave para lograr que los datos extraídos asíncronamente de orígenes
heterogéneos se integren finalmente en un entorno homogéneo, todo ello sin
perder la fluidez y agilidad que se desea.
2. CONTENIDO
La metodología de Kimball, llamada Modelo Dimensional (Dimensional Modeling),
se basa en lo que se denomina Ciclo de Vida Dimensional del Negocio (Business
Dimensional Lifecycle). Esta metodología es considerada una de las técnicas
favoritas a la hora de construir un Data Warehouse.
En el Modelo Dimensional se constituyen modelos de tablas y relaciones con el
propósito de optimizar la toma de decisiones, con base en las consultas hechas en
una base de datos relacional que están ligadas con la medición o un conjunto de
mediciones de los resultados de los procesos de negocio.
El Modelo Dimensional es una técnica de diseño lógico que tiene como objetivo
presentar los datos dentro de un marco de trabajo estándar e intuitivo, para permitir
su acceso con un alto rendimiento. Cada Modelo Dimensional está compuesta por
una tabla con una llave combinada, llamada tabla de hechos, y con un conjunto de
tablas más pequeñas llamadas tablas de dimensiones. Los elementos de estas
tablas se pueden definir de la siguiente manera:
Hechos: es una colección de piezas de datos y datos de contexto. Cada
hecho representa una parte del negocio, una transacción o un evento.
Dimensiones: es una colección de miembros, unidades o individuos del
mismo tipo.
Medidas: son atributos numéricos de un hecho que representan el
comportamiento del negocio relativo a una dimensión.
Cada punto de entrada a la tabla de hechos está conectado está conectado a una
dimensión, lo que permite determinar el contexto de los hechos.
Una base de datos dimensional se puede concebir como un cubo de tres o cuatro
dimensiones (OLAP), en el que los usuarios pueden acceder a una porción de la
base de datos a lo largo de cualquiera de sus dimensiones.
Dado que es muy común representar a un modelo dimensional como una tabla de
hechos rodeada por las tablas de dimensiones, frecuentemente se le denomina
también modelo estrella o esquema de estrella-unión
Otra variante es la que se conoce como snowflake o copo de nieve, en donde se
presentan ramificaciones a partir de las tablas de dimensiones y no solo a partir de la
tabla de hechos.
La metodología propuesta por Kimball, está compuesta por las siguientes fases:
A. Planificación del Proyecto: busca identificar la definición y el alcance que
tiene el proyecto de DWH. Esta etapa se concentra sobre la definición del
proyecto, donde, a nivel de planificación, se establece la identidad del mismo,
el personal, desarrollo del plan de proyecto, el seguimiento y la
monitorización.
B. Definición de los Requerimientos del Negocio: es un factor determinante en el
éxito de un proceso de DWH. Los diseñadores de los Data Warehouse deben
tener en claro cuáles son los factores claves que guían el negocio para
determinar efectivamente los requerimientos y traducirlos en consideraciones
de diseño apropiadas.
C. Modelado Dimensional: se comienza con una matriz donde se determina la
dimensional dad de cada indicador para luego especificar los diferentes
grados de detalle dentro de cada concepto del negocio.
D. Diseño Físico: se centra en la selección de las estructuras necesarias para
soportar el diseño lógico. Un elemento principal de este proceso es la
definición de estándares del entorno de la base de datos. La indexación y las
estrategias de particionalmente se determinan en esta etapa.
E. Diseño y Desarrollo de la presentación de datos: tiene como principales
actividades la extracción, transformación y carga (ETL). Estas actividades
son altamente críticas ya que tienen que ver con la materia prima del Data
Warehouse que son los datos.
F. Diseño de la arquitectura técnica: en esta fase se deben tener en cuenta tres
factores: los requerimientos de negocio, los actuales entornos técnicos, y las
directrices técnicas y estratégicas futuras planificadas por la compañía, lo que
permitirá establecer el diseño de la arquitectura técnica del entorno del Data
Warehouse.
El proceso de diseño de la arquitectura técnica este compuesto de 8 pasos:
Establecer un grupo de trabajo de arquitectura
Requisitos relacionados con la arquitectura
Documento de requisitos arquitectónicos
Desarrollo de un modelo arquitectónico de alto nivel
Diseño y especificación de los subsistemas
Determinar las fases de aplicación de la arquitectura
Documento de la arquitectura técnica
Revisar y finalizar la arquitectura técnica
3. RESUMEN
Extract, Transform and Load («Extraer, Transformar y Cargar», frecuentemente
abreviado ETL) es el proceso que permite a las organizaciones mover datos desde
múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra Base de
Datos, Data Mart, o Data Warehouse para analizar, o en otro sistema operacional
para apoyar un Proceso de Negocio.
La tarea de un diseñador de procesos de ETL involucra: (1) Analizar las fuentes de
datos existentes para encontrar la semántica oculta en ellas y (2) diseñar el flujo
de trabajo que extraiga los datos desde las fuentes, repare sus inconsistencias, los
transforme en un formato deseado, y, finalmente, los inserte en la bodega de datos.
Con el propósito de facilitar esta tarea, se han desarrollado diferentes técnicas, dos
categorías que sobresalen son: (a) Las inspiradas en los diagramas de flujo y de
procesos y (b) las inspiradas en el paradigma de programación orientada a objetos
(POO) y los diagramas de UML.
Proceso de Extracción: La primera parte del proceso ETL consiste en extraer
los datos desde los sistemas de origen.
Proceso de Transformación: La fase de transformación de un proceso de
ETL aplica una serie de reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados.
Proceso de Carga: En esta fase, los datos procedentes de la fase anterior
(Fase de Transformación) son cargados en el sistema de destino.
4. SUMMARY
Extract, Transform and Load ("Extract, Transform and Load", often abbreviated
ETL) is the process that allows organizations to move data from multiple sources,
reformat and clean them, and load them into another Data Mart or Data Warehouse.
to analyze, or in another operational system to support a Business Process.
The task of an ETL process designer involves: (1) Analyzing the existing data
sources to find the semantics hidden in them and (2) designing the workflow that
extracts the data from the sources, repairs its inconsistencies, transforms them in
a desired format, and finally insert them into the data warehouse. In order to
facilitate this task, different techniques have been developed, two categories that
stand out are: (a) Inspired by flow diagrams and processes and (b) those inspired
by the paradigm of object-oriented programming (OOP) and the UML diagrams.
Extraction Process: The first part of the ETL process consists in extracting the
data from the origin systems.
Transformation Process: The transformation phase of an ETL process
applies a series of business rules or functions on the extracted data to convert
them into data that will be loaded.
Load Process: In this phase, the data from the previous phase (Transformation
Phase) are loaded into the destination system.
5. RECOMENDACIONES
En la práctica, una buena solución para simplificar algunas partes del proceso
puede ser, siempre que sea aplicable, el capturar los registros que contienen
datos no válidos en un archivo de rechazos para su posterior inspección.
El siguiente paso sería analizar todos estos datos anómalos y actuar sobre
ellos. De esta manera, el diseño de procesos ETL será bastante sencillo y
contará con una entrada, una etapa de validación y dos salidas: registros
validados y datos sucios; mientras que la calidad de todo el proceso quedará
preservada.
6. CONCLUSIONES
Un procesos ETL puede ser muy complejo. Ya que si el sistema ETL está mal
diseñado puede causar importantes problemas operativos. Puede suceder
que, en un sistema operacional, el rango de valores de los datos o la calidad de
éstos no coincidan con las expectativas de los diseñadores a la hora de
especificarse las reglas de validación o transformación.
8. GLOSARIO DE TÉRMINOS
ETL: Extract, Transform and Load («Extraer, Transformar y Cargar»)
BIGDATA: (En español, grandes datos o grandes volúmenes de datos) Es un
término evolutivo que describe cualquier cantidad voluminosa de datos
estructurados, semiestructurados y no estructurados que tienen el potencial de
ser extraídos para obtener información.
CDC: Change Data Capture.
SISTEMAS FRONTOFFICE: Serían interfases de subida/bajada con sistemas
de venta.
NEWSLETTER (Boletín): Es una publicación digital más bien informativa que
se distribuye a través del correo electrónico con cierta periodicidad (diaria,
semanal, mensual, bimensual o trimestral).
MAILING: Es un formato más de publicidad utilizado mayormente para
promocionar servicios y productos de una marca. Se suele enviar a bases de
datos masivas no propias a la marca.
INTELIGIBLES: Que puede ser comprendido o entendido.
JAVASCRIPT: Lenguaje de programación orientado a objetos con funciones
de primera clase.
JAVA: Lenguaje de programación que se orienta a objetos.
SGBD (Sistema Gestor de Base de Datos): Sistema que permite la definición
de una base de datos, así como también su modificación, eliminación y
análisis.
SINCRONIZACIÓN: Una sincronización incluye una réplica que envía cambios
de datos y la réplica relativa que los recibe. Los cambios de datos incluyen
inserciones, actualizaciones y eliminaciones realizadas en la versión de
réplica. Para realizar una sincronización, debe estar conectado como el mismo
usuario de la base de datos que creó la réplica o como el administrador de
Geodatabase.
GEODATABASE (GBD): Es un modelo que permite el almacenamiento físico
de la información geográfica, ya sea en archivos dentro de un sistema de
ficheros o en una colección de tablas en un Sistema Gestor de Base de Datos
(Microsoft Access, Oracle, Microsoft SQL Server, IBM DB2 e Informix).
META - DATA: Datos que resumen o describen otros datos.
PERSISTENCIA: Propiedad que presentan los datos de permanecer después
de haber sido nominalmente eliminados.
DATA PROFILING: Es el acto de analizar el contenido de tus datos. Junto
a data profniling tenemos dos componentes más que integrarían data quality.
Se trata de data correctio y data monitoring. Datacorrection es el acto de
corregir tus datos cuando se encuentran por debajo de los estándares.
DATA QUALITY (Calidad de Datos): Mantener la información de las
organizaciones completa, precisa, consistente, actualizada, única y, lo más
importante, válida para el fin que se creó.
PLATAFORMA: Sistema capaz de lograr el funcionamiento de determinados
módulos con los cuales es compatible.
INDEXAR: ordenar una serie de datos de acuerdo a un patrón común con el
propósito de facilitar su consulta y análisis.
PARALELISMO DE DATOS: Consiste en dividir un único archivo secuencial
en pequeños archivos de datos para proporcionar acceso paralelo.
PARALELISMO DE SEGMENTACIÓN (Pipeline): Se basa en permitir el
funcionamiento simultáneo de varios componentes en el mismo flujo de datos.
PARALELISMO DE COMPONENTE: Este tipo de procesamiento consiste en
el funcionamiento simultáneo de múltiples procesos en diferentes flujos de
datos para el mismo puesto de trabajo.
DATA WAREHOUSE: Es el almacenamiento de información homogénea y
fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de
la misma, y en un entorno diferenciado de los sistemas operacionales.
SLA (Service Level Agreement): Es un contrato que describe el nivel de
servicio que un cliente espera de su proveedor. En español, también se llama
Acuerdo de Nivel de Servicio (ANS).
ROLLING: Reversión es una operación que devuelve a la base de datos a
algún estado previo.
GRANULARIDAD: La granularidad representa el nivel de detalle al que se
desea almacenar la información sobre el negocio que se esté analizando.
9. LINKOGRAFÍA
http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-que-
valen-productos-mas-conocidos-etl-s-open-sour
http://chancrovsky.blogspot.com/2015/08/etl.html
https://es.wikipedia.org/wiki/Extract,_transform_and_load
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288859/procesos-etl-
extracci-n-transformaci-n-carga
http://www.dataprix.com/blog-it/business-intelligence/integracion-datos/guia-procesos-
eleccion-herramientas-etl
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/387310/calidad-de-datos-
en-procesos-etl-las-metas-que-debes-fijarte
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288887/C-mo-funcionan-
las-herramientas-ETL
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288890/La-evoluci-n-de-
los-procesos-ETL
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/289577/Desaf-os-para-los-
procesos-y-herramientas-ETL