06 - ETL - Implementacion - 4
06 - ETL - Implementacion - 4
INTELIGENCIA DE NEGOCIOS
Selección
Diseño
Productos e
Arquitectura
Instalación
IN v.2021
Planificación Definición Modelo Diseño Diseño
Requisitos Implementación Mantenimiento
del Proyecto Dimensional Físico ETL
de Negocio
Especificación Desarrollo de
Aplicación Aplicación
de Usuario de Usuario
2
PROCESO ETL - UBICACIÓN
IN v.2021
3 3
PROCESO ETL
¿Qué es ETL?
✓ E - Extract (Extracción)
✓ T - Transform (Transformación)
✓ L - Load (Carga)
IN v.2021
Es el proceso que se define para tomar los datos de los
sistemas fuente y cargarlos en el DW.
Consume el 70-80% del tiempo y esfuerzo de la
construcción de un DW.
El proceso ETL es muy complejo y consume muchos
recursos.
4 4
PROCESO ETL - FUNCIONES
Transfiere información de los sistemas transaccionales
y fuentes externas al DW.
Guarda los datos luego de transferirlos al área de
preparación o Staging Area.
IN v.2021
Minimizar al máximo nivel los posibles errores o problemas
en la fase de carga de los procesos ETL, normalmente se
reserva un área de disco para poder recuperar los datos por
etapas.
Normaliza diversas fuentes de datos.
Corrige datos incorrectos.
Completa información faltante.
Detecta problemas de calidad en los datos.
5 5
PROCESO ETL - FUNCIONES
Mantiene las dimensiones del modelo dimensional.
Agrega filas a las tablas de hechos.
Genera métricas
IN v.2021
Tiempos
Volúmenes de datos
Incidentes
Permite puntos de control y auditoría.
6 6
PROCESO ETL
Alguno de los subsistemas que tiene que incluir:
Data Quality: son procesos y tecnologías que permiten
asegurar la calidad de los datos a las necesidades de negocio.
Data Profiling: es el proceso de examinar los datos que
IN v.2021
existen en las fuentes de origen de una organización y
recopilar estadísticas e información sobre los mismos.
Data Cleansing: es el proceso de detectar o descubrir y
corregir datos corruptos, incoherentes o erróneos.
7 7
PROCESO ETL
✓ Extracción
Se extraen los datos desde los distintos sistemas fuentes
(internos y externos).
Datos con diferentes organización y formatos.
IN v.2021
Se programa en horarios en que el impacto sea mínimo.
✓ Transformación
Aplica reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados.
Los datos se filtran, limpian, completan, homogenizan y
se agrupan.
8 8
PROCESO ETL
✓ Ejemplos de Transformación
Seleccionar sólo ciertas columnas para su carga
❑ No cargar columnas con valores nulos
Traducir códigos
IN v.2021
❑ si la fuente almacena una "H" para Hombre y "M" para
Mujer pero el DW tiene que guardar "1" para Hombre y
"2" para Mujer.
Codificar valores libres
❑ Convertir "Hombre" en "H“
9 9
PROCESO ETL
✓ Carga
Los datos transformados se ordenan, se consolidan, se
verifica la integridad y se incorporan al DW (conjunto de
tablas que van a consultar los usuarios).
IN v.2021
En las dimensiones en general se hacen Inserts o Updates.
Lógica para manejar claves SK y claves operacionales.
Tabla de Hechos:
❑ Separar inserts de updates: ideal es que sólo hayan
inserts.
❑ Carga incremental: distintos períodos de tiempo para la
carga de datos.
❑ Recuperación de fallas: Estar preparado ante fallas.
Es un proceso repetitivo.
10 10
STAGING AREA
Es un área temporal de almacenamiento de datos
utilizada para el procesamiento de los mismos
durante los procesos de ETL.
Se toman los datos necesarios para las cargas, y se aplica
IN v.2021
el mínimo de transformaciones a los mismos.
Una vez que los datos han sido traspasados, el DW se
independiza de los sistemas fuentes hasta la siguiente
carga.
Se suele añadir algún campo de fecha para que en el caso
de falla evita empezar todo desde el principio.
11 11
STAGING AREA
Se construyen y se implementan los procesos de
extracción, limpieza, transporte, transformación y
carga de los datos.
Se utiliza una herramienta especializada en el
IN v.2021
tratamiento de grandes volúmenes de datos.
12 12
ERRORES TÍPICOS EN LOS DATOS
Datos Incompletos
Registros o campos faltantes
Datos Incorrectos
IN v.2021
Códigos erróneos
Cálculos o agregaciones incorrectas
Registros duplicados
Datos Incomprensibles
Varios campos dentro de un campo
Formato extraño en los datos
Códigos desconocidos
Formatos de archivo extraños
13 13
ERRORES TÍPICOS EN LOS DATOS
Datos Inconsistentes
Uso inconsistente de la codificación
Inconsistencia en el significado de los códigos
Códigos superpuestos
IN v.2021
Códigos distintos con igual significado
Inconsistencia en nombres y direcciones
Reglas de negocio inconsistentes
Agregaciones inconsistentes
Inconsistencia en la granularidad del nivel atómico de datos
14 14
HERRAMIENTAS ETL
Adoptar una herramienta o hacerlo nosotros mismos.
IN v.2021
Metodologías ETL Técnicas de programación estándar
Personal capacitado en herramienta Recursos propios
Mayor costo inicial Menor costo inicial
Conectores múltiples Se deben desarrollar conectores
Simplifica el mantenimiento El mantenimiento se complejiza con el tiempo
Auto documentación (meta data) Se debe desarrollar
Trazabilidad de los datos Muy difícil de conseguir trazabilidad
15 15
CUADRANTE MÁGICO DE GARTNER
Si queremos conocer cuáles son las mejores herramientas
de ETL, una referencia importante es el Cuadrante
Mágico de Gartner sobre Herramientas de Integración de
Datos, que cada año indica cuáles son los
IN v.2021
proveedores leader del mercado. A Febrero de 2021 se
seleccionaron :
Informática: líder según Gartner. Su suite
empresarial de integración de datos incluye la solución
PowerCenter, una de las más populares.
IBM: proporciona la suite de soluciones InfoSphere, en
la cual destaca su herramienta DataStage.
Talend: conocido por su software de integración de
código abierto gratuito Open Studio. 16 16
CUADRANTE MÁGICO DE GARTNER
SAP: ofrece la herramienta ETL Data Services como
parte de SAP BO (Business Objects)
SAS: proporciona una solución de integración de datos
llamada Data Management
IN v.2021
Oracle: proporciona la herramienta ELT Data
Integrator, que permite gestionar procesos de
integración de datos en sistemas de inteligencia de
negocio.
Denodo: ofrece la virtualización como principal
tecnología de integración de datos estructurados y no
estructurados. Con Denodo Express apuestan a ofrecer
el servicio de virtualización de manera gratuita.
17 17
CUADRANTE MÁGICO DE GARTNER
Proveedores de herramientas de Integración de Datos
(Agosto 2020)
IN v.2021
18 18
LINKS DE INTERÉS
Todo BI
o Por que el ETL es crucial (todobi.com)
Data Integration - StrabeBI
o Data Integration - ETL – Stratebi
Definicion, Arquitectura ETL y más - StitchData
INv.2021
o ETL Database - a guide to ETL/ELT for data engineers and data analysts
(stitchdata.com)
o ETL Architecture — ETL Database (stitchdata.com)
3 Ways to Build An ETL Process - Panoply
o 3 Ways to Build An ETL Process with Examples | Panoply
Proceso de extracción, transformación y carga - Microsoft Azure)
o Extracción, transformación y carga de datos (ETL) - Azure Architecture Center |
Microsoft Docs
Webinar Mejores practicas y herramientas ETL – Software Gurú
o E11: Mejores prácticas y herramientas para ETL – YouTube
Webinar ETL - DaniSoft
o ETL Presentación | Creación de un Data Warehouse para BI | Webminar Viernes de BI
– YouTube 19
Modulo Bussiness Intelligence SQL Integration Services
o SQL Server Integration Services - YouTube
LINKS DE INTERÉS
ETL con Power BI
Canal SerDataPro
o Actualización Incremental en Power BI - Incremental Refresh – YouTube
Canal Raúl J. Chang T.
Business Intelligence ETL con Power BI – YouTube
INv.2021
o
Canal Jesús Domínguez Gutú
o Proceso ETL - YouTube
o Proceso ETL con Power BI (parte 1) – YouTube
o Proceso ETL con Power BI (parte 2) – YouTube
Canal Business Intelligence LATAM
o Business Intelligence LATAM - YouTube
o Visual Studio 2019 - BI Data Tools (SSDT) - Curso Data Warehouse + Business
Intelligence – YouTube
o Carga Incremental de Dimensiones usando SSIS Lookup - Curso DW + BI - YouTube
Canal Julio Olarte
o Como Crear una ETL con Visual Studio Comunity 2019 - YouTube
20
RESUMEN CLASE
IN v.2021
22
IN v.2021
23
23