0% encontró este documento útil (0 votos)
148 vistas22 páginas

06 - ETL - Implementacion - 4

Este documento describe el proceso ETL (extracción, transformación y carga) para mover datos entre sistemas de origen y un almacén de datos. Explica que el proceso ETL extrae datos de fuentes, los transforma para cargarlos en el almacén de datos y consume la mayor parte del tiempo y esfuerzo de construir un almacén de datos. También cubre conceptos como la zona de preparación, errores comunes en datos y herramientas ETL.

Cargado por

hunter_chinox
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
148 vistas22 páginas

06 - ETL - Implementacion - 4

Este documento describe el proceso ETL (extracción, transformación y carga) para mover datos entre sistemas de origen y un almacén de datos. Explica que el proceso ETL extrae datos de fuentes, los transforma para cargarlos en el almacén de datos y consume la mayor parte del tiempo y esfuerzo de construir un almacén de datos. También cubre conceptos como la zona de preparación, errores comunes en datos y herramientas ETL.

Cargado por

hunter_chinox
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 22

UNIVERSIDAD NACIONAL DE LA MATANZA

INTELIGENCIA DE NEGOCIOS

Proceso ETL - Implementación

Profesores: Ing. J. Sebastián Quevedo / Ing. Lorena R. Matteo

Autores PPT: Lic. Hugo M. Castro / Mg. Diego Basso

Fecha última actualización.: 10/05/2021


CICLO DE VIDA DE UN PROYECTO DE BI

Selección
Diseño
Productos e
Arquitectura
Instalación

IN v.2021
Planificación Definición Modelo Diseño Diseño
Requisitos Implementación Mantenimiento
del Proyecto Dimensional Físico ETL
de Negocio

Especificación Desarrollo de
Aplicación Aplicación
de Usuario de Usuario

Administración del Proyecto

2
PROCESO ETL - UBICACIÓN

IN v.2021
3 3
PROCESO ETL
 ¿Qué es ETL?
✓ E - Extract (Extracción)
✓ T - Transform (Transformación)
✓ L - Load (Carga)

IN v.2021
 Es el proceso que se define para tomar los datos de los
sistemas fuente y cargarlos en el DW.
 Consume el 70-80% del tiempo y esfuerzo de la
construcción de un DW.
 El proceso ETL es muy complejo y consume muchos
recursos.

4 4
PROCESO ETL - FUNCIONES
 Transfiere información de los sistemas transaccionales
y fuentes externas al DW.
 Guarda los datos luego de transferirlos al área de
preparación o Staging Area.

IN v.2021
 Minimizar al máximo nivel los posibles errores o problemas
en la fase de carga de los procesos ETL, normalmente se
reserva un área de disco para poder recuperar los datos por
etapas.
 Normaliza diversas fuentes de datos.
 Corrige datos incorrectos.
 Completa información faltante.
 Detecta problemas de calidad en los datos.
5 5
PROCESO ETL - FUNCIONES
 Mantiene las dimensiones del modelo dimensional.
 Agrega filas a las tablas de hechos.
 Genera métricas

IN v.2021
 Tiempos
 Volúmenes de datos
 Incidentes
 Permite puntos de control y auditoría.

6 6
PROCESO ETL
 Alguno de los subsistemas que tiene que incluir:
 Data Quality: son procesos y tecnologías que permiten
asegurar la calidad de los datos a las necesidades de negocio.
Data Profiling: es el proceso de examinar los datos que

IN v.2021

existen en las fuentes de origen de una organización y
recopilar estadísticas e información sobre los mismos.
 Data Cleansing: es el proceso de detectar o descubrir y
corregir datos corruptos, incoherentes o erróneos.

7 7
PROCESO ETL
✓ Extracción
 Se extraen los datos desde los distintos sistemas fuentes
(internos y externos).
 Datos con diferentes organización y formatos.

IN v.2021
 Se programa en horarios en que el impacto sea mínimo.

✓ Transformación
 Aplica reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados.
 Los datos se filtran, limpian, completan, homogenizan y
se agrupan.

8 8
PROCESO ETL
✓ Ejemplos de Transformación
 Seleccionar sólo ciertas columnas para su carga
❑ No cargar columnas con valores nulos

 Traducir códigos

IN v.2021
❑ si la fuente almacena una "H" para Hombre y "M" para
Mujer pero el DW tiene que guardar "1" para Hombre y
"2" para Mujer.
 Codificar valores libres
❑ Convertir "Hombre" en "H“

 Obtener nuevas medidas calculadas


❑ Importe_Venta = cantidad * precio

 Calcular totales de múltiples filas de datos


❑ Ventas totales por cada producto

9 9
PROCESO ETL
✓ Carga
 Los datos transformados se ordenan, se consolidan, se
verifica la integridad y se incorporan al DW (conjunto de
tablas que van a consultar los usuarios).

IN v.2021
 En las dimensiones en general se hacen Inserts o Updates.
 Lógica para manejar claves SK y claves operacionales.
 Tabla de Hechos:
❑ Separar inserts de updates: ideal es que sólo hayan
inserts.
❑ Carga incremental: distintos períodos de tiempo para la
carga de datos.
❑ Recuperación de fallas: Estar preparado ante fallas.

 Es un proceso repetitivo.
10 10
STAGING AREA
 Es un área temporal de almacenamiento de datos
utilizada para el procesamiento de los mismos
durante los procesos de ETL.
 Se toman los datos necesarios para las cargas, y se aplica

IN v.2021
el mínimo de transformaciones a los mismos.
 Una vez que los datos han sido traspasados, el DW se
independiza de los sistemas fuentes hasta la siguiente
carga.
 Se suele añadir algún campo de fecha para que en el caso
de falla evita empezar todo desde el principio.

11 11
STAGING AREA
 Se construyen y se implementan los procesos de
extracción, limpieza, transporte, transformación y
carga de los datos.
 Se utiliza una herramienta especializada en el

IN v.2021
tratamiento de grandes volúmenes de datos.

12 12
ERRORES TÍPICOS EN LOS DATOS
 Datos Incompletos
 Registros o campos faltantes

 Datos Incorrectos

IN v.2021
 Códigos erróneos
 Cálculos o agregaciones incorrectas
 Registros duplicados

 Datos Incomprensibles
 Varios campos dentro de un campo
 Formato extraño en los datos
 Códigos desconocidos
 Formatos de archivo extraños

13 13
ERRORES TÍPICOS EN LOS DATOS
 Datos Inconsistentes
 Uso inconsistente de la codificación
 Inconsistencia en el significado de los códigos
 Códigos superpuestos

IN v.2021
 Códigos distintos con igual significado
 Inconsistencia en nombres y direcciones
 Reglas de negocio inconsistentes
 Agregaciones inconsistentes
 Inconsistencia en la granularidad del nivel atómico de datos

14 14
HERRAMIENTAS ETL
 Adoptar una herramienta o hacerlo nosotros mismos.

Herramientas ETL Codificación Manual


Específicas Flexibilidad

IN v.2021
Metodologías ETL Técnicas de programación estándar
Personal capacitado en herramienta Recursos propios
Mayor costo inicial Menor costo inicial
Conectores múltiples Se deben desarrollar conectores
Simplifica el mantenimiento El mantenimiento se complejiza con el tiempo
Auto documentación (meta data) Se debe desarrollar
Trazabilidad de los datos Muy difícil de conseguir trazabilidad

15 15
CUADRANTE MÁGICO DE GARTNER
Si queremos conocer cuáles son las mejores herramientas
de ETL, una referencia importante es el Cuadrante
Mágico de Gartner sobre Herramientas de Integración de
Datos, que cada año indica cuáles son los

IN v.2021
proveedores leader del mercado. A Febrero de 2021 se
seleccionaron :
 Informática: líder según Gartner. Su suite
empresarial de integración de datos incluye la solución
PowerCenter, una de las más populares.
 IBM: proporciona la suite de soluciones InfoSphere, en
la cual destaca su herramienta DataStage.
 Talend: conocido por su software de integración de
código abierto gratuito Open Studio. 16 16
CUADRANTE MÁGICO DE GARTNER
 SAP: ofrece la herramienta ETL Data Services como
parte de SAP BO (Business Objects)
 SAS: proporciona una solución de integración de datos
llamada Data Management

IN v.2021
 Oracle: proporciona la herramienta ELT Data
Integrator, que permite gestionar procesos de
integración de datos en sistemas de inteligencia de
negocio.
 Denodo: ofrece la virtualización como principal
tecnología de integración de datos estructurados y no
estructurados. Con Denodo Express apuestan a ofrecer
el servicio de virtualización de manera gratuita.
17 17
CUADRANTE MÁGICO DE GARTNER
 Proveedores de herramientas de Integración de Datos
(Agosto 2020)

IN v.2021
18 18
LINKS DE INTERÉS
Todo BI
o Por que el ETL es crucial (todobi.com)
Data Integration - StrabeBI
o Data Integration - ETL – Stratebi
Definicion, Arquitectura ETL y más - StitchData

INv.2021
o ETL Database - a guide to ETL/ELT for data engineers and data analysts
(stitchdata.com)
o ETL Architecture — ETL Database (stitchdata.com)
3 Ways to Build An ETL Process - Panoply
o 3 Ways to Build An ETL Process with Examples | Panoply
Proceso de extracción, transformación y carga - Microsoft Azure)
o Extracción, transformación y carga de datos (ETL) - Azure Architecture Center |
Microsoft Docs
Webinar Mejores practicas y herramientas ETL – Software Gurú
o E11: Mejores prácticas y herramientas para ETL – YouTube
Webinar ETL - DaniSoft
o ETL Presentación | Creación de un Data Warehouse para BI | Webminar Viernes de BI
– YouTube 19
Modulo Bussiness Intelligence SQL Integration Services
o SQL Server Integration Services - YouTube
LINKS DE INTERÉS
ETL con Power BI

Canal SerDataPro
o Actualización Incremental en Power BI - Incremental Refresh – YouTube
Canal Raúl J. Chang T.
Business Intelligence ETL con Power BI – YouTube

INv.2021
o
Canal Jesús Domínguez Gutú
o Proceso ETL - YouTube
o Proceso ETL con Power BI (parte 1) – YouTube
o Proceso ETL con Power BI (parte 2) – YouTube
Canal Business Intelligence LATAM
o Business Intelligence LATAM - YouTube
o Visual Studio 2019 - BI Data Tools (SSDT) - Curso Data Warehouse + Business
Intelligence – YouTube
o Carga Incremental de Dimensiones usando SSIS Lookup - Curso DW + BI - YouTube
Canal Julio Olarte
o Como Crear una ETL con Visual Studio Comunity 2019 - YouTube
20
RESUMEN CLASE

IN v.2021
22
IN v.2021
23
23

También podría gustarte