Informe Etl

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 20

UNIVERSIDAD NACIONAL DANIEL ALCIDES CARRION

FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DE

SISTEMAS Y COMPUTACION

INFORME DE PROCESOS ETL Y METODOLOGIA


KIMBALL

Curso : Inteligencia de Negocios

Docente : Ing. MUÑOZ ROBLEZ, Williams

Integrantes :  CABELLO IZAGUIRE, Jhoel


 MONZON MUNGUIA, Pedro
 ROJAS LUIS, Romario
 MEDRANO CHAVES, Eder
 MARTIN OSORIO, WaldiR
 ROSALES VALDEON, Cristhian

PASCO – PERÚ – 2019


INTRODUCCIÓN
El presente informe contiene información acerca del desarrollo de las herramientas
ETL (Extract, Transform and Load), que proporciona soluciones para procesar y
analizar grandes volúmenes de información (BigData).

El desarrollo de esta herramienta cuenta con las ultimas tendencias en tecnología.

Donde para nosotros el principal objetivo de analizar la información con esta


herramienta ETL, es permitir realizar rápidas búsquedas y obtener un reporte o
informe que genere las predicciones de sus acciones para establecer y compartir una
visión fiable que servirá de soporte para la toma de decisiones.

En este tema veremos que esta herramienta nos ayudara a ordenar de una forma
más sencilla la información de un negocio, son una de las alternativas más dinámicas
de mostrar la información almacenada de forma abstracta en una manera más
explícita para que un humano experto la interprete, haciendo evidentes los patrones
para tomar decisiones en base a la información.
ÍNDICE
ETL - EXTRAER, TRANSFORMAR Y CARGAR ................................................................. 4

1. CONTENIDO ...................................................................................................................... 4
A. Proceso de Extracción ........................................................................................... 4
B. Proceso de Transformación ................................................................................ 6
C. Proceso de Carga ...................................................................................................... 7
D. ¿Cómo funcionan las Herramientas ETL? .................................................... 8
E. La Evolución de los Procesos ETL ................................................................... 9
F. Desafíos para los Procesos y Herramientas ETL ................................... 10
METODOLOGIA KIMBALL ........................................................................................................ 12

2. CONTENIDO .................................................................................................................... 12
3. RESUMEN ........................................................................................................................ 15
4. SUMMARY ....................................................................................................................... 16
5. RECOMENDACIONES ................................................................................................. 17
6. CONCLUSIONES ........................................................................................................... 17
7. APRECIACIÓN DEL EQUIPO ................................................................................... 18
8. GLOSARIO DE TÉRMINOS ....................................................................................... 18
9. LINKOGRAFÍA ............................................................................................................... 20
ETL - EXTRAER, TRANSFORMAR Y CARGAR
1. CONTENIDO
Extract, Transform and Load («Extraer, Transformar y Cargar», frecuentemente
abreviado ETL) es el proceso que permite a las organizaciones mover datos desde
múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra Base de
Datos, Data Mart, o Data Warehouse para analizar, o en otro sistema operacional
para apoyar un Proceso de Negocio.
Los procesos ETL también se pueden utilizar para la integración con Sistemas
Heredados. Se convirtieron en un concepto popular en los años 1970.

A. Proceso de Extracción

La primera parte del proceso ETL consiste en


extraer los datos desde los sistemas de
origen. La mayoría de los proyectos de
almacenamiento de datos fusionan datos
provenientes de diferentes sistemas de
origen. Cada sistema separado puede usar
una organización diferente de los datos o
formatos distintos. Los formatos de las
fuentes normalmente se encuentran en bases
de datos relacionales o ficheros planos, pero
pueden incluir bases de datos no relacionales
u otras estructuras diferentes. La extracción
convierte los datos a un formato preparado para iniciar el proceso de
transformación.
Una parte intrínseca del proceso de extracción es la de analizar los datos
extraídos, de lo que resulta un chequeo que verifica si los datos cumplen la
pauta o estructura que se esperaba. De no ser así los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de extracción es que
ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son
muchos, el sistema de origen se podría ralentizar e incluso colapsar,
provocando que éste no pueda utilizarse con normalidad para su uso cotidiano.
Por esta razón, en sistemas grandes las operaciones de extracción suelen
programarse en horarios o días donde este impacto sea nulo o mínimo.
Para llevar a cabo de manera correcta el proceso de extracción, primera fase
del ETL, hay que seguir los siguientes pasos:
 Extraer los datos desde los sistemas de origen.
 Analizar los datos extraídos obteniendo un chequeo.
 Interpretar este chequeo para verificar que los datos extraídos cumplen la
pauta o estructura que se esperaba. Si no fuese así, los datos deberían ser
rechazados.
 Convertir los datos a un formato preparado para iniciar el proceso de
transformación.

¿Qué hay que tener en cuenta durante el Proceso de Extracción?


Es necesario extremar la cautela en esta fase del proceso de ETL que es la
extracción, por lo que se debe tener en cuenta que:
 En el momento de la extracción, análisis e interpretación: los formatos en
que se presenten los datos o los modos como éstos estén organizados
pueden ser distintos en cada sistema separado, ya que la mayoría de
los proyectos de almacenamiento de datos fusionan datos provenientes de
diferentes sistemas de origen.
 En el momento de la conversión de datos: conviene recordar que los
formatos de las fuentes normalmente se encuentran en bases de datos
relacionales o ficheros planos, pero pueden incluir bases de datos no
relacionales u otras estructuras diferentes.
Sin embargo, la mesura más importante a considerar sería el exigir siempre
que la tarea de extracción cause un impacto mínimo en el sistema de origen.
Este requisito se basa en la práctica ya que, si los datos a extraer son muchos,
el sistema de origen se podría ralentizar e incluso colapsar, provocando que
no pudiera volver a ser utilizado con normalidad para su uso cotidiano.
Para evitar este impacto y sus consecuencias, en sistemas grandes las
operaciones de extracción suelen programarse en horarios o días donde
la interferencia con el sistema y su uso sea nula o mínimo.
B. Proceso de Transformación

La fase de transformación de un proceso de ETL aplica una serie de reglas de


negocio o funciones sobre los datos extraídos para convertirlos en datos que
serán cargados. Estas directrices pueden ser declarativas, pueden basarse en
excepciones o restricciones, pero, para potenciar su pragmatismo y eficacia,
hay que asegurarse de que sean:
 Declarativas.
 Independientes.
 Claras.
 Inteligibles.
 Con una finalidad útil para el negocio.

El lado más práctico del Proceso de Transformación


En ocasiones será necesario realizar alguna pequeña manipulación de los
datos, sin embargo, y dependiendo siempre de las fuentes de datos, a veces
los que hará falta será aplicar algunas de las siguientes transformaciones:
 Seleccionar sólo ciertas columnas para su carga (Por ejemplo, que las
columnas con valores nulos no se carguen).
 Traducir códigos (Por ejemplo, si la fuente almacena una “H” para Hombre
y “M” para Mujer, pero el destino tiene que guardar “1″ para Hombre y “2″
para Mujer).
 Codificar valores libres (Por ejemplo, convertir “Hombre” en “H” o “Sr” en
“1″).
 Obtener nuevos valores calculados (Por ejemplo, total_venta = cantidad *
precio).
 Unir datos de múltiples fuentes (Por ejemplo, búsquedas, combinaciones,
etc.).
 Calcular totales de múltiples filas de datos (Por ejemplo, ventas totales de
cada región).
 Generar campos clave en el destino.
 Transponer o pivotar (Girando múltiples columnas en filas o viceversa).
 Dividir una columna en varias (Por ejemplo, columna “Nombre: García,
Miguel”; pasar a dos columnas “Nombre: Miguel” y “Apellido: García”).
 Aplicar para formas simples o complejas, la acción que en cada caso se
requiera, como, por ejemplo:
 Datos OK: Entregar datos a la siguiente etapa (Fase de carga).
 Datos erróneos: Ejecutar políticas de tratamiento de excepciones.

C. Proceso de Carga

En esta fase, los datos procedentes de la fase anterior (Fase de


Transformación) son cargados en el sistema de destino. Dependiendo de los
requerimientos de la organización, este proceso puede abarcar una amplia
variedad de acciones diferentes. Por ejemplo, en algunas bases de datos será
necesario sobrescribir la información antigua con nuevos datos mientras que,
en otras, bastaría con resumir las transacciones y almacenar un promedio de
la magnitud considerada.

La data Warehouse mantienen un historial de los registros, de manera que es


posible en todo momento hacer una auditoría de los mismos. Esto permite
disponer de un rastro de toda la historia de un valor a lo largo del tiempo.

Desarrollo del proceso de Carga de Datos


Existen dos formas básicas de desarrollar el proceso de carga:
 Acumulación Simple: Esta manera de cargar los datos consiste en realizar
un resumen de todas las transacciones comprendidas en el período de
tiempo seleccionado y transportar el resultado como una única transacción
hacia la data Warehouse, almacenando un valor calculado que consistirá
típicamente en un sumatorio o un promedio de la magnitud considerada.
Es la forma más sencilla y común de llevar a cabo el proceso de carga.
 Rolling: Este proceso sería el más recomendable en los casos en que se
busque mantener varios niveles de granularidad. Para ello se almacena
información resumida a distintos niveles, correspondientes a distintas
agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en
alguna o varias de las dimensiones de la magnitud almacenada (por
ejemplo, totales diarios, totales semanales, totales mensuales, etc.).
Sea cual sea la manera de desarrollar este proceso elegida, hay que tener en
cuenta que esta fase interactúa directamente con la base de datos de destino
y, por eso, al realizar esta operación se aplicarán todas las restricciones que
se hayan definido en ésta. Si están bien definidas, la calidad de los datos en el
proceso ETL estará garantizada.
Ejemplos de estas restricciones pueden ser:
 Valores únicos.
 Integridad referencial.
 Campos obligatorios.
 Rangos de valores.

D. ¿Cómo funcionan las Herramientas ETL?

Un desarrollo reciente en el software ETL es la aplicación de procesamiento


paralelo. Este avance ha permitido desarrollar una serie de métodos que
mejoran el rendimiento general de los procesos ETL cuando se trata
de grandes volúmenes de datos.
Existen principalmente tres tipos
de paralelismo que se pueden
implementar en las aplicaciones
ETL. No sólo no son excluyentes,
sino que además pueden
combinarse para llevar a cabo
una misma operación ETL:
 Paralelismo de Datos: Consiste en dividir un único archivo secuencial en
pequeños archivos de datos para proporcionar acceso paralelo.
 Paralelismo de Segmentación (Pipeline): Se basa en permitir el
funcionamiento simultáneo de varios componentes en el mismo flujo de
datos. Un ejemplo de ello sería buscar un valor en el registro número 1 a
la vez que se suman dos campos en el registro número 2.
 Paralelismo de Componente: Este tipo de procesamiento consiste en el
funcionamiento simultáneo de múltiples procesos en diferentes flujos de
datos para el mismo puesto de trabajo.

Dificultades en el Procesamiento en Herramientas ETL


Actualización y sincronización son los caballos de batalla de esta fase del
proceso. La convivencia de distintos tipos de datos que provienen de orígenes
diferentes plantea esta dificultad y para superarla es necesario:
 Que los datos que se carguen sean relativamente consistentes, o lo que es
lo mismo:
 Que tengan sentido.
 Que su contenido esté acorde a las reglas de negocio.
 Que estén actualizados.
 Que las fuentes estén sincronizadas, por lo que hay que tener en cuenta
los ciclos de actualización de las bases de datos de origen, para lo cual
puede ser necesario:
 Detener ciertos datos momentáneamente.
 Establecer puntos de sincronización y de actualización, cuando un
almacén de datos necesite actualizarse con los contenidos en un
sistema de origen.

E. La Evolución de los Procesos ETL

Hasta hace unos años, al hablar de procesos ETL sólo se hacía referencia a lo
siguiente:
 Procesos de extracción de datos.
 Procesos de transformación de datos.
 Procesos de carga de datos.
 Gestión de metadatos.
 Servicios de administración y operacionales.
Actualmente, es necesario hablar de integración de datos (Data
Integration) como evolución de los procesos ETL. Aspectos tan importantes y
decisivos para un buen resultado a nivel de sistema como la calidad o el perfil
del dato, se han incorporado a la definición de ETL y por eso hoy día en ella se
encuentran incluidos todos los siguientes puntos:
 Servicios de acceso a datos.
 Data profiling.
 Data quality.
 Procesado de datos operacionales.
 Servicios de transformación: CDC, SCD, Validación, Agregación.
 Acceso en tiempo real.
 ETL.
 Transporte de datos.
 Gestión de metadatos.
 Servicios de entrega.

F. Desafíos para los Procesos y Herramientas ETL

Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado
puede causar importantes problemas operativos. Puede suceder que, en un
sistema operacional, el rango de valores de los datos o la calidad de éstos no
coincidan con las expectativas de los diseñadores a la hora de especificarse
las reglas de validación o transformación.
Para evitar este tipo de situaciones, es recomendable realizar durante el
análisis un examen completo de la validez de los datos (Data Profiling) del
sistema de origen, para identificar las condiciones necesarias para que los
datos puedan ser tratados adecuadamente por las reglas de transformación
especificadas. Esto conducirá a una modificación de las reglas de validación
implementadas en el proceso ETL.
Normalmente los Data Warehouse son alimentados de manera asíncrona
desde distintas fuentes, que obedecen a propósitos muy diferentes. El proceso
ETL es clave para lograr que los datos extraídos asíncronamente de orígenes
heterogéneos se integren finalmente en un entorno homogéneo, todo ello sin
perder la fluidez y agilidad que se desea.

La escalabilidad de los sistemas y los procesos ETL


La escalabilidad de un sistema de ETL durante su vida útil tiene que ser
establecida durante el análisis. En concreto, el término escalabilidad hace
referencia a la capacidad del sistema para reaccionar y adaptarse, para crecer
y para manejar con fluidez el crecimiento continuo de trabajo sin que ello
suponga un menoscabo en su calidad. Estas capacidades incluyen la
comprensión de los volúmenes de datos, que tendrán que ser procesados
según los acuerdos de nivel de servicio (SLA: Service Level Agreement).
El tiempo disponible para realizar la extracción de los sistemas de
origen podría cambiar, lo que implicaría que la misma cantidad de datos tendría
que ser procesada en menos tiempo. Algunos sistemas ETL son escalados
para procesar varios terabytes de dato, siendo capaces de actualizar un Data
Warehouse que puede contener decenas de terabytes de datos.
El aumento de los volúmenes de datos que pueden requerir estos sistemas
puede hacer que los lotes que se procesaban a diario pasen a procesarse en
micro-lotes (varios al día) o incluso a la integración con colas de mensajes o a
la captura de datos modificados (CDC: Change Data Capture) en tiempo real
para una transformación y actualización continua.

La funcionalidad de las Herramientas ETL


Las herramientas ETL no tienen por qué utilizarse sólo en entornos de Data
Warehousing o construcción de un Data Warehouse, sino que pueden ser
útiles para multitud de propósitos, como por ejemplo:
 Tareas de Bases de datos: Que también se utilizan para consolidar, migrar
y sincronizar bases de datos operativas.
 Migración de datos entre diferentes aplicaciones por cambios de versión o
cambio de aplicativos.
 Sincronización entre diferentes sistemas operacionales (Por ejemplo, entre
nuestro entorno ERP y la web de ventas).
 Consolidación de datos: Sistemas con grandes volúmenes de datos que
son consolidados en sistemas paralelos, ya sea para mantener históricos
o para llevar a cabo procesos de borrado en los sistemas originales.
 Interfases de datos con sistemas externos: Como el envío de información
a clientes o proveedores. También servirían para la recepción, proceso e
integración de la información recibida.
 Interfases con sistemas Frontoffice: Serían interfases de subida/bajada con
sistemas de venta.
 Otros cometidos: Como la actualización de usuarios a sistemas paralelos
o la preparación de procesos masivos (Tipo mailings o newsletter).
En referencia a este tema, el informe de Gartner hace una comparativa de los
productos más importantes del mercado, posicionándolos en el según
diferentes criterios, y hablando de las ventajas y puntos de riesgo de cada
fabricante; por lo que resulta muy útil a la hora de tener acceso a
las herramientas ETL más importantes.
METODOLOGIA KIMBALL

2. CONTENIDO
La metodología de Kimball, llamada Modelo Dimensional (Dimensional Modeling),
se basa en lo que se denomina Ciclo de Vida Dimensional del Negocio (Business
Dimensional Lifecycle). Esta metodología es considerada una de las técnicas
favoritas a la hora de construir un Data Warehouse.
En el Modelo Dimensional se constituyen modelos de tablas y relaciones con el
propósito de optimizar la toma de decisiones, con base en las consultas hechas en
una base de datos relacional que están ligadas con la medición o un conjunto de
mediciones de los resultados de los procesos de negocio.
El Modelo Dimensional es una técnica de diseño lógico que tiene como objetivo
presentar los datos dentro de un marco de trabajo estándar e intuitivo, para permitir
su acceso con un alto rendimiento. Cada Modelo Dimensional está compuesta por
una tabla con una llave combinada, llamada tabla de hechos, y con un conjunto de
tablas más pequeñas llamadas tablas de dimensiones. Los elementos de estas
tablas se pueden definir de la siguiente manera:
 Hechos: es una colección de piezas de datos y datos de contexto. Cada
hecho representa una parte del negocio, una transacción o un evento.
 Dimensiones: es una colección de miembros, unidades o individuos del
mismo tipo.
 Medidas: son atributos numéricos de un hecho que representan el
comportamiento del negocio relativo a una dimensión.
Cada punto de entrada a la tabla de hechos está conectado está conectado a una
dimensión, lo que permite determinar el contexto de los hechos.
Una base de datos dimensional se puede concebir como un cubo de tres o cuatro
dimensiones (OLAP), en el que los usuarios pueden acceder a una porción de la
base de datos a lo largo de cualquiera de sus dimensiones.
Dado que es muy común representar a un modelo dimensional como una tabla de
hechos rodeada por las tablas de dimensiones, frecuentemente se le denomina
también modelo estrella o esquema de estrella-unión
Otra variante es la que se conoce como snowflake o copo de nieve, en donde se
presentan ramificaciones a partir de las tablas de dimensiones y no solo a partir de la
tabla de hechos.
La metodología propuesta por Kimball, está compuesta por las siguientes fases:
A. Planificación del Proyecto: busca identificar la definición y el alcance que
tiene el proyecto de DWH. Esta etapa se concentra sobre la definición del
proyecto, donde, a nivel de planificación, se establece la identidad del mismo,
el personal, desarrollo del plan de proyecto, el seguimiento y la
monitorización.
B. Definición de los Requerimientos del Negocio: es un factor determinante en el
éxito de un proceso de DWH. Los diseñadores de los Data Warehouse deben
tener en claro cuáles son los factores claves que guían el negocio para
determinar efectivamente los requerimientos y traducirlos en consideraciones
de diseño apropiadas.
C. Modelado Dimensional: se comienza con una matriz donde se determina la
dimensional dad de cada indicador para luego especificar los diferentes
grados de detalle dentro de cada concepto del negocio.
D. Diseño Físico: se centra en la selección de las estructuras necesarias para
soportar el diseño lógico. Un elemento principal de este proceso es la
definición de estándares del entorno de la base de datos. La indexación y las
estrategias de particionalmente se determinan en esta etapa.
E. Diseño y Desarrollo de la presentación de datos: tiene como principales
actividades la extracción, transformación y carga (ETL). Estas actividades
son altamente críticas ya que tienen que ver con la materia prima del Data
Warehouse que son los datos.
F. Diseño de la arquitectura técnica: en esta fase se deben tener en cuenta tres
factores: los requerimientos de negocio, los actuales entornos técnicos, y las
directrices técnicas y estratégicas futuras planificadas por la compañía, lo que
permitirá establecer el diseño de la arquitectura técnica del entorno del Data
Warehouse.
El proceso de diseño de la arquitectura técnica este compuesto de 8 pasos:
 Establecer un grupo de trabajo de arquitectura
 Requisitos relacionados con la arquitectura
 Documento de requisitos arquitectónicos
 Desarrollo de un modelo arquitectónico de alto nivel
 Diseño y especificación de los subsistemas
 Determinar las fases de aplicación de la arquitectura
 Documento de la arquitectura técnica
 Revisar y finalizar la arquitectura técnica

G. Selección de productos e instalación: se evalúa y selecciona cuales son los


componentes necesarios específicos de la arquitectura (plataforma de
hardware, motor del BD, herramienta de ETL, etc).

Luego de realizar la instalación de los componentes previamente evaluados y


seleccionados, se recomienda una serie de premisas:
 Comprender el proceso de compras corporativas
 Elaborar una matriz de evaluación del producto
 Realizar la investigación de mercados
 Filtrar opciones y realizar evaluaciones más…. detalladas
 Manejo de un prototipo
 Selección del producto, instalación y negociación
 Especificación de Aplicaciones para usuario finales: se identifican los roles
o perfiles de usuarios para los diferentes tipos de aplicaciones necesarias
en base al alcance de los perfiles detectados.
 Desarrollo de aplicaciones para usuario finales: involucra configuraciones
de los metadatos y construcción de reportes específicos.
 Implementación: representa el correcto funcionamiento de la tecnología,
los datos y las aplicaciones de usuarios finales accesibles para el usuario
del negocio.
 Mantenimiento y crecimiento: se basa en la necesidad de continuar con
las actualizaciones de forma constante para así lograr la evolución de las
metas por conseguir.
 Gestión del proyecto: asegura que todas las actividades del ciclo de vida
se lleven a cabo de manera sincronizada.

3. RESUMEN
Extract, Transform and Load («Extraer, Transformar y Cargar», frecuentemente
abreviado ETL) es el proceso que permite a las organizaciones mover datos desde
múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra Base de
Datos, Data Mart, o Data Warehouse para analizar, o en otro sistema operacional
para apoyar un Proceso de Negocio.
La tarea de un diseñador de procesos de ETL involucra: (1) Analizar las fuentes de
datos existentes para encontrar la semántica oculta en ellas y (2) diseñar el flujo
de trabajo que extraiga los datos desde las fuentes, repare sus inconsistencias, los
transforme en un formato deseado, y, finalmente, los inserte en la bodega de datos.
Con el propósito de facilitar esta tarea, se han desarrollado diferentes técnicas, dos
categorías que sobresalen son: (a) Las inspiradas en los diagramas de flujo y de
procesos y (b) las inspiradas en el paradigma de programación orientada a objetos
(POO) y los diagramas de UML.
 Proceso de Extracción: La primera parte del proceso ETL consiste en extraer
los datos desde los sistemas de origen.
 Proceso de Transformación: La fase de transformación de un proceso de
ETL aplica una serie de reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados.
 Proceso de Carga: En esta fase, los datos procedentes de la fase anterior
(Fase de Transformación) son cargados en el sistema de destino.

4. SUMMARY
Extract, Transform and Load ("Extract, Transform and Load", often abbreviated
ETL) is the process that allows organizations to move data from multiple sources,
reformat and clean them, and load them into another Data Mart or Data Warehouse.
to analyze, or in another operational system to support a Business Process.
The task of an ETL process designer involves: (1) Analyzing the existing data
sources to find the semantics hidden in them and (2) designing the workflow that
extracts the data from the sources, repairs its inconsistencies, transforms them in
a desired format, and finally insert them into the data warehouse. In order to
facilitate this task, different techniques have been developed, two categories that
stand out are: (a) Inspired by flow diagrams and processes and (b) those inspired
by the paradigm of object-oriented programming (OOP) and the UML diagrams.
 Extraction Process: The first part of the ETL process consists in extracting the
data from the origin systems.
 Transformation Process: The transformation phase of an ETL process
applies a series of business rules or functions on the extracted data to convert
them into data that will be loaded.
 Load Process: In this phase, the data from the previous phase (Transformation
Phase) are loaded into the destination system.

5. RECOMENDACIONES

 En la práctica, una buena solución para simplificar algunas partes del proceso
puede ser, siempre que sea aplicable, el capturar los registros que contienen
datos no válidos en un archivo de rechazos para su posterior inspección.

 El siguiente paso sería analizar todos estos datos anómalos y actuar sobre
ellos. De esta manera, el diseño de procesos ETL será bastante sencillo y
contará con una entrada, una etapa de validación y dos salidas: registros
validados y datos sucios; mientras que la calidad de todo el proceso quedará
preservada.

6. CONCLUSIONES

 De acuerdo a la información recolectada y los resultados obtenidos en el


desarrollo de la herramienta ETL se llegaron a varias conclusiones, una de las
más importantes es el hecho de que existen herramientas en la actualidad que
permiten el procesamiento y análisis para datos masivos.

 Como segunda conclusión, es inevitable el crecimiento diario de la información


en la actualidad. El uso constante de internet en donde los mismos usuarios
son alimentadores de grandes bodegas de datos hace que existan nuevos
métodos para depurar los datos, ayudados por nuevas tecnologías o
soluciones es posible realizar una consulta en tiempo real utilizando las
herramientas ETL en una manera abstracta para el usuario.

 Sirve para integrar sistemas. Las organizaciones crecen de forma orgánica y


cada vez se van agregando más fuentes de datos. Esto provoca que comience
a surgir nuevas necesidades.

 Posibilita a los directivos tomar decisiones estratégicas basadas en el análisis


de los datos cargados en las bases nuevas y actualizadas: data warehouse.
 La implantación de un sistema ETL bien definido supone todo un reto puesto
que, para que sea realmente efectivo, debe permitir integrar los sistemas
legacy (algunos ya muy obsoletos) con los más modernos. Además, el acceso
a todos estos sistemas se debe producir no solo en modo de lectura, sino
también como escritura.

7. APRECIACIÓN DEL EQUIPO

 El desarrollo reciente en el software ETL es una aplicación de procesamiento


paralelo. Este avance ha permitido desarrollar una serie de métodos que
mejoran el rendimiento general de los procesos ETL en una organización
donde para ello necesitan mover sus datos desde múltiples fuentes,
reformatearlos, limpiarlos y cargarlos en una Base de Datos; cuando se trata
de grandes volúmenes de datos para apoyar un proceso operacional en un
negocio.

 Un procesos ETL puede ser muy complejo. Ya que si el sistema ETL está mal
diseñado puede causar importantes problemas operativos. Puede suceder
que, en un sistema operacional, el rango de valores de los datos o la calidad de
éstos no coincidan con las expectativas de los diseñadores a la hora de
especificarse las reglas de validación o transformación.

8. GLOSARIO DE TÉRMINOS
 ETL: Extract, Transform and Load («Extraer, Transformar y Cargar»)
 BIGDATA: (En español, grandes datos o grandes volúmenes de datos) Es un
término evolutivo que describe cualquier cantidad voluminosa de datos
estructurados, semiestructurados y no estructurados que tienen el potencial de
ser extraídos para obtener información.
 CDC: Change Data Capture.
 SISTEMAS FRONTOFFICE: Serían interfases de subida/bajada con sistemas
de venta.
 NEWSLETTER (Boletín): Es una publicación digital más bien informativa que
se distribuye a través del correo electrónico con cierta periodicidad (diaria,
semanal, mensual, bimensual o trimestral).
 MAILING: Es un formato más de publicidad utilizado mayormente para
promocionar servicios y productos de una marca. Se suele enviar a bases de
datos masivas no propias a la marca.
 INTELIGIBLES: Que puede ser comprendido o entendido.
 JAVASCRIPT: Lenguaje de programación orientado a objetos con funciones
de primera clase.
 JAVA: Lenguaje de programación que se orienta a objetos.
 SGBD (Sistema Gestor de Base de Datos): Sistema que permite la definición
de una base de datos, así como también su modificación, eliminación y
análisis.
 SINCRONIZACIÓN: Una sincronización incluye una réplica que envía cambios
de datos y la réplica relativa que los recibe. Los cambios de datos incluyen
inserciones, actualizaciones y eliminaciones realizadas en la versión de
réplica. Para realizar una sincronización, debe estar conectado como el mismo
usuario de la base de datos que creó la réplica o como el administrador de
Geodatabase.
 GEODATABASE (GBD): Es un modelo que permite el almacenamiento físico
de la información geográfica, ya sea en archivos dentro de un sistema de
ficheros o en una colección de tablas en un Sistema Gestor de Base de Datos
(Microsoft Access, Oracle, Microsoft SQL Server, IBM DB2 e Informix).
 META - DATA: Datos que resumen o describen otros datos.
 PERSISTENCIA: Propiedad que presentan los datos de permanecer después
de haber sido nominalmente eliminados.
 DATA PROFILING: Es el acto de analizar el contenido de tus datos. Junto
a data profniling tenemos dos componentes más que integrarían data quality.
Se trata de data correctio y data monitoring. Datacorrection es el acto de
corregir tus datos cuando se encuentran por debajo de los estándares.
 DATA QUALITY (Calidad de Datos): Mantener la información de las
organizaciones completa, precisa, consistente, actualizada, única y, lo más
importante, válida para el fin que se creó.
 PLATAFORMA: Sistema capaz de lograr el funcionamiento de determinados
módulos con los cuales es compatible.
 INDEXAR: ordenar una serie de datos de acuerdo a un patrón común con el
propósito de facilitar su consulta y análisis.
 PARALELISMO DE DATOS: Consiste en dividir un único archivo secuencial
en pequeños archivos de datos para proporcionar acceso paralelo.
 PARALELISMO DE SEGMENTACIÓN (Pipeline): Se basa en permitir el
funcionamiento simultáneo de varios componentes en el mismo flujo de datos.
 PARALELISMO DE COMPONENTE: Este tipo de procesamiento consiste en
el funcionamiento simultáneo de múltiples procesos en diferentes flujos de
datos para el mismo puesto de trabajo.
 DATA WAREHOUSE: Es el almacenamiento de información homogénea y
fiable, en una estructura basada en la consulta y el tratamiento jerarquizado de
la misma, y en un entorno diferenciado de los sistemas operacionales.
 SLA (Service Level Agreement): Es un contrato que describe el nivel de
servicio que un cliente espera de su proveedor. En español, también se llama
Acuerdo de Nivel de Servicio (ANS).
 ROLLING: Reversión es una operación que devuelve a la base de datos a
algún estado previo.
 GRANULARIDAD: La granularidad representa el nivel de detalle al que se
desea almacenar la información sobre el negocio que se esté analizando.
9. LINKOGRAFÍA
 http://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-que-
valen-productos-mas-conocidos-etl-s-open-sour
 http://chancrovsky.blogspot.com/2015/08/etl.html
 https://es.wikipedia.org/wiki/Extract,_transform_and_load
 https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288859/procesos-etl-
extracci-n-transformaci-n-carga
 http://www.dataprix.com/blog-it/business-intelligence/integracion-datos/guia-procesos-
eleccion-herramientas-etl
 https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/387310/calidad-de-datos-
en-procesos-etl-las-metas-que-debes-fijarte
 https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288887/C-mo-funcionan-
las-herramientas-ETL
 https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/288890/La-evoluci-n-de-
los-procesos-ETL
 https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/289577/Desaf-os-para-los-
procesos-y-herramientas-ETL

También podría gustarte