Herramientas Etl

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 7

“AÑO DEL DIALOGO Y LA RECONCILIACIÓN NACIONAL”

FACULTAD DE
INGENIERIA DE SISTEMAS

SEMESTRE: OCTAVO

CATEDRA: IMPLANTACIÓN DE SISTEMAS DE


INFORMACIÓN

CATEDRATICO: ING. GILMER MATOS VILA

TEMA

HERRAMIENTAS ETL

ESTUDIANTE: JUAN DE DIOS CUADRADO, Andres

HUACAYO-2018
FIS – UNCP – IMPLANTACIÓN DE SISTEMAS DE INFORMACIÓN
2018

HERRAMIENTAS ETL
1. Definición de ETL
ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and
Load). Es el proceso que permite a las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o
data warehouse para analizar, o en otro sistema operacional para apoyar un proceso
de negocio.
Los procesos ETL también se pueden utilizar para la integración con sistemas
heredados (aplicaciones antiguas existentes en las organizaciones que se han de
integrar con los nuevos aplicativos, por ejemplo, ERP´s. La tecnología utilizada en
dichas aplicaciones puede hacer difícil la integración con los nuevos programas).

2. Proceso de Extracción con Software ETL


La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de
origen. La mayoría de los proyectos de almacenamiento de datos fusionan datos
provenientes de diferentes sistemas de origen. Cada sistema separado puede usar
una organización diferente de los datos o formatos distintos. Los formatos de las
fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos,
pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La
extracción convierte los datos a un formato preparado para iniciar el proceso de
transformación.
Una parte intrínseca del proceso de extracción es la de analizar los datos extraídos,
de lo que resulta un chequeo que verifica si los datos cumplen la pauta o estructura
que se esperaba. De no ser así los datos son rechazados.
Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta
cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el
sistema de origen se podría ralentizar e incluso colapsar, provocando que éste no
pueda utilizarse con normalidad para su uso cotidiano. Por esta razón, en sistemas
grandes las operaciones de extracción suelen programarse en horarios o días donde
este impacto sea nulo o mínimo.

Interfaz Gráfico herramienta ETL


FIS – UNCP – IMPLANTACIÓN DE SISTEMAS DE INFORMACIÓN
2018

3. Proceso de Transformación con una Herramienta ETL


La fase de transformación de un proceso de ETL aplica una serie de reglas de
negocio o funciones sobre los datos extraídos para convertirlos en datos que serán
cargados. Algunas fuentes de datos requerirán alguna pequeña manipulación de los
datos. No obstante, en otros casos pueden ser necesarias aplicar algunas de las
siguientes transformaciones:

 Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las
columnas con valores nulos no se carguen).
 Traducir códigos (por ejemplo, si la fuente almacena una “H” para Hombre y
“M” para Mujer, pero el destino tiene que guardar “1″ para Hombre y “2″ para
Mujer).
 Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Sr” en “1″).
 Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad *
precio).
 Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones,
etc.).
 Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de
cada región).
 Generación de campos clave en el destino.
 Transponer o pivotar (girando múltiples columnas en filas o viceversa).
 Dividir una columna en varias (por ejemplo, columna “Nombre: García,
Miguel”; pasar a dos columnas “Nombre: Miguel” y “Apellido: García”).
 La aplicación de cualquier forma, simple o compleja, de validación de datos, y
la consiguiente aplicación de la acción que en cada caso se requiera:
o Datos OK: Entregar datos a la siguiente etapa (Carga).
o Datos erróneos: Ejecutar políticas de tratamiento de excepciones (por
ejemplo, rechazar el registro completo, dar al campo erróneo un
valor nulo o un valor centinela).

Interfaz Gráfico de la herramienta ETL Kettle - Pentaho


FIS – UNCP – IMPLANTACIÓN DE SISTEMAS DE INFORMACIÓN
2018

4. Proceso de Carga con Software de ETL


La fase de carga es el momento en el cual los datos de la fase anterior
(transformación) son cargados en el sistema de destino. Dependiendo de los
requerimientos de la organización, este proceso puede abarcar una amplia variedad
de acciones diferentes. En algunas bases de datos se sobrescribe la información
antigua con nuevos datos. La data warehouse mantienen un historial de los registros
de manera que se pueda hacer una auditoría de los mismos y disponer de un rastro
de toda la historia de un valor a lo largo del tiempo.
Existen dos formas básicas de desarrollar el proceso de carga:

 Acumulación simple: La acumulación simple es la más sencilla y común, y


consiste en realizar un resumen de todas las transacciones comprendidas en
el período de tiempo seleccionado y transportar el resultado como una única
transacción hacia la data warehouse, almacenando un valor calculado que
consistirá típicamente en un sumatorio o un promedio de la magnitud
considerada.
 Rolling: El proceso de Rolling por su parte, se aplica en los casos en que se
opta por mantener varios niveles de granularidad. Para ello se almacena
información resumida a distintos niveles, correspondientes a distintas
agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en
alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo,
totales diarios, totales semanales, totales mensuales, etc.).

La fase de carga interactúa directamente con la base de datos de destino. Al realizar


esta operación se aplicarán todas las restricciones y triggers (disparadores) que se
hayan definido en ésta (por ejemplo, valores únicos, integridad referencial, campos
obligatorios, rangos de valores). Estas restricciones y triggers (si están bien
definidos) contribuyen a que se garantice la calidad de los datos en el proceso ETL,
y deben ser tenidos en cuenta.

5. Procesamiento en Herramientas ETL


Un desarrollo reciente en el software ETL es la aplicación de procesamiento paralelo.
Esto ha permitido desarrollar una serie de métodos para mejorar el rendimiento
general de los procesos ETL cuando se trata de grandes volúmenes de datos. Hay 3
tipos principales de paralelismos que se pueden implementar en las aplicaciones ETL:

 De datos: Consiste en dividir un único archivo secuencial en pequeños


archivos de datos para proporcionar acceso paralelo.

 De segmentación (pipeline): Permitir el funcionamiento simultáneo de varios


componentes en el mismo flujo de datos. Un ejemplo de ello sería buscar un
valor en el registro número 1 a la vez que se suman dos campos en el registro
número 2.

 De componente: Consiste en el funcionamiento simultáneo de


múltiples procesos en diferentes flujos de datos en el mismo puesto de trabajo.

Estos tres tipos de paralelismo no son excluyentes, sino que pueden ser combinados
para realizar una misma operación ETL.
FIS – UNCP – IMPLANTACIÓN DE SISTEMAS DE INFORMACIÓN
2018

Una dificultad adicional es asegurar que los datos que se cargan sean relativamente
consistentes. Las múltiples bases de datos de origen tienen diferentes ciclos de
actualización (algunas pueden ser actualizadas cada poco minuto, mientras que otras
pueden tardar días o semanas). En un sistema de ETL será necesario que se puedan
detener ciertos datos hasta que todas las fuentes estén sincronizadas. Del mismo
modo, cuando un almacén de datos tiene que ser actualizado con los contenidos en
un sistema de origen, es necesario establecer puntos de sincronización y de
actualización.

6. Desafíos para los procesos y Herramientas de ETL


Los procesos ETL pueden ser muy complejos. Un sistema ETL mal diseñado puede
provocar importantes problemas operativos.
En un sistema operacional el rango de valores de los datos o la calidad de éstos
pueden no coincidir con las expectativas de los diseñadores a la hora de especificarse
las reglas de validación o transformación. Es recomendable realizar un examen
completo de la validez de los datos (Data profiling) del sistema de origen durante el
análisis para identificar las condiciones necesarias para que los datos puedan ser
tratados adecuadamente por las reglas de transformación especificadas. Esto
conducirá a una modificación de las reglas de validación implementadas en el proceso
ETL.
Normalmente los data warehouse son alimentados de manera asíncrona desde
distintas fuentes, que sirven a propósitos muy diferentes. El proceso ETL es clave para
lograr que los datos extraídos asíncronamente de orígenes heterogéneos se integren
finalmente en un entorno homogéneo.
La escalabilidad de un sistema de ETL durante su vida útil tiene que ser establecida
durante el análisis. Esto incluye la comprensión de los volúmenes de datos que
tendrán que ser procesados según los acuerdos de nivel de servicio (SLA: Service
level agreement). El tiempo disponible para realizar la extracción de los sistemas de
origen podría cambiar, lo que implicaría que la misma cantidad de datos tendría que
ser procesada en menos tiempo. Algunos sistemas ETL son escalados para procesar
varios terabytes de datos para actualizar un data warehouse que puede contener
decenas de terabytes de datos. El aumento de los volúmenes de datos que pueden
requerir estos sistemas pueden hacer que los lotes que se procesaban a diario pasen
a procesarse en micro-lotes (varios al día) o incluso a la integración con colas de
mensajes o a la captura de datos modificados (CDC: change data capture) en tiempo
real para una transformación y actualización continua.
FIS – UNCP – IMPLANTACIÓN DE SISTEMAS DE INFORMACIÓN
2018

7. Algunas Herramientas ETL

SQL Server Integration Services


Microsoft Integration Services es una plataforma para la creación de soluciones
empresariales de transformaciones de datos e integración de datos. Use Integration
Services para resolver complejos problemas empresariales mediante la copia o descarga
de archivos, la carga de almacenamientos de datos, la limpieza y minería de datos y la
administración de datos y objetos de SQL Server.
Integration Services puede extraer y transformar datos de diversos orígenes como
archivos de datos XML, archivos planos y orígenes de datos relacionales y, después,
cargar los datos en uno o varios destinos.
Integration Services incluye un amplio conjunto de tareas y transformaciones integradas,
herramientas gráficas para crear paquetes y la base de datos del catálogo Integration
Services, donde se almacenan, ejecutan y administran los paquetes.
Puede usar las herramientas gráficas Integration Services para crear soluciones sin
escribir ni una sola línea de código. También puede programar el amplio modelo de
objeto Integration Services para crear paquetes mediante programación y codificar tareas
personalizadas y otros objetos de paquete.
Sunopsis

Sunopsis es un proveedor líder de productos de integración de datos rentables y de alto


rendimiento para entornos de TI heterogéneos. Los productos de integración de datos de
Sunopsis se crean utilizando la arquitectura de "Extrac Load Transform (ELT)" de próxima
generación que ofrece un rendimiento y escalabilidad superiores en comparación con los
productos ETL tradicionales. Con la arquitectura ELT, las transformaciones de datos
tienen lugar dentro de las bases de datos de origen o destino sin la necesidad de un
servidor ETL. Esto da como resultado un mayor rendimiento y escalabilidad, junto con un
mantenimiento más sencillo para las soluciones de integración de datos.
Oracle y Sunopsis tienen productos complementarios con un enfoque compartido en la
entrega de los mejores productos de integración de datos a nuestros clientes. El acceso
a la información en tiempo real, las arquitecturas de próxima generación y los entornos
de TI más mixtos están impulsando mayores requisitos para soluciones de integración de
datos sofisticadas, rápidas y heterogéneas. Planeamos incorporar la tecnología de
integración de datos de alto rendimiento de Sunopsis a la familia de productos Oracle
Fusion Middleware y convertirla en una parte integrada de las soluciones de arquitectura
orientada a servicios (SOA), inteligencia empresarial (BI) y gestión de datos maestros
(MDM) de Oracle. Los productos Sunopsis están optimizados para entornos de TI
heterogéneos y, como parte de la arquitectura de middleware de acoplamiento activo de
Oracle, Oracle se compromete a admitir orígenes de datos y destinos de Oracle que no
sean Oracle.
FIS – UNCP – IMPLANTACIÓN DE SISTEMAS DE INFORMACIÓN
2018

CloverDX
Hace quince años, cuando el almacenamiento de datos estaba en auge, CloverETL nació
como el primer ETL de código abierto. Sin embargo, los desafíos de datos de este mundo
han estado creciendo desde entonces y también lo ha hecho CloverETL. Ahora somos
una empresa internacional, con un producto de integración de datos versátil y equipos de
soporte y servicios sólidos que apoyan sin descanso a las organizaciones en sus batallas
diarias de datos. CloverETL encontró su camino a innumerables clientes, desde pequeños
visionarios de garajes hasta grandes corporaciones multinacionales, todos dándonos una
experiencia extremadamente valiosa que devolvimos al producto.
CloverDX es el siguiente paso en nuestro viaje. Mirando hacia atrás a esos quince años,
nos dimos cuenta de que hacemos que las compañías, los equipos y los individuos tengan
éxito en sus proyectos de datos. Combinamos un producto maduro con una pasión real
por los datos y la visión de que cualquier organización puede gobernar sus datos. Si bien
CloverETL solo representó el producto, CloverDX ("Experiencia de datos") representa la
experiencia general que brindamos a nuestros clientes; la artesanía en nuestro producto,
nuestro enfoque individual, la flexibilidad y el hecho de que simplemente nos
importa. Hemos disfrutado haciendo todo lo anterior durante años y con esta nueva
marca, estamos ansiosos por mejorar aún más esa experiencia.

BiTool
 Es una herramienta Independiente de la Base de Datos.
 Perfilamiento de Datos.
 Puede ser usada en múltiples tipos de proyectos informáticos.
 No necesita saber programar para realizar completos proyectos de carga.
 Permite programar tareas complejas en procesos: Diarios, Semanales,
Mensuales, etc.
 Permite Recursividad entre proyectos, llamadas a procesos y llamas a sistemas o
aplicaciones externos de otros proveedores (DTS, Oracle, Etc) sin perder su
capacidad de WorkFlow.
 Permite realizar complejos escenarios de WorkFlow con intervención de los
usuarios.
 Es 100% visual. amigable e intuitivo que reduce notablemente la curva de
aprendizaje.
 Emplea tecnología "Drag & Drop" para crear poderosos proyectos de carga, no
necesita introducir ninguna línea de código.
 Permite conectarse a cualquier motor de Base de Datos sin importar su ubicación
(Internet, Red LAN, Red WAN, etc) ni versión de la BD.
 Conserva la Inversión: Permite reutilizar clases y proyectos.
 Validación de la Calidad de Datos.
 Limpieza de datos.

También podría gustarte