Herramientas Etl
Herramientas Etl
Herramientas Etl
FACULTAD DE
INGENIERIA DE SISTEMAS
SEMESTRE: OCTAVO
TEMA
HERRAMIENTAS ETL
HUACAYO-2018
FIS – UNCP – IMPLANTACIÓN DE SISTEMAS DE INFORMACIÓN
2018
HERRAMIENTAS ETL
1. Definición de ETL
ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform and
Load). Es el proceso que permite a las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o
data warehouse para analizar, o en otro sistema operacional para apoyar un proceso
de negocio.
Los procesos ETL también se pueden utilizar para la integración con sistemas
heredados (aplicaciones antiguas existentes en las organizaciones que se han de
integrar con los nuevos aplicativos, por ejemplo, ERP´s. La tecnología utilizada en
dichas aplicaciones puede hacer difícil la integración con los nuevos programas).
Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las
columnas con valores nulos no se carguen).
Traducir códigos (por ejemplo, si la fuente almacena una “H” para Hombre y
“M” para Mujer, pero el destino tiene que guardar “1″ para Hombre y “2″ para
Mujer).
Codificar valores libres (por ejemplo, convertir “Hombre” en “H” o “Sr” en “1″).
Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad *
precio).
Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones,
etc.).
Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de
cada región).
Generación de campos clave en el destino.
Transponer o pivotar (girando múltiples columnas en filas o viceversa).
Dividir una columna en varias (por ejemplo, columna “Nombre: García,
Miguel”; pasar a dos columnas “Nombre: Miguel” y “Apellido: García”).
La aplicación de cualquier forma, simple o compleja, de validación de datos, y
la consiguiente aplicación de la acción que en cada caso se requiera:
o Datos OK: Entregar datos a la siguiente etapa (Carga).
o Datos erróneos: Ejecutar políticas de tratamiento de excepciones (por
ejemplo, rechazar el registro completo, dar al campo erróneo un
valor nulo o un valor centinela).
Estos tres tipos de paralelismo no son excluyentes, sino que pueden ser combinados
para realizar una misma operación ETL.
FIS – UNCP – IMPLANTACIÓN DE SISTEMAS DE INFORMACIÓN
2018
Una dificultad adicional es asegurar que los datos que se cargan sean relativamente
consistentes. Las múltiples bases de datos de origen tienen diferentes ciclos de
actualización (algunas pueden ser actualizadas cada poco minuto, mientras que otras
pueden tardar días o semanas). En un sistema de ETL será necesario que se puedan
detener ciertos datos hasta que todas las fuentes estén sincronizadas. Del mismo
modo, cuando un almacén de datos tiene que ser actualizado con los contenidos en
un sistema de origen, es necesario establecer puntos de sincronización y de
actualización.
CloverDX
Hace quince años, cuando el almacenamiento de datos estaba en auge, CloverETL nació
como el primer ETL de código abierto. Sin embargo, los desafíos de datos de este mundo
han estado creciendo desde entonces y también lo ha hecho CloverETL. Ahora somos
una empresa internacional, con un producto de integración de datos versátil y equipos de
soporte y servicios sólidos que apoyan sin descanso a las organizaciones en sus batallas
diarias de datos. CloverETL encontró su camino a innumerables clientes, desde pequeños
visionarios de garajes hasta grandes corporaciones multinacionales, todos dándonos una
experiencia extremadamente valiosa que devolvimos al producto.
CloverDX es el siguiente paso en nuestro viaje. Mirando hacia atrás a esos quince años,
nos dimos cuenta de que hacemos que las compañías, los equipos y los individuos tengan
éxito en sus proyectos de datos. Combinamos un producto maduro con una pasión real
por los datos y la visión de que cualquier organización puede gobernar sus datos. Si bien
CloverETL solo representó el producto, CloverDX ("Experiencia de datos") representa la
experiencia general que brindamos a nuestros clientes; la artesanía en nuestro producto,
nuestro enfoque individual, la flexibilidad y el hecho de que simplemente nos
importa. Hemos disfrutado haciendo todo lo anterior durante años y con esta nueva
marca, estamos ansiosos por mejorar aún más esa experiencia.
BiTool
Es una herramienta Independiente de la Base de Datos.
Perfilamiento de Datos.
Puede ser usada en múltiples tipos de proyectos informáticos.
No necesita saber programar para realizar completos proyectos de carga.
Permite programar tareas complejas en procesos: Diarios, Semanales,
Mensuales, etc.
Permite Recursividad entre proyectos, llamadas a procesos y llamas a sistemas o
aplicaciones externos de otros proveedores (DTS, Oracle, Etc) sin perder su
capacidad de WorkFlow.
Permite realizar complejos escenarios de WorkFlow con intervención de los
usuarios.
Es 100% visual. amigable e intuitivo que reduce notablemente la curva de
aprendizaje.
Emplea tecnología "Drag & Drop" para crear poderosos proyectos de carga, no
necesita introducir ninguna línea de código.
Permite conectarse a cualquier motor de Base de Datos sin importar su ubicación
(Internet, Red LAN, Red WAN, etc) ni versión de la BD.
Conserva la Inversión: Permite reutilizar clases y proyectos.
Validación de la Calidad de Datos.
Limpieza de datos.