¿Qué Es Un Proceso ETL?: ETL Extracción, Transformación y Carga de Datos
¿Qué Es Un Proceso ETL?: ETL Extracción, Transformación y Carga de Datos
¿Qué Es Un Proceso ETL?: ETL Extracción, Transformación y Carga de Datos
Concepto
La idea de web 3.0 se refiere a una web capaz de interpretar e interconectar un mayor
número de datos, lo que permitirá un aumento de interactividad y significado.
Este proceso forma parte del conjunto de herramientas y procesos de Business Intelligence.
Extraer
Hace referencia al primer proceso de una ETL. Se trata de la extracción de los datos desde las diferentes
fuentes de datos. En la mayoría de los casos, lo normal es la fusión de diferentes orígenes para hacer una
transformación conjunta.
Cada fuente tiene una forma distinta de almacenar los datos y, por lo tanto, necesita una manera concreta
de tratarlos. El proceso más común es:
Uno de los detalles más importantes a tener en cuenta es que la extracción cause un impacto mínimo en el
sistema de origen, para no realizar consultas de extracción innecesarias y ralentizar el sistema.
Transformación
En esta etapa se aplican una serie de “reglas de negocio” sobre los datos extraídos para aplicarles ciertas
transformaciones antes de ser cargados. Puedes encontrar fuentes de datos que no requieren casi
transformaciones y, por otro lado, fuentes de datos que requieren de mucho análisis antes de realizar la
carga.
Por ejemplo, algunas transformaciones comunes son:
Traducir valores.
Codificar valores.
Obtener totales.
Transponer o pivotar.
ETL Extracción, Transformación y Carga de Datos
Cargar
En la última fase, se usan los datos que se han transformado en la fase anterior para cargarlos en el
sistema de destino. En función de los requisitos y características de cada organización, este proceso
puede abarcar más o menos acciones.
Hay procesos que sobrescriben la información antigua almacenada en el repositorio con los nuevos
datos transformados. En algunos casos, existen historiales de registros para poder comprobar los mismos
y disponer de un histórico a lo largo del tiempo. Se diferencian dos procesos de carga:
Acumulación simple: se realiza un resumen de todas las transacciones del periodo seleccionado y
Rolling: este proceso se usa cuando se quiere mantener varios niveles de granularidad. De esta
manera, se almacena la información resumida a distintos niveles, según unidades de tiempo o niveles
Archivos de texto o ficheros .csv, delimitados por diferentes elementos. Se pueden importar de dos
formas: abrirlos directamente en Excel o importarlos como un rango de datos. Los formatos más
populares son los ficheros txt separados por tabuladores y los ficheros csv separados
Páginas web, donde se encuentren datos extraíbles en tablas. Lo más normal es que, si la página
consultada contiene datos estructurados en tablas (aunque, a simple vista, no lo parezca), Power
ETL Extracción, Transformación y Carga de Datos
Query lo identifique y muestre una opción para seleccionar la tabla a cargar. Si no, también está la
Tablas o rangos de Excel. Se refiere a la conexión con tablas existentes en el libro de Excel que se
está usando en este momento, o bien, un rango de campos específico, por ejemplo, si quieres
2. Conexiones a un archivo.
ETL Extracción, Transformación y Carga de Datos
Libros de Excel. Es posible conectarse a un libro de Excel diferente al que estés usando en ese
momento. Además, todos los cambios que se realicen en el libro de Excel al que estés conectado
Archivos XML. Son ficheros que proporcionan una forma de almacenar datos para que otros
Archivos JSON. Es un fichero con un formato estándar abierto, que se basa en texto para transmitir
datos estructurados.
Carpetas. Es posible realizar conexiones a carpetas en nuestro propio equipo, las cuales pueden
Carpetas de SharePoint. Esta herramienta se trata de una aplicación colaborativa que se encuentra
integrada en Office. Es posible crear grupos para compartir archivos entre usuarios. Funciona de una
manera similar a las carpetas locales, pero, en este caso, se encuentran alojadas en un
SQL Server. Para conectarse, será necesario incluir una serie de datos, como nombre del servidor,
nombre de la base de datos y, en caso de que requiera usar credenciales, el usuario y la contraseña.
Access. A través del asistente de importación, es fácil crear la conexión entre Access y Power Query.
Analysis Services. Es una herramienta de minería de datos y procesamiento analítico de SQL Server.
De igual manera, pedirá una serie de datos, como nombre del servidor o nombre de la base de datos.
ETL Extracción, Transformación y Carga de Datos
Existen más aplicaciones para almacenar bases de datos que permiten realizar conexiones con Power
Query, entre ellas, destacan: Oracle, MySQL, PostgreSQL, Azure.
4. Conexiones a servicios online.
SharePoint.
Exchange.
Dynamics.
Facebook.
Salesforce.
En la mayoría de estos servicios, será necesario iniciar sesión con las credenciales de una cuenta de
usuario o, por otro lado, tendrás que usar una dirección web del portal (como en SharePoint o Dynamics).
En el caso de Facebook, puedes probar iniciando sesión con tu propio usuario y explorar diversas opciones,
como “me gusta” a páginas, comentarios, amigos, etc.
Al abrir la herramienta, en la pestaña “Inicio”, está la opción “Nueva Consulta”. Esta opción permite hacer
una serie de conexiones muy similar a las comentadas anteriormente, la diferencia es que la
conexión podrás hacerla directamente en Power Query (Editor de Consultas), para luego exportarlo
a la hoja de Excel.
Para acceder a esta opción, en la pestaña “Inicio”, en la esquina superior derecha, encontrarás la opción
“Nuevo origen”.
ETL Extracción, Transformación y Carga de Datos