¿ETL o ELT?
Mientras que el propósito detrás de los conceptos ETL o ELT es el mismo, el proceso y las herramientas que utilizamos están cambiando. Los programas y soluciones más tradicionales de ETL extraen y transforman datos antes de cargarlos en el almacén de datos o Data Warehouse. Mientras las soluciones y productos ETL se pueden desplegar en cloud, no siempre se utiliza el máximo potencial.
En términos de datos y gestión de la carga, la infraestructura cloud nos permite ser exponencialmente más escalables y eficientes en almacenamiento y poder de procesamiento que las tradicionales soluciones de data warehouse. Pero los programas que ejecutan las ETL no tienen porqué escalar igual de bien cuando se trasladan a un entorno cloud.
Los procesos tradicionales de ETL normalmente no se aprovechan de las ventajas, mejoras y buenas prácticas que ofrecen las distintas soluciones cloud para el data warehouse. De hecho lo más común que traten al data warehouse cloud como un data warehouse tradicional, es decir, como una simple base de datos, lo cual resulta en muchas ocasiones en los mismos problemas de rendimiento y en muchas ocasiones nos hace preguntarnos por qué elegimos usar infraestructura cloud en una primera instancia.
Los procesos ELT (en lugar de ETL) aprovechan en muchos casos de funcionalidades nativas que los proveedores cloud implementan en lo data warehouse y que están diseñados específicamente para resaltar las mejores cualidades de la infraestructura cloud:
- escalabilidad elástica según se necesite
- procesamiento masivo paralelizado
- crear y gestionar tareas para ciertos trabajos rutinarios con gran agilidad
Esto nos permite alterar los tradicionales pasos de la ETL (extracción, transformación, carga-load) y delegar en el datawarehouse algunas de las transformaciones más comunes para ganar agilidad como por ejemplo, la estandarización de ciertos formatos de ficheros en tablas consultables de una base de datos.
De esta forma el uso de estos data warehouse cloud nos presentan las condiciones para modificar el proceso en caso de ser necesario:
- Extracción: extraer datos de múltiples fuentes y conectores
- Carga (Load): carga de datos en el datawarehouse priorizando la subida sin costosas transformaciones
- Transformación: transformación e incluso limpieza de datos utilizando la infraestructura desplegada del datawarehouse
El futuro es ELT o en el mejor de los casos una solución híbrida ETLT, donde al contar con un data warehouse escalable, podemos disponer de la opción de delegar tareas de transformación y agilizar así la disponibilidad de información