0% encontró este documento útil (0 votos)
59 vistas9 páginas

Investigación - Data Lake

El documento describe las características de los data lakes en AWS y Azure. Explica que un data lake es un repositorio que almacena grandes cantidades de datos sin procesar para su análisis futuro. En AWS, el almacenamiento principal es S3 y se utilizan herramientas como AWS Glue para catalogar y mover datos. En Azure, el servicio principal es Azure Data Lake que permite almacenar y analizar datos a gran escala de forma masiva y con capacidades empresariales. Ambas plataformas ofrecen soluciones integrales para implementar data lakes en
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
59 vistas9 páginas

Investigación - Data Lake

El documento describe las características de los data lakes en AWS y Azure. Explica que un data lake es un repositorio que almacena grandes cantidades de datos sin procesar para su análisis futuro. En AWS, el almacenamiento principal es S3 y se utilizan herramientas como AWS Glue para catalogar y mover datos. En Azure, el servicio principal es Azure Data Lake que permite almacenar y analizar datos a gran escala de forma masiva y con capacidades empresariales. Ambas plataformas ofrecen soluciones integrales para implementar data lakes en
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 9

GOBIERNO DE

DATOS
DATALAKE

INNOVACIÓN Y TRANSFORMACIÓN DEL NEGOCIO


GOBIERNO DE DATOS
DATA LAKE

Un data lake es un entorno de datos compartidos en su formato original que comprende múltiples
repositorios y aprovecha las tecnologías de big data.

Un data lake es capaz de proporcionar datos a la organización para una gran variedad de procesos
analíticos diferentes:

 Descubrimiento y exploración de datos


 Análisis ad hoc simple
 Análisis complejo para toma de decisiones
 Informes
 Análisis en tiempo real

¿Qué es Data Lake?


Un data lake es un repositorio de almacenamiento que contienen una gran cantidad de datos en
bruto y que se mantienen allí hasta que sea necesario. A diferencia de un data warehouse
jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana
para almacenar los datos.

A cada elemento de un data lake se le asigna un identificador único y se etiqueta con un conjunto
de etiquetas de metadatos extendidas. Cuando se presenta una cuestión de negocios que debe ser
resuelta, podemos solicitarle al data lake los datos que estén relacionados con esa cuestión. Una
vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una
respuesta.

¿Beneficios de un data Lake?

El principal beneficio de un data lake es la centralización de fuentes de contenido dispares. Una


vez reunidas (de sus "silos de información"), estas fuentes pueden ser combinadas y procesadas
utilizando big data, búsquedas y análisis que de otro modo hubieran sido imposibles. Las fuentes
de contenido dispares a menudo contienen información confidencial que requerirá la
implementación de las medidas de seguridad apropiadas en el data lake.

Las medidas de seguridad en el data lake pueden ser asignadas de manera que se otorga acceso a
cierta información a los usuarios del data lake que no tienen acceso a la fuente de contenido
original. Estos usuarios tienen derecho a la información, pero no pueden acceder a ella en su
fuente por alguna razón.
Data Lake vs. Data Warehouse

Al hablar de almacenamiento de datos suele surgir otro concepto relacionado con el tema que nos
ocupa: el Data Warehouse o almacén de datos. Este es una base de datos optimizada para analizar
datos relacionales procedentes de sistemas transaccionales y aplicaciones de línea de negocio.

Sin embargo, aunque ambos paradigmas se centran en el almacenamiento de datos, hay algunas
diferencias entre un Data Lake y un Data Warehouse:

 Estructura de los datos: Un Data Warehouse solo recoge datos estructurados, mientras
que un Data Lake recoge datos tanto estructurados como no estructurados.
 Finalidad de los datos: Este aspecto puede estar definido o no en un Data Lake, mientras
que en un Data Warehouse no hay lugar para la improvisación.
 Flexibilidad: en un Data Lake es más sencillo hacer cambios por no tener estructura, pero
en un Data Warehouse es más complicado por estar implicados otros procesos.
 Esquema: los Data Lakes se basan en esquemas On Read y los Data Warehouses en los On
Write.
 Usuarios: en un Data Lake los datos son manejados por analistas, mientras que en un Data
Warehouse cualquier usuario con acceso puede manejar los datos.
 Accesibilidad: mientras que en un Data Lake hay una gran y fácil accesibilidad, en un Data
Warehouse este apartado es más costoso y complejo.
 Almacenamiento: un Data Lake tiene un coste limitado con la posibilidad de ampliación en
la nube, mientras que un Data Warehouse es por lo general más caro.

Entre los principales beneficios de un Data Lake se encuentran los siguientes:

 Permite centralizar todos los datos en un mismo lugar, sea cual sea su origen. Una vez
incluidos en su silo correspondiente de información, pueden ser procesados con
herramientas de Big Data. Es posible que ante tal disparidad de información haya datos
que necesiten un tratamiento especial respecto a la seguridad, pero es un aspecto
solventable con este sistema.
 Es posible que la fuente original del dato esté obsoleta o se haya desactivado, pero su
contenido puede seguir siendo valioso para el análisis. Con este sistema se puede acceder
a dicha información.
 Todos los datos que llegan al sistema pueden ser normalizados y enriquecidos.
 Los datos se preparan de acuerdo con las necesidades del momento, lo que reduce
notablemente los costes y los tiempos.
 Cualquier usuario autorizado puede acceder a la información y enriquecerla desde
cualquier lugar, lo que ayuda a la organización a reunir con más facilidad los datos
necesarios para tomar decisiones.
GOBIERNO DE DATOS
AZURE DATA LAKE

Azure Data Lake es el repositorio a hiperescala de Microsoft para grandes cargas de trabajo de
análisis de datos en la nube. Este servicio está construido para la nube, es compatible con HDFS
(Hadoop Distributed File System) y tiene una escala sin límites con un rendimiento masivo y
capacidades de grado empresarial.

Entre los diferentes servicios incluidos en Azure Data Lake se encuentran los siguientes:

 Data Lake Analytics: servicio de trabajos de análisis en la nube sin límites que permite
desarrollar y ejecutar programas de procesamiento y transformación de datos en paralelo
con los lenguajes U-SQL, R, Python y .Net.
 HDInsight: servicio de Apache Spark y Hadoop en la nube para empresas que proporciona
clústeres de análisis de código abierto para Spark, Hive, Map Reduce, HBase, Storm, Kafka
y R-Server, con el respaldo de un acuerdo de nivel de servicio del 99,9%.
 Data Lake Store: repositorio de datos en la nube sin límites que permite llevar a cabo
análisis de macrodatos con el que se puede escalar de forma masiva y que se ha creado
conforme al estándar abierto HDFS.

¿Cuáles son los beneficios de implementar Azure Data Lake en tu organización?

 Datos consolidados
Ten una única fuente de la verdad centralizando tus datos en un solo repositorio.
 Genera información a tu ritmo
No tienes la necesidad de definir o transformar tu información antes de almacenarla en
este repositorio, por lo cual podrás buscarlos para explorarlos o analizarlos en cualquier
momento.
 Acceso remoto
Podrás acceder a tus datos fácilmente de forma remota mejorando así el análisis
colaborativo.
 Automatiza flujos
Ahorra esfuerzos para tus científicos de datos evitando que se preocupen por intervenir
en las tareas de sincronización de datos.
 Crea un entorno moderno de datos
Da el primer paso para iniciar proyectos de data warehousing e inteligencia artificial.
 Tú decides quien tiene acceso
Al ser un servicio de Microsoft Azure y estar integrado con Azure Active Directory, tú
tienes el control de quién podrá acceder y explorar los datos que residen en el repositorio.
GOBIERNO DE DATOS
AWS DATA LAKE
AWS Lake Formation proporciona una interfaz de tipo asistente sobre varias partes del ecosistema
de AWS que le permite crear fácilmente un lago de datos. El almacenamiento back-end principal
de un lago de datos de AWS es su almacenamiento S3.

El almacenamiento S3 es altamente escalable y está disponible y se puede hacer redundante en


varias zonas de disponibilidad. Amazon S3 es una interfaz de servicios web simple que se puede
utilizar para almacenar y recuperar cualquier cantidad de datos, en cualquier momento y desde
cualquier parte de la web4. Dado que permite cualquier tipo de datos, también es necesario
rodear el Data Lake de distintos servicios analíticos.

Utilizar Amazon S3 para un data Lake nos permite tener una alta escalabilidad, excelente costes y
nivel de seguridad adecuado, ofreciendo así una solución integral para llevar a cabo diferentes
modelos de procesamiento.

Con Aws Glue que es un conjunto de herramientas que le permiten realizar procedimientos ETL
sobre los datos. Puede utilizarlo como una especie de herramienta de mapeo de datos que se
puede apuntar a cualquier otro almacenamiento de AWS para definir relaciones. Una vez que haya
definido estas relaciones, puede programar tareas para que se ejecuten que consulten, copien y
muevan datos de un lugar a otro. Estas herramientas son útiles cuando se trata de un gran número
de activos de datos en el ecosistema de AWS.
Herramientas de AWS para Data Lake

 Storage en S3: Para crear la VPC donde vivirá el Data Lake


 AWS Glue : Para catalogar los datos
 Amazon Athena: Para peticiones de datos directo en S3
 AWS Lambda: Para automatización de peticiones.
 AWS Congnito: Para la creación de credenciales temporales.
 AWS Kinesis: Para el procesamiento de datos en streaming
 Amazon Elastic search: Para operar y escalar los consumos rápidamente.
 AWS Redshift: Complemento data warehouse.
 Amazon Quicksight: Para visualizar el análisis de datos.
GOBIERNO DE DATOS
CUADRO COMPARATIVO

AWS DATA LAKE AZURE DATA LAKE


Los usuarios de AWS EC2 pueden configurar sus propias Los usuarios de Azure eligen Virtual Hard Disk (VHD), que es
CÓMPUTO máquinas virtuales (máquinas virtuales) o elegir imágenes de equivalente a una instancia de máquina para crear una máquina
máquina preconfiguradas o personalizar las más. virtual.

Utiliza un sistema de bloques (Blob) para almacenar los datos


Utiliza Simple Storage Service (S3) y Amazon EBS como centro sirven como almacenamiento de objetos. Admite bases de datos
ALMACENAMIENTO de almacenamiento de Datos y es totalmente compatible con relacionales, NoSQL y Big Data a través de Azure Table y
bases de datos relacionales y NoSQL y Big Data. HDInsight.

 Aurora  ElastiCache  SQL database  CosmosDB


Virtual Private Cloud (VPC) para que los usuarios puedan crear Red virtual (VNET) que ofrece a los SQL
usuarios la capacidad de
BASESREDES
DE DATOS  RDS  RedShitf mySQL Data warehouse
redes aisladas dentro de la nube.
DynamoDB crear subredes, tablas de
Neptune crear redesaisladas, así como subredes,
PostgreSQL  tablas
Table de enrutamiento,
Storage
enrutamiento, intervalos de direcciones IP privadas y puertas de intervalos de direcciones IP privadas y puertas de enlace de red.
enlace de red. Almacenamiento de archivos, Backups de recuperación,
BACKUPS AWS Glacier Backups
Recuperación del sitio

Los precios de Microsoft también son de pago por uso, pero


PRECIOS cobran por minuto, lo que proporciona un modelo de precios
más exacto.

TRANSMISÓN DE Amazon tiene un modelo de pago por uso, donde cobran por
DATOS hora. Pero es mas difícil de calcular debido a la amplitud de
servicios

SOPORTE Y
DOCUMENTACION

La documentación en la web es mas amplia debido a la Tiene una documentación precisa, pero sin tanta profundidad en
expansión en el mercado que tiene AWS. Por lo que da mayor los temas mucho mas específicos, por lo que conseguir soporte
soporte para la corrección y evaluación de problemas para la corrección de errores puede costar un poco más
Mapeo de soluciones vs dimensiones del DAMA

Referencia: https://aws.amazon.com/es/blogs/aws-spanish/herramientas-de-gobierno-de-datos-en-amazon-web-services/

También podría gustarte