0% encontró este documento útil (0 votos)

59 vistas9 páginas

Investigación - Data Lake

El documento describe las características de los data lakes en AWS y Azure. Explica que un data lake es un repositorio que almacena grandes cantidades de datos sin procesar para su análisis futuro. En AWS, el almacenamiento principal es S3 y se utilizan herramientas como AWS Glue para catalogar y mover datos. En Azure, el servicio principal es Azure Data Lake que permite almacenar y analizar datos a gran escala de forma masiva y con capacidades empresariales. Ambas plataformas ofrecen soluciones integrales para implementar data lakes en

Cargado por

Jonathan Bultrón

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

59 vistas9 páginas

Investigación - Data Lake

Cargado por

Jonathan Bultrón

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 9

GOBIERNO DE

DATOS
DATALAKE

INNOVACIÓN Y TRANSFORMACIÓN DEL NEGOCIO

GOBIERNO DE DATOS
DATA LAKE

Un data lake es un entorno de datos compartidos en su formato original que comprende múltiples
repositorios y aprovecha las tecnologías de big data.

Un data lake es capaz de proporcionar datos a la organización para una gran variedad de procesos
analíticos diferentes:

 Descubrimiento y exploración de datos

 Análisis ad hoc simple
 Análisis complejo para toma de decisiones
 Informes
 Análisis en tiempo real

¿Qué es Data Lake?

Un data lake es un repositorio de almacenamiento que contienen una gran cantidad de datos en
bruto y que se mantienen allí hasta que sea necesario. A diferencia de un data warehouse
jerárquico que almacena datos en ficheros o carpetas, un data lake utiliza una arquitectura plana
para almacenar los datos.

A cada elemento de un data lake se le asigna un identificador único y se etiqueta con un conjunto
de etiquetas de metadatos extendidas. Cuando se presenta una cuestión de negocios que debe ser
resuelta, podemos solicitarle al data lake los datos que estén relacionados con esa cuestión. Una
vez obtenidos podemos analizar ese conjunto de datos más pequeño para ayudar a obtener una
respuesta.

¿Beneficios de un data Lake?

El principal beneficio de un data lake es la centralización de fuentes de contenido dispares. Una

vez reunidas (de sus "silos de información"), estas fuentes pueden ser combinadas y procesadas
utilizando big data, búsquedas y análisis que de otro modo hubieran sido imposibles. Las fuentes
de contenido dispares a menudo contienen información confidencial que requerirá la
implementación de las medidas de seguridad apropiadas en el data lake.

Las medidas de seguridad en el data lake pueden ser asignadas de manera que se otorga acceso a
cierta información a los usuarios del data lake que no tienen acceso a la fuente de contenido
original. Estos usuarios tienen derecho a la información, pero no pueden acceder a ella en su
fuente por alguna razón.
Data Lake vs. Data Warehouse

Al hablar de almacenamiento de datos suele surgir otro concepto relacionado con el tema que nos
ocupa: el Data Warehouse o almacén de datos. Este es una base de datos optimizada para analizar
datos relacionales procedentes de sistemas transaccionales y aplicaciones de línea de negocio.

Sin embargo, aunque ambos paradigmas se centran en el almacenamiento de datos, hay algunas
diferencias entre un Data Lake y un Data Warehouse:

 Estructura de los datos: Un Data Warehouse solo recoge datos estructurados, mientras
que un Data Lake recoge datos tanto estructurados como no estructurados.
 Finalidad de los datos: Este aspecto puede estar definido o no en un Data Lake, mientras
que en un Data Warehouse no hay lugar para la improvisación.
 Flexibilidad: en un Data Lake es más sencillo hacer cambios por no tener estructura, pero
en un Data Warehouse es más complicado por estar implicados otros procesos.
 Esquema: los Data Lakes se basan en esquemas On Read y los Data Warehouses en los On
Write.
 Usuarios: en un Data Lake los datos son manejados por analistas, mientras que en un Data
Warehouse cualquier usuario con acceso puede manejar los datos.
 Accesibilidad: mientras que en un Data Lake hay una gran y fácil accesibilidad, en un Data
Warehouse este apartado es más costoso y complejo.
 Almacenamiento: un Data Lake tiene un coste limitado con la posibilidad de ampliación en
la nube, mientras que un Data Warehouse es por lo general más caro.

Entre los principales beneficios de un Data Lake se encuentran los siguientes:

 Permite centralizar todos los datos en un mismo lugar, sea cual sea su origen. Una vez
incluidos en su silo correspondiente de información, pueden ser procesados con
herramientas de Big Data. Es posible que ante tal disparidad de información haya datos
que necesiten un tratamiento especial respecto a la seguridad, pero es un aspecto
solventable con este sistema.
 Es posible que la fuente original del dato esté obsoleta o se haya desactivado, pero su
contenido puede seguir siendo valioso para el análisis. Con este sistema se puede acceder
a dicha información.
 Todos los datos que llegan al sistema pueden ser normalizados y enriquecidos.
 Los datos se preparan de acuerdo con las necesidades del momento, lo que reduce
notablemente los costes y los tiempos.
 Cualquier usuario autorizado puede acceder a la información y enriquecerla desde
cualquier lugar, lo que ayuda a la organización a reunir con más facilidad los datos
necesarios para tomar decisiones.
GOBIERNO DE DATOS
AZURE DATA LAKE

Azure Data Lake es el repositorio a hiperescala de Microsoft para grandes cargas de trabajo de
análisis de datos en la nube. Este servicio está construido para la nube, es compatible con HDFS
(Hadoop Distributed File System) y tiene una escala sin límites con un rendimiento masivo y
capacidades de grado empresarial.

Entre los diferentes servicios incluidos en Azure Data Lake se encuentran los siguientes:

 Data Lake Analytics: servicio de trabajos de análisis en la nube sin límites que permite
desarrollar y ejecutar programas de procesamiento y transformación de datos en paralelo
con los lenguajes U-SQL, R, Python y .Net.
 HDInsight: servicio de Apache Spark y Hadoop en la nube para empresas que proporciona
clústeres de análisis de código abierto para Spark, Hive, Map Reduce, HBase, Storm, Kafka
y R-Server, con el respaldo de un acuerdo de nivel de servicio del 99,9%.
 Data Lake Store: repositorio de datos en la nube sin límites que permite llevar a cabo
análisis de macrodatos con el que se puede escalar de forma masiva y que se ha creado
conforme al estándar abierto HDFS.

¿Cuáles son los beneficios de implementar Azure Data Lake en tu organización?

 Datos consolidados
Ten una única fuente de la verdad centralizando tus datos en un solo repositorio.
 Genera información a tu ritmo
No tienes la necesidad de definir o transformar tu información antes de almacenarla en
este repositorio, por lo cual podrás buscarlos para explorarlos o analizarlos en cualquier
momento.
 Acceso remoto
Podrás acceder a tus datos fácilmente de forma remota mejorando así el análisis
colaborativo.
 Automatiza flujos
Ahorra esfuerzos para tus científicos de datos evitando que se preocupen por intervenir
en las tareas de sincronización de datos.
 Crea un entorno moderno de datos
Da el primer paso para iniciar proyectos de data warehousing e inteligencia artificial.
 Tú decides quien tiene acceso
Al ser un servicio de Microsoft Azure y estar integrado con Azure Active Directory, tú
tienes el control de quién podrá acceder y explorar los datos que residen en el repositorio.
GOBIERNO DE DATOS
AWS DATA LAKE
AWS Lake Formation proporciona una interfaz de tipo asistente sobre varias partes del ecosistema
de AWS que le permite crear fácilmente un lago de datos. El almacenamiento back-end principal
de un lago de datos de AWS es su almacenamiento S3.

El almacenamiento S3 es altamente escalable y está disponible y se puede hacer redundante en

varias zonas de disponibilidad. Amazon S3 es una interfaz de servicios web simple que se puede
utilizar para almacenar y recuperar cualquier cantidad de datos, en cualquier momento y desde
cualquier parte de la web4. Dado que permite cualquier tipo de datos, también es necesario
rodear el Data Lake de distintos servicios analíticos.

Utilizar Amazon S3 para un data Lake nos permite tener una alta escalabilidad, excelente costes y
nivel de seguridad adecuado, ofreciendo así una solución integral para llevar a cabo diferentes
modelos de procesamiento.

Con Aws Glue que es un conjunto de herramientas que le permiten realizar procedimientos ETL
sobre los datos. Puede utilizarlo como una especie de herramienta de mapeo de datos que se
puede apuntar a cualquier otro almacenamiento de AWS para definir relaciones. Una vez que haya
definido estas relaciones, puede programar tareas para que se ejecuten que consulten, copien y
muevan datos de un lugar a otro. Estas herramientas son útiles cuando se trata de un gran número
de activos de datos en el ecosistema de AWS.
Herramientas de AWS para Data Lake

 Storage en S3: Para crear la VPC donde vivirá el Data Lake

 AWS Glue : Para catalogar los datos
 Amazon Athena: Para peticiones de datos directo en S3
 AWS Lambda: Para automatización de peticiones.
 AWS Congnito: Para la creación de credenciales temporales.
 AWS Kinesis: Para el procesamiento de datos en streaming
 Amazon Elastic search: Para operar y escalar los consumos rápidamente.
 AWS Redshift: Complemento data warehouse.
 Amazon Quicksight: Para visualizar el análisis de datos.
GOBIERNO DE DATOS
CUADRO COMPARATIVO

AWS DATA LAKE AZURE DATA LAKE

Los usuarios de AWS EC2 pueden configurar sus propias Los usuarios de Azure eligen Virtual Hard Disk (VHD), que es
CÓMPUTO máquinas virtuales (máquinas virtuales) o elegir imágenes de equivalente a una instancia de máquina para crear una máquina
máquina preconfiguradas o personalizar las más. virtual.

Utiliza un sistema de bloques (Blob) para almacenar los datos

Utiliza Simple Storage Service (S3) y Amazon EBS como centro sirven como almacenamiento de objetos. Admite bases de datos
ALMACENAMIENTO de almacenamiento de Datos y es totalmente compatible con relacionales, NoSQL y Big Data a través de Azure Table y
bases de datos relacionales y NoSQL y Big Data. HDInsight.

 Aurora  ElastiCache  SQL database  CosmosDB

Virtual Private Cloud (VPC) para que los usuarios puedan crear Red virtual (VNET) que ofrece a los SQL
usuarios la capacidad de
BASESREDES
DE DATOS  RDS  RedShitf mySQL Data warehouse
redes aisladas dentro de la nube.
DynamoDB crear subredes, tablas de
Neptune crear redesaisladas, así como subredes,
PostgreSQL  tablas
Table de enrutamiento,
Storage
enrutamiento, intervalos de direcciones IP privadas y puertas de intervalos de direcciones IP privadas y puertas de enlace de red.
enlace de red. Almacenamiento de archivos, Backups de recuperación,
BACKUPS AWS Glacier Backups
Recuperación del sitio

Los precios de Microsoft también son de pago por uso, pero

PRECIOS cobran por minuto, lo que proporciona un modelo de precios
más exacto.

TRANSMISÓN DE Amazon tiene un modelo de pago por uso, donde cobran por
DATOS hora. Pero es mas difícil de calcular debido a la amplitud de
servicios

SOPORTE Y
DOCUMENTACION

La documentación en la web es mas amplia debido a la Tiene una documentación precisa, pero sin tanta profundidad en
expansión en el mercado que tiene AWS. Por lo que da mayor los temas mucho mas específicos, por lo que conseguir soporte
soporte para la corrección y evaluación de problemas para la corrección de errores puede costar un poco más
Mapeo de soluciones vs dimensiones del DAMA

Referencia: https://aws.amazon.com/es/blogs/aws-spanish/herramientas-de-gobierno-de-datos-en-amazon-web-services/

También podría gustarte

Arquitectura de Datos y Gobierno de Datos
100% (2)
Arquitectura de Datos y Gobierno de Datos
30 páginas
Ebook 03 Es Profundizando en Data Lakes Morris Opazo
Aún no hay calificaciones
Ebook 03 Es Profundizando en Data Lakes Morris Opazo
27 páginas
Parlamento de Sustentacion Curricular 1 Data Lake
Aún no hay calificaciones
Parlamento de Sustentacion Curricular 1 Data Lake
26 páginas
Parlamento de Sustentacion Curricular 1 Data Lake
Aún no hay calificaciones
Parlamento de Sustentacion Curricular 1 Data Lake
19 páginas
Data Lake
Aún no hay calificaciones
Data Lake
13 páginas
Grupo 3 Data Lake y Machine Learning
Aún no hay calificaciones
Grupo 3 Data Lake y Machine Learning
11 páginas
Ebook - Data Lake Superando Las Limitaciones de Data Warehouse
Aún no hay calificaciones
Ebook - Data Lake Superando Las Limitaciones de Data Warehouse
19 páginas
Actividad Evaluativa Eje #3
Aún no hay calificaciones
Actividad Evaluativa Eje #3
8 páginas
BI&BD - Cap7 Data Lake
Aún no hay calificaciones
BI&BD - Cap7 Data Lake
40 páginas
Data Warehouse y Data Lake: ¿Cuáles Son Las Diferencias?
Aún no hay calificaciones
Data Warehouse y Data Lake: ¿Cuáles Son Las Diferencias?
10 páginas
Guia PowerData Data Lake
Aún no hay calificaciones
Guia PowerData Data Lake
16 páginas
Data Lake - Superando Las Limitaciones Del Data Warehouse
Aún no hay calificaciones
Data Lake - Superando Las Limitaciones Del Data Warehouse
17 páginas
EBOOK - Data Lake Superando Las Limitaciones de Data Warehouse
Aún no hay calificaciones
EBOOK - Data Lake Superando Las Limitaciones de Data Warehouse
19 páginas
Construyendo Data Lake AWS
Aún no hay calificaciones
Construyendo Data Lake AWS
10 páginas
Investigación DataLake y Devops
Aún no hay calificaciones
Investigación DataLake y Devops
9 páginas
Investigación Data Warehouse, Data Lake y Data Mart U1
Aún no hay calificaciones
Investigación Data Warehouse, Data Lake y Data Mart U1
5 páginas
Resumen Data Lakehouse
Aún no hay calificaciones
Resumen Data Lakehouse
3 páginas
Data Lake Vs Data Warehouse 1
Aún no hay calificaciones
Data Lake Vs Data Warehouse 1
4 páginas
Data Warehouse
Aún no hay calificaciones
Data Warehouse
28 páginas
Piad-619 Material
Aún no hay calificaciones
Piad-619 Material
66 páginas
1.1 - Presentación de La Asignatura
Aún no hay calificaciones
1.1 - Presentación de La Asignatura
44 páginas
Tarea 3 201910060315
Aún no hay calificaciones
Tarea 3 201910060315
10 páginas
AWS Data-Lake Ebook ES
Aún no hay calificaciones
AWS Data-Lake Ebook ES
7 páginas
DATA Warehouse Datamart
Aún no hay calificaciones
DATA Warehouse Datamart
10 páginas
Examen Final de Digitalizada
Aún no hay calificaciones
Examen Final de Digitalizada
19 páginas
Resumen Tema3 Data Warehouse Lake
Aún no hay calificaciones
Resumen Tema3 Data Warehouse Lake
2 páginas
Trabajo Eje 3
Aún no hay calificaciones
Trabajo Eje 3
11 páginas
UD4 - S04 - Big Data
Aún no hay calificaciones
UD4 - S04 - Big Data
21 páginas
Taller # 1 Big Data
Aún no hay calificaciones
Taller # 1 Big Data
10 páginas
Lectura Derivar Valor de Un Data Lake
Aún no hay calificaciones
Lectura Derivar Valor de Un Data Lake
4 páginas
Tarea 8
Aún no hay calificaciones
Tarea 8
16 páginas
El Poder de Los Datos
Aún no hay calificaciones
El Poder de Los Datos
37 páginas
Módulo 3
Aún no hay calificaciones
Módulo 3
19 páginas
Data Warehouse
Aún no hay calificaciones
Data Warehouse
4 páginas
Big Data
Aún no hay calificaciones
Big Data
10 páginas
Unidad I - Data Warehouse
Aún no hay calificaciones
Unidad I - Data Warehouse
11 páginas
BD2 2025 T10 Data Warehouse (1)
Aún no hay calificaciones
BD2 2025 T10 Data Warehouse (1)
25 páginas
Cuadro Comparativo (Tecnología)
Aún no hay calificaciones
Cuadro Comparativo (Tecnología)
2 páginas
Unidad 6 DATAWARE HOUSE
Aún no hay calificaciones
Unidad 6 DATAWARE HOUSE
8 páginas
Data Warehouse
Aún no hay calificaciones
Data Warehouse
16 páginas
Unidad 3 Topicos de Base de Datos
Aún no hay calificaciones
Unidad 3 Topicos de Base de Datos
42 páginas
Arquitectura y Componentes de WareHouse
Aún no hay calificaciones
Arquitectura y Componentes de WareHouse
42 páginas
Act. Evaluativa - 'CoronaVirusyBigData' - Eje3
Aún no hay calificaciones
Act. Evaluativa - 'CoronaVirusyBigData' - Eje3
13 páginas
Definición: Deposito o Archivo Es
Aún no hay calificaciones
Definición: Deposito o Archivo Es
4 páginas
gestion
Aún no hay calificaciones
gestion
11 páginas
Data Lake
Aún no hay calificaciones
Data Lake
11 páginas
Base de Datos Extemp
Aún no hay calificaciones
Base de Datos Extemp
24 páginas
Tema 2. - Arquitectura para El Almacenamiento de Datos, Data Warehouse
Aún no hay calificaciones
Tema 2. - Arquitectura para El Almacenamiento de Datos, Data Warehouse
12 páginas
Dss Elementos y Ventajas
Aún no hay calificaciones
Dss Elementos y Ventajas
3 páginas
1data Warehouse
Aún no hay calificaciones
1data Warehouse
25 páginas
Capítulo 2. Diseño de Un Data Warehouse
Aún no hay calificaciones
Capítulo 2. Diseño de Un Data Warehouse
21 páginas
1.1 Glosario
Aún no hay calificaciones
1.1 Glosario
7 páginas
Mineriataller 2
Aún no hay calificaciones
Mineriataller 2
9 páginas
Semana 10
Aún no hay calificaciones
Semana 10
20 páginas
Data Lake
Aún no hay calificaciones
Data Lake
27 páginas
Informe Final Base de Datos II - C1113 - Inteligencia Empresarial
Aún no hay calificaciones
Informe Final Base de Datos II - C1113 - Inteligencia Empresarial
12 páginas
Examen Altura Fisica John Retamal
Aún no hay calificaciones
Examen Altura Fisica John Retamal
1 página
La Edad Media y El Derecho
Aún no hay calificaciones
La Edad Media y El Derecho
3 páginas
Cultivo de Arveja
Aún no hay calificaciones
Cultivo de Arveja
25 páginas
1.los Contraejemplos de Gettier
Aún no hay calificaciones
1.los Contraejemplos de Gettier
3 páginas
Control Remoto Con IVANTI
Aún no hay calificaciones
Control Remoto Con IVANTI
2 páginas
Memoria Explicativa Del Tipo de Buque y Servicio Daniel Vicente Ferrer
Aún no hay calificaciones
Memoria Explicativa Del Tipo de Buque y Servicio Daniel Vicente Ferrer
229 páginas
Ficha de Trabajo #1 - Lineamientos
Aún no hay calificaciones
Ficha de Trabajo #1 - Lineamientos
2 páginas
Española 3
Aún no hay calificaciones
Española 3
2 páginas
Qué Es El Budismo - Jorge Luis Borges
Aún no hay calificaciones
Qué Es El Budismo - Jorge Luis Borges
51 páginas
Cómo Seleccionar El Tamaño de Remache Correcto - Atlas Copco Venezuela
Aún no hay calificaciones
Cómo Seleccionar El Tamaño de Remache Correcto - Atlas Copco Venezuela
4 páginas
TOXOCARIASIS
Aún no hay calificaciones
TOXOCARIASIS
7 páginas
Práctica de Laboratorio-Wiresshark
Aún no hay calificaciones
Práctica de Laboratorio-Wiresshark
7 páginas
Guía #17 Quinto Basico PDF
Aún no hay calificaciones
Guía #17 Quinto Basico PDF
4 páginas
01 Politica Integral Objetivos v7-4
Aún no hay calificaciones
01 Politica Integral Objetivos v7-4
4 páginas
Taller 2 Diseño Geometrico
Aún no hay calificaciones
Taller 2 Diseño Geometrico
14 páginas
Guia Dia Del Agua - 2021
Aún no hay calificaciones
Guia Dia Del Agua - 2021
1 página
Programa de Ejercicios Físicos para La Rehabilitación de Pacientes Hipertensos
Aún no hay calificaciones
Programa de Ejercicios Físicos para La Rehabilitación de Pacientes Hipertensos
31 páginas
Conquistando La Ciudad A Través de Las
Aún no hay calificaciones
Conquistando La Ciudad A Través de Las
5 páginas
Pensar en Genero Teoria y Practica para Nuevas Car PDF
Aún no hay calificaciones
Pensar en Genero Teoria y Practica para Nuevas Car PDF
9 páginas
1.ABRIR LA BIBLIA CRISTIANA EN CLAVE JUDIA - p39
Aún no hay calificaciones
1.ABRIR LA BIBLIA CRISTIANA EN CLAVE JUDIA - p39
63 páginas
Nia 320
Aún no hay calificaciones
Nia 320
3 páginas
Fuerza de Cohesión y Repulsión
Aún no hay calificaciones
Fuerza de Cohesión y Repulsión
3 páginas
Recursos Archivos 1919 1255
Aún no hay calificaciones
Recursos Archivos 1919 1255
20 páginas
Los Changos Power Point
Aún no hay calificaciones
Los Changos Power Point
7 páginas
Ácidos Nucleicos Monografía Quimica
Aún no hay calificaciones
Ácidos Nucleicos Monografía Quimica
10 páginas
Prueba de Diagnostico Naturaleza 1º Basico
Aún no hay calificaciones
Prueba de Diagnostico Naturaleza 1º Basico
9 páginas
New Style Trabajo
Aún no hay calificaciones
New Style Trabajo
58 páginas
1 CORINTIOS EAZR Contexto
Aún no hay calificaciones
1 CORINTIOS EAZR Contexto
8 páginas
Instrucciones para El Llenado Del Tablero de Indicadores
Aún no hay calificaciones
Instrucciones para El Llenado Del Tablero de Indicadores
3 páginas
Sugeidy Diaz. Tarea 4.1
Aún no hay calificaciones
Sugeidy Diaz. Tarea 4.1
3 páginas