DP 900

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 8

DP-900

Inicio
Identificación de los formatos de datos.

Datos estructurados.

Se ajustan a un esquema fijo, todos los datos tienen los mismos campos o
prepiedades.

Datos semiestructurados.

Tiene cierta estructura, pero permite variación entre instancias de entidad.

Datos no estructurados
Documentos, imágenes, audio, video.

SQL: Lenguaje de consulta estructurado.


API: Interfaces de programación de aplicaciones.

BI: Bussines inteligence.


ETL: Exploración, transformación y carga.

Almacenes de datos.
Usados para almacenar detalles de entidades, eventos u otra info de distinto
tipo.

Almacenes de archivos. 46080

CSV: Coma separated values.

JSON
Notación de objetos de JavaScript.

Esquema de documento jerárquico de Entidades con atributos [ ] y


objetos { }.

XML

Lenguaje de marcado extensible.


Usa etiquetas entre corchetes (../) para definir elementos y atributos.

BLOB

DP-900 1
Objeto binario grande. Datos binarios sin formato que las apps
deben interpretar. Imágenes, vídeo, audio y documentos.

Formatos de archivo optimizado.

Optimiza para procesamiento o espacio de almacenamiento datos


estructurados y semiestructurados. Hace más eficientes los
procesos.

Avro: Formato de filas.

ORC: Formato de columnas.

Parquet: En columnas

Bases de datos.

Define un sistema central en que los datos se pueden almacenar.


Sistema dedicado para administrar registros de datos en lugar de
archivos.

Relacionales(SQL).

Almacenar y consultar datos estructurados. Se consulta con SQL.

No relacionales(NoSQL.

No aplican un sistema relacional a los datos.

Procesamiento de datos transaccionales.

Registra transacciones que determinan eventos que quieren ser seguidos.

OLPT: Procesamiento de transacciones en línea. Optimizado para lectura y


escritura, garantiza la integridad de los datos.

ACID: Atomicidad, Coherencia, Aislamiento y Durabilidad.

Procesamiento de datos analíticos.

Normalmente se usa sólo para lectura.

Roles de trabajo:

Administradores de bases de datos.

Ingenieros de datos.

Analistas de datos.

Roles:

Administradores: Permisos, copias de seguridad, restauran.

DP-900 2
Ingenieros: Infraestructura, integran datos, limpieza, transfieren y
transforman.

Analistas: Visualizaciones y gráficos. Informes.

Servicios de datos:

Azure SQL:

Azure SQL Database: PaaS Totalmente administrada. Aplicaciones en


la nube. Disponibilidad 99.995%

Azure SQL Managed Instance: PaaS SQL Server. Más administración


por el usuario. Disponibilidad 99.99%

Máquina virtual de Azure SQL: IaaS SQL Server. Administrada


completamente por usuario. Lift-and-shift: de local a nube.
Disponibilidad 99.99%.

Azure SQL Edge: motor optimizado para IoT, datos de serie temporal de
streaming

Azure Database para bbdd relacionales de código abierto.

AD for MySQL: LAMP: Linux, Apache, MySQL y PHP.

AD for MariaDB: más reciente, más rendimiento. Compatible con Oracle


Database.

AD for PostgreSQL: híbrida de objetos, tablas relacionales y no


relacionale.

Azure Cosmos DB:

BBDD no relacional (NoSQL), admite APIs, JSON, KV

Azure Storage: Hospedan lagos de datos.

Contenedores de Blobs(binarios).

Recursos compartidos de archivos:

Tablas:

Azure Data Factory:

Permite definir y programar datos para transferirlos y transformarlos. ELT:


extracción, transformación y carga.

Azure Synapse Analytics: Análisis de datos.

DP-900 3
Pipelines: AD factory.

SQL:

Apache Spark: Admite varios lenguajes de programación y API, Java,


Scala, Python y SQL.

Azure Synapse Data Explorer: Análisis de alto rendimiento, consultas en


tiempo real.

Azure Databricks:

Análisis de datos a gran escala. Combina procesamiento de datos Spark y


semantica SQL.

HDInsight de Azure:

Procesamiento de macrodatos de apache.


Spark, Hadoop, Hbase y Kafka.

Azure Stream Analytics:

Procesamiento en tiempo real, extrae, manipula y entrega un resultado para


análisis y procesamiento.

Explorador de datos de Azure:


Servicio independiente par consultas de telemetría y registro.

Microsoft Purview.

Gobernanza y detectabilidad de datos. Crea un Mapa de datos permitiendo


encontrar datos de confianza para análisis.

Microsoft Power BI:


Modelado da datos y elaboración de informes, para crear y compartir
visualizaciones interactivas.

Datos relacionales:

SQL:

DDL: Lenguaje de definición de datos.

CREATE.

ALTER-

DROP.

RENAME.

DP-900 4
DCL: Lenguaje de control de datos.

Para administradores.

GRANT.

DENEGAR.

REVOKE.

DML: Lenguaje de manipulación de datos.

SELECT.

INSERT.

UPDATE.

DELETE.

Descripción de objetos.

Vista: Permite mostrar filas concretas.

Procedimiento almacenado: Permite guardar un comando para acelerar


los procesos.

índice: Facilita buscar datos en una tabla.

Datos no relacionales: NoSQL.

Azure Blob Storage:

Blobs en bloques. Bloques de hasta 100 MB, 4,7 GB en total. Objetos que
cambian con poca frecuencia.

Blobs en paginas: paginas de 512 bytes. Para lectura y escritura aleatorias.

Blobs en anexos. Agregar bloques, Max 195 GB.

Azure Data Lake Storage Gen2.

Almacenamiento de datos de lagos analíticos de grandes volúmenes de


datos.

Espacio de nombres jerarquico.

Explorer Azure Files:

Crea recursos compartidos en red, basados en la nube.

Comparte hasta 100TB de datos, en archivos de max 1TB.

DP-900 5
Explorador de tablas de Azure.

Contiene elementos clave valor en tablas.

Registra modificaciones. Datos semiestructurados.

Divide en particiones.

Azure Cosmos DB for:

Permite documentos, graficos, tablas llave-valor y Column family stores.

Usa indices y particiones.

Asigna particiones de contenedero de 10GB.

Util para IoT y telemática, Comercio y marketing, Juegos, Aplicaciones web


y dispositivos móviles.

MongoDB

Almacen en formato JSON binario (BSON).

MongoDB usa sintaxis compacta para busquedas.

PostgreSQL:

BBDD relacionales. RDBMS

Gran escalabilidad.

Table:

Trabaja con datos en tablas clave-valor.

Cassandra:
Almacenamiento en familia de columnas.

Apache Gremlin:

Datos en estructura de grafos.


Incluye funciones para operar vértices y bordes.

Almacenamiento de datos a gran escala

Ingesta de datos por canalización, que combina procesos para el tratamiento de


datos mediante AD factory o Azure Synapse Analytics.

Almacenes de datos analíticos.

Almacenamiento de datos: BBDD relacional en esquema optimizado en


varias dimensiones (entidades)

DP-900 6
Lagos de datos: Datos de alto rendimiento, Spark o Hadoop, enfoque de
esquema en lectura semiestructurado o combinación con estructurados o no
estructurados.

Hibrido: Combinación de ambos, que guarda los datos sin procesar en el


lago, y los procesados en el almacenamiento.

Programas de Azure:

Azure Synapse Analytics: análisis de datos a gran escala.

Azure Databricks: Apache Sparks: Procesa volumenes grandes de


forma eficaz.

Azure HDInsight: mejor para código abierto o migrar una solución


Hadoop a la nube.

Análisis en tiempo real.

Procesamiento por Lotes: Datos se almacenan y se procesan en conjunto


en un momento determinado.

Streaming o flujos: Cada dato se procesa cuando llega, sin tiempo de


espera.

Diferencias:

Ámbito: Lotes toda la info. Flujo: info determinada a un tiempo(ej.


ultimos 30 min).

Tamaño: Lotes: grande. Flujo: pequeño.

Rendimiento: Lote: lento. Flujo: Rápido.

Análisis: Lotes: complejos. Flujo: simples.

Combinación permite tener info constante sin errores.

Azure en tiempo real:

Azure Stream Analytics.

Spark Structurres Streaming: Procesa volumenes grandes de forma


eficaz. Por lotes o Flujos. Delta Lake.

Azure Data Explorer.

Proveniente de:

Azure event hub: Se ponen en cola para bajarlos después.

DP-900 7
Azure IoT Hub.

Azure Data Lake Store Gen2.

Apache Kafka.

Recibido por:

Azure event hub

Azure Data Lake Store Gen2.

Microsoft Power BI: Vizualización en tiempo real.

Visualización de datos en Power BI.

Microsoft Power BI (Bussines inteligence): Visualización de datos interactivas.

Desktop:

Nube: + Limitado

Multidimensional.

Jerarquía de atributos: Las ordena en tablas visualmente más entendibles.

Modelado analítico.

Visualización:

Tablas y texto: numerosos valores relacionados y texto.

Graficos de barra y columnas: Comparar visualmente valores numéricos.

Gráficos de líneas: Tendencias a largo tiempo.

Circulares: Comparar valores en proporciones de un total.

Dispersión: Comparar dos medidas numéricas y relacionarlas.

Mapas: Visualización por área geográfica.

Informes interactivos: Combinación de tipos de graficos.

DP-900 8

También podría gustarte