0% encontró este documento útil (0 votos)
53 vistas33 páginas

Dossier Master Big Data Engineering Ucm

Cargado por

JOSE
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
53 vistas33 páginas

Dossier Master Big Data Engineering Ucm

Cargado por

JOSE
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 33

2º EDICIÓN

Máster de Formación Permanente


Facultad de Estudios Estadísticos
Universidad Complutense de Madrid

BIG DATA &


DATA ENGINEERING
Índice Programa

MÓDULOS

• Python para Desarrolladores


• Programación en Scala
• Arquitecturas de datos
• Diseño de Bases de Datos relacionales
• Bases de Datos NoSQL
• Apache Kafka y procesamiento en tiempo real
• Apache Spark
• Ingestas y Lagos de datos
• Pipelines de datos en cloud
• Arquitecturas basadas en contenedores
• Machine Learning y Deep Learning
• Productivización de modelos
• Trabajo Fin de Máster
¿Por qué estudiar

Data Engineering?
Los ingenieros de datos son la base para construir equipos de analítica avanzada.

Crean la infraestructura para que los científicos de datos trabajen, configuran sus entornos, evangelizan a los equipos
de analítica y a los analistas de BI para que sigan las buenas prácticas en el uso de los datos, y definen y monitorizan
los flujos adecuados para suministrarles datos curados y de calidad a todos los demás usuarios de una organización.

Esto incluye el uso de herramientas cloud (orquestar flujos y bases de datos diversas) y también la implementación
de procesos específicos de ingestas y tratamientos, puesto que los datos en crudo habitualmente distan aún de ser
útiles para perfiles analíticos.

Asimismo, los ingenieros de datos, en conjunción con los equipos de analítica, determinan las prácticas de ingeniería
que deben seguirse para desplegar y llevar a producción los modelos analíticos, y se encargan de su mantenimiento
y monitorización operativa - esto es, que permanezcan vivos y funcionales - al mismo tiempo que los científicos de
datos monitorizan las métricas que se van obteniendo.
La importancia del
DATA ENGINEERING

Empresas y organismos necesitan


profesionales para la nueva era digital
Las empresas y organismos están integrando rápidamente la transformación digital en sus estructuras y cultura
empresarial para aprovechar el valor de los datos masivos en la toma de decisiones. El Big Data se ha convertido en
un recurso valioso para la gestión empresarial, y lo que comenzó como una ventaja competitiva se ha vuelto esencial
para acometer nuevo retos. El dato es considerado como el activo más importante del siglo XXI, y los profesionales
demandan conocimientos que permitan abordar los procesos de innovación.

El rol del Data Engineer


Las metodologías de la Ciencia de Datos para extraer valor de
los datos, basadas en Machine Learning e Inteligencia Artificial,
requieren que, primero, se hayan definido infraestructuras y
arquitecturas que les permitan acceder a estos datos. Los
Ingenieros de Datos son los encargados de crear flujos de datos
con los que proveer a los Científicos de Datos que los analizarán,
y definir procesos y estándares para desplegar en producción
dichos modelos predictivos y explotar sus resultados, cerrando
el ciclo de aporte de valor en la empresa. Para ello utilizan
herramientas especializadas en datos masivos y tecnologías
cloud.

Ecosistema Big Data


El impacto de la información a gran escala va más
allá del ámbito matemático o estadístico, ya que
tiene aplicaciones prácticas en diversos campos
empresariales, gubernamentales, científicos y sociales.
El Big Data se ha convertido en un recurso fundamental
para afrontar situaciones complejas en tiempo real,
permitiendo tomar decisiones informadas y generar
conocimiento valioso en áreas como la medicina, la
seguridad, el marketing, entre otros. El Big Data es una
herramienta imprescindible en el mundo actual que
ayuda a resolver problemas y aprovechar oportunidades
en diversos entornos y sectores.
Duración:
1 año académico

Modalidades:
Presencial y Online

Créditos ECTS:
60

Modalidad Clases Presenciales:


Facultad de Estudios Estadísticos UCM
Viernes
16:00 – 21:00h
Sábado
9:00 – 14:00h

Modalidad Online
100% online

¿Por qué estudiar

en la UCM?
La Universidad Complutense de Madrid (UCM) es una de las instituciones educativas más destacadas de España
y Europa. Ofrece una amplia gama de oportunidades y beneficios para los estudiantes, así como una excelencia
académica reconocida, una calidad docente de primer nivel. Ofrece alrededor de 90 títulos de grado y más de 30
dobles grados, más de 200 programas máster, además de estudios de formación permanente. La UCM tiene más de
500 años de historia y reconocimiento social. La Universidad Complutense de Madrid es la universidad española de
referencia en 5 continentes.

El prestigio de la universidad está avalado por 7 Premios Nobel, 20 Príncipes de Asturias, 7 Premios Cervantes,
Premios Nacionales de Investigación y a la Excelencia. La Universidad Complutense de Madrid tiene estudiantes de
más de 90 países y convenios con universidades de los 5 continentes.

Por qué estudiar un Máster de formación


permanente de la UCM?
Si hay algo que afianza los conceptos teóricos de un programa educativo es la práctica. Nuestros
módulos formativos combinan una base teórica con ejercicios prácticos basados en situaciones
reales de las empresas.

La preparación del Trabajo Final de Máster (TFM) garantiza la puesta en práctica de todos los
conceptos adquiridos a lo largo del curso, capacitando definitivamente al alumno para asumir
responsabilidades dentro de un entorno laboral real.

Convenios con empresas


La Universidad Complutense de Madrid y el Máster Big Data & Data science & inteligencia artificial,
mantienen convenios con prestigiosas empresas del sector, lo que permite en la modalidad
presencial acceder a prácticas con las que aplicar los conocimientos adquiridos a lo largo del
máster.

El claustro de profesores de este Máster presenta la gran ventaja de reunir destacados profesores
universitarios de prestigio con grandes profesionales en activo en compañías de referencia en
el ámbito empresarial.
Programa Máster

Big Data &


Data Engineering

Python para Desarrolladores

Siendo el primer módulo del máster, se profundiza en la utilización del lenguaje Python para desarrollo
de software. Python es el lenguaje que mayor auge ha experimentado en los últimos años, tanto en el
área de la Ciencia de Datos como de la Ingeniería de Datos, por su versatilidad y sencillez. De hecho, se
utilizará en varios de los módulos posteriores, dado que dispone de paquetes específicos para integrarse
con distintas tecnologías.

Dado que el alumno ya tiene experiencia programando en algún lenguaje, aquí se repasarán los conceptos
aplicados a Python y se profundizará en aspectos concretos que debe conocer bien un Ingeniero de Datos
en su día a día, ligados a los estándares del Desarrollo de Software.

Índice de contenidos:

• Compiladores, intérpretes, lenguajes • Expresiones regulares


interpretados y compilados • Programación Orientada a Objetos
• Flujo de control, estructuras de datos • Versionado de código con Git
básicas (listas, diccionarios) • Desarrollo de un paquete de Python
• Manejo de DataFrames de Pandas • Tests unitarios y paquetes específicos
• Control de excepciones
Programación en Scala

El lenguaje Scala se ha impuesto como uno de los estándares Índice de contenidos


para la creación de flujos de datos, motores de ingesta y
preparación del dato • Introducción a Scala.
Relación con Java y la JVM.
Se trata de un lenguaje con características avanzadas que
• Construcciones para flujo de
combina el paradigma orientado a objetos, habitual en la
control propias de Scala
industria del desarrollo de software desde hace años, con el
paradigma funcional, algo novedoso y que da lugar a códigos • Programación Orientada a
elegantes, concisos y muy expresivos. Objetos en Scala. Clases,
traits, objects. Similitudes y
Se introducirá al alumno en los conceptos tradicionales de la diferencias con Java.
programación orientada a objetos y funcional en el lenguaje • Pattern matching y
Scala, así como a las construcciones habituales de este lenguaje características funcionales
y sus características funcionales fundamentales, apoyándonos avanzadas
en el IDE más popular entre los ingenieros de datos.
• Introducción al desarrollo en
IntelliJ.
• Creación de proyectos
basados en sbt.
Arquitecturas de datos

Hoy en día se están generando más datos que nunca y, para seguir siendo competitivas, las empresas
deben recopilarlos, almacenarlos, procesarlos y analizarlos de manera eficaz. Ahí es donde entran en
juego las arquitecturas de datos.

En este módulo, se introducirán y explicarán los componentes clave de las arquitecturas de datos
modernas, incluyendo las fuentes de datos, la capa de ingesta, la capa de almacenamiento, la capa de
procesamiento, capa de servicio y la capa de presentación. Se presentará su evolución a lo largo de los
años, los principales patrones arquitectónicos actuales y su implementación en los distintos proveedores
cloud. El alumno podrá descubrir cómo estas arquitecturas permiten a las organizaciones manejar y
procesar grandes volúmenes de datos de manera eficiente, proporcionando información en tiempo real
sobre sus operaciones.

Al final de este curso, el alumno tendrá conocimiento general para diseñar e implementar arquitecturas
de datos modernas que permitan a cualquier empresa, gestionar y analizar sus datos de manera efectiva
y tomar mejores decisiones basadas en datos.

Índice de Contenidos
• Introducción a las arquitecturas de datos • Capa de procesamiento
• Fuentes de datos actuales • Capa de servicio
• Capa de ingesta • Capa de presentación.
• Capa de almacenamiento • Patrones arquitectónicos de arquitecturas de datos
Diseño de Bases de Datos relacionales

Las Bases de Datos relacionales, esto es, aquellas en las que la


información está almacenada en forma de tabla, siguen siendo
las más frecuentes en gran cantidad de empresas, que por
razones históricas almacenan en ellas los datos de su negocio.

También en muchas de las tecnologías más recientes del


ecosistema Big Data existe la posibilidad de definir tablas y
modelos de datos que se basan en el lenguaje SQL. Por esto,
un ingeniero de datos frecuentemente debe llevar a cabo
migraciones y definiciones o redefiniciones de modelos de
datos basados en tablas, para lo cual necesita conocimientos
clásicos de Diseño de bases de datos.

Durante los procesos de desarrollo de flujos de datos también es


necesario consultar frecuentemente bases de datos utilizando
Índice de Contenidos
el lenguaje de consulta SQL, el más extendido en la actualidad.
• Concepto de base de datos
En la primera parte del módulo se revisará el lenguaje SQL, relacional
desde las consultas más básicas a las más avanzadas. A • El lenguaje de consulta SQL
continuación, se presentarán los principios de diseño habituales • Sentencias DDL.
para definir modelos de datos. Esto incluye conceptos como • Clave primaria, externa y
maestros, modelos en estrella, copo de nieve, claves primarias restricciones
y externas, restricciones, índices, etc. • Sentencias DML
• Ejemplos de queries con
SELECT, FROM, WHERE,
GROUP BY, HAVING,
agregaciones, subquerie, …

• Diseño de bases de datos


relacionales
• Modelo Entidad-Relación
• Modelo relacional
• Normalización de bases de
datos
• Modelos de datos: en
estrella, en copo de nieve,
concepto de maestros.
Bases de Datos NoSQL

El módulo de Bases de Datos NoSQL está diseñado para proporcionar un conocimiento práctico de las
bases de datos NoSQL. El programa aborda conceptos fundamentales como la distribución de datos, la
escalabilidad, la consistencia eventual y las operaciones CRUD, utilizando diferentes tipos de bases de
datos NoSQL como documentales, clave-valor, columna y grafo. También cubre las bases de datos más
populares en cada categoría, incluyendo MongoDB, Cassandra, Redis y Neo4j. Con una combinación de
teoría, ejemplos prácticos y proyectos, los estudiantes aprenderán cómo implementar soluciones de
bases de datos NoSQL de manera efectiva.

Las bases de datos NoSQL se están convirtiendo en una opción cada vez más popular para las
organizaciones debido a su capacidad para manejar grandes cantidades de datos y su flexibilidad para
adaptarse a los cambios de datos, lo que las hace ideales para big data y aplicaciones en tiempo real. Al
adquirir estas habilidades, como ingeniero de datos contarás con conocimientos para afrontar los desafios
del futuro en la gestión de datos no estructurados. En una era en la que los datos son el nuevo petróleo,
aprender sobre bases de datos NoSQL puede ser una pieza clave para abrir nuevas oportunidades en una
amplia gama de industrias, desde la tecnología hasta la salud, las finanzas y más allá.

Índice de contenidos:

• Bases de datos documentales: MongoDB


• Inserción, actualización, consulta y borrado de documentos

• Bases de datos clave-valor: Redis


• Persistencia de datos en RAM
• Sistema caché y message broker

• Bases de datos de grafos: Neo4J


• Nodos, relaciones y atributos
• Visualización de grafos
Apache Kafka y procesamiento en tiempo real

Apache Kafka es una plataforma de paso Índice de contenidos:


de mensajes en near real time, empleada
para comunicar instantáneamente distintas 1. Arquitectura y Conceptos Básicos
aplicaciones conectadas a él, al estilo de un • KRAFT (bye bye Zookeeper)
gran bus de datos común por el que circula la • Kafka Admin API
información de una empresa, para ser procesada
• El LOG distribuido y sus conceptos básicos
y utilizada por distintos departamentos de
2. Producer/Consumer API
maneras muy diferentes. Es capaz de procesar
billones de mensajes al día en near real time. • Conceptos básicos Producer
Podríamos definir su arquitectura como un • Conceptos básicos Kafka Consumer
sistema de logs distribuido. Kafka sólo tiene • Console Producer/Consumer
una tarea: escribir mensajes en forma de log • Semánticas de entrega
cumpliendo siempre sus dos grandes razones de • Java/Scala/Python Producer/Consumer
ser: rapidez y fiabilidad en la entrega y proceso 3. Kafka Connect
de mensajes 4. Kstreams
5. KSQL
Sobre esta idea, se desarrolla un ecosistema
6. Pipelines de Datos pensadas en tiempo real
en forma de APIs y clientes caracterizado por
su ligereza y sencillez que permiten el escalado
dinámico y elástico de la aplicación, que no
depende necesariamente del escalado del
propio cluster de máquinas en las que se está
ejecutando Kafka. Estos son los motivos por
los que el ecosistema Kafka se ha convertido
en el estándar de facto para numerosos casos
de uso alrededor de las arquitecturas de dato
que van desde el paso de mensajes en tiempo
real para comunicar sistemas heterogéneos,
hasta el “sistema nervioso central” del dato
de una compañía, que permite que todos los
departamentos vean siempre dato actual y
habilita estrategias de gobierno de datos.
Incluso se aplica para la comunicación entre
microservicios en aplicaciones descentralizadas.
En definitiva, Kafka facilita la implementación
de cualquier solución orientada a Eventos (EDA
o Event Driven Architecture).

En este curso revisaremos la Arquitectura


Kafka y su ecosistema, profundizando en temas
como el escalado o las distintas estrategias de
despliegue, pero sobre todo en sus distintas
APIs y abstracciones (desde consumer producer
a KSQLDB pasando por Kafka Connect), el
desarrollo de aplicaciones clientes para el
streaming de datos en los lenguajes más usados
(Python, Java/Scala) y el diseño pipelines de
datos eficientes y sencillas en (near) tiempo
real.
Apache Spark

Este módulo introduce las tecnologías Big Data y su motivación en el contexto actual de la era digital y
las necesidades de las empresas. Proporciona a los estudiantes una comprensión profunda de cómo
funcionan estos sistemas de procesamiento de datos distribuidos y cómo aprovecharlos para procesar
grandes cantidades de datos de manera eficiente y efectiva.

Tras describir brevemente el manejo de la tecnología de almacenamiento HDFS (Hadoop Distributed File
System), el curso se centrará en Apache Spark, sin duda la tecnología más demandada para procesamiento
de grandes volúmenes de datos, que constituye el día a día de los equipos de ingenieros de datos de
todo el mundo. Describiremos su filosofía basada en un grafo de ejecución (DAG) y sus implicaciones.
A continuación, el alumno profundizará en el estudio de cada uno de los módulos, en especial Spark
SQL, MLlib y Structured Streaming. Se desplegará un cluster de Spark en la plataforma de Databricks
sobre Azure, actualmente una de las combinaciones más extendidas en la empresa privada, y sobre él se
mostrará la aplicación de cada uno de los conceptos.

Índice de contenidos

• Introducción a las tecnologías Big Data


• HDFS
• Apache Spark
• Arquitectura de Spark
• Módulos de Spark: Spark SQL, Spark MLlib, Structured Streaming
• Grafos con el paquete GraphFrames
Ingestas y Lagos de datos

Prepárate para sumergirte y bucear en el apasionante


mundo de los lagos de datos. En el mundo actual, las
empresas necesitan como parte de su arquitectura
de datos, un componente que les permita almacenar,
procesar y analizar grandes cantidades de datos. Estos
compo-nentes son los data lakes (o lagos de datos), y su
última evolución, los lakehouses.

Los data lakes son repositorios centralizados para


almacenar cualquier tipo de dato sin requerir una estructura
previa. Los lakehouses son una evolución de los lagos de
datos que combinan la escalabilidad y flexibilidad de los
datalakes con el rendimiento y la fiabilidad de los data Índice de contenidos
warehouses tradicionales. Sin embargo, admi-nistrarlos
y operarlos de forma óptima es un desafío que requiere • Formatos de almacenamiento.
planificación y diseño para garantizar una organización
• Patrones de ingesta en batch y
adecuada de los datos en el mismo.
• en tiempo real
Al realizar este curso, tendrás los conocimientos nece- • Capas lógicas de un lago.
sarios para diseñar, implementar, organizar y administrar • Construcción de lagos de datos
estos componentes. Además, aprenderás sobre formatos con herramientas cloud
de almacenamiento, incluyendo el manejo de formatos
de fichero específicos para lagos y la funcionalidad
que ofrecen; estudiaremos los patrones de ingesta y lo
relativo a la promoción de datos entre las distintas capas
lógicas
Pipelines de datos en cloud

El curso se centra en el diseño y desarrollo de Podrán utilizar diferentes lenguajes de


soluciones de procesamiento de datos en la programación o emplear Azure Synapse
plataforma Microsoft Azure. Exploraremos Analytics como herramienta integral para el
en detalle las herramientas específicas de análisis y procesamiento de datos de alto
Azure empleadas por los ingenieros de datos, rendimiento.
tanto en la fase de ingesta como en las etapas
posteriores. El enfoque principal será lograr un Tendrán asimismo la oportunidad de trabajar
aprendizaje significativo a través de proyectos con diversas bases de datos relacionales y
personales guiados por el tutor de manera no relacionales, como Azure SQL Database
directa y evaluación basada en la adquisición de y Azure Cosmos DB, así como otros servicios
competencias. transversales relevantes.

Los estudiantes aprenderán los fundamentos y


Índice de Contenidos
las mejores prácticas para construir pipelines
de datos eficientes y escalables, que permitan
• Introducción
la ingesta, transformación, almacenamiento
y análisis de grandes volúmenes de datos. • Fundamentos y mejores prácticas en
El curso cubre conceptos esenciales como el pipelines de datos
almacenamiento y procesamiento de datos en • Arquitecturas y servicios de Azure para
la nube, la arquitectura de pipelines de datos y ingenieros de datos
las herramientas disponibles en el proveedor • Ingesta y orquestación con Azure Data
Microsoft Azure para su implementación. Factory
También se hará hincapié en la seguridad y • Procesamiento de eventos en tiempo real
monitorización de los pipelines, así como en la
con Azure Event Hubs
optimización del rendimiento y la escalabilidad
• Almacenamiento escalable y seguro con
de las soluciones implementadas.
Storage Account Gen2
El alumno se familiarizará con los servicios de • Análisis de datos masivos con Azure
Azure para cada etapa del ciclo de vida de los Databricks y Azure Synapse Analytics
datos: ingesta, orquestación y coordinación de • Bases de datos relacionales y no
flujos de datos desde diversas fuentes mediante relacionales: Azure SQL Database y Azure
Azure Data Factory. Además, podrán gestionar Cosmos DB
la ingesta de datos en tiempo real y procesar • Seguridad, monitorización y optimización
eventos a gran escala utilizando Azure Event
de pipelines de datos
Hubs. Se profundiza en Storage Account Gen2
• Servicios transversales que complementan
para administrar y proteger grandes volúmenes
de datos. Explorarán el análisis de datos a gran la formación en la nube de Azure
escala, creando flujos de trabajo colaborativos y
analizando datos masivos con Azure Databricks.
Arquitecturas basadas en contenedores

Arquitecturas Basadas en Microservicios con


Docker y Kubernetes Diseño y desarrollo de microservicios de API
Rest
El curso proporcionará a los participantes los
conocimientos y habilidades necesarios para
• Principios de diseño para microservicios de
comprender, diseñar, desarrollar y desplegar
API Rest.
arquitecturas basadas en microservicios
utilizando API REST, así como una introducción • Descomposición de aplicaciones
a las herramientas Docker y Kubernetes. Las monolíticas en microservicios de API Rest.
arquitecturas basadas en microservicios son • Tecnologías y herramientas para el
una estrategia que permite desarrollar sistemas desarrollo de microservicios de API Rest.
escalables, flexibles y fáciles de mantener. En • Gestión de la comunicación y la interacción
este curso, los participantes aprenderán los entre microservicios de API Rest.
principios de las arquitecturas basadas en • Implementación y despliegue de
microservicios y API REST, las mejores prácticas
microservicios de API Rest utilizando
para su diseño, desarrollo y despliegue, y cómo
Docker.
utilizar Docker y Kubernetes para gestionar
eficientemente los microservicios.
Despliegue y gestión de microservicios de API
Objetivos del curso: Rest con Kubernetes

• Comprender los conceptos fundamentales de • Introducción a Kubernetes y la orquestación


las arquitecturas basadas en microservicios. de contenedores.
• Diseñar y desarrollar una arquitectura basada • Despliegue de microservicios en clústeres
en microservicios de API Rest utilizando
de Kubernetes.
buenas prácticas.
• Escalado y gestión de microservicios
• Utilizar Docker para crear y gestionar
contenedores de microservicios. utilizando Kubernetes.
• Utilizar Kubernetes para desplegar, escalar • Configuración y gestión de la comunicación
y gestionar microservicios en entornos de entre microservicios en Kubernetes.
producción.
• Implementar estrategias de comunicación y Seguridad, monitorización y mantenimiento
gestión de datos entre microservicios. de microservicios de API Rest
• Aplicar prácticas recomendadas para
garantizar la seguridad y la fiabilidad en una
• Consideraciones de seguridad para las
arquitectura de microservicios.
arquitecturas basadas en microservicios de
• Realizar la monitorización y el mantenimiento
de una arquitectura basada en microservicios. API Rest.
• Implementación de autenticación y
Índice de contenidos: autorización de microservicios de API Rest.
• Monitorización y registro de microservicios
Introducción a las arquitecturas basadas en en Kubernetes.
microservicios y API Rest • Estrategias de escalado y gestión de la
carga en Kubernetes.
• ¿Qué son las arquitecturas basadas en
• Pruebas, depuración y mantenimiento de
microservicios? ¿Qué es un API REST?
microservicios
• Principios y características de las
arquitecturas basadas en microservicios de
API Rest. Comparación con otros enfoques
arquitectónicos.
• Estudio de casos y ejemplos prácticos
Machine Learning y Deep Learning

Uno de los objetivos de la ingeniería de datos es dar soporte a la creación de modelos de aprendizaje
automático que extraigan valor a los datos de una empresa y ayuden al negocio. Esto ocurre tanto antes
de que se diseñe un modelo predictivo, suministrando los datos adecuados, como en el momento de
ponerlo en producción.

Por ello, es necesario que un ingeniero de datos esté familiarizado con las técnicas que aplican los
científicos de datos, con el fin de comprender las necesidades de estos, lo cual favorece la sinergia entre
equipos de ambos perfiles y acelera la entrega de valor.

En este módulo, se presentan los fundamentos del Machine Learning, las técnicas principales que lo
componen en el ámbito del aprendizaje supervisado, no supervisado y por refuerzo, así como las fortalezas,
limitaciones y métricas necesarias para evaluar el funcionamiento de cada modelo.

El módulo se plantea desde un punto de vista eminentemente práctico, con una orientación específica a
lo que el ingeniero de datos necesita entender.

Se complementa con una introducción al Deep Learning, el conjunto de técnicas basadas en redes
neuronales que actualmente constituyen una verdadera tendencia, en especial en lo que respecta a
procesamiento de lenguaje natural con LLM (Large Language Models) y redes generativas de contenidos
de tipo textual e imagen.
Machine Learning y Deep Learning

Índice de contenidos:

• Introducción al Machine Learning


• Aprendizaje supervisado con Python
• Aprendizaje no supervisado con Python
• Utilización del paquete scikit-learn
• Evaluación de un modelo entrenado
• Redes neuronales: forward y backpropagation.
• Autoencoders. Transformers. Redes generativas. Ejemplos utilizando Keras
• Large Language Models (LLMs) actuales.
Productivizar un modelo

La productivización se refiere al proceso de llevar los modelos de Inteligencia Artificial (IA) y sus resultados
a un entorno de producción para que puedan ser utilizados de manera efectiva y generar valor en el
mundo empresarial. Los modelos de IA tienen un ciclo de vida que nace en su fase de desarrollo, pero es
en la implementación, versionado y mantenimiento donde necesita convivir dentro de una infraestructura
tecnológica.

Desde la recolección de datos y entrenamiento inicial, hasta la evaluación y monitorización, linaje,


iteración y eventual reentrenamiento para mantener su rendimiento óptimo a lo largo del tiempo existen
herramientas y técnicas que nos permiten cumplir con directrices de buenas prácticas que requiere el
mercado.

En este curso estudiaremos la automatización y estandarización de todo el ciclo de vida de modelos de


IA siguiendo estándares de MLOps. Al aplicar MLOps, los equipos de Data Science y desarrollo pueden
colaborar de manera efectiva para acelerar la implementación de modelos en producción, facilitar la
auditoría y garantizar la reproducibilidad de los resultados

Índice de contenidos

• Ciclo de vida de modelos AI y MLOps.


• Arquitecturas de implementación y despliegue en infraestructuras escalables.
• Versionado de modelos, linaje y trazabilidad.
• Monitorización y métricas de rendimiento.
• Reentrenamiento automático y despliegue gradual de modelos.
Trabajo de fin de máster

Asimilados todos los conceptos previos, llega el momento


de poner a prueba todos los conocimientos adquiridos
en el máster.

El alumno planteará una estrategia global de inteligencia


de datos para una empresa, basándose en diferentes
técnicas y softwares de apoyo de entre los existentes en
el mercado.

El trabajo de fin de máster es una parte crucial del


programa, ya que permite a los estudiantes aplicar todos
los conocimientos adquiridos en el curso en un proyecto
práctico y relevante en el mundo real.

El trabajo de fin de máster proporciona una oportunidad


para que los estudiantes demuestren su capacidad para
analizar, procesar y utilizar datos de manera efectiva
para resolver problemas complejos y tomar decisiones
informadas. También les permite desarrollar habilidades
de presentación y comunicación al presentar sus
hallazgos y resultados a una audiencia de expertos.

Además, el trabajo de fin de máster puede ser una


oportunidad para que los estudiantes trabajen en
colaboración con empresas u organizaciones, lo que
les permite obtener experiencia práctica en un entorno
profesional y crear conexiones valiosas para su carrera.
Equipo directivo

MÁSTER BIG DATA &


DATA ENGINEERING

Cristóbal Pareja Flores


Director. Catedrático EU en la UCM. Con más de 30 años como
docente, Cristóbal es matemático especializado en Ciencias de
la Computación, Doctor en Informática. Además, es Decano de la
Facultad de Estudios Estadísticos y Vicedecano de Postgrado e
Investigación.

Equipo docente del


Máster Big Data
Contamos con reconocidos docentes
universitarios y verdaderos profesionales
del sector como profesores del Máster
José Carlos Soto Gómez Big Data & Data Engineering.

Co-Director. Socio Fundador de NTIC Master y Aplimovil. Amplia Estos altos cargos en activo, de
experiencia en proyectos nacionales e internacionales en IT y empresas de renombre como
analítica en empresas como Banco de España, NEC, Telefónica, Mercedes Benz, Inditex, Confluent,
Vodafone, Orange, medios de comunicación… Sopra Steria y Seguros Santa Lucía,
forman a nuestros alumnos en
contenido actualizado, de calidad y
demandado por el tejido empresarial

“Aprende con los mejores profesionales expertos en Arquitecturas de Datos”


Equipo Docente

PROFESORES

Cristóbal José Javier Pablo J.


Pareja Flores Galán Hernández Villacorta
Catedrático EU en la UCM Responsable de Sistemas Data scientist & ML Engineer en
Seguros Santalucía
Con más de 30 años como José Javier es Ingeniero
docente, Cristóbal es matemático Informático y trabaja como Pablo es Doctor en Ciencias de
especializado en Ciencias de Responsable de Sistemas CED. la Computación e IA, Ingeniero
la Computación, Doctor en Además es profesor asociado Informático y Lic. en Estadística por
Informática. Además, es Decano de UCM. Ha trabajado en proyectos de la Univ. de Granada. Desarrollador
la Facultad de Estudios Estadísticos sistemas en El Corte Inglés, Comel certificado en Spark por Databricks,
y Vicedecano de Postgrado e entre otros. trabaja desde hace 8 años como
Investigación Data Scientist / ML Engineer
especializado en la creación y
puesta en producción de modelos
basados en Spark.

David Marlon Alberto


Alonso García Cárdenas Bonett González
Director de Compluemprende Líder de Data Science en Arquitecto Cloud en Minsait
Sopra Steria
David es Doctor en Geografía Alberto es Ingeniero en Informática
e Historia. Experto en gestión Marlon es responsable de Data experto en arquitectura de datos, y
y desarrollo de la innovación y Science en Sopra Steria, liderando soluciones tanto cloud como on-premise.
emprendimiento. Director de varias iniciativas de proyectos en Certificado como Solutions Architect
Compluemprende-Universidad el área de la analítica avanzada Expert y Data Engineer Associate en
Complutense de Madrid. en sectores diversos. Además, cloud de Microsoft Azure. Actualmente
es arquitecto de soluciones diseña e implementa arquitecturas de
especializado en bases de datos. datos cloud para diversos sectores para
maximizar el valor de los
Equipo Docente
PROFESORES

Jorge Vicente Óscar Gómez


Senior Solutions Architect
Centeno Colilla Gómez en Confluent
Head of Data en UCM
Inditext Logistics SA
Óscar es Ingeniero y Arquitecto
Vicente es Lic. en sociología.
Software con casi 20 años de
Jorge es ingeniero de software con Gerente de Compluemprende
experiencia, especializado en el
más de 15 años de experiencia. ,Oficina Complutense de
diseño de soluciones basadas en
Ha desarrollado arquitecturas de Emprendimiento (UCM). Cuenta
tecnologías descentralizadas, de
datos en múltiples industrias como con amplia experiencia en
procesamiento masivo
redes sociales, viajes, sector diferentes ámbitos relacionados
público y seguros, como arquitecto con la innovación y el desarrollo del
de soluciones y liderando equipos emprendimiento.
de Ingenieros de datos.

Eduardo Fernández Armando Álvaro


Carrión Heras Bravo Acosta
Data scientist, PhD. Chief Digital Officer Ingeniero Técnico Informático
en Sistemas
Eduardo es ingeniero informático Armando es Licenciado en
y doctor en métodos estadísticos Economía por CUNEF. Experto en Experto en Tecnologías Big Data,
matemáticos para el tratamiento finanzas, auditorías y financiación, BI y Analítica. Gran experiencia en
computacional de la información. especialmente en ecosistemas consultoras como Minsait, Sopra
Data Scientist & ML Engineer en emprendedores a través de la Steria, Everis o NTT, para externos
Santalucia seguros. Experto data inversión, creación de empresas y como ISBAN y BBVA. Actualmente,
sciencist habiendo desarrollado su desarrollo de proyectos. DevOps en equipo de producto
carrera profesional en StratioBD, Frameworks en Strato.
Visavet, Everis, etc,
Equipo Docente
PROFESORES

Alberto Pedro Pablo Amor Yolanda García Ruiz


Ezpondaburu Principal Architect en Google Docente en la UCM
NLP Specialist
Pedro Pablo es ingeniero de Licenciada en C.C. Matemáticas
Alberto es ingeniero de sistemas. Experto en Big Data, Data en la especialidad de C.C. de la
telecomunicaciones, Lic. en science, data engineer. Tiene una Computación por la Universidad
Matemáticas. Experto en NLP y en gran experiencia profesional de Complutense de Madrid desde el
la aplicación de técnicas de deep más de 23 años en Microsoft como año 1995 y doctora en Informática.
learning e inteligencia artificial. Ha principal architect y actualmente en Hasta su incorporación al mundo
trabajado como data scientist en Google. académico ha desarrollado su
varias empresas y creado empresas carrera profesional en el área
del ámbito AI. de la informática en diferentes
compañías.

Daniel Gabriel Charles


Martín García Marín Díaz Flores Espinoza
Big Data Engineer en
Docente en la UCM PhD, Análisis de Datos
Mercedes-Benz AG
Daniel es graduado en estadística y Gabriel es Licenciado en
Charles es Ingeniero informático.
doctorado en data science. Trabaja matemáticas. Profesor de la UCM y
Experto Data Engineer & Data
como docente en la UCM, donde tiene una amplia experiencia en el
Architect, Scala, ML. Gran experiencia
también forma parte de grupos de sector empresarial siendo consultor
en el sector en empresas como
investigación. data Science.
StratioBD, Oliver Wyman, Vass, Bayes.
Equipo Docente
PROFESORES

Pablo Arcadio Luis Fernando Olga


Flores Vidal Llana Díaz Marroquín Alonso
Docente en la UCM Docente en la UCM Docente en la UCM

Pablo Arcadio licenciado en Luis Fernando es doctor por la Olga es licenciada y doctora en
estadística es docente en la UCM. Docente en la UCM y forma mátemáticas por la UCM. Docente
Universidad Complutense de parte de grupos de investigación: en la UCM y forma parte de grupos
Madrid, y Delegado del Decano para Design and Testing of Reliable de investigación. Experta en data
Erasmus y Movilidad. Systems. Experto en Computer Science.
Science.

Elena del Carmen


Gavilán García
Docente en la UCM

Elena del Carmen es docente en


la Universidad Complutense de
Madrid.
Organización

COORDINADORES

Cristóbal David
Martínez Martínez del Ser
Coordinador Máster. Coordinador Máster

Cristóbal es Ingeniero informático. David es Lic. en Marketing por


Director de IT en Aplimovil y Ntic ESIC, Honours Degree in Business
Master. Profesor máster marketing Administration por Humberside
digital de la UCM, UNED, Cámara University, MBA por UNED, Máster
de Comercio y CEEIC. Experto en Dirección Financiera, Máster
sistemas y procesos informáticos. Marketing Digital, Máster en Big
Gran experiencia profesional Data. Especialista en el desarrollo
trabajando en empresas referentes de negocio y transformación digital
como NEC, BNP Paribas , Banco de en Ntic Master. Gran experiencia
España, Vodafone. profesional trabajando en Grupo
Iberostar, Grupo Avintia, entre
otras.
“Aprende con los mejores
profesionales expertos en
Arquitecturas de Datos”
Información

GENERAL

La importancia del Big Data


Actualmente es prioritario que empresas y organizaciones implementen técnicas de Big Data, Data Engineer y Data
Science, que les permitan procesar, explotar y analizar los datos con el objetivo de extraer información valiosa que
utilicen en la mejora de decisiones y optimización de procesos empresariales. Lo que hace unos años comenzó
siendo una ventaja competitiva de unos pocos, ahora está muy presente y, es completamente imprescindible para
no quedarse atrás. El conocimiento de las técnicas habilita para su implementación en cualquier sector y área de
negocio, y por ello las aplicaciones son múltiples.

El profesional data engineering es indispensable para garantizar la disponibilidad, calidad, integridad y eficiencia de
los datos en las organizaciones. Al construir y mantener las infraestructuras de datos adecuadas, los data engineers
facilitan el análisis de datos, la toma de decisiones informadas y el desarrollo de soluciones basadas en datos en
diversos campos y sectores.

Salidas profesionales
• Arquitecto de datos
• Gestor y auditor de infraestructuras para Big Data
• Ingeniero de aprendizaje automático
• Especialista en inteligencia de datos y de BI
• Chief Data Officer
• Data Analyst
• Data Consultant
• Data Scientist
• Data Mining
1. Preinscripción
Envía tu solicitud para iniciar el proceso.

2. Entrevista
Se deberá realizar una entrevista con el
coordinador del máster.

3. Pre-admisión
Confirmación de tu candidatura como
alumno del máster.

4. Plazas limitadas
Realización de un pago inicial.

Información
DE PRE-ADMISIÓN
1. Preinscribirse cumplimentando el formulario ubicado en la pestaña “Preinscripción” de la web.
2. Enviar la documentación requerida a fin de evaluar la candidatura.
3. Entrevista con el solicitante.
4. Confirmación de selección.
5. Realización de un pago inicial.

Tanto la preinscripción como la preadmisión quedan abiertas hasta comenzar el curso académico o completar plazas,
estableciéndose lista de espera si procede. Los admitidos deberán ingresar 600 euros en concepto de pago inicial
para el máster presencial y 600 euros en concepto de pago inicial para el máster online. Estas cantidades serán
descontadas del importe total de la matrícula. En ningún caso se tendrá derecho a devolución de este importe, a
excepción de que no se llegara a celebrar el curso.

Documentación requerida
• Currículum Vitae.
• DNI/pasaporte.
• Título universitario o resguardo de solicitud de título.
• Certificado oficial de notas.

Alumnos con titulación fuera de España


Alumnos de la Unión Europea (estudiante comunitario):
• Currículum Vitae.
• Pasaporte/NIE (no válidas las cédulas de identificación de fuera de España)
• Título universitario (no es valido el certificado del título)
• Certificado oficial de notas.

Alumnos de fuera de Unión Europea (estudiante extra-comunitario):


• Currículum Vitae.
• Pasaporte/NIE (no válidas las cédulas de identificación de fuera de España)
• Título universitario con apostilla de la Haya (no es válido el certificado del título)
• Certificado oficial de notas.

*La documentación debe estar traducida al castellano por un traductor jurado homologado. (Solicitar listado oficial)
Una vez finalizados y superados estos
estudios, la Universidad Complutense de
Madrid emitirá el título, conforme a las
normas de admisión y matriculación de
los títulos de Formación Permanente de la
UCM.

Información General

PRESENCIAL

Fechas y Horarios Lugar y Créditos Precio


Inicio: Septiembre de 2024 Lugar: Facultad de Estudios Precio: 6.700€ + 40€ de tasas de
Fin: Septiembre de 2025 Estadísticos secretaría
Pregunta por nuestras becas,
Viernes: De 16:00 a 21:00 h Créditos: 60 ECTS facilidades de pago, prácticas en
Sábados: De 09:00 a 14:00 h empresas y bolsa de trabajo.

Procedimiento evaluación Materiales e instalaciones


La evaluación de los alumnos se realizará a lo largo Los alumnos contarán con acceso a una plataforma
de todo el programa a través de ejercicios y casos virtual en la que se encontrará disponible toda la
prácticos. información y documentación relativa al Máster.

A la finalización del programa, deberán presentar un El curso se impartirá en aulas de la Universidad


Trabajo de Fin de Máster (TFM). Complutense de Madrid, en la Facultad de Estudios
Estadísticos.
Una vez finalizados y superados estos
estudios, la Universidad Complutense de
Madrid emitirá el título, conforme a las
normas de admisión y matriculación de
los títulos de Formación Permanente de la
UCM.

Información General

ON-LINE

Horarios y Fechas Lugar y Créditos Precio


Inicio: Octubre de 2024 Online Precio: 4.600€ + 40€ de tasas de
Fin: Octubre de 2025 Créditos: 60 ECTS secretaría

Metodología 100% On-line


La formación se realizará de forma tutorizada por los profesores. Se utilizará una plataforma de formación virtual para
la comunicación entre los alumnos y profesores, creando una comunidad virtual de trabajo. Los distintos profesores
de cada módulo, guiarán a los alumnos proponiendo actividades adicionales dependiendo del temario que se esté
cubriendo en cada momento.

Características plataforma On-line


La plataforma actuará como vía de comunicación entre La plataforma cuenta con:
el alumno y el entorno global de formación.
• Mensajería individualizada para cada alumno
El estudiante tendrá información actualizada sobre los integrada en la plataforma
conceptos que se estén estudiando en cada momento,
• Vídeos
como enlaces a contenidos adicionales incluyendo
noticias, artículos, etc. • Videotutorías
• Documentación
Los alumnos deberán realizar y aprobar todas las
prácticas de los distintos módulos, y realizar el trabajo • Comunicación con los profesores vía mensajería,
fin de máster para poder aprobar el Máster.
foro y chat
Una vez finalizados y superados estos
estudios, la Universidad Complutense de
Madrid emitirá el título, conforme a las
normas de admisión y matriculación de
los títulos de Formación Permanente de la
UCM.

Información General

SEMIPRESENCIAL

Horarios y Fechas Lugar y Créditos Precio


Inicio: Octubre de 2024 Online con presencialidad de 3 Precio: 5.700€ + 40€ de tasas de
Fin: Octubre de 2025 semanas secretaría
Créditos: 60 ECTS

Metodología Semipresencial
La formación se realizará de forma tutorizada por los profesores. Se utilizará una plataforma de formación virtual para
la comunicación entre los alumnos y profesores, creando una comunidad virtual de trabajo. Los distintos profesores
de cada módulo, guiarán a los alumnos proponiendo actividades adicionales dependiendo del temario que se esté
cubriendo en cada momento. La modalidad semipresencial contempla la realización de 3 semanas presenciales con
master class impartidas por diferentes expertos para preparar los TFM y hacer networking.

Características plataforma On-line


La plataforma actuará como vía de comunicación entre La plataforma cuenta con:
el alumno y el entorno global de formación. • Mensajería individualizada para cada alumno
El estudiante tendrá información actualizada sobre los integrada en la plataforma
conceptos que se estén estudiando en cada momento, • Vídeos
como enlaces a contenidos adicionales incluyendo
noticias, artículos, etc. • Videotutorías
• Documentación
Los alumnos deberán realizar y aprobar todas las
prácticas de los distintos módulos, y realizar el trabajo • Comunicación con los profesores vía mensajería,
fin de máster para poder aprobar el Máster. foro y chat
Una vez finalizado y superado el Máster, la UCM otorga un título Máster de Formación Permanente, que se rige
por las normas de admisión y matriculación de esta Universidad.

Abierto plazo de preinscripción | PLAZAS LIMITADAS

CONTACTO

Teléfono E-mail Sitio Web


+34 687 30 04 04 [email protected] masterdataengineeringucm.com

***La dirección del Máster se reserva el derecho de modificar, suprimir y actualizar los profesores, la información y el programa del Máster

También podría gustarte