Dossier Master Big Data Engineering Ucm
Dossier Master Big Data Engineering Ucm
MÓDULOS
Data Engineering?
Los ingenieros de datos son la base para construir equipos de analítica avanzada.
Crean la infraestructura para que los científicos de datos trabajen, configuran sus entornos, evangelizan a los equipos
de analítica y a los analistas de BI para que sigan las buenas prácticas en el uso de los datos, y definen y monitorizan
los flujos adecuados para suministrarles datos curados y de calidad a todos los demás usuarios de una organización.
Esto incluye el uso de herramientas cloud (orquestar flujos y bases de datos diversas) y también la implementación
de procesos específicos de ingestas y tratamientos, puesto que los datos en crudo habitualmente distan aún de ser
útiles para perfiles analíticos.
Asimismo, los ingenieros de datos, en conjunción con los equipos de analítica, determinan las prácticas de ingeniería
que deben seguirse para desplegar y llevar a producción los modelos analíticos, y se encargan de su mantenimiento
y monitorización operativa - esto es, que permanezcan vivos y funcionales - al mismo tiempo que los científicos de
datos monitorizan las métricas que se van obteniendo.
La importancia del
DATA ENGINEERING
Modalidades:
Presencial y Online
Créditos ECTS:
60
Modalidad Online
100% online
en la UCM?
La Universidad Complutense de Madrid (UCM) es una de las instituciones educativas más destacadas de España
y Europa. Ofrece una amplia gama de oportunidades y beneficios para los estudiantes, así como una excelencia
académica reconocida, una calidad docente de primer nivel. Ofrece alrededor de 90 títulos de grado y más de 30
dobles grados, más de 200 programas máster, además de estudios de formación permanente. La UCM tiene más de
500 años de historia y reconocimiento social. La Universidad Complutense de Madrid es la universidad española de
referencia en 5 continentes.
El prestigio de la universidad está avalado por 7 Premios Nobel, 20 Príncipes de Asturias, 7 Premios Cervantes,
Premios Nacionales de Investigación y a la Excelencia. La Universidad Complutense de Madrid tiene estudiantes de
más de 90 países y convenios con universidades de los 5 continentes.
La preparación del Trabajo Final de Máster (TFM) garantiza la puesta en práctica de todos los
conceptos adquiridos a lo largo del curso, capacitando definitivamente al alumno para asumir
responsabilidades dentro de un entorno laboral real.
El claustro de profesores de este Máster presenta la gran ventaja de reunir destacados profesores
universitarios de prestigio con grandes profesionales en activo en compañías de referencia en
el ámbito empresarial.
Programa Máster
Siendo el primer módulo del máster, se profundiza en la utilización del lenguaje Python para desarrollo
de software. Python es el lenguaje que mayor auge ha experimentado en los últimos años, tanto en el
área de la Ciencia de Datos como de la Ingeniería de Datos, por su versatilidad y sencillez. De hecho, se
utilizará en varios de los módulos posteriores, dado que dispone de paquetes específicos para integrarse
con distintas tecnologías.
Dado que el alumno ya tiene experiencia programando en algún lenguaje, aquí se repasarán los conceptos
aplicados a Python y se profundizará en aspectos concretos que debe conocer bien un Ingeniero de Datos
en su día a día, ligados a los estándares del Desarrollo de Software.
Índice de contenidos:
Hoy en día se están generando más datos que nunca y, para seguir siendo competitivas, las empresas
deben recopilarlos, almacenarlos, procesarlos y analizarlos de manera eficaz. Ahí es donde entran en
juego las arquitecturas de datos.
En este módulo, se introducirán y explicarán los componentes clave de las arquitecturas de datos
modernas, incluyendo las fuentes de datos, la capa de ingesta, la capa de almacenamiento, la capa de
procesamiento, capa de servicio y la capa de presentación. Se presentará su evolución a lo largo de los
años, los principales patrones arquitectónicos actuales y su implementación en los distintos proveedores
cloud. El alumno podrá descubrir cómo estas arquitecturas permiten a las organizaciones manejar y
procesar grandes volúmenes de datos de manera eficiente, proporcionando información en tiempo real
sobre sus operaciones.
Al final de este curso, el alumno tendrá conocimiento general para diseñar e implementar arquitecturas
de datos modernas que permitan a cualquier empresa, gestionar y analizar sus datos de manera efectiva
y tomar mejores decisiones basadas en datos.
Índice de Contenidos
• Introducción a las arquitecturas de datos • Capa de procesamiento
• Fuentes de datos actuales • Capa de servicio
• Capa de ingesta • Capa de presentación.
• Capa de almacenamiento • Patrones arquitectónicos de arquitecturas de datos
Diseño de Bases de Datos relacionales
El módulo de Bases de Datos NoSQL está diseñado para proporcionar un conocimiento práctico de las
bases de datos NoSQL. El programa aborda conceptos fundamentales como la distribución de datos, la
escalabilidad, la consistencia eventual y las operaciones CRUD, utilizando diferentes tipos de bases de
datos NoSQL como documentales, clave-valor, columna y grafo. También cubre las bases de datos más
populares en cada categoría, incluyendo MongoDB, Cassandra, Redis y Neo4j. Con una combinación de
teoría, ejemplos prácticos y proyectos, los estudiantes aprenderán cómo implementar soluciones de
bases de datos NoSQL de manera efectiva.
Las bases de datos NoSQL se están convirtiendo en una opción cada vez más popular para las
organizaciones debido a su capacidad para manejar grandes cantidades de datos y su flexibilidad para
adaptarse a los cambios de datos, lo que las hace ideales para big data y aplicaciones en tiempo real. Al
adquirir estas habilidades, como ingeniero de datos contarás con conocimientos para afrontar los desafios
del futuro en la gestión de datos no estructurados. En una era en la que los datos son el nuevo petróleo,
aprender sobre bases de datos NoSQL puede ser una pieza clave para abrir nuevas oportunidades en una
amplia gama de industrias, desde la tecnología hasta la salud, las finanzas y más allá.
Índice de contenidos:
Este módulo introduce las tecnologías Big Data y su motivación en el contexto actual de la era digital y
las necesidades de las empresas. Proporciona a los estudiantes una comprensión profunda de cómo
funcionan estos sistemas de procesamiento de datos distribuidos y cómo aprovecharlos para procesar
grandes cantidades de datos de manera eficiente y efectiva.
Tras describir brevemente el manejo de la tecnología de almacenamiento HDFS (Hadoop Distributed File
System), el curso se centrará en Apache Spark, sin duda la tecnología más demandada para procesamiento
de grandes volúmenes de datos, que constituye el día a día de los equipos de ingenieros de datos de
todo el mundo. Describiremos su filosofía basada en un grafo de ejecución (DAG) y sus implicaciones.
A continuación, el alumno profundizará en el estudio de cada uno de los módulos, en especial Spark
SQL, MLlib y Structured Streaming. Se desplegará un cluster de Spark en la plataforma de Databricks
sobre Azure, actualmente una de las combinaciones más extendidas en la empresa privada, y sobre él se
mostrará la aplicación de cada uno de los conceptos.
Índice de contenidos
Uno de los objetivos de la ingeniería de datos es dar soporte a la creación de modelos de aprendizaje
automático que extraigan valor a los datos de una empresa y ayuden al negocio. Esto ocurre tanto antes
de que se diseñe un modelo predictivo, suministrando los datos adecuados, como en el momento de
ponerlo en producción.
Por ello, es necesario que un ingeniero de datos esté familiarizado con las técnicas que aplican los
científicos de datos, con el fin de comprender las necesidades de estos, lo cual favorece la sinergia entre
equipos de ambos perfiles y acelera la entrega de valor.
En este módulo, se presentan los fundamentos del Machine Learning, las técnicas principales que lo
componen en el ámbito del aprendizaje supervisado, no supervisado y por refuerzo, así como las fortalezas,
limitaciones y métricas necesarias para evaluar el funcionamiento de cada modelo.
El módulo se plantea desde un punto de vista eminentemente práctico, con una orientación específica a
lo que el ingeniero de datos necesita entender.
Se complementa con una introducción al Deep Learning, el conjunto de técnicas basadas en redes
neuronales que actualmente constituyen una verdadera tendencia, en especial en lo que respecta a
procesamiento de lenguaje natural con LLM (Large Language Models) y redes generativas de contenidos
de tipo textual e imagen.
Machine Learning y Deep Learning
Índice de contenidos:
La productivización se refiere al proceso de llevar los modelos de Inteligencia Artificial (IA) y sus resultados
a un entorno de producción para que puedan ser utilizados de manera efectiva y generar valor en el
mundo empresarial. Los modelos de IA tienen un ciclo de vida que nace en su fase de desarrollo, pero es
en la implementación, versionado y mantenimiento donde necesita convivir dentro de una infraestructura
tecnológica.
Índice de contenidos
Co-Director. Socio Fundador de NTIC Master y Aplimovil. Amplia Estos altos cargos en activo, de
experiencia en proyectos nacionales e internacionales en IT y empresas de renombre como
analítica en empresas como Banco de España, NEC, Telefónica, Mercedes Benz, Inditex, Confluent,
Vodafone, Orange, medios de comunicación… Sopra Steria y Seguros Santa Lucía,
forman a nuestros alumnos en
contenido actualizado, de calidad y
demandado por el tejido empresarial
PROFESORES
Pablo Arcadio licenciado en Luis Fernando es doctor por la Olga es licenciada y doctora en
estadística es docente en la UCM. Docente en la UCM y forma mátemáticas por la UCM. Docente
Universidad Complutense de parte de grupos de investigación: en la UCM y forma parte de grupos
Madrid, y Delegado del Decano para Design and Testing of Reliable de investigación. Experta en data
Erasmus y Movilidad. Systems. Experto en Computer Science.
Science.
COORDINADORES
Cristóbal David
Martínez Martínez del Ser
Coordinador Máster. Coordinador Máster
GENERAL
El profesional data engineering es indispensable para garantizar la disponibilidad, calidad, integridad y eficiencia de
los datos en las organizaciones. Al construir y mantener las infraestructuras de datos adecuadas, los data engineers
facilitan el análisis de datos, la toma de decisiones informadas y el desarrollo de soluciones basadas en datos en
diversos campos y sectores.
Salidas profesionales
• Arquitecto de datos
• Gestor y auditor de infraestructuras para Big Data
• Ingeniero de aprendizaje automático
• Especialista en inteligencia de datos y de BI
• Chief Data Officer
• Data Analyst
• Data Consultant
• Data Scientist
• Data Mining
1. Preinscripción
Envía tu solicitud para iniciar el proceso.
2. Entrevista
Se deberá realizar una entrevista con el
coordinador del máster.
3. Pre-admisión
Confirmación de tu candidatura como
alumno del máster.
4. Plazas limitadas
Realización de un pago inicial.
Información
DE PRE-ADMISIÓN
1. Preinscribirse cumplimentando el formulario ubicado en la pestaña “Preinscripción” de la web.
2. Enviar la documentación requerida a fin de evaluar la candidatura.
3. Entrevista con el solicitante.
4. Confirmación de selección.
5. Realización de un pago inicial.
Tanto la preinscripción como la preadmisión quedan abiertas hasta comenzar el curso académico o completar plazas,
estableciéndose lista de espera si procede. Los admitidos deberán ingresar 600 euros en concepto de pago inicial
para el máster presencial y 600 euros en concepto de pago inicial para el máster online. Estas cantidades serán
descontadas del importe total de la matrícula. En ningún caso se tendrá derecho a devolución de este importe, a
excepción de que no se llegara a celebrar el curso.
Documentación requerida
• Currículum Vitae.
• DNI/pasaporte.
• Título universitario o resguardo de solicitud de título.
• Certificado oficial de notas.
*La documentación debe estar traducida al castellano por un traductor jurado homologado. (Solicitar listado oficial)
Una vez finalizados y superados estos
estudios, la Universidad Complutense de
Madrid emitirá el título, conforme a las
normas de admisión y matriculación de
los títulos de Formación Permanente de la
UCM.
Información General
PRESENCIAL
Información General
ON-LINE
Información General
SEMIPRESENCIAL
Metodología Semipresencial
La formación se realizará de forma tutorizada por los profesores. Se utilizará una plataforma de formación virtual para
la comunicación entre los alumnos y profesores, creando una comunidad virtual de trabajo. Los distintos profesores
de cada módulo, guiarán a los alumnos proponiendo actividades adicionales dependiendo del temario que se esté
cubriendo en cada momento. La modalidad semipresencial contempla la realización de 3 semanas presenciales con
master class impartidas por diferentes expertos para preparar los TFM y hacer networking.
CONTACTO
***La dirección del Máster se reserva el derecho de modificar, suprimir y actualizar los profesores, la información y el programa del Máster