0% encontró este documento útil (0 votos)

5 vistas47 páginas

Clase 1 - Machine Learning

El documento presenta un diplomado en Data Engineering centrado en Machine Learning, abordando temas como tipos de aprendizaje, evaluación de modelos y sistemas de recomendación. Incluye evaluaciones individuales y grupales, así como un contexto sobre la importancia de los datos en negocios actuales como Netflix y Google. Se discuten roles en proyectos de Machine Learning y se explican diferentes enfoques de aprendizaje supervisado y no supervisado.

Cargado por

juan.delgador

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

5 vistas47 páginas

Clase 1 - Machine Learning

Cargado por

juan.delgador

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 47

Presentación

Libros

Introdución a
Machine Learning

Diplomado Data Engineer

Marcelo Medel Vergara - Octubre 2024

Tópicos

1. Contexto de Data & Analytics

2. Contexto de Machine Learning
3. Tipos de aprendizaje
4. No Supervisado
a. PCA
b. Clustering
5. Supervisado
a. Regresión
b. Clasificación
6. Evaluación de modelos con métricas.
7. Sistemas de recomendación
Evaluaciones

1. Trabajo individual - 50% nota final

- Desarrollar notebook de Clustering (25%)
- Desarrollar notebook de Clasificación o Regresión (25%)
- Notebooks de desarrollo individual se entregarán durante las
clases.
- Se debe entregar el día 13/11
2. Trabajo grupal - 50% nota final
a. Desarrollar modelo (cualquier de los vistos en clases) con
alguna data y objetivo que le parezca relevante al grupo.
b. Presentación de modelo a desarrollar durante la clase del
lunes 11/11
c. Se debe entregar notebook con desarrollo el día 13/11
Contexto Data & Analytics
Internet

Número de personas usando internet

en los últimos 3 meses.
Cloud computing

https://systechinfo.com/the-cost-vs-benefit-of-the-cloud/
https://www.grandviewresearch.com/industry-analysis/cloud-computing-industry
Desarrollar modelos es cada vez más barato en hardware
Negocios basados en datos
Netflix - Recommender System
Netflix Prize

100,480,507 ratings
480,189 users
17,770 movies
Spotify
Airbnb - Experiencia diferenciadora
Mercado Libre - Recommendation System
Google Personalization

Google Search
- Penalize websites based on content, metrics, Google collects data of search
black-hat link building, and with no expertise, queries, advertisement (ads) clicks,
authority or trust (medical purposes) websites visits, to predict which ads
- Rank results translating search queries into are most likely to be clicked by a user.
relevant websites and mobile-friendly user
experience. Connects users/buyers with
- Identify search intent by considering advertisers/company based on how
language and personal search history, much is the investment and the return
rewarding websites with well-constructed on terms of clicks, visits, etc.
content.
Google Personalization
Entonces ¿será que la
información en internet se
encuentra filtrada para que usted
la pueda encontrar?
Data maturity level
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Brief history about ML & AI
Brief history about ML & AI.
Brief history about ML & AI.

Jesper Sören Dramsch,

Chapter One - 70 years of machine learning in geoscience in review.
Potencial con ML
Roles in Machine Learning Projects
Data Engineer Data Scientist Machine learning

● Database (SQL/NoSQL). ● Database (SQL/NoSQL). ● Database (SQL/NoSQL).

● Data pipelines development. ● Data exploitation - ad-hoc data ● Model pipelines design and
● Data APIs integration. transformation. automation.
● Data tools knowledge. ● Modeling/Metrics knowledge. ● Library knowledge.
● Metrics knowledge.

Data ingestion Feature selection

Source Exploratory
& & Model Metrics Deploy
system Data Analysis
transformation transformation

json files
Optimization
Scalability
Roles in Machine Learning Projects
Data Engineer Data Scientist Machine learning

● Database (SQL/NoSQL). ● Database (SQL/NoSQL). ● Database (SQL/NoSQL).

+ Collaboration with your team

+ Agile prototyping ensuring code versioning and scalability.
+ Using technology and data exploitation tools
+ Understanding the problem and how it could be useful for the
user.
Roles in Machine Learning Projects
Data Engineer Data Scientist Machine learning
● Database (SQL/NoSQL). ● Database (SQL/NoSQL). ● Database (SQL/NoSQL).
● Data pipelines development. ● Data exploitation - ad-hoc data ● Model pipelines design and
● Data APIs integration. transformation. automation.
● Data tools knowledge. ● Modeling/Metrics knowledge. ● Library knowledge.
● Metrics knowledge.

who are the stakeholders?

Types of learning
Batch learning

Hablamos de aprendizaje en batch cuando nuestro sistema no puede aprender de forma

incremental.

Se utilizan todos los datos disponibles para entrenar el modelo, por lo que requiere más capacidad
computacional.

Una vez entrenado el modelo se pone en producción para que responda en base a lo aprendido, sin
tener la capacidad de aprender. Aplica lo que ya aprendió.

Generalmente se entrena de manera offline.

Online learning
Hablamos de aprendizaje en online o en “tiempo real” cuando nuestro sistema si puede aprender de
forma incremental.

Para entrenar el modelo se utilizan secuencias de datos, individualmente o en pequeños grupos (aka:
mini-batch), por lo que la capacidad de cómputo requerida es menor.

Una vez puesto el modelo en producción puede aprender a través de un flujo continuo de datos, por lo
que sus respuestas deben cambiar a medida que fluyen los datos.
Instance based learning

❏ Posiblemente es la forma más trivial de aprendizaje, básicamente es

aprender de la memoria.
❏ El sistema responde en base al conocimiento previo
❏ aka: memory-based learning (“lazy” algorithm)
❏ No generaliza la respuesta.
Model based learning

❏ Otra forma de generalizar desde un conjunto de datos es construir

un modelo basado en estos datos, y posteriormente usarlo.
❏ El sistema responde en base a una función (Y=F(X)) general que le
permite entregar la mejor respuesta.
Supervised Learning
Supervised Learning

Y = f (X)
En la práctica, la mayoría de los casos de aprendizaje automático se utiliza aprendizaje
supervisado.
En este tipo de aprendizaje tenemos variables input (x), llamadas features o covariables, y
una variable output (Y), también conocida como target.
● El algoritmo en este caso tiene que tener la capacidad de interpretar los inputs y
transformarlos de la mejor forma posible en el output que buscamos.
● El objetivo es aproximar la función de manera que cuando tengamos nuevos datos
pueda predecir la variable de salida.
● Se llama aprendizaje supervisado porque conozco el valor real de la variable de
salida (Y).
● Puedo supervisar el funcionamiento de mi algoritmo, generando las correcciones
necesarias hasta llegar a un resultado aceptable.
Supervised Learning
Los problemas de aprendizaje supervisado se pueden
catalogar en dos grupos:
❏ Clasificación
❏ La variable target corresponde a una categoría.
❏ Ej: Fraude / No Fraude, Enfermo / Sano, Compra /
No compra, Perro / Gato / Pájaro
❏ Algorithm: Logistic Regression, Decision Tree,
Random Forest, Support Vector Machines.

❏ Regresión
❏ La variable target corresponde a una variable
numérica o real.
❏ Ej: Ganancias del próximo mes, valor de una
propiedad.
❏ Algorithm: Linear Regression, Ridge Regression,
Lasso Regression, Elastic Net Regression
Unsupervised Learning

En este tipo de aprendizaje solo tenemos variables input (x) y no se tiene una
variable target.

El objetivo de este tipo de algoritmos es modelar la estructura o distribución

subyacente en los datos para poder obtener información valiosa o patrones sobre
el set de datos.

Al no existir una variable de target o un resultado conocido, no podemos supervisar

la forma en la que el algoritmo aprende, por lo que el resultado dependerá del
propio diseño del algoritmo.
Unsupervised Learning
Los problemas de aprendizaje no supervisado se pueden
catalogar en dos grupos:
❏ Clustering
❏ Agrupa datos no categorizados basándose en sus
similitudes o diferencias
❏ Ej: Agrupar clientes por comportamiento de compra
❏ Algorithm: K-means, Hierarchical clustering, DBSCAN.
❏ Asociación
❏ Modelo basado en reglas para encontrar relaciones
entre los datos
❏ Ej: Cuando se compran pinturas también se compran
brochas
❏ Algorithm: Apriori, FP-Growth
❏ Reducción de dimensión
❏ Se utiliza para observar patrones con una menor
cantidad de features.
❏ Algorithm: PCA
Knowledge area and use cases
DS Toolkit 101

También podría gustarte

Ppt-Introducción de Machine Learning Con Python
100% (1)
Ppt-Introducción de Machine Learning Con Python
21 páginas
Introducción A ML v1.3
Aún no hay calificaciones
Introducción A ML v1.3
54 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
3 páginas
C Algoritmos, Programación y Estructuras de Datos Prologo
0% (1)
C Algoritmos, Programación y Estructuras de Datos Prologo
5 páginas
Machine Learning DIA01
Aún no hay calificaciones
Machine Learning DIA01
27 páginas
Introduccion ML
Aún no hay calificaciones
Introduccion ML
25 páginas
003 Introducción A Machine Learning PDF
Aún no hay calificaciones
003 Introducción A Machine Learning PDF
19 páginas
Introducción Machine Learning
100% (1)
Introducción Machine Learning
39 páginas
04 - 2020 I.A
Aún no hay calificaciones
04 - 2020 I.A
16 páginas
Ferreteria Catalogo Digital
0% (1)
Ferreteria Catalogo Digital
1 página
02 Herramientas para Machine Learning
Aún no hay calificaciones
02 Herramientas para Machine Learning
45 páginas
Big Data Unidad 2
Aún no hay calificaciones
Big Data Unidad 2
34 páginas
Machine Learnin
Aún no hay calificaciones
Machine Learnin
8 páginas
1.4.machine Learning
Aún no hay calificaciones
1.4.machine Learning
34 páginas
MetodosEstadísticosMatemáticosCienciaDatos (Modulo II)
Aún no hay calificaciones
MetodosEstadísticosMatemáticosCienciaDatos (Modulo II)
196 páginas
Presentación Machine Learning
Aún no hay calificaciones
Presentación Machine Learning
20 páginas
Manejo de Archivos y Carpetas en Windows
Aún no hay calificaciones
Manejo de Archivos y Carpetas en Windows
6 páginas
Poster-Guillermo Godoy
Aún no hay calificaciones
Poster-Guillermo Godoy
1 página
Clase 5
Aún no hay calificaciones
Clase 5
19 páginas
Clase2 pdf1
Aún no hay calificaciones
Clase2 pdf1
15 páginas
Sesión 2 - Aprendizaje de Máquina
Aún no hay calificaciones
Sesión 2 - Aprendizaje de Máquina
48 páginas
Mapa Conceptual Ciclo de Vida Del Software
50% (4)
Mapa Conceptual Ciclo de Vida Del Software
2 páginas
Clase 13 - Modelos Analíticos para DS I
Aún no hay calificaciones
Clase 13 - Modelos Analíticos para DS I
68 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
61 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
61 páginas
Clase 6 - Teoria General DS, Python - Setup
Aún no hay calificaciones
Clase 6 - Teoria General DS, Python - Setup
67 páginas
Reparación Cooler de Notebook - Utiltecnico
Aún no hay calificaciones
Reparación Cooler de Notebook - Utiltecnico
5 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
15 páginas
Tarea de Mantenimiento
Aún no hay calificaciones
Tarea de Mantenimiento
13 páginas
Aprendizaje Automático PDF
Aún no hay calificaciones
Aprendizaje Automático PDF
35 páginas
Idanae 1T21
Aún no hay calificaciones
Idanae 1T21
18 páginas
GUIA GRATUITA. Machine Learning. Por Donde Empiezo
100% (9)
GUIA GRATUITA. Machine Learning. Por Donde Empiezo
19 páginas
Clase 1 - Introducción A Machine Learning
Aún no hay calificaciones
Clase 1 - Introducción A Machine Learning
40 páginas
Probabilidad y Estadistica
Aún no hay calificaciones
Probabilidad y Estadistica
39 páginas
Introduccionalml 180529132923 PDF
Aún no hay calificaciones
Introduccionalml 180529132923 PDF
43 páginas
05 Servidores
Aún no hay calificaciones
05 Servidores
19 páginas
B - Consideraciones Covid-19 SMCV PDF
Aún no hay calificaciones
B - Consideraciones Covid-19 SMCV PDF
22 páginas
Ciencia, Inventos y Experimentos en Casa Radio FM
Aún no hay calificaciones
Ciencia, Inventos y Experimentos en Casa Radio FM
17 páginas
SECOFA
Aún no hay calificaciones
SECOFA
1 página
Machin Learninh
Aún no hay calificaciones
Machin Learninh
53 páginas
Machine Learning Parte I
Aún no hay calificaciones
Machine Learning Parte I
87 páginas
Aprendizaje Automático (Machine Learning)
Aún no hay calificaciones
Aprendizaje Automático (Machine Learning)
7 páginas
07-Diplomatura en IA - Aprendizaje Automático Regresión
Aún no hay calificaciones
07-Diplomatura en IA - Aprendizaje Automático Regresión
70 páginas
Luis Arturo Martínez Aguilar-Wasser Tank-004
Aún no hay calificaciones
Luis Arturo Martínez Aguilar-Wasser Tank-004
169 páginas
Dgam 2023 - M4
Aún no hay calificaciones
Dgam 2023 - M4
34 páginas
C4 AnalisisDatosYaprendizaAutomatico
Aún no hay calificaciones
C4 AnalisisDatosYaprendizaAutomatico
15 páginas
Clase 0207
Aún no hay calificaciones
Clase 0207
22 páginas
Introducción - Machine Learning
Aún no hay calificaciones
Introducción - Machine Learning
31 páginas
Herramientas para Definir Sintaxis
Aún no hay calificaciones
Herramientas para Definir Sintaxis
23 páginas
Notiemail-15-E08 - Netflix Sin ESN
Aún no hay calificaciones
Notiemail-15-E08 - Netflix Sin ESN
8 páginas
Apuntes SAA S02
Aún no hay calificaciones
Apuntes SAA S02
3 páginas
Redes de Computadoras-2020
Aún no hay calificaciones
Redes de Computadoras-2020
14 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
14 páginas
Machine Learning DIA02
Aún no hay calificaciones
Machine Learning DIA02
23 páginas
Universidad Tecnológica de Nezahualcóyotl: Extracción de Conocimientos de Base de Datos
Aún no hay calificaciones
Universidad Tecnológica de Nezahualcóyotl: Extracción de Conocimientos de Base de Datos
8 páginas
Introducción Al Machine Learning - Una Guía Desde Cero
Aún no hay calificaciones
Introducción Al Machine Learning - Una Guía Desde Cero
14 páginas
Teoria Machine Learning
Aún no hay calificaciones
Teoria Machine Learning
8 páginas
Resumen Ia Coloquio
Aún no hay calificaciones
Resumen Ia Coloquio
3 páginas
Taller de Programacion Robotino
Aún no hay calificaciones
Taller de Programacion Robotino
20 páginas
Ciencias de Datos Machine Learning
Aún no hay calificaciones
Ciencias de Datos Machine Learning
9 páginas
ULPS en AMD Enduro ¿Activar o Desactivar - Notebook GPU
Aún no hay calificaciones
ULPS en AMD Enduro ¿Activar o Desactivar - Notebook GPU
12 páginas
r45 r100 M Usuario v3 Es FR en
Aún no hay calificaciones
r45 r100 M Usuario v3 Es FR en
24 páginas
Cálculo Integral Unidad 1 Tarea 2 Ejercicios 2 y 3 - Darly González
Aún no hay calificaciones
Cálculo Integral Unidad 1 Tarea 2 Ejercicios 2 y 3 - Darly González
6 páginas
Semana 33 Matemática
Aún no hay calificaciones
Semana 33 Matemática
6 páginas
PRES adigitalDataScienceS03 1a EN v1.0 20170415
Aún no hay calificaciones
PRES adigitalDataScienceS03 1a EN v1.0 20170415
59 páginas
Veracrypt - Practica
Aún no hay calificaciones
Veracrypt - Practica
12 páginas
Que Es Machine Learning
Aún no hay calificaciones
Que Es Machine Learning
3 páginas
Montaño Samanta - MACHINE LEARNING
Aún no hay calificaciones
Montaño Samanta - MACHINE LEARNING
9 páginas
PRACT3 - Configuracion Basica de Un Router Cisco en Packet Tracer
Aún no hay calificaciones
PRACT3 - Configuracion Basica de Un Router Cisco en Packet Tracer
4 páginas
Capacitación Mtguardian
Aún no hay calificaciones
Capacitación Mtguardian
12 páginas
Introducción Al Machine Learning
Aún no hay calificaciones
Introducción Al Machine Learning
26 páginas
Visión Poderosa
Aún no hay calificaciones
Visión Poderosa
16 páginas
Aprenddedeeizaje Automatico o Machine Learning
Aún no hay calificaciones
Aprenddedeeizaje Automatico o Machine Learning
14 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
31 páginas
pdfl355 l355 BB PDF
Aún no hay calificaciones
pdfl355 l355 BB PDF
4 páginas
Librerías VHDL
Aún no hay calificaciones
Librerías VHDL
4 páginas
Aprendizaje Automático 8
Aún no hay calificaciones
Aprendizaje Automático 8
30 páginas
Enunciado de Laboratorio
Aún no hay calificaciones
Enunciado de Laboratorio
3 páginas
PC Vmax Encore
Aún no hay calificaciones
PC Vmax Encore
2 páginas
HP Color LaserJet Pro MFP - ESPECIFICACIONES
Aún no hay calificaciones
HP Color LaserJet Pro MFP - ESPECIFICACIONES
5 páginas
Configuracion WiFi UADE Android
Aún no hay calificaciones
Configuracion WiFi UADE Android
2 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
15 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
9 páginas
Respuesta MLearning Alumnos
Aún no hay calificaciones
Respuesta MLearning Alumnos
2 páginas
Machine Learning Resumen 1 2 3 4 5
Aún no hay calificaciones
Machine Learning Resumen 1 2 3 4 5
7 páginas
Análisis Memoria Con Bulk Extractor
Aún no hay calificaciones
Análisis Memoria Con Bulk Extractor
4 páginas
Ingeniería y Arquitectura del Software
De Everand
Ingeniería y Arquitectura del Software
Ángel Arias
3/5 (4)
Curso de Programación y Análisis de Software - 2ª Edición
De Everand
Curso de Programación y Análisis de Software - 2ª Edición
Ángel Arias
Aún no hay calificaciones
Fundamentos de Programación y Bases de Datos: 2ª Edición
De Everand
Fundamentos de Programación y Bases de Datos: 2ª Edición
Ángel Arias
Aún no hay calificaciones
Fundamentos de Programación y Bases de Datos
De Everand
Fundamentos de Programación y Bases de Datos
Ángel Arias
Aún no hay calificaciones