0% encontró este documento útil (0 votos)
5 vistas47 páginas

Clase 1 - Machine Learning

El documento presenta un diplomado en Data Engineering centrado en Machine Learning, abordando temas como tipos de aprendizaje, evaluación de modelos y sistemas de recomendación. Incluye evaluaciones individuales y grupales, así como un contexto sobre la importancia de los datos en negocios actuales como Netflix y Google. Se discuten roles en proyectos de Machine Learning y se explican diferentes enfoques de aprendizaje supervisado y no supervisado.

Cargado por

juan.delgador
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
5 vistas47 páginas

Clase 1 - Machine Learning

El documento presenta un diplomado en Data Engineering centrado en Machine Learning, abordando temas como tipos de aprendizaje, evaluación de modelos y sistemas de recomendación. Incluye evaluaciones individuales y grupales, así como un contexto sobre la importancia de los datos en negocios actuales como Netflix y Google. Se discuten roles en proyectos de Machine Learning y se explican diferentes enfoques de aprendizaje supervisado y no supervisado.

Cargado por

juan.delgador
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 47

Presentación

Libros

Introdución a
Machine Learning

Diplomado Data Engineer

Marcelo Medel Vergara - Octubre 2024


Tópicos

1. Contexto de Data & Analytics


2. Contexto de Machine Learning
3. Tipos de aprendizaje
4. No Supervisado
a. PCA
b. Clustering
5. Supervisado
a. Regresión
b. Clasificación
6. Evaluación de modelos con métricas.
7. Sistemas de recomendación
Evaluaciones

1. Trabajo individual - 50% nota final


- Desarrollar notebook de Clustering (25%)
- Desarrollar notebook de Clasificación o Regresión (25%)
- Notebooks de desarrollo individual se entregarán durante las
clases.
- Se debe entregar el día 13/11
2. Trabajo grupal - 50% nota final
a. Desarrollar modelo (cualquier de los vistos en clases) con
alguna data y objetivo que le parezca relevante al grupo.
b. Presentación de modelo a desarrollar durante la clase del
lunes 11/11
c. Se debe entregar notebook con desarrollo el día 13/11
Contexto Data & Analytics
Internet

Número de personas usando internet


en los últimos 3 meses.
Cloud computing

https://systechinfo.com/the-cost-vs-benefit-of-the-cloud/
https://www.grandviewresearch.com/industry-analysis/cloud-computing-industry
Desarrollar modelos es cada vez más barato en hardware
Negocios basados en datos
Netflix - Recommender System
Netflix Prize

100,480,507 ratings
480,189 users
17,770 movies
Spotify
Airbnb - Experiencia diferenciadora
Mercado Libre - Recommendation System
Google Personalization

Google Search
- Penalize websites based on content, metrics, Google collects data of search
black-hat link building, and with no expertise, queries, advertisement (ads) clicks,
authority or trust (medical purposes) websites visits, to predict which ads
- Rank results translating search queries into are most likely to be clicked by a user.
relevant websites and mobile-friendly user
experience. Connects users/buyers with
- Identify search intent by considering advertisers/company based on how
language and personal search history, much is the investment and the return
rewarding websites with well-constructed on terms of clicks, visits, etc.
content.
Google Personalization
Entonces ¿será que la
información en internet se
encuentra filtrada para que usted
la pueda encontrar?
Data maturity level
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Type & maturity level of analytics
Brief history about ML & AI
Brief history about ML & AI.
Brief history about ML & AI.

Jesper Sören Dramsch,


Chapter One - 70 years of machine learning in geoscience in review.
Potencial con ML
Roles in Machine Learning Projects
Data Engineer Data Scientist Machine learning

● Database (SQL/NoSQL). ● Database (SQL/NoSQL). ● Database (SQL/NoSQL).


● Data pipelines development. ● Data exploitation - ad-hoc data ● Model pipelines design and
● Data APIs integration. transformation. automation.
● Data tools knowledge. ● Modeling/Metrics knowledge. ● Library knowledge.
● Metrics knowledge.

Data ingestion Feature selection


Source Exploratory
& & Model Metrics Deploy
system Data Analysis
transformation transformation

json files
Optimization
Scalability
Roles in Machine Learning Projects
Data Engineer Data Scientist Machine learning

● Database (SQL/NoSQL). ● Database (SQL/NoSQL). ● Database (SQL/NoSQL).


● Data pipelines development. ● Data exploitation - ad-hoc data ● Model pipelines design and
● Data APIs integration. transformation. automation.
● Data tools knowledge. ● Modeling/Metrics knowledge. ● Library knowledge.
● Metrics knowledge.

+ Collaboration with your team


+ Agile prototyping ensuring code versioning and scalability.
+ Using technology and data exploitation tools
+ Understanding the problem and how it could be useful for the
user.
Roles in Machine Learning Projects
Data Engineer Data Scientist Machine learning
● Database (SQL/NoSQL). ● Database (SQL/NoSQL). ● Database (SQL/NoSQL).
● Data pipelines development. ● Data exploitation - ad-hoc data ● Model pipelines design and
● Data APIs integration. transformation. automation.
● Data tools knowledge. ● Modeling/Metrics knowledge. ● Library knowledge.
● Metrics knowledge.

who are the stakeholders?


Types of learning
Batch learning

Hablamos de aprendizaje en batch cuando nuestro sistema no puede aprender de forma


incremental.

Se utilizan todos los datos disponibles para entrenar el modelo, por lo que requiere más capacidad
computacional.

Una vez entrenado el modelo se pone en producción para que responda en base a lo aprendido, sin
tener la capacidad de aprender. Aplica lo que ya aprendió.

Generalmente se entrena de manera offline.


Online learning
Hablamos de aprendizaje en online o en “tiempo real” cuando nuestro sistema si puede aprender de
forma incremental.

Para entrenar el modelo se utilizan secuencias de datos, individualmente o en pequeños grupos (aka:
mini-batch), por lo que la capacidad de cómputo requerida es menor.

Una vez puesto el modelo en producción puede aprender a través de un flujo continuo de datos, por lo
que sus respuestas deben cambiar a medida que fluyen los datos.
Instance based learning

❏ Posiblemente es la forma más trivial de aprendizaje, básicamente es


aprender de la memoria.
❏ El sistema responde en base al conocimiento previo
❏ aka: memory-based learning (“lazy” algorithm)
❏ No generaliza la respuesta.
Model based learning

❏ Otra forma de generalizar desde un conjunto de datos es construir


un modelo basado en estos datos, y posteriormente usarlo.
❏ El sistema responde en base a una función (Y=F(X)) general que le
permite entregar la mejor respuesta.
Supervised Learning
Supervised Learning

Y = f (X)
En la práctica, la mayoría de los casos de aprendizaje automático se utiliza aprendizaje
supervisado.
En este tipo de aprendizaje tenemos variables input (x), llamadas features o covariables, y
una variable output (Y), también conocida como target.
● El algoritmo en este caso tiene que tener la capacidad de interpretar los inputs y
transformarlos de la mejor forma posible en el output que buscamos.
● El objetivo es aproximar la función de manera que cuando tengamos nuevos datos
pueda predecir la variable de salida.
● Se llama aprendizaje supervisado porque conozco el valor real de la variable de
salida (Y).
● Puedo supervisar el funcionamiento de mi algoritmo, generando las correcciones
necesarias hasta llegar a un resultado aceptable.
Supervised Learning
Los problemas de aprendizaje supervisado se pueden
catalogar en dos grupos:
❏ Clasificación
❏ La variable target corresponde a una categoría.
❏ Ej: Fraude / No Fraude, Enfermo / Sano, Compra /
No compra, Perro / Gato / Pájaro
❏ Algorithm: Logistic Regression, Decision Tree,
Random Forest, Support Vector Machines.

❏ Regresión
❏ La variable target corresponde a una variable
numérica o real.
❏ Ej: Ganancias del próximo mes, valor de una
propiedad.
❏ Algorithm: Linear Regression, Ridge Regression,
Lasso Regression, Elastic Net Regression
Unsupervised Learning

En este tipo de aprendizaje solo tenemos variables input (x) y no se tiene una
variable target.

El objetivo de este tipo de algoritmos es modelar la estructura o distribución


subyacente en los datos para poder obtener información valiosa o patrones sobre
el set de datos.

Al no existir una variable de target o un resultado conocido, no podemos supervisar


la forma en la que el algoritmo aprende, por lo que el resultado dependerá del
propio diseño del algoritmo.
Unsupervised Learning
Los problemas de aprendizaje no supervisado se pueden
catalogar en dos grupos:
❏ Clustering
❏ Agrupa datos no categorizados basándose en sus
similitudes o diferencias
❏ Ej: Agrupar clientes por comportamiento de compra
❏ Algorithm: K-means, Hierarchical clustering, DBSCAN.
❏ Asociación
❏ Modelo basado en reglas para encontrar relaciones
entre los datos
❏ Ej: Cuando se compran pinturas también se compran
brochas
❏ Algorithm: Apriori, FP-Growth
❏ Reducción de dimensión
❏ Se utiliza para observar patrones con una menor
cantidad de features.
❏ Algorithm: PCA
Knowledge area and use cases
DS Toolkit 101

También podría gustarte