0% encontró este documento útil (0 votos)
22 vistas

machine learning

Cargado por

fotosg719
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
22 vistas

machine learning

Cargado por

fotosg719
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 31

Definiciones:

Inteligencia Artificial (IA): Cualquier técnica que permite a las máquinas resolver un
problema de la misma manera que lo harían los humanos.

Machine Learning (Aprendizaje Automático) (ML): Algoritmos que permiten a las


computadoras aprender sin necesidad de ser programadas explícitamente.

Artificial Neural Networks (Redes Neuronales Artificiales) (ANN): Modelos de


aprendizaje inspirados en el cerebro y sus neuronas.

Deep Learning (Aprendizaje Profundo) (DL): Un subconjunto de las técnicas de ML


que utiliza redes neuronales profundas para procesar datos a través de representaciones
jerárquicas generadas automáticamente.

Programación tradicional vs Machine Learning:


Tradicional: Machine Learning:
Aprendizaje:
- Supervisado: es un tipo de aprendizaje automático en el cual se aprende cómo se
relacionan las variables de entrada (INPUT, FEATURES, X) con las variables
de salida (OUTPUT, TARGET, Y).
A partir de ejemplos etiquetados (donde se conoce la relación entre las variables
de entrada y salida), el algoritmo puede predecir el valor de salida para nuevos
casos que no se utilizaron en el proceso de aprendizaje o entrenamiento.

- No supervisado: el algoritmo extrae conocimiento y relaciones latentes a partir


de datos de entrada no etiquetados. No especificamos qué relaciones debe
aprender el algoritmo, es decir, no hay variables de salida ni datos etiquetados.
El objetivo es encontrar regularidades en los datos de entrada, identificando
patrones.
Aquí no hay una variable TARGET.
- Aprendizaje por refuerzo
El aprendizaje por refuerzo es un tipo de aprendizaje automático en el cual el
aprendiz, un agente de toma de decisiones, es capaz de tomar acciones de
manera autónoma para resolver un problema en un entorno cerrado, mientras
busca maximizar una recompensa específica. Ejemplos:
o Algoritmos de control de robots (por ejemplo, mover un robot por una
habitación sin chocar con obstáculos).
o Juegos: ajedrez, backgammon, damas, entre otros.
o Otras actividades en las que un bot puede aprender a tomar decisiones.

A través de numerosas simulaciones (ensayo y error), el bot aprende la estrategia


más óptima para resolver el problema.
Tareas de aprendizaje que realizan los algoritmos de ML (aprendizaje automático):
 Clasificación y puntuación: Estimación de la probabilidad de pertenecer a una
clase (valor de la etiqueta).
 Clasificación con entradas faltantes e imputación de valores faltantes.
 Regresión: Estimación del valor de una variable objetivo (TARGET).
 Transcripción (de voz a texto) y traducción automática (Google Translate,
DeepL, etc.).
 Emparejamiento por similitud: Sistemas de recomendación (YouTube, Netflix,
Amazon, etc.).
 Agrupamiento: Aprendizaje no supervisado para encontrar grupos o clusters.
 Agrupación de co-ocurrencias: Reglas de asociación, como en el análisis de
texto.
 Síntesis y muestreo: Generación de nuevas muestras o datos.
 Reducción de datos: Simplificación del conjunto de datos manteniendo su
información relevante.
 Modelado causal: Identificación de relaciones causales entre variables.
 Detección de anomalías: Identificación de datos que no siguen un patrón
esperado.
 Eliminación de ruido (denoising): Predicción de un ejemplo limpio a partir de
datos corruptos.
 Estimación de la función de masa de probabilidad: Estimación de la densidad de
probabilidad de los datos.

Aprendizaje supervisado:

Aprendizaje no supervisado:
Resumen de los tipos de tareas de machine learning:

Aplicaciones avanzadas de machine learning:


- Text mining
- Sentiment análisis
- Social network análisis
- Recommendation systems
- Dimensionality reduction (principal component analysis)
- Graph machine learning: novel materials and medicines
- Cybersecurity: anomaly detection
- Image recognition/generation
- World simulators/videogame generators
- Music recognition/generation
- Text generation: chatgpt
- Text/image generation: tome.app
- Object detection
Regresión vs clasificación:
En regresión la variable target es numérica y en clasificación la variable target es
cualitativa.

Algoritmo:
Conjunto de reglas para realizar cálculos, ya sea manualmente o en una máquina, o
secuencia de pasos computacionales que transforman la entrada(input) en la
salida(output).

Algoritmos de aprendizaje supervisado:


Para clasificación (objetivo categórico) y regresión (objetivo numérico).

Qué es un modelo? Qué le hace diferente de un algoritmo?:


Representación simplificada de la realidad
Equilibrio entre manejable y realista (trade-off between manageable and realistic)
Modelo= Data+Algoritmo
Si es demasiado complejo riesgo de sobreajuste: baja capacidad de generalización

Tipos de modelos:
Según su PROPÓSITO
• Explicativos (pruebas de hipótesis)
• Predictivos (aprendizaje automático)
Los modelos tienen diferentes NIVELES DE INTERPRETABILIDAD
• Modelos interpretables (simples y de baja precisión)
• Modelos de caja negra (complejos y de alta precisión)

El algoritmo y la modelización son la mitad de todo en el aprendizaje automático:


Importancia de la comprensión de los datos
Modificación de datos para facilitar el proceso de aprendizaje del algoritmo:
• Datos redundantes o faltantes
• Transformaciones:
• Simplificación de datos (agregación, PCA, etc.)
• Conversión de variables categóricas a variables dummy (SÍ/NO)
• Escalado de datos (escalado min-max, normalización, etc.)

Hacer que los datos sean más comprensibles para reducir el riesgo de sacar conclusiones
incorrectas en el proceso de aprendizaje
La metodología de machine learning:

Estos son los pasos habituales en la metodología de Aprendizaje Automático:


1. Extraer los datos.
2. Analizar y preparar los datos de acuerdo con tu aplicación/caso de Aprendizaje
Automático.
3. Seleccionar el algoritmo de ML que sea capaz de aprender los patrones que
existen en los datos (modelo = datos + algoritmo).
4. Entrenar el modelo de ML con un subconjunto del conjunto de datos.
5. Evaluar el rendimiento del modelo de ML con otro subconjunto del conjunto de
datos.
6. Repetir los pasos 2-5 con otros modelos de ML y/o probar el mismo modelo con
otras configuraciones/parámetros o incluso cambiando los datos que se usaron
anteriormente.
7. Comparar los modelos y elegir el que tenga el mejor rendimiento.
Las 3 V del big data:

Generalización del concepto de dato:


Estructurado, no estructurado y semi-estructurado.

La internet de las cosas:


Interconexión de dispositivos y objetos físicos a través de internet permitiendo que se
comuniquen y compartan datos entre sí.
EJERCICIOS:
Ejercicio:
Obtener diferentes perfiles de alumnos según sus hobbies, rendimiento académico e
intereses profesionales:
- Clustering
- aprendizaje no supervisado porque en la tarea no hay una variable target sino un
conjunto de objetos y diferentes características que cumplen la misma condición.

Ejercicio:
Dado un conjunto de fotos de cuadros predecir si son del estilo barroco, impresionista o
cubista:
- Clasificación
- Aprendizaje supervisado: Tenemos un conjunto de observaciones en los cuales
tenemos la foto y la etiqueta, datos etiquetados no estructurados

Ejercicio:
Aprender a jugar al minecraft desde 0 a base de prueba y error
- Aprendizaje reforzado
Ejercicio:
Horas deporte semana Índice de
Índice masa corporal rendimiento
deportivo
En algún equipo deportivo
PCA: Principal
components
Nota en matemáticas Analysis
Índice de
Nota en finanzas rendimiento
académico
Horas de estudio diarias

Ejercicio gatos/no gatos:


- Aprendizaje supervisado porque tenemos input y la etiqueta.
- Clasificación binaria
DEFINICIONES:
Modelo: Uso de un algoritmo aplicado con datos
ALGORITMOS:
1. Regresión lineal: Regresión
2. Regresión logística: Clasificación
3. KNN: clasificación, regresión
4. Árbol de decisión: Clasificación, regresión
5. Random forest: Regresión, clasificación, ensembles
6. XG boost: Regresión, clasificación, ensemble
7. Redes neuronales: Regresión, Clasificación, Clustering, reforzado
(+) precisión

(+) interpretabilidad
Árbol de clasificación
Red neuronal profunda
Random forest

TEMA 3:
Técnica de aprendizaje supervisado:
Regresión: predicción del valor de una variable objetivo cuantitativa (y) como función
de una o varias variables explicativas x (características), (cualitativas o cuantitativas).
• modelos de regresión lineal → predecir y analizar, con parámetros interpretables.
• origen de la palabra “regresión” galton (siglo xix).

Algunos algoritmos de aprendizaje supervisados para regresión (objetivo numérico):


E[Y/X]

Regresión como modelo explicativo


Qué es un modelo?
Representación simplificada de la realidad
• Compensación entre manejable y realista
Un mapa es un modelo de la tierra
MODELO CONCEPTUAL Y MODELO EMPÍRICO:
Teoría: Ecuación que resume la relación entre variables.

Elementos: Variables, parámetros y ecuaciones

Con datos estimamos los betas!


Elementos: Datos:
Estimando los parámetros beta del modelo:
Las betas son desconocidas, por lo que su valor debe ser aproximado.
Cuando la Y observada/real y la Y estimada no coinciden: residual o error.
Un buen método de estimación debe minimizar alguna función de los residuos.

Las betas se estiman con el método de mínimos cuadrados:


El método de mínimos cuadrados tiene como objetivo determinar los valores de las
betas para la ecuación y = β0 + β1 · X que minimiza la suma de los cuadrados de los
residuos.
Estimando los parámetros beta del modelo:
Un buen método de estimación debe minimizar una función de los residuos.
Ejemplo multivariado (regresión lineal múltiple: 2 o más variables explicativas)
Queremos predecir el precio de una vivienda según dos características:
• Superficie
• Exterior (la vivienda da al exterior/calle)
INTERPRETACIÓN DE LOS RESULTADOS:
Error estándar: precisión de la estimación de beta, cuánto podría variar la estimación
con otro conjunto de datos; cuanto más bajo sea su valor (en términos relativos respecto
a la estimación de beta asociada), mayor será la precisión de la estimación.
• t ratio: precisión como medida relativa -> beta estimada / error estándar. Cuanto mayor
sea su valor absoluto, mejor.
• Valor p: probabilidad de obtener estos resultados (u otros más desfavorables para la
hipótesis nula H0: beta=0) si el valor real de beta es cero.
• A medida que |t| es mayor (en valor absoluto), el valor p es menor y hay más evidencia
de que los resultados NO se deben al azar.

Más del P-valor:


El valor p es un muy buen indicador de si la variable explicativa es significativa o no:
• Hipótesis nula: H0: βi = 0, la variable Xi NO es relevante/explicativa.
• Hipótesis alternativa: H1: βi ≠ 0, la variable Xi es relevante/explicativa.
Para un cierto nivel de significancia estadística α (0.05 es el valor habitual):
• Si p ≤ α, se rechaza la hipótesis nula H0 (la variable Xi es relevante).
• Si p > α, no se rechaza la hipótesis nula H0 (la variable Xi NO es relevante).
R-cuadrado:
• R cuadrado (R²): proporción de la varianza de Y (precios) explicada por el modelo,
var(Y*)/var(Y).
• Su valor varía de 0 a 1 (0% a 100%). Un R² mayor indica un mejor ajuste del modelo.
• Siempre aumenta su valor si añadimos variables adicionales, incluso si no tienen
ningún poder explicativo.

R-cuadrado ajustada:
R cuadrado ajustado: penaliza el R² en función del número de variables en el modelo.
• Para elegir entre modelos (con la misma variable Y), podemos optar por el que tenga
un R² AJUSTADO MAYOR.
• PRECAUCIÓN: En los modelos predictivos (como suele ser el caso para los
practicantes de aprendizaje automático), la característica más importante es el
rendimiento predictivo en el conjunto de validación/prueba, ¡no el R²!

Más del R cuadrado:


El R² es el porcentaje de la variabilidad de los datos que es capturado/explicado por el
modelo:
• R² = 1 → Ajuste perfecto, y la línea de regresión cruza todos los puntos reales.
• R² = 0 → El ajuste no es bueno en absoluto.
• R² > 0.7 → El ajuste es muy bueno.
• R² < 0.7 → El ajuste tiene margen de mejora.
El R² ajustado es el R² menos un término de penalización que es proporcional al
número de variables explicativas consideradas en el modelo.

Estadística F:
La estadística F se utiliza para comprobar si un modelo es estadísticamente
significativo (no debido al azar). Es significativa si el valor p asociado es pequeño.

Uso de logaritmos con los regalos:


• Relación no lineal entre X e Y.
• Modela efectos marginales decrecientes.

Educación:
Con variables que:
• Tienen un rango amplio
• Su distribución presenta sesgo a la derecha (+)

Interpretación del coeficiente:


- Modelo log-linear:

Ln(salario)= -1.3+ 0.07eduación -0.21mujer


El término independiente no se interpreta
El coeficiente que acompaña a educación se interpreta en términos porcentuales: Un año
extra de educación aumenta el salario en un 7% en media y caeteris paribus.
Si es mujer, su salario sería un 21% menos que el del hombre (categoría base 0) en
media y CP.

• Una mujer gana un 21% menos en comparación con un hombre (brecha salarial de
género).
- Linear-log model:

Un 1% adicional de ingresos aumenta las donaciones anuales en 3,5 € (350·0.01) en


promedio y ceteris paribus.
Donaciones=30.5+350ln(income)
Coeficiente del ln(income)Un 1% más de ingresos aumenta las donaciones en 350 euros
en media y CP

- Log-log model:

Un 1% adicional de superficie aumenta el precio en un 0.83%, en promedio y ceteris


paribus.
• Interpretación: ELASTICIDAD.

Ln(precio)=4.2+0.83ln(superficie). Cuando está en la x y en la Y es % en las 2


Si la superficie aumenta un 1%, el precio aumenta un 0.83% en media y CP

Características cualitativas:
Variables que no expresan una cantidad
Variables categóricas o no numéricas.

Consideramos que África es la categoría de referencia (base).


No se incluye para evitar la MULTICOLINEALIDAD PERFECTA.

Multicolinealidad perfecta:
Se produce cuando una variable independiente puede ser expresada exactamente como
una combinación lineal de otras variables independientes en el modelo. En otras
palabras, hay una relación exacta entre las variables.
Consecuencias:
 No se puede estimar el modelo de regresión porque el sistema de ecuaciones se
vuelve indeterminado.
 Cualquier intento de calcular los coeficientes de regresión resultará en errores o
en la imposibilidad de realizar la estimación.
Ejemplo: Si tienes dos variables que son idénticas, como “ingresos anuales en dólares”
y “ingresos anuales en dólares” con diferentes nombres, esto sería un caso de
multicolinealidad perfecta.

Imperfecta multicolinealidad:
Se presenta cuando las variables independientes están correlacionadas, pero no de
manera perfecta. Hay alguna relación lineal entre ellas, pero no se puede expresar una
variable como una combinación exacta de las otras.
Consecuencias:
 Puede inflar los errores estándar de los coeficientes, lo que lleva a estimaciones
menos precisas y a una dificultad para determinar la significancia estadística de
las variables.
 Puede hacer que los coeficientes sean inestables y sensibles a pequeños cambios
en los datos.
Ejemplo: Si tienes dos variables como "nivel educativo" y "años de experiencia
laboral", estas pueden estar correlacionadas (una persona con más educación puede
tener más experiencia), pero no son perfectamente colineales.

Efecto cuadrático:
Si la beta de una variable al cuadrado es:
>0: cóncava
<0: convexa
El efecto de X sobre Y es primero decreciente y luego creciente (relación en forma de
U) o primero creciente y luego decreciente (relación en forma de U invertida).

Los efectos marginales no son constantes y dependen del valor de X (edad).


• El máximo (o mínimo) se encuentra en el punto: - linear_beta/(2*quadratic_beta) or -
β1 /(2·β2 )
• En el ejemplo, el gasto en viajes alcanza un máximo a la edad de: -200/(2*-2) = 50
years
Cuanto influye un año más en el gasto en viajes, depende de la edadSi estas por
encima del grupo máximo cada vez influye más

EJEMPLO DE TRANSPORTE:
Usar para el eje Y transformación con logaritmo neperiano
ln(nº viajes bici (t))= B1+B2 nºtweets (t-1)
relación uso bicis con temperatura forma invertida (eje y:temp, eje x:viajes bici)
t*= -0.0781/ 2x(-0.001557)=25.08 º
Si llueve, uso bici se reduce un 25,82%
Día de referencia es el lunes

EFECTO DE INTERACCIÓN:
El efecto de X sobre Y es diferente según los valores de otra variable Z.

El efecto marginal sobre el nivel de alcohol de una bebida adicional es diferente para
hombres y mujeres.
En el ejemplo, ese efecto es dY/dX=3.2 para hombres y dY/dX=(3.2+1.2)=4.4 para
mujeres.
Efecto del nº copas en el nivel de alcoholemia:
Nivel de alcoholemia i = B1+B2 nºcopas i + B3mujer + B4(nºcopas*mujer) +u
 Nºcopas*mujertérmino de interacción
derivada alcohol/derivada copas= B2+B4*mujer
Si soy mujerderivada alcohol/derivada copas= B2+B4
Si soy hombrederivada alcohol/derivada copas= B2 eje y(nºcopas), eje x(nivel alcohol)
mujer
hombre

LINEAR REGRESSION (II):


Regresión como modelo predictivo
El propósito es predecir el valor medio de Y para cada combinación de valores de X
para datos no utilizados en la estimación del modelo.

Introducción:
La predicción del valor de **Y** para un nuevo individuo en regresión lineal consiste
en sustituir los valores de **X** en el modelo estimado y obtener su valor
correspondiente de **Y**.

Para un estudiante que ha estudiado 30 horas y tiene un 90% de asistencia a clase, la


calificación predicha es:

DATA PARTITIONS:
Ejemplo examen de matemáticas:
¿Es precisa la predicción?
Enfoque directo: comparar el valor predicho de Y con el valor real de Y y estimar el
error de predicción:
Error de predicción = Valor real de Y – Valor predicho de Y
NUNCA usar todo el conjunto de datos para estimar el modelo.
• No obtendremos una verdadera predicción y nuestras medidas de error no serán
GENERALIZABLES.
• Deberíamos predecir el valor de Y para un individuo desconocido que no se
haya utilizado para estimar el modelo, con el fin de EVALUAR el rendimiento
predictivo del modelo.
• Si no conocemos el valor real de Y de este individuo, no podemos estimar el
error de predicción.

Solución
Dividir los datos en dos PARTICIONES:
• CONJUNTO DE ENTRENAMIENTO. Usado para ajustar y estimar el
modelo, para que el modelo "aprenda" y extraiga conclusiones a partir de los
datos.
• CONJUNTO DE PRUEBA. Un subconjunto de los datos originales que no se
ha utilizado para estimar el modelo. Se utiliza el conjunto de prueba para estimar
el error de generalización predictiva y calcular las medidas de rendimiento
predictivo.

La partición de los datos debe realizarse para todos los algoritmos de APRENDIZAJE
SUPERVISADO.
Para mitigar sesgos, dividimos los datos de manera ALEATORIA entre el conjunto de
entrenamiento y el conjunto de prueba.

¿Cómo?
Varias formas de hacer la partición:
• Barajar el conjunto de datos y elegir las primeras P% de filas como conjunto de
entrenamiento, y las filas restantes como conjunto de prueba.
• Generar números aleatorios de una distribución B(1, P) y seleccionar las filas con
valor "1" como conjunto de entrenamiento.
• Usar funciones específicas para esto, como train_test_split del paquete scikit-learn

Código para hacerlo:

¡PODEMOS HACERLO AÚN MEJOR!


• La mayoría de los algoritmos de aprendizaje automático (ML) tienen un conjunto
asociado de HIPERPARÁMETROS. Realizar ajuste de hiperparámetros es necesario
para evitar un mal rendimiento predictivo y determinar la mejor configuración del
algoritmo de ML.
• Dividimos aleatoriamente los datos en otra partición llamada CONJUNTO DE
VALIDACIÓN, que se utiliza para estimar el error de generalización durante el
entrenamiento, de manera independiente al error de entrenamiento.
• Una vez que se completa la fase de entrenamiento, el rendimiento predictivo del
algoritmo de ML se prueba con el CONJUNTO DE PRUEBA.

RENDIMIENTO PREDICTIVO:
Métricas de rendimiento predictivo
Estimamos los errores de predicción en el CONJUNTO DE PRUEBA y los
promediamos de diferentes maneras:
Podemos decir que el modelo es mejor si los valores de las medidas de rendimiento
predictivo son más bajos.
Línea de referencia a superar: “modelo nulo” y=media(y)
Las más usadas MSE, RMSE
Error Medio. Representa si el modelo infrapredice(si es mayor a 0) (lo predicho es menor a lo
observado) o sobrepredice (si es menor a 0) (lo predicho es mayor a lo observado)

Raíz del Error Cuadrático Medio.

Error Cuadrático Medio.

Error Porcentual Absoluto Medio.

Error Absoluto Medio.

Selección de variables
¿QUÉ VARIABLES PUEDO INCLUIR EN EL
MODELO?
Enfoque "kitchen-sink": inclúyelas todas y
veamos qué sucede…
¡Cuidado! Debes considerar:
 Costo o posibilidad de obtener datos de
buena calidad.
 Valores de datos faltantes.
 Riesgo de multicolinealidad (modelo inestable, difícil de interpretar).
 Se prefiere un modelo parcimonioso (baja complejidad, pocas variables) en
términos de interpretabilidad.
 Compensación entre sesgo y varianza (si se omite una variable: SESGO; si se
incluye una variable irrelevante: VARIANZA en la predicción).
 Usar demasiadas variables puede llevar a menudo a sobreajuste.
Más sobre la compensación entre sesgo y varianza (more on bias-variance tradeoff)
Selección del modelo:
Idealmente, se realiza comparando las medidas de rendimiento en el CONJUNTO DE
PRUEBA
Comparando errores entre los conjuntos de entrenamiento y validación
En general, esto es válido para todos los algoritmos de aprendizaje supervisado.

¿POR QUÉ?
• El error más bajo en el conjunto de prueba.
• Compensación entre complejidad y rendimiento.

Evaluación del riesgo de sobreajuste comparando errores de entrenamiento y


prueba:
Los siguientes gráficos animados muestran los errores de entrenamiento/prueba y las
predicciones para diferentes valores de "Potencia Máxima" para un modelo de regresión
que está representado por la siguiente ecuación:

Podemos observar que:


- El punto óptimo se encuentra en Potencia Máxima igual a 5, porque los errores de
entrenamiento y prueba son muy similares (además, el error de prueba es mínimo,
aunque esto no siempre sucede). Este es el mejor equilibrio entre la complejidad del
modelo y su rendimiento.
- Para Potencia Máxima menor que 5, el modelo tiene predicciones sesgadas y es
demasiado simple (subajuste).
- Para Potencia Máxima mayor que 5, el modelo es demasiado complejo y considera
demasiados detalles de los datos (sobreajuste).
Selección del modelo:
Como aproximación, las medidas IN-SAMPLE (basadas en el CONJUNTO DE
ENTRENAMIENTO) se utilizan para comparar modelos y evitar el SOBREAJUSTE al
PENALIZAR a los modelos de ALTA COMPLEJIDAD (con muchos parámetros) si no
explican lo suficiente la variable predicha ( NAVAJA DE OCCAM). (OCCAM’S
RAZOR)

Predicción:
Una vez que el modelo ha sido ajustado utilizando los datos de entrenamiento, usamos
la función predict() para obtener predicciones para los datos del conjunto de prueba.

Para calcular el RMSE (Raíz del Error Cuadrático Medio) en el conjunto de prueba,
podemos aplicar la fórmula manualmente o utilizar la métrica predefinida del paquete
scikit-learn (sklearn).

También podría gustarte