Algoritmos de Maximizacion de Esperanza

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 29

Algoritmo Maximización

de esperanzas _
Sesión Presencial 2
Itinerario

Activación de conceptos Desarrollo Desafío Panel de discusión


Activación de conceptos
¿Cuál es el principio de clasificación para SVM?

● Implementamos un clasificador discriminante que se base en la combinación lineal de


parámetros.
● Implementamos un clasificador generativo que encuentre las clases en función a la
distribución conjunta.
● Buscamos maximizar el margen donde es posible separar las clases.
¿Qué significa "Soporte Vectorial"
en máquinas de Soporte Vectorial?
● Observaciones que permiten establecer los límites positivos y negativos del margen.
● Observaciones que se posicionan dentro de la clase opuesta.
● Observaciones inferidas a partir del clasificador lineal.
¿Cuál es una de las principales desventajas de SVM?

● SVM es un modelo de caja negra.


● SVM es sensible a la escala de los atributos.
● SVM es ineficiente en espacios N-dimensionales.
¿Cuál es el objetivo del kernelizar?

● Estimar la probabilidad de clase de una observación.


● Reducir la dimensionalidad de la matriz de atributos.
● Re-expresar la matriz de atributos en un nuevo espacio que permita la separación.
¿Cuál es el efecto de C y Gamma?

● C penaliza el costo y Gamma determina el ancho del kernel cuando es lineal.


● C determina el ancho del kernel y Gamma penaliza la función de costo.
● C penaliza el costo y Gamma determina el ancho del kernel cuando es radial basis function.
Estimación por Máxima Verosimilitud
Estimación por Maximización de Esperanzas
El proceso algorítmico
EM en una imagen
Modelo de mezcla de Gaussianas

Objetivo:
Generar una aproximación informada sobre el número óptimo de grupos en una matriz de atributos,
dado que no tenemos información sobre los grupos.

Implementación con sklearn


Identificando óptimo de clusters
Criterios de información

Origen: Desviación del modelo respecto a los datos "verdaderos"


(A/B)IC: Logverosimilitud penalizada

Criterio de información de Akaike

Criterio de información Bayesiano


Implementación en sklearn
Densidades inferidas
Clasificación de densidades
Mezcla probabilística
Efecto de la covarianza
Covarianza full
Covarianza diag
Detección de anomalías
Otras aplicaciones
Imputación de datos perdidos
(Little y Rubin, 1997)

Por defecto la comunidad de Machine Learning no trabaja muy bien con datos perdidos. Sus
estrategias incluyen:
● Imputación por moda y media
● Interpolación de datos

Problema: Puede replicar sesgos subyacentes de los datos →

Estrategia EM → Completar de forma iterativa la logverosimilitud de los datos no observados.


● Iterar el proceso de generación K veces
● Estimar un modelo en cada proceso de generación de datos y resumir los puntos estimados.
● EM es más conveniente dado que preserva la relación entre los datos.
Modelación concomitante de clases latentes
(Rabe-Hesketh y Skrondal, 2004)

● Híbrido entre un modelo de mezclas gaussianas y un modelo generalizado multinomial.


● Permite identificar la probabilidad de pertenencia a una de las densidades inferidas en
función de un conjunto de covariables.
● ¿Por qué no etiquetar las observaciones con ?

Ignoramos la existencia de una mezcla de


probabilidades generadas para cada una observación
/* Desafío */
Panel de discusión
www.desafiolatam.com

También podría gustarte