Naïve Bayes
Naïve Bayes
Naïve Bayes
Independencia estadística: El valor de todos y cada uno de los atributos es independiente, conocido el valor
de la clase.
Los atributos numéricos pueden ser modelados con una distribución normal.
Entradas y Salidas
Ruido
Complejidad y fiabilidad
Espacial: El total del tamaño de las matrices de salida. Sean AD y AC el número de atributos discretos y
continuos, K el número de clases y V el número máximo de valores para los atributos discretos:
-Matriz de los AD: AD x V x K
-Matriz de los AC: AC x 2 x K (2, porque se almacenan media y varianza)
-Matriz de las probabilidades de K: K
Temporal: Es el correspondiente al cálculo de los elementos de las matrices multiplicado por el número de
ejemplos, siendo proporcional a este.
Fiabilidad: Como el resto de métodos inductivos, el sistema de clasificación resultante es fiable en tanto los
ejemplos de entrenamiento sean probabilísticamente representativos de los futuros.
Crítica/valoración: La crítica de lo aprendido surge cuando aparece un nuevo ejemplo y se recalculan las
matrices de probabilidad. (Se pueden guardar las frecuencias absolutas, en vez de las relativas, para
simplificar el cálculo a un recorrido lineal de los atributos)
Utilización: Para clasificar nuevos ejemplos se procede tal como se describe en los puntos 3 y 4 del apartado
Tarea.
Al igual que el resto de sistemas inductivos, dependen fuertemente de los ejemplos y su descripción, que es lo que
contiene toda la información del dominio.
Tarea
1. Cálculo de la probabilidad a priori de cada valor de la clase P(Ck) sobre el conjunto de ejemplos E:
2. Cálculo de la probabilidad de cada uno de los atributos Xj condicionada para cada clase Ck según el tipo de
valores de cada uno:
Discretos:
1. Calcular las probabilidades condicionadas P(Xj|Ck).
3. Aplicar el teorema de Bayes sobre un nuevo ejemplo de entrada En, para cada valor del atributo clase,
mediante:
Se multiplican las probabilidades de cada atributo del nuevo ejemplo: tomando las probabilidades calculadas
de los atributos discretos o aplicando la función de densidad al valor de los atributos del nuevo ejemplo; y se
multiplica también por la probabilidad a priori de la clase, para finalmente asignarle la clase que resulte con
mayor probabilidad.
4. Normalización: Las probabilidades obtenidas para cada clase no están normalizadas (no suman 1). De forma
opcional, se pueden normalizar dividiendo cada una por la suma total de ellas:
Bias
Este algoritmo esta sesgado al uso del teorema de Bayes, y por tanto a la presunción de que los valores de los
atributos presentan una distribución normal (lo que no ocurre con datasets en los que hay cierta redundancia en la
información).
También sesga el cambio de representación cuando se realiza una captura numérica (probabilística) de información
semántica (atributos simbólicos).
Conclusiones
Aplicaciones
Ventajas
Inconvenientes