Naïve Bayes

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 3

Naïve-Bayes

Clasificadores Bayesianos -> Clasificadores probabilísticos


Naïve viene de presuponer dos hipótesis:

Independencia estadística: El valor de todos y cada uno de los atributos es independiente, conocido el valor
de la clase.
Los atributos numéricos pueden ser modelados con una distribución normal.

Entradas y Salidas

Entradas: Conjunto de ejemplos descritos con atributos simbólicos o numéricos.


Tratamiento de las entradas: Las matrices de probabilidad se calculan en un solo paso, auqnue se puede
realizar un tratamiento incremental.
Preprocesamiento: No.
Fuente de las entradas: Externa
Representación de las salidas: Matrices numéricas de probabilidad.

Ruido

Entradas: La estadística suaviza el ruido de los datos de entrada.


Estructura: El hecho de multiplicar los elementos de la matriz puede suavizar cambios en algunas de estas
probabilidades.

Complejidad y fiabilidad

Espacial: El total del tamaño de las matrices de salida. Sean AD y AC el número de atributos discretos y
continuos, K el número de clases y V el número máximo de valores para los atributos discretos:
-Matriz de los AD: AD x V x K
-Matriz de los AC: AC x 2 x K (2, porque se almacenan media y varianza)
-Matriz de las probabilidades de K: K
Temporal: Es el correspondiente al cálculo de los elementos de las matrices multiplicado por el número de
ejemplos, siendo proporcional a este.
Fiabilidad: Como el resto de métodos inductivos, el sistema de clasificación resultante es fiable en tanto los
ejemplos de entrenamiento sean probabilísticamente representativos de los futuros.

Control de la tarea aprendida

Crítica/valoración: La crítica de lo aprendido surge cuando aparece un nuevo ejemplo y se recalculan las
matrices de probabilidad. (Se pueden guardar las frecuencias absolutas, en vez de las relativas, para
simplificar el cálculo a un recorrido lineal de los atributos)
Utilización: Para clasificar nuevos ejemplos se procede tal como se describe en los puntos 3 y 4 del apartado
Tarea.

Dependencia del conocimiento del dominio

Al igual que el resto de sistemas inductivos, dependen fuertemente de los ejemplos y su descripción, que es lo que
contiene toda la información del dominio.

Tarea

1. Cálculo de la probabilidad a priori de cada valor de la clase P(Ck) sobre el conjunto de ejemplos E:

2. Cálculo de la probabilidad de cada uno de los atributos Xj condicionada para cada clase Ck según el tipo de
valores de cada uno:
Discretos:
1. Calcular las probabilidades condicionadas P(Xj|Ck).

2. Comprobar que la suma de las probabilidades es 1.


3. Si alguno de los valores no aparece en una clase, no se le asigna probabilidad 0, ya que esto
anularía el producto de las probabilidades que se utilizará para clasificar un nuevo ejemplo que sí
tuviese ese valor. Para ello:
Se le da un valor cercano a 0 (como 0.05, quitando probabilidad de otros valores para
mantener normalizadas las probabilidades).
Se aplican otros estimadores:
-Suavizado de Laplace: suma 1 al numerador y q al denominador(q=número de posibles
valores del atributo)
-Estimador-m: Sea m un parámetro corrector y p una estimación previa de la probabilidad, se
suma mp al numerador y m al denominador.
Continuos:
1. Calcular la media (μ) y almacenarla en la matriz.
2. Calcular la desviación típica (σ) y almacenarla en la matriz (atención a los n ejemplos para el
denominador).
3. Posteriormente, a la hora de clasificar nuevos ejemplos, se utilizarán estos valores para aplicar la
función de densidad al valor x del atributo correspondiente:

3. Aplicar el teorema de Bayes sobre un nuevo ejemplo de entrada En, para cada valor del atributo clase,

mediante:
Se multiplican las probabilidades de cada atributo del nuevo ejemplo: tomando las probabilidades calculadas
de los atributos discretos o aplicando la función de densidad al valor de los atributos del nuevo ejemplo; y se
multiplica también por la probabilidad a priori de la clase, para finalmente asignarle la clase que resulte con
mayor probabilidad.

4. Normalización: Las probabilidades obtenidas para cada clase no están normalizadas (no suman 1). De forma
opcional, se pueden normalizar dividiendo cada una por la suma total de ellas:

Bias

Este algoritmo esta sesgado al uso del teorema de Bayes, y por tanto a la presunción de que los valores de los
atributos presentan una distribución normal (lo que no ocurre con datasets en los que hay cierta redundancia en la
información).
También sesga el cambio de representación cuando se realiza una captura numérica (probabilística) de información
semántica (atributos simbólicos).

Conclusiones

Aplicaciones

Más apropiado cuando los dominios son puramente numéricos.


Análisis/minado de textos (clasificación/recomendación de contenido web).
Los que mejores resultados dan en filtros de spam (Mozilla Thunderbird lo usa).

Ventajas

Sistemas fáciles de programar y con base estadística muy formalizada.

Inconvenientes

Asunción de la independencia de los atributos.


Perdida de la semántica asociada a los atributos con valores simbólicos.

También podría gustarte