Naïve Bayes

Naïve-Bayes
Clasificadores Bayesianos -> Clasificadores probabilísticos

Naïve viene de presuponer dos hipótesis:
Independencia estadística: El valor de todos y cada uno de los atributos es independiente, conocido el valor
de la clase.
Los atributos numéricos pueden ser modelados con una distribución normal.
Entradas y Salidas
Entradas: Conjunto de ejemplos descritos con atributos simbólicos o numéricos.

Tratamiento de las entradas: Las matrices de probabilidad se calculan en un solo paso, auqnue se puede
realizar un tratamiento incremental.
Preprocesamiento: No.
Fuente de las entradas: Externa
Representación de las salidas: Matrices numéricas de probabilidad.
Ruido
Entradas: La estadística suaviza el ruido de los datos de entrada.

Estructura: El hecho de multiplicar los elementos de la matriz puede suavizar cambios en algunas de estas
probabilidades.
Complejidad y fiabilidad
Espacial: El total del tamaño de las matrices de salida. Sean AD y AC el número de atributos discretos y
continuos, K el número de clases y V el número máximo de valores para los atributos discretos:
-Matriz de los AD: AD x V x K
-Matriz de los AC: AC x 2 x K (2, porque se almacenan media y varianza)
-Matriz de las probabilidades de K: K
Temporal: Es el correspondiente al cálculo de los elementos de las matrices multiplicado por el número de
ejemplos, siendo proporcional a este.
Fiabilidad: Como el resto de métodos inductivos, el sistema de clasificación resultante es fiable en tanto los
ejemplos de entrenamiento sean probabilísticamente representativos de los futuros.
Control de la tarea aprendida
Crítica/valoración: La crítica de lo aprendido surge cuando aparece un nuevo ejemplo y se recalculan las
matrices de probabilidad. (Se pueden guardar las frecuencias absolutas, en vez de las relativas, para
simplificar el cálculo a un recorrido lineal de los atributos)
Utilización: Para clasificar nuevos ejemplos se procede tal como se describe en los puntos 3 y 4 del apartado
Tarea.
Dependencia del conocimiento del dominio
Al igual que el resto de sistemas inductivos, dependen fuertemente de los ejemplos y su descripción, que es lo que
contiene toda la información del dominio.
Tarea
1. Cálculo de la probabilidad a priori de cada valor de la clase P(Ck) sobre el conjunto de ejemplos E:
2. Cálculo de la probabilidad de cada uno de los atributos Xj condicionada para cada clase Ck según el tipo de
valores de cada uno:
Discretos:
1. Calcular las probabilidades condicionadas P(Xj|Ck).
2. Comprobar que la suma de las probabilidades es 1.

3. Si alguno de los valores no aparece en una clase, no se le asigna probabilidad 0, ya que esto
anularía el producto de las probabilidades que se utilizará para clasificar un nuevo ejemplo que sí
tuviese ese valor. Para ello:
Se le da un valor cercano a 0 (como 0.05, quitando probabilidad de otros valores para
mantener normalizadas las probabilidades).
Se aplican otros estimadores:
-Suavizado de Laplace: suma 1 al numerador y q al denominador(q=número de posibles
valores del atributo)
-Estimador-m: Sea m un parámetro corrector y p una estimación previa de la probabilidad, se
suma mp al numerador y m al denominador.
Continuos:
1. Calcular la media (μ) y almacenarla en la matriz.
2. Calcular la desviación típica (σ) y almacenarla en la matriz (atención a los n ejemplos para el
denominador).
3. Posteriormente, a la hora de clasificar nuevos ejemplos, se utilizarán estos valores para aplicar la
función de densidad al valor x del atributo correspondiente:
3. Aplicar el teorema de Bayes sobre un nuevo ejemplo de entrada En, para cada valor del atributo clase,
mediante:
Se multiplican las probabilidades de cada atributo del nuevo ejemplo: tomando las probabilidades calculadas
de los atributos discretos o aplicando la función de densidad al valor de los atributos del nuevo ejemplo; y se
multiplica también por la probabilidad a priori de la clase, para finalmente asignarle la clase que resulte con
mayor probabilidad.
4. Normalización: Las probabilidades obtenidas para cada clase no están normalizadas (no suman 1). De forma
opcional, se pueden normalizar dividiendo cada una por la suma total de ellas:
Bias
Este algoritmo esta sesgado al uso del teorema de Bayes, y por tanto a la presunción de que los valores de los
atributos presentan una distribución normal (lo que no ocurre con datasets en los que hay cierta redundancia en la
información).
También sesga el cambio de representación cuando se realiza una captura numérica (probabilística) de información
semántica (atributos simbólicos).
Conclusiones
Aplicaciones
Más apropiado cuando los dominios son puramente numéricos.

Análisis/minado de textos (clasificación/recomendación de contenido web).
Los que mejores resultados dan en filtros de spam (Mozilla Thunderbird lo usa).
Ventajas
Sistemas fáciles de programar y con base estadística muy formalizada.
Inconvenientes
Asunción de la independencia de los atributos.

Perdida de la semántica asociada a los atributos con valores simbólicos.

Naïve Bayes

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Naïve Bayes

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Naïve Bayes

Cargado por

Copyright:

Formatos disponibles

Naïve-Bayes

Clasificadores Bayesianos -> Clasificadores probabilísticos

Entradas: Conjunto de ejemplos descritos con atributos simbólicos o numéricos.

Entradas: La estadística suaviza el ruido de los datos de entrada.

Control de la tarea aprendida

Dependencia del conocimiento del dominio

2. Comprobar que la suma de las probabilidades es 1.

Más apropiado cuando los dominios son puramente numéricos.

Sistemas fáciles de programar y con base estadística muy formalizada.

Asunción de la independencia de los atributos.

También podría gustarte