Solución del problema de probabilidad cero en el algoritmo ingenuo de Bayes
22 de noviembre de 2020·4 minutos de lectura
Naïve Bayes es un clasificador probabilístico basado en el teorema de Bayes utilizado para tareas de clasificación. Funciona bastante bien para problemas de clasificación de texto como el filtrado de spam y la clasificación de clasificación como positiva o negativa. El algoritmo parece perfecto a primera vista, pero la representación básica de Naive Bayes puede causar algunos problemas en escenarios reales.
Este artículo asume que tiene una comprensión básica de Naive Bayes. Escribí un artículo sobre Naive Bayes. No dudes en comprobarlo.
Comprender el algoritmo de Naive Bayes
Un clasificador probabilístico
ejemplo
nosotros tomamosnorte Ejemplo de clasificación de texto donde la tarea es clasificar si la calificación es positiva o negativa. Creamos una tabla de probabilidad basada en los datos de entrenamiento. Sin embargo, al consultar una calificación, usamos los valores de la tabla de probabilidad ¿Qué pasa si una palabra en una revisión no estaba presente en el conjunto de datos de entrenamiento?
Verificando la consulta = w1 w2 w3 w ‘
Tenemos cuatro palabras en nuestra validación de consultas y supongamos que solo w1, w2 y w3 están presentes en los datos de entrenamiento. Entonces tendremos una probabilidad para estas palabras. Para calcular si la calificación es positiva o negativa, comparamos P (positiva | calificación) y P (negativa | calificación).
En la tabla de probabilidad tenemos P(w1 | positivo), P(w2 | positivo), P(w3 | positivo) y P(positivo). Oh, espera, pero ¿dónde está P(w’ | positivo)?
Si falta la palabra en el conjunto de entrenamiento, no tenemos su probabilidad. ¿Qué debemos hacer?
Enfoque1- Ignore el término P(w’ | positivo)
Ignorar significa que le asignamos un valor de 1, lo que significa que la probabilidad de que w’ ocurra en P positivo (w’ | positivo) y revisión negativa P (w’ | negativo) es 1. Este enfoque parece lógicamente incorrecto.
Enfoque 2- En un modelo de bolsa de palabras, contamos las ocurrencias de palabras. Las ocurrencias de la palabra w’ en el entrenamiento son 0. Por lo tanto
P(w’ | positivo) = 0 y P(w’ | negativo) = 0, pero esto hace que P(positivo | revisión) y P(negativo | revisión) sean iguales a 0 ya que multiplicamos todas las probabilidades. Este es el problema de probabilidad cero. Entonces, ¿cómo lidiar con este problema?
Suavizado de Laplace
El suavizado de Laplace es una técnica de suavizado que resuelve el problema de probabilidad cero en Naive Bayes. Usando el suavizado de Laplace, podemos representar P(w’ | positivo) como
Aquí,
alfa representa el parámetro de suavizado,
k representa el número de dimensiones (características) en los datos, y
norte representa el número de calificaciones con y = positivo
Si tomamos un valor de alfa! = 0 (no igual a 0), la probabilidad ya no es cero incluso si una palabra no está presente en el conjunto de datos de entrenamiento.
Interpretación del cambio alfa
Suponga que la palabra w es 3 con y = positivo en los datos de entrenamiento. Supongamos que tenemos 2 características en nuestro conjunto de datos, es decir, K=2 y N=100 (número total de reseñas positivas).
Caso 1- si alfa = 1
P(w’ | positivo) = 3/102
caso 2- si alfa = 100
P(w’ | positivo) = 103/300
caso 3 si alfa = 1000
P(w’ | positivo) = 1003/2100
A medida que aumenta alfa, la probabilidad se mueve hacia una distribución uniforme (0.5). La mayoría de las veces, alfa = 1 se usa para eliminar el problema de probabilidad cero.
Conclusión
El suavizado de Laplace es una técnica de suavizado que se puede utilizar para abordar el problema de probabilidad cero en el algoritmo de aprendizaje automático Naïve Bayes. El uso de valores alfa más altos aumenta la probabilidad a un valor de 0,5, lo que significa que la probabilidad de que una palabra sea igual a 0,5 para calificaciones tanto positivas como negativas. Dado que no obtenemos mucha información de él, no es preferible. Por lo tanto, se prefiere usar alfa=1.
¡Gracias por leer!
[2021] Suavizado de Laplace en el algoritmo Naïve Bayes {DH}