Clasificación de Bayes

Los clasificadores bayesianos son clasificadores estadísticos, los cuales pueden predecir la probabilidad de que un grupo de datos (tupla) pertenezca a una clase particular. La clasificación de Bayes, está basada en el teorema de Bayes, en honor a Tomas Bayes, clérigo que durante el siglo 18 trabajó en probabilidad y teorías de decisión. Este teorema busca la probabilidad (P) que se cumpla una hipótesis (H) dado un set de datos conocidos o evidencia (X), esta probabilidad se denominara “probabilidad a posteriori” P(H/X). (Han, Kamber, & Pei, 2012)

Naive Bayes es un conjunto de algoritmos de clasificación basado en el teorema de Bayes. No es un único algoritmo sino una familia de algoritmos que comparten un principio común, donde cada característica a ser clasificada es independiente del valor de cualquier otra característica. Se los considera a los clasificadores de Bayes “ingenuos” ya que consideran cada una de estas «características» para contribuir de manera independiente a la probabilidad de que se cumpla la hipótesis, con independencia de las correlaciones entre las características. Las características, sin embargo, no siempre son independientes que a menudo es visto como un defecto de los algoritmos bayesiano y es por eso que está marcada como «ingenua» (naive). (Waldron, 2015)

A pesar de que son algoritmos relativamente simples, Naive Bayes a menudo puede superar a otros algoritmos más sofisticados y es extremadamente útil en aplicaciones comunes; es computacionalmente más liviano que otros algoritmos, y por lo tanto es útil para generar rápidamente modelos de minería para descubrir las relaciones entre datos de entrada y datos de predicción. Se utiliza este algoritmo para hacer la exploración inicial de los datos, y posteriormente se puede aplicar los resultados obtenidos para crear modelos de minería adicionales con otros algoritmos. Uno de los usos más comunes es la detección de spam y clasificación de documentos (Microsoft, 2015)

Ventajas:

  • Es sencillo de entender y construir
  • Es rápido y computacionalmente liviano
  • No es sensible a las características irrelevantes

Desventajas

  • Asume cada característica de entrada como independiente.

La siguiente tabla muestra un set de datos de 1000 frutas, la fruta puede ser un plátano, naranja o alguna otra fruta y se conocen 3 características de cada fruta, ya sea si es larga o no, dulce o no y amarilla o no, como se muestra en la tabla:

FrutaLargaDulceAmarillaTOTAL
Plátano400350450500
Naranja0150300300
Otros10015050200
Total5006508001000
Ejemplo de Clasificador Naive Bayes

Con los datos presentados, entonces se conoce que:

  • 50% son plátanos
  • 30% son naranjas
  • 20% otras frutas

Adicionalmente se puede decir:

  • De los 500 plátanos, 400 (80%) son largas, 350 (70%) son dulces y 450 (90%) son amarillas.
  • De las 300 naranjas, 0 (0%) son largas, 150 (50%) son dulces y 300 (100%) son amarillas.
  • De las 200 otras frutas, 100 (50%) son largas, 150 (75%) son dulces y 50 (25%) son amarillas.

Por lo tanto, con este set datos conocidos se obtiene suficiente evidencia para clasificar a qué clase pertenecería un siguiente fruto. Si se dice que la fruta a clasificar es larga, dulce y amarrilla; con estos datos conocidos se calcula la probabilidad que se plátano con aquellas características que se evalúan de manera independiente.

Al calcular las 3 probabilidades, se obtiene:

  • Probabilidad (plátano): 0.252
  • Probabilidad (naranja): 0
  • Probabilidad (otra fruta): 0.01875

Por tanto, basado en las probabilidades calculadas, se puede clasificar a la nueva fruta como un plátano. (Waldron, 2015)

Bibliografía

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Microsoft. (2015). Microsoft Developer Network. Obtenido de https://msdn.microsoft.com/en-us/library/ms174949.aspx

Waldron, M. (4 de Junio de 2015). Aylien. Obtenido de Naive Bayes for Dummies; A Simple Explanation: http://blog.aylien.com/naive-bayes-for-dummies-a-simple-explanation/

Publicado por

Santiago X. Saavedra Y.

Ingeniero Industrial, Master en Administración de Empresas y Master en Gestión de Tecnologías de Información, especializado en Transformación Digital e Inteligencia de Negocios. https://www.linkedin.com/in/sxsaavedra