Clasificación basada en Reglas

Las reglas son una buena manera de clasificar la información. Los clasificadores basados reglas utilizan un conjunto de reglas “Si-Entonces” para la clasificación. Una regla “Si-Entonces” es una expresión de la forma:

SI condición Entonces conclusión.

La parte del “Si” de la regla es conocida como el “antecedente” o “precondición”, la parte del “Entonces” es conocida como la consecuencia. La parte antecedente puede ser la prueba de uno o varios atributos, la consecuencia contiene la clase de predicción.

Las reglas clasificadoras pueden ser evaluadas en base a su cobertura y su exactitud, la cobertura está determinada por el número tuplas en las que regla satisface las condiciones antecedentes, y la exactitud está determinada por el número de tuplas que satisfacen el resultado. La siguiente tabla muestra un set de datos de 14 compradores, y contiene el rango de edad de cada comprador y si posee o no título universitario. 

#Rango EdadTítulo UniversitarioComprador
120-30nono
220-30nono
331-45nosi
446-60nosi
546-60sisi
646-60sino
731-45sisi
820-30nono
920-30sisi
1046-60sisi
1120-30sino
1231-45nosi
1331-45sisi
1446-60nono
Datos Ejemplo Clasificación Basada en Reglas

La regla 1:

Si, el comprador está en 20-30 años y tiene título universitario; entonces, es un comprador.

#Rango EdadTítulo UniversitarioComprador
920-30sisi
1120-30sisi
Datos Ejemplo Clasificación Basada en Reglas – Aplicada la Regla 1

Por tanto, al evaluar la regla 1, vemos que de las 14 entradas que tiene el set de datos, la regla solamente satisface las condiciones para 2, por tanto, la cobertura de dicha regla es 14.28% (2/14); y, por otro lado, se observa que la regla solamente predice el resultado exitosamente para uno de las dos entradas, por tanto, la exactitud de esta regla es del 100% (2/2). (Han, Kamber, & Pei, 2012)

Para clasificar la información puede existir más de una regla que satisfaga las condiciones, para estos casos, se puede aplicar, cualquiera de las siguientes dos opciones presentadas a continuación:

  • Clasificación por tamaño: consiste en asignar mayor peso a las reglas cuyo antecedente contenga más restricciones
  • Clasificación de reglas: consiste en asignar de antemano un peso para cada regla.

Cuando no existe ninguna regla que satisfaga las condiciones, se debe aplicar una regla por defecto, que predice el resultado en función de los datos de entrenamiento. Esta regla debe ser aplicada al final. (Han, Kamber, & Pei, 2012)

Bibliografía

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Publicado por

Santiago X. Saavedra Y.

Ingeniero Industrial, Master en Administración de Empresas y Master en Gestión de Tecnologías de Información, especializado en Transformación Digital e Inteligencia de Negocios. https://www.linkedin.com/in/sxsaavedra