Las reglas son una buena manera de clasificar la información. Los clasificadores basados reglas utilizan un conjunto de reglas “Si-Entonces” para la clasificación. Una regla “Si-Entonces” es una expresión de la forma:
SI condición Entonces conclusión.
La parte del “Si” de la regla es conocida como el “antecedente” o “precondición”, la parte del “Entonces” es conocida como la consecuencia. La parte antecedente puede ser la prueba de uno o varios atributos, la consecuencia contiene la clase de predicción.
Las reglas clasificadoras pueden ser evaluadas en base a su cobertura y su exactitud, la cobertura está determinada por el número tuplas en las que regla satisface las condiciones antecedentes, y la exactitud está determinada por el número de tuplas que satisfacen el resultado. La siguiente tabla muestra un set de datos de 14 compradores, y contiene el rango de edad de cada comprador y si posee o no título universitario.
# | Rango Edad | Título Universitario | Comprador |
1 | 20-30 | no | no |
2 | 20-30 | no | no |
3 | 31-45 | no | si |
4 | 46-60 | no | si |
5 | 46-60 | si | si |
6 | 46-60 | si | no |
7 | 31-45 | si | si |
8 | 20-30 | no | no |
9 | 20-30 | si | si |
10 | 46-60 | si | si |
11 | 20-30 | si | no |
12 | 31-45 | no | si |
13 | 31-45 | si | si |
14 | 46-60 | no | no |
La regla 1:
Si, el comprador está en 20-30 años y tiene título universitario; entonces, es un comprador.
# | Rango Edad | Título Universitario | Comprador |
9 | 20-30 | si | si |
11 | 20-30 | si | si |
Por tanto, al evaluar la regla 1, vemos que de las 14 entradas que tiene el set de datos, la regla solamente satisface las condiciones para 2, por tanto, la cobertura de dicha regla es 14.28% (2/14); y, por otro lado, se observa que la regla solamente predice el resultado exitosamente para uno de las dos entradas, por tanto, la exactitud de esta regla es del 100% (2/2). (Han, Kamber, & Pei, 2012)
Para clasificar la información puede existir más de una regla que satisfaga las condiciones, para estos casos, se puede aplicar, cualquiera de las siguientes dos opciones presentadas a continuación:
- Clasificación por tamaño: consiste en asignar mayor peso a las reglas cuyo antecedente contenga más restricciones
- Clasificación de reglas: consiste en asignar de antemano un peso para cada regla.
Cuando no existe ninguna regla que satisfaga las condiciones, se debe aplicar una regla por defecto, que predice el resultado en función de los datos de entrenamiento. Esta regla debe ser aplicada al final. (Han, Kamber, & Pei, 2012)
Bibliografía
Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.