Un árbol de decisión es una estructura que se puede utilizar para dividir una gran colección de registros en conjuntos sucesivamente más pequeños de los registros por la aplicación de una secuencia de reglas de decisión simples. Con cada división sucesiva, los miembros de los conjuntos resultantes se vuelven más y más similares entre sí. La variable de destino es normalmente categórica y el modelo de árbol de decisión utiliza, ya sea para calcular la probabilidad de que un registro dado pertenezca a cada una de las categorías, o para clasificar el registro asignándole a la clase más probable. Los árboles de decisión también se pueden utilizar para estimar el valor de una variable continua, aunque hay otras técnicas más adecuadas para esa tarea. (Berry & Linoff, 2004)
Un árbol de decisión representa una serie de preguntas tales que la respuesta a la primera pregunta determina la pregunta siguiente. Las preguntas iniciales crean grandes categorías con muchos miembros, y las siguientes preguntas dividen las categorías generales en conjuntos más y más pequeños. Si las preguntas son bien elegidas, una serie sorprendentemente corta de iteraciones son suficientes para clasificar con precisión los registros de datos. Existen diferentes algoritmos para la elección de la prueba inicial, pero el objetivo es siempre el mismo: elegir la prueba que mejor discrimina entre las clases de objetivos. Este proceso se repite hasta que el registro llega a un nodo hoja. Todos los registros que terminan en una hoja determinada del árbol se clasifican de la misma manera. Hay un único camino desde la raíz hasta cada hoja. Ese camino es una expresión de la regla utilizada para clasificar los registros. Diferentes hojas pueden hacer la misma clasificación, aunque cada hoja pudo haber realizado la clasificación por un camino diferente. (Berry & Linoff, 2004)
El algoritmo de árboles de decisión genera un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlación significativa con la columna de predicción. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta. (Microsoft, 2015)
El algoritmo de árboles de decisión utiliza la selección de características para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos utilizan la selección de características para mejorar el rendimiento y la calidad del análisis. Si se utiliza demasiados atributos de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar mucho tiempo en procesarse. (Microsoft, 2015)
Los requisitos para un modelo de árboles de decisión son los siguientes:
- Una única columna de llave primaria: cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. No están permitidas las claves compuestas. (Microsoft, 2015)
- Una columna de predicción. Se requiere al menos una columna de predicción. Puede incluir varios atributos de predicción en un modelo y pueden ser de tipos diferentes, numérico o discreto. Sin embargo, el incremento del número de atributos de predicción puede aumentar el tiempo de procesamiento. (Microsoft, 2015)
- Columnas de entrada: Se requieren columnas de entrada, que pueden ser discretas o continuas. Aumentar el número de atributos de entrada afecta al tiempo de procesamiento. (Microsoft, 2015)
Bibliografía
Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.
Microsoft. (2015). Microsoft Developer Network. Obtenido de https://msdn.microsoft.com/en-us/library/ms174949.aspx