Método de Asociación – Algoritmo Apriori

Los métodos de asociación o relación son probablemente las técnicas de minería de datos más conocidas, familiares y sencillas. Normalmente, se hace una correlación simple entre dos o más artículos, a menudo del mismo tipo para identificar patrones. Uno de los ejemplos más conocidos, es el análisis del   de compras, analizando los hábitos de compra de la gente, es posible identificar que un cliente siempre compra crema chantilly cuando compra fresas, por lo tanto, se puede predecir que la próxima vez que compre fresas también podría comprar crema chantilly. (Brown, 2012)

Estas técnicas son utilizadas para encontrar conjuntos de elemento frecuentes en los grandes conjuntos de datos. Este tipo de hallazgos ayuda a las empresas a tomar ciertas decisiones, como: el diseño de catálogos, marketing cruzado y el análisis de comportamiento de compra de los clientes. Los algoritmos de reglas de asociación deben ser capaces de generar reglas con niveles de confianza menores a uno. Sin embargo, el número de posibles reglas de asociación para un determinado conjunto de datos es generalmente muy grande y una alta proporción de las reglas son generalmente de poco valor, si existen. (Ramageri, 2010)

A priori es un algoritmo pionero, propuesto por R. Agrawal y R. Srikant en 1994 para minar conjuntos de elementos. El nombre del algoritmo está basado, en que usa el conocimiento preliminar (a priori) de las propiedades frecuentes de los conjuntos de elementos. (Han, Kamber, & Pei, 2012)

El algoritmo Apriori no analiza patrones, sino que genera y cuenta conjuntos de elementos candidatos. Un elemento puede representar un evento, un producto o el valor de un atributo, dependiendo del tipo de datos que se analice. Las variables booleanas, que representan un valor Sí/No o Existe/Falta, se asignan a cada atributo, como un nombre de producto o evento. Como se mencionó previamente, un análisis de carro de compras es un ejemplo de un modelo de reglas de asociación que utiliza variables booleanas para representar la presencia o ausencia de determinados productos en la cesta de la compra de un cliente. (Microsoft, 2015)

Para cada conjunto de elementos, el algoritmo crea puntuaciones que representan el soporte y la confianza. Estas puntuaciones se pueden usar para clasificar y derivar reglas interesantes de los conjuntos de elementos. Los modelos de asociación se pueden crear también para atributos numéricos. Si los atributos son continuos, los números se pueden transformar en números discretos o agruparse, y luego los valores de datos discretos se pueden tratar como booleanos o como pares atributo-valor. (Microsoft, 2015)

Para analizar y establecer los valores el algoritmo crea combinaciones con los conjuntos de ítems a ser analizados, por ejemplo, si se requiere analizar una base 10 productos, para extraer las reglas se debe realizar combinaciones de estos productos, esto sería 1024 posibles combinaciones, para 20 serian 1,048,576 posibles combinaciones. Por tanto, este algoritmo tendría una complejidad exponencial. (Pitol, 2014)

El algoritmo Apriori consta de dos pasos:

  1. Generación de combinaciones frecuentes: cuyo objetivo es encontrar aquellos conjuntos que sean frecuentes en la base de datos.
  2. Generación de reglas: a partir de los conjuntos frecuentes se generan reglas.

Donde, el índice para la generación de combinaciones se llama soporte y el índice para la generación de reglas se llama confianza. Para el modelo se deberán establecer valores mínimos para los índices de soporte y confianza. (Pitol, 2014)

Bibliografía

Brown, M. (11 de Diciembre de 2012). IBM Developer Network. Obtenido de IBM: http://www.ibm.com/developerworks/library/ba-data-mining-techniques/

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Microsoft. (2015). Microsoft Developer Network. Obtenido de https://msdn.microsoft.com/en-us/library/ms174949.aspx

Pitol, F. (4 de Mayo de 2014). Reglas de asociación, algoritmo apriori. Obtenido de Blog de Inteligencia Artificial: http://ferminpitol.blogspot.com/2014/05/reglas-de-asociacion-algoritmo-apriori.html

Ramageri, B. (2010). Data Mining Techniques And Applications. Indian Journal of Computer Science and Engineering, 1(4), 301-305.

Publicado por

Santiago X. Saavedra Y.

Ingeniero Industrial, Master en Administración de Empresas y Master en Gestión de Tecnologías de Información, especializado en Transformación Digital e Inteligencia de Negocios. https://www.linkedin.com/in/sxsaavedra