La versión más simple y fundamental de los métodos de segmentación son los métodos de partición, estos organizan los objetos de un conjunto en varios grupos exclusivos o clústers. En estos métodos el número de grupos se da como el conocimiento previo, siendo este parámetro es el punto de partida para los métodos de partición. Normalmente el número de clústers tendrá la nomenclatura “k”. (Han, Kamber, & Pei, 2012)
Los clústers se forman para optimizar un criterio de partición objetivo, tal como una función de disimilitud basado en la distancia, de modo que los objetos dentro de un grupo son similares entre sí y diferentes a los objetos en otros grupos en términos de los atributos del conjunto de datos. (Han, Kamber, & Pei, 2012)
En las áreas de marketing y gestión de relaciones, estos algoritmos utilizan los datos del cliente para realizar un seguimiento del comportamiento del cliente y crear iniciativas estratégicas de negocio. Las organizaciones pueden dividir de este modo a sus clientes en segmentos basados en variantes como la demografía, el comportamiento del cliente, la rentabilidad del cliente, medida de riesgo, y el valor de vida del cliente o una probabilidad de retención. (SAP, 2016)
Existen 2 técnicas principales dentro de los métodos de partición:
- Técnicas basadas en Centroides
- Técnicas basadas en un Objeto Representativo
k-Means: Técnica Basada en un Centroide
Posiblemente la técnica más popular de segmentación, k-means agrupa n observaciones o registros en k agrupaciones en las que cada observación pertenece a la agrupación con el centro más cercano. La agrupación funciona para agrupar los registros juntos de acuerdo a un algoritmo o fórmula matemática que intenta encontrar centroides, o centros, en torno al cual gravitan registros similares. (Thirumuruganathan, 2010)
El algoritmo se compone de los siguientes pasos:
- Elige aleatoriamente k artículos y los determina como los centroides iniciales.
- Para cada punto del set de datos, busca el centroide más cercano y asigna el punto al clúster asociado con el centroide más cercano.
- Actualiza el centroide de cada grupo sobre la base de los elementos de esa agrupación. El nuevo centroide será el promedio de todos los puntos de la agrupación.
- Repite los pasos 2 y 3, hasta que ninguno de los puntos cambia de clúster.
k-Medoids: Técnica Basada en un Objeto Representativo
La técnica k-means es muy sensible a los valores atípicos, ya que estos pueden estar muy lejanos de la mayoría de los puntos; y, por tanto, distorsionar el valor medio del clúster. Este efecto, puede de manera inadvertida cambiar la asignación de los otros datos, durante el proceso de segmentación. (Han, Kamber, & Pei, 2012)
La técnica k-medoids busca corregir está desviación que puede generarse; y, propone en lugar de determinar un punto medio para calcular la distancia entre los puntos, tomar como punto medio uno de los datos dados, un objeto representativo, que actuará como centroide, y el resto de los datos es asociado al clúster en función de la distancia con el centroide. (Han, Kamber, & Pei, 2012)
De la misma manera que en la técnica k-means, el objeto representativo que actuará como centroide es elegido arbitrariamente, e iterativamente se van tomando todos los posibles objetos para actuar como centroides, y se repite hasta que al variar los centroides la sumatoria de las distancias de los puntos con los centroides no pueda optimizarse. (Han, Kamber, & Pei, 2012)
El algoritmo se compone de los siguientes pasos:
- Elige aleatoriamente k artículos y los determina como los centroides iniciales.
- Para cada punto del set de datos, busca el centroide más cercano y asigna el punto al clúster asociado con el centroide más cercano.
- Actualiza el centroide de cada grupo sobre la base de los elementos de esa agrupación. El nuevo centroide será cualquier otro de los puntos de la agrupación, escogido aleatoriamente.
- Calcular sumatoria de las distancias de los puntos con los centroides
- Repite los pasos 2, 3 y 4 hasta que el valor mínimo de la sumatoria no pueda optimizarse.
Bibliografía
Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.
Man, I. (11 de Junio de 2015). Cross Validated. Obtenido de http://stats.stackexchange.com/questions/156210/difference-between-k-means-and-k-medoid
SAP. (2016). SAP Hana Predictive Analysis Library. Obtenido de k-Means: http://help.sap.com/saphelp_hanaplatform/helpdata/en/53/e6908794ce4bcaa440f5c4348f3d14/content.htm
Sensation. (02 de Febrero de 2013). K-Medoids. Obtenido de Sensation Data And Knowledge Engineering / Hodgepodge: http://sens.tistory.com/297
Thirumuruganathan, S. (25 de Enero de 2010). K-Means Clustering Algorithm. Obtenido de https://saravananthirumuruganathan.wordpress.com/2010/01/27/k-means-clustering-algorithm/