Máquinas de Soporte Vectorial

Es un método de clasificación para data lineal y no lineal, que utiliza un mapeo no lineal para transformar la data de entrenamiento en una dimensión superior; con esta, se identifica el hiperplano óptimo de separación. Con una asignación no lineal apropiada para una suficientemente alta dimensionalidad, datos de dos clases pueden siempre estar separados por un hiperplano. (Han, Kamber, & Pei, 2012)

Los algoritmos de soporte vectorial, se emplean cuando se desea clasificar nuevos objetos no visibles en dos grupos distintos en función de sus propiedades y un conjunto de ejemplos conocidos, que ya están categorizados.

Un buen ejemplo de un sistema de este tipo es la clasificación de un conjunto de nuevos documentos en grupos de sentimiento positivo o negativo, sobre la base de otros documentos que ya han sido clasificados como positivos o negativos. Del mismo modo, otro ejemplo, es la clasificación de los nuevos mensajes de correo electrónico en spam o no spam, basado en un gran corpus de documentos que ya han sido marcados como spam o no spam por los seres humanos.

Los algoritmos de soporte vectorial modelan la situación mediante la creación de un espacio de características, la cual es un espacio vectorial de dimensiones finitas, en las que cada dimensión representa una “característica” de un objeto en particular. En el contexto de spam o clasificación de documentos, cada una “característica” es la prevalencia o la importancia de una palabra en particular. (Halls, 2014)

El objetivo de las máquinas de soporte vectorial es la formación de un modelo que asigna nuevos objetos que no se ven en una categoría en particular. Esto se logra mediante la creación de una partición lineal del espacio de características en dos categorías. Sobre la base de las características de los nuevos objetos no visibles, se coloca un objeto “por encima” o “por debajo” del plano de separación, lo que lleva a una categorización. Esto hace que sea un ejemplo de un clasificador lineal no probabilístico. (Halls, 2014)

Sin embargo, gran parte del beneficio de las máquinas de soporte vectorial, proviene del hecho de que no están restringidas a ser clasificadores lineales. Utilizando una técnica conocida como el truco del núcleo que pueden llegar a ser mucho más flexible mediante la introducción de diversos tipos de límites de decisión no lineales. (Halls, 2014)

Bibliografía

Halls, M. (12 de Septiembre de 2014). QuantStart. Obtenido de Support Vector Machines: A Guide for Beginners: https://www.quantstart.com/articles/Support-Vector-Machines-A-Guide-for-Beginners

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Publicado por

Santiago X. Saavedra Y.

Ingeniero Industrial, Master en Administración de Empresas y Master en Gestión de Tecnologías de Información, especializado en Transformación Digital e Inteligencia de Negocios. https://www.linkedin.com/in/sxsaavedra