La regresión lineal es uno de los métodos fundamentales y más utilizados en el análisis predictivo. La regresión lineal es utilizada para describir data y explicar la relación existente entre una variable dependientes y varias variables independientes. (Statistics Solutions, 2013)
El método de regresión lineal, es considerado una variación del algoritmo de árboles de decisión, debido a que los árboles de decisión cumplen la finalidad encontrar la relación entre dos variables una dependiente y otra independiente. El objeto del modelo de regresión lineal es el ajustar los puntos de un set de datos, a una sola línea, la relación toma la forma de una ecuación para la recta que mejor represente el set de datos. (Microsoft, 2015)
La recta que mejor se ajusta al modelo de datos, es la que contiene el valor mínimo de la sumatoria de los cuadrados de las distancias entre cada punto y la recta. Eso significa, que existe una y sola una recta que cumple esta condición.
Adicionalmente, los análisis de regresión lineal llevan asociados una serie de procedimientos de diagnóstico como los análisis de residuos y puntos de influencia, que informan sobre la estabilidad e idoneidad del análisis, permitiendo obtener datos para mejor el análisis. Una medida de ajuste que ha recibido gran aceptación en el contexto del análisis de regresión es el coeficiente de determinación R2, se trata de una medida estandarizada que toma valores entre 0 y 1, 0 cuando la relación entre las variables es nula y 1 cuando la relación entre las variables es perfecta. (Merino & Ruiz, 2016)
Bibliografía
Merino, A., & Ruiz, M. Á. (2016). Análisis de datos con SPSS 13 Base. The McGraw Hill.
Microsoft. (2015). Microsoft Developer Network. Obtenido de https://msdn.microsoft.com/en-us/library/ms174949.aspx
Statistics Solutions. (2013). What is Linear Regression? Obtenido de http://www.statisticssolutions.com/what-is-linear-regression/