El Análisis de Datos, y su uso para responder a desastres naturales

Federal Emergency Management Agency

En la actualidad, se escucha distintas problemáticas siendo no menos importante las emergencias naturales, políticas y humanas. Desde los varios desastres como erupciones volcánicas, incendios, inundaciones, huracanes, tsunamis y terremotos, hasta la reciente pandemia de COVID-19 y sin olvidar el ataque terrorista del 9/11 o el atentado violento de la maratón de Boston. En el país de los sueños, específicamente, Estados Unidos ha logrado responder a estas emergencias de una manera muy particular a la que otros países del continente e incluso del mundo habrían podido. No obstante, debemos preguntarnos, al ser Estados Unidos un país tan grande y con estados políticamente independientes ¿Cómo es posible que este reaccione efectivamente ante una emergencia? Esto se debe gracias a la Agencia Federal de Manejo de Emergencias (FEMA por sus siglas en inglés), se caracteriza por ser la organización que se encarga de actuar inmediatamente en caso de desastres naturales o a gran escala en Estados Unidos de América. Según la página de la agencia su objetivo principal es: “Ayudar a la gente, antes, durante y después de los desastres” (FEMA, 2020). Este objetivo es logrado bajo la acción conjunta de distintas agencias federales. Su finalidad no solo es manejar situaciones de desastres, sino crear políticas públicas que permitan prevenir.   

«Helping people before, during and after disasters»

-FEMA

FEMA fue creada en 1978 por la presidencia de Jimmy Carter y desde entonces ha sido la encargada de lidiar en caso de emergencia. Es conocida su respuesta después de los atentados del 11 de septiembre del 2001 y cómo se adaptó a la situación de un desastre de ese tipo, y millones de dólares fueron invertidos para la preparación ante ataques terroristas. Por otro lado, su respuesta ante el Huracán Katrina que azotó Nueva Orleans fue deficiente y muchas dudas respecto al desempeño de la Agencia crecieron (2010). El propósito final de la agencia es la de tomar decisiones rápidas ante situaciones límites para la toma de decisiones es primordial contar con la mayor cantidad de datos y evidencia posibles. Datos geográficos, meteorológicos e incluso demográficos ayudan a tomar decisiones. Es por lo tanto natural pensar que las técnicas usadas en data analysis pueden ser útiles. 

Podemos hablar del caso específico que sucedió en el estado de California con los incendios forestales. Es usual todos los años escuchar que el verano inclemente provoca la pérdida de varias hectáreas de bosques afectando no solo la vida silvestre sino incluso a la gente. Históricamente los incendios forestales en el área de San Diego han crecido cada vez más con el pasar de los años (Curran, 2019). En 2010, se quemaron 108,000 acres de bosque, mientras que en 2018 fueron 1,823,000. En términos monetarios los incendios le costaron al estado alrededor de 400 mil millones de dólares, y 85 personas murieron. No obstante es evidente que desde la perspectiva de vista del manejo de emergencias estas situaciones pueden ser prevenidas o mitigadas con políticas públicas, en otras palabras es en este contexto el análisis de datos y la toma de decisiones orientadas pueden marcar la diferencia.   

Analistas de datos independientes y asociados a FEMA llegaron a una solución usando las herramientas modernas disponibles para recopilar datos, los cuales en principio no son usados en emergencias. Las redes sociales actualmente recopilan gran cantidad de datos que de otra manera sería difícil de obtenerlos. Los datos recopilados fueron usados por un grupo de investigadores para ayudar a la toma de decisiones de FEMA en caso de emergencia. Los datos que usan provienen de sitios web como Yelp, una aplicación para calificar negocios, o Google. Los datos usados son: ubicación geográfica de los negocios, tipo de negocio, recursos disponibles para mitigar la emergencia. Por otro lado, también se usaron datos históricos sobre el tipo y recurrencia de desastres.  Estos datos permiten localizar donde se encuentran los recursos, o cuales son las zonas más propensas a sufrir en caso de emergencia (2020). El análisis de datos permite tomar decisiones sobre cómo enviar recursos y que zonas o negocios los requieren de forma inmediata. En este caso en particular los analistas de datos crearon un mapa interactivo que permitía a las agencias federales ubicar a los distintos negocios que puedan aportar con recursos en caso de emergencia, o por el otro lado, aquellos que necesiten de atención prioritaria (2020). El mapa sirve para prevenir con la creación de planes de evacuación y rutas óptimas de asignación de recursos, y en momento de emergencia para toma de decisiones inmediatas.

En cuanto a la respuesta de emergencias en la pandemia el uso de análisis de datos puede ser muy beneficioso. Las características principales de estos eventos son lo súbito, peligroso e incierto que se desarrollan. El uso de análisis datos puede ayudar a tomar decisiones para aliviar la sanidad pública y regresar a la normalidad lo más rápido posible. Actualmente se producen gran cantidad de datos de todo tipo, y el reto de los analistas es recopilarlos y procesarlos de la manera más óptima posible. En particular para la situación de la pandemia los datos médicos de pacientes, ubicación, diagnóstico y muchos más, son realmente importantes para cada una de la toma de decisiones. Una de las principales ayudas del análisis de datos ha sido el rastreo de contactos y la delimitación de áreas con mayor riesgo de contagio (Jia, 2020). Con los datos recopilados se crean árboles de las personas, con el contagiado y los contactos que provee. De esta forma es posible rastrear los contactos y clasificar zonas geográficas con mayor incidencia de contagios.

En conclusión, los desastres naturales son eventos que ocurren de manera improvista y pueden causar no sólo pérdidas económicas, sino humanitarias. El manejo de emergencias tiene dos propósitos importantes: Crear planes que previenen y mitigan los daños durante una emergencia y responder de manera inmediata y óptima cuando ocurre una. En el segundo aspecto es fundamental tomar decisiones rápidas, para lo cual el análisis de datos, la visualización de los datos en tiempo real y demás técnicas del Big Data son muy útiles en los casos descritos previamente. Esto demuestra que los gobiernos deben enfocarse e invertir más en técnicas de este tipo para mejorar su respuesta ante emergencias.  

Referencias

Curran, L. (2019). How Data Scientists can help Government Agencies Effectively Respond to Natural Disasters. https://towardsdatascience.com/how-data-scientists-can-help-government-agencies-effectively-respond-to-natural-disasters-c2978da932ee

FEMA (2020). Misión. https://www.fema.gov/about/mission

FEMA (2010). The Federal Emergency Management Agency Publication I. https://www.fema.gov/sites/default/files/2020-03/publication-one_english_2010.pdf

Jia, Q., Guo, Y., Wang, G., & Barnes, S. (2020). Big Data Analytics in the Fight against Major Public Health Incidents (Including COVID-19): A Conceptual Framework. International Journal of Environmental Research and Public Health, 17(17), 6161. doi: 10.3390/ijerph17176161. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7503476/

Método de Asociación – Algoritmo Apriori

Los métodos de asociación o relación son probablemente las técnicas de minería de datos más conocidas, familiares y sencillas. Normalmente, se hace una correlación simple entre dos o más artículos, a menudo del mismo tipo para identificar patrones. Uno de los ejemplos más conocidos, es el análisis del   de compras, analizando los hábitos de compra de la gente, es posible identificar que un cliente siempre compra crema chantilly cuando compra fresas, por lo tanto, se puede predecir que la próxima vez que compre fresas también podría comprar crema chantilly. (Brown, 2012)

Estas técnicas son utilizadas para encontrar conjuntos de elemento frecuentes en los grandes conjuntos de datos. Este tipo de hallazgos ayuda a las empresas a tomar ciertas decisiones, como: el diseño de catálogos, marketing cruzado y el análisis de comportamiento de compra de los clientes. Los algoritmos de reglas de asociación deben ser capaces de generar reglas con niveles de confianza menores a uno. Sin embargo, el número de posibles reglas de asociación para un determinado conjunto de datos es generalmente muy grande y una alta proporción de las reglas son generalmente de poco valor, si existen. (Ramageri, 2010)

A priori es un algoritmo pionero, propuesto por R. Agrawal y R. Srikant en 1994 para minar conjuntos de elementos. El nombre del algoritmo está basado, en que usa el conocimiento preliminar (a priori) de las propiedades frecuentes de los conjuntos de elementos. (Han, Kamber, & Pei, 2012)

El algoritmo Apriori no analiza patrones, sino que genera y cuenta conjuntos de elementos candidatos. Un elemento puede representar un evento, un producto o el valor de un atributo, dependiendo del tipo de datos que se analice. Las variables booleanas, que representan un valor Sí/No o Existe/Falta, se asignan a cada atributo, como un nombre de producto o evento. Como se mencionó previamente, un análisis de carro de compras es un ejemplo de un modelo de reglas de asociación que utiliza variables booleanas para representar la presencia o ausencia de determinados productos en la cesta de la compra de un cliente. (Microsoft, 2015)

Para cada conjunto de elementos, el algoritmo crea puntuaciones que representan el soporte y la confianza. Estas puntuaciones se pueden usar para clasificar y derivar reglas interesantes de los conjuntos de elementos. Los modelos de asociación se pueden crear también para atributos numéricos. Si los atributos son continuos, los números se pueden transformar en números discretos o agruparse, y luego los valores de datos discretos se pueden tratar como booleanos o como pares atributo-valor. (Microsoft, 2015)

Para analizar y establecer los valores el algoritmo crea combinaciones con los conjuntos de ítems a ser analizados, por ejemplo, si se requiere analizar una base 10 productos, para extraer las reglas se debe realizar combinaciones de estos productos, esto sería 1024 posibles combinaciones, para 20 serian 1,048,576 posibles combinaciones. Por tanto, este algoritmo tendría una complejidad exponencial. (Pitol, 2014)

El algoritmo Apriori consta de dos pasos:

  1. Generación de combinaciones frecuentes: cuyo objetivo es encontrar aquellos conjuntos que sean frecuentes en la base de datos.
  2. Generación de reglas: a partir de los conjuntos frecuentes se generan reglas.

Donde, el índice para la generación de combinaciones se llama soporte y el índice para la generación de reglas se llama confianza. Para el modelo se deberán establecer valores mínimos para los índices de soporte y confianza. (Pitol, 2014)

Bibliografía

Brown, M. (11 de Diciembre de 2012). IBM Developer Network. Obtenido de IBM: http://www.ibm.com/developerworks/library/ba-data-mining-techniques/

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Microsoft. (2015). Microsoft Developer Network. Obtenido de https://msdn.microsoft.com/en-us/library/ms174949.aspx

Pitol, F. (4 de Mayo de 2014). Reglas de asociación, algoritmo apriori. Obtenido de Blog de Inteligencia Artificial: http://ferminpitol.blogspot.com/2014/05/reglas-de-asociacion-algoritmo-apriori.html

Ramageri, B. (2010). Data Mining Techniques And Applications. Indian Journal of Computer Science and Engineering, 1(4), 301-305.

Métodos de Partición

La versión más simple y fundamental de los métodos de segmentación son los métodos de partición, estos organizan los objetos de un conjunto en varios grupos exclusivos o clústers. En estos métodos el número de grupos se da como el conocimiento previo, siendo este parámetro es el punto de partida para los métodos de partición. Normalmente el número de clústers tendrá la nomenclatura “k”. (Han, Kamber, & Pei, 2012)

Los clústers se forman para optimizar un criterio de partición objetivo, tal como una función de disimilitud basado en la distancia, de modo que los objetos dentro de un grupo son similares entre sí y diferentes a los objetos en otros grupos en términos de los atributos del conjunto de datos. (Han, Kamber, & Pei, 2012)

En las áreas de marketing y gestión de relaciones, estos algoritmos utilizan los datos del cliente para realizar un seguimiento del comportamiento del cliente y crear iniciativas estratégicas de negocio. Las organizaciones pueden dividir de este modo a sus clientes en segmentos basados en variantes como la demografía, el comportamiento del cliente, la rentabilidad del cliente, medida de riesgo, y el valor de vida del cliente o una probabilidad de retención. (SAP, 2016)

Existen 2 técnicas principales dentro de los métodos de partición:

  • Técnicas basadas en Centroides
  • Técnicas basadas en un Objeto Representativo

k-Means: Técnica Basada en un Centroide

Posiblemente la técnica más popular de segmentación, k-means agrupa n observaciones o registros en k agrupaciones en las que cada observación pertenece a la agrupación con el centro más cercano. La agrupación funciona para agrupar los registros juntos de acuerdo a un algoritmo o fórmula matemática que intenta encontrar centroides, o centros, en torno al cual gravitan registros similares. (Thirumuruganathan, 2010)

El algoritmo se compone de los siguientes pasos:

  1. Elige aleatoriamente k artículos y los determina como los centroides iniciales.
  2. Para cada punto del set de datos, busca el centroide más cercano y asigna el punto al clúster asociado con el centroide más cercano.
  3. Actualiza el centroide de cada grupo sobre la base de los elementos de esa agrupación. El nuevo centroide será el promedio de todos los puntos de la agrupación.
  4. Repite los pasos 2 y 3, hasta que ninguno de los puntos cambia de clúster.

k-Medoids: Técnica Basada en un Objeto Representativo

La técnica k-means es muy sensible a los valores atípicos, ya que estos pueden estar muy lejanos de la mayoría de los puntos; y, por tanto, distorsionar el valor medio del clúster. Este efecto, puede de manera inadvertida cambiar la asignación de los otros datos, durante el proceso de segmentación. (Han, Kamber, & Pei, 2012)

La técnica k-medoids busca corregir está desviación que puede generarse; y, propone en lugar de determinar un punto medio para calcular la distancia entre los puntos, tomar como punto medio uno de los datos dados, un objeto representativo, que actuará como centroide, y el resto de los datos es asociado al clúster en función de la distancia con el centroide.  (Han, Kamber, & Pei, 2012)

De la misma manera que en la técnica k-means, el objeto representativo que actuará como centroide es elegido arbitrariamente, e iterativamente se van tomando todos los posibles objetos para actuar como centroides, y se repite hasta que al variar los centroides la sumatoria de las distancias de los puntos con los centroides no pueda optimizarse. (Han, Kamber, & Pei, 2012)

El algoritmo se compone de los siguientes pasos:

  1. Elige aleatoriamente k artículos y los determina como los centroides iniciales.
  2. Para cada punto del set de datos, busca el centroide más cercano y asigna el punto al clúster asociado con el centroide más cercano.
  3. Actualiza el centroide de cada grupo sobre la base de los elementos de esa agrupación. El nuevo centroide será cualquier otro de los puntos de la agrupación, escogido aleatoriamente.
  4. Calcular sumatoria de las distancias de los puntos con los centroides
  5. Repite los pasos 2, 3 y 4 hasta que el valor mínimo de la sumatoria no pueda optimizarse.

Bibliografía

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Man, I. (11 de Junio de 2015). Cross Validated. Obtenido de http://stats.stackexchange.com/questions/156210/difference-between-k-means-and-k-medoid

SAP. (2016). SAP Hana Predictive Analysis Library. Obtenido de k-Means: http://help.sap.com/saphelp_hanaplatform/helpdata/en/53/e6908794ce4bcaa440f5c4348f3d14/content.htm

Sensation. (02 de Febrero de 2013). K-Medoids. Obtenido de Sensation Data And Knowledge Engineering / Hodgepodge: http://sens.tistory.com/297

Thirumuruganathan, S. (25 de Enero de 2010). K-Means Clustering Algorithm. Obtenido de https://saravananthirumuruganathan.wordpress.com/2010/01/27/k-means-clustering-algorithm/

Método de Jerarquización

Los métodos de jerarquización buscan segmentar los datos en jerarquías o árboles de clústers. La representación de los datos de una manera jerarquizada, es útil para resumir y visualizar los datos. Si bien estos métodos segmentan la información de una forma jerarquizada, la data puede no estarlo y no tener una relación evidente de jerarquización, los datos tienen una estructura jerárquica subyacente que es la que se pretende descubrir. (Han, Kamber, & Pei, 2012)

Los métodos de agrupamiento jerárquico pueden encontrar dificultades en cuanto a la selección de los puntos de fusión o los puntos de división. Estas decisiones son críticas, porque una vez que un grupo de objetos se fusiona o se separan, el proceso en el paso siguiente operará en los clústers generados. El proceso no deshará lo realizado previamente, ni llevará a cabo el intercambio de objetos entre los clústers. Por lo tanto, las decisiones de fusión o división, si no está bien elegidas, pueden dar lugar a clústers de baja calidad. Por otra parte, los métodos no se escalan bien, porque cada decisión de fusión o escisión necesita examinar y evaluar muchos objetos o clústers. (Han, Kamber, & Pei, 2012)

Los métodos de agrupamiento jerárquico pueden ser: de aglomeración o de división, dependiendo de si la descomposición jerárquica se generar de abajo hacia arriba (aglomeración) o arriba hacia abajo (división). (Han, Kamber, & Pei, 2012)

Método de Jerarquización Aglomerativo

Un método de agrupamiento jerárquico de aglomeración utiliza una estrategia de abajo hacia arriba. Por lo general comienza por dejar que cada objeto forme su propio clúster y de forma iterativa fusiona los clústers en grupos cada vez más grandes, hasta que todos los objetos están en un solo grupo o ciertas condiciones de terminación están satisfechas. El clúster único se convierte en la raíz de la jerarquía. El proceso de fusión integra los dos grupos que están más cerca entre sí, de acuerdo con alguna medida de similitud, y combina los dos para formar un clúster. Cada iteración fusiona dos clústers, donde cada clúster contiene al menos un objeto. (Han, Kamber, & Pei, 2012)

Método de Jerarquización Divisorio

A la inversa del método anterior, un método de agrupamiento jerárquico divisorio emplea una estrategia de arriba hacia abajo. Se inicia mediante la colocación de todos los objetos en un clúster, que es la raíz de la jerarquía. Luego se divide el clúster raíz en varios subgrupos más pequeños, y de forma recursiva las particiones de esas agrupaciones en otras más pequeñas. El proceso de partición continúa hasta que cada grupo en el nivel más bajo es coherente suficiente, ya sea que contiene sólo un objeto o los objetos dentro de un grupo son suficientemente similares entre sí. (Han, Kamber, & Pei, 2012)

Bibliografía

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Método de Segmentación (Clustering) basado en Densidad

Los métodos de partición y jerarquización están diseñados para encontrar clúster de forma esférica, sin embargo, estos tienen dificultad para encontrar clústers que se presentan con formas arbitraria como la forma de «S» u ovales. Con datos de esta naturaleza, los métodos anteriormente descritos tienen una probabilidad alta de segmentar incorrectamente clústers cuando la distribución de los datos se presenta en formas irregulares, donde el ruido o los valores atípicos se incluyen en los grupos. (Ester, Kriegel, Sander, & Xu, 2007)

Para encontrar clúster de formas arbitrarias, se puede modelar los clústers como regiones densas en el espacio de datos, separadas por regiones dispersas. Esta es la principal estrategia detrás de la agrupación métodos basados en la densidad, lo que puede descubrir grupos de forma no esférica. (Mann & Nagpal, 2001)

La densidad de un objeto se puede medir por el número de objetos cercanos al mismo. Por tanto, los métodos basados en densidad encuentran los objetos principales, es decir, los objetos que tienen los barrios densos, y conectan los objetos principales y sus barrios para formar regiones densas, clústers. La idea clave es que por cada punto de un clúster de la zona de un radio dado tiene que contener al menos un número mínimo de objetos. La forma del clúster estará determinada por la función de la distancia entre dos objetos. (Ester, Kriegel, Sander, & Xu, 2007)

El algoritmo DBSCAN, (Cluster Espacial Basado en Densidad para Aplicaciones con Ruido), uno de los principales algoritmos de los métodos basados en densidad, requiere dos variables de entrada:

  • El radio que delimita el área del barrio de un punto (Eps)
  • El número mínimo de puntos requeridos para formar un cluster (minPts).

Los puntos principales residen en el interior del cluster, y se sitúan dentro del radio Eps y son uno de los puntos mínimos que conforman el clúster. Por otro lado, los puntos fronterizos, se sitúan en la parte exterior del clúster, aunque también están dentro del radio Eps. (Mann & Nagpal, 2001)

El algoritmo DBSCAN se compone de los siguientes pasos:

  1. Seleccionar un punto de manera arbitraria.
  2. Obtener la densidad alcanzable desde cada punto, dentro del rango Eps y MinPts todos los puntos.
  3. Si el punto analizado:
    1. Es un punto central se forma clúster.
    1. Es un punto frontero, el algoritmo visita el siguiente punto de la base de datos.
  4. Continuar el proceso hasta que todos los puntos han sido procesados

Bibliografía

Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (8 de Enero de 2007). A Density-Based Algorithm for Discovering Clusters. Obtenido de Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining: http://www2.cs.uh.edu/~ceick/7363/Papers/dbscan.pdf

Mann, P., & Nagpal, P. (11 de Agosto de 2001). Comparative Study of Density based Clustering Algorithms. Obtenido de International Journal of Computer Applications: http://www.ijcaonline.org/volume27/number11/pxc3874600.pdf

Método Segmentación (clustering) basado en Grilla

Los métodos de clustering basados en grilla, difieren de otros métodos en que clusterizan la data basados en el espacio que la contiene y no en la data como tal; los clústers se generan mediante la partición del espacio en celdas, sin tomar en cuenta la distribución de la data. Este método cuantifica el espacio de objetos en un número finito de celdas que forman una estructura de grilla sobre la que se realizan todas las operaciones para la agrupación. (Borisov & Grabusts, 2002)

La principal ventaja de este enfoque es su tiempo de procesamiento rápido, que es típicamente independiente del número de objetos de datos, sin embargo, depende de sólo el número de células en cada dimensión en el espacio cuantificada. (Wang, 2015)

En general, los algoritmos de segmentación basado en grilla; típicamente constan de los siguientes cinco pasos básicos: (Borisov & Grabusts, 2002)

  1. Creación de la estructura de grilla, es decir, la partición del espacio de datos en un número finito de células.
  2. Cálculo de la densidad celular para cada celda.
  3. Clasificación de las células de acuerdo con sus densidades.
  4. Identificación de los centros de los clusters.
  5. Recorrido por los bloques vecinos.

Bibliografía

Borisov, A., & Grabusts, P. (2002). Using Grid-clustering Methods in Data Classification. Obtenido de Decision Support Systems Group Institute of Information Technology : https://www.semanticscholar.org/paper/Using-Grid-Clustering-Methods-in-Data-Grabusts-Borisov/2c9a1f9c87658c7c4ada5d01fb73cf89591fbaff/pdf

The MathWorks Inc. (2016). The MathWorks – Documentation. Obtenido de What Is the Genetic Algorithm?: http://www.mathworks.com/help/gads/what-is-the-genetic-algorithm.html?requestedDomain=www.mathworks.com

Wang, H. (1 de Noviembre de 2015). Density-Grid based Clustering Algorithms. Obtenido de http://11hcw.me/density-grid-based-clustering-algorithms-on-data-streams/

Árboles de Decisión

Un árbol de decisión es una estructura que se puede utilizar para dividir una gran colección de registros en conjuntos sucesivamente más pequeños de los registros por la aplicación de una secuencia de reglas de decisión simples. Con cada división sucesiva, los miembros de los conjuntos resultantes se vuelven más y más similares entre sí. La variable de destino es normalmente categórica y el modelo de árbol de decisión utiliza, ya sea para calcular la probabilidad de que un registro dado pertenezca a cada una de las categorías, o para clasificar el registro asignándole a la clase más probable. Los árboles de decisión también se pueden utilizar para estimar el valor de una variable continua, aunque hay otras técnicas más adecuadas para esa tarea. (Berry & Linoff, 2004)

Un árbol de decisión representa una serie de preguntas tales que la respuesta a la primera pregunta determina la pregunta siguiente. Las preguntas iniciales crean grandes categorías con muchos miembros, y las siguientes preguntas dividen las categorías generales en conjuntos más y más pequeños. Si las preguntas son bien elegidas, una serie sorprendentemente corta de iteraciones son suficientes para clasificar con precisión los registros de datos. Existen diferentes algoritmos para la elección de la prueba inicial, pero el objetivo es siempre el mismo: elegir la prueba que mejor discrimina entre las clases de objetivos. Este proceso se repite hasta que el registro llega a un nodo hoja. Todos los registros que terminan en una hoja determinada del árbol se clasifican de la misma manera. Hay un único camino desde la raíz hasta cada hoja. Ese camino es una expresión de la regla utilizada para clasificar los registros. Diferentes hojas pueden hacer la misma clasificación, aunque cada hoja pudo haber realizado la clasificación por un camino diferente. (Berry & Linoff, 2004)

El algoritmo de árboles de decisión genera un modelo de minería de datos mediante la creación de una serie de divisiones en el árbol. Estas divisiones se representan como nodos. El algoritmo agrega un nodo al modelo cada vez que una columna de entrada tiene una correlación significativa con la columna de predicción. La forma en que el algoritmo determina una división varía en función de si predice una columna continua o una columna discreta. (Microsoft, 2015)

El algoritmo de árboles de decisión utiliza la selección de características para guiar la selección de los atributos más útiles. Todos los algoritmos de minería de datos utilizan la selección de características para mejorar el rendimiento y la calidad del análisis. Si se utiliza demasiados atributos de predicción o de entrada al diseñar un modelo de minería de datos, el modelo puede tardar mucho tiempo en procesarse. (Microsoft, 2015)

Los requisitos para un modelo de árboles de decisión son los siguientes:

  • Una única columna de llave primaria: cada modelo debe contener una columna numérica o de texto que identifique cada registro de manera única. No están permitidas las claves compuestas. (Microsoft, 2015)
  • Una columna de predicción. Se requiere al menos una columna de predicción. Puede incluir varios atributos de predicción en un modelo y pueden ser de tipos diferentes, numérico o discreto. Sin embargo, el incremento del número de atributos de predicción puede aumentar el tiempo de procesamiento. (Microsoft, 2015)
  • Columnas de entrada: Se requieren columnas de entrada, que pueden ser discretas o continuas. Aumentar el número de atributos de entrada afecta al tiempo de procesamiento. (Microsoft, 2015)

Bibliografía

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Microsoft. (2015). Microsoft Developer Network. Obtenido de https://msdn.microsoft.com/en-us/library/ms174949.aspx

Clasificación de Bayes

Los clasificadores bayesianos son clasificadores estadísticos, los cuales pueden predecir la probabilidad de que un grupo de datos (tupla) pertenezca a una clase particular. La clasificación de Bayes, está basada en el teorema de Bayes, en honor a Tomas Bayes, clérigo que durante el siglo 18 trabajó en probabilidad y teorías de decisión. Este teorema busca la probabilidad (P) que se cumpla una hipótesis (H) dado un set de datos conocidos o evidencia (X), esta probabilidad se denominara “probabilidad a posteriori” P(H/X). (Han, Kamber, & Pei, 2012)

Naive Bayes es un conjunto de algoritmos de clasificación basado en el teorema de Bayes. No es un único algoritmo sino una familia de algoritmos que comparten un principio común, donde cada característica a ser clasificada es independiente del valor de cualquier otra característica. Se los considera a los clasificadores de Bayes “ingenuos” ya que consideran cada una de estas «características» para contribuir de manera independiente a la probabilidad de que se cumpla la hipótesis, con independencia de las correlaciones entre las características. Las características, sin embargo, no siempre son independientes que a menudo es visto como un defecto de los algoritmos bayesiano y es por eso que está marcada como «ingenua» (naive). (Waldron, 2015)

A pesar de que son algoritmos relativamente simples, Naive Bayes a menudo puede superar a otros algoritmos más sofisticados y es extremadamente útil en aplicaciones comunes; es computacionalmente más liviano que otros algoritmos, y por lo tanto es útil para generar rápidamente modelos de minería para descubrir las relaciones entre datos de entrada y datos de predicción. Se utiliza este algoritmo para hacer la exploración inicial de los datos, y posteriormente se puede aplicar los resultados obtenidos para crear modelos de minería adicionales con otros algoritmos. Uno de los usos más comunes es la detección de spam y clasificación de documentos (Microsoft, 2015)

Ventajas:

  • Es sencillo de entender y construir
  • Es rápido y computacionalmente liviano
  • No es sensible a las características irrelevantes

Desventajas

  • Asume cada característica de entrada como independiente.

La siguiente tabla muestra un set de datos de 1000 frutas, la fruta puede ser un plátano, naranja o alguna otra fruta y se conocen 3 características de cada fruta, ya sea si es larga o no, dulce o no y amarilla o no, como se muestra en la tabla:

FrutaLargaDulceAmarillaTOTAL
Plátano400350450500
Naranja0150300300
Otros10015050200
Total5006508001000
Ejemplo de Clasificador Naive Bayes

Con los datos presentados, entonces se conoce que:

  • 50% son plátanos
  • 30% son naranjas
  • 20% otras frutas

Adicionalmente se puede decir:

  • De los 500 plátanos, 400 (80%) son largas, 350 (70%) son dulces y 450 (90%) son amarillas.
  • De las 300 naranjas, 0 (0%) son largas, 150 (50%) son dulces y 300 (100%) son amarillas.
  • De las 200 otras frutas, 100 (50%) son largas, 150 (75%) son dulces y 50 (25%) son amarillas.

Por lo tanto, con este set datos conocidos se obtiene suficiente evidencia para clasificar a qué clase pertenecería un siguiente fruto. Si se dice que la fruta a clasificar es larga, dulce y amarrilla; con estos datos conocidos se calcula la probabilidad que se plátano con aquellas características que se evalúan de manera independiente.

Al calcular las 3 probabilidades, se obtiene:

  • Probabilidad (plátano): 0.252
  • Probabilidad (naranja): 0
  • Probabilidad (otra fruta): 0.01875

Por tanto, basado en las probabilidades calculadas, se puede clasificar a la nueva fruta como un plátano. (Waldron, 2015)

Bibliografía

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Microsoft. (2015). Microsoft Developer Network. Obtenido de https://msdn.microsoft.com/en-us/library/ms174949.aspx

Waldron, M. (4 de Junio de 2015). Aylien. Obtenido de Naive Bayes for Dummies; A Simple Explanation: http://blog.aylien.com/naive-bayes-for-dummies-a-simple-explanation/

Clasificación basada en Reglas

Las reglas son una buena manera de clasificar la información. Los clasificadores basados reglas utilizan un conjunto de reglas “Si-Entonces” para la clasificación. Una regla “Si-Entonces” es una expresión de la forma:

SI condición Entonces conclusión.

La parte del “Si” de la regla es conocida como el “antecedente” o “precondición”, la parte del “Entonces” es conocida como la consecuencia. La parte antecedente puede ser la prueba de uno o varios atributos, la consecuencia contiene la clase de predicción.

Las reglas clasificadoras pueden ser evaluadas en base a su cobertura y su exactitud, la cobertura está determinada por el número tuplas en las que regla satisface las condiciones antecedentes, y la exactitud está determinada por el número de tuplas que satisfacen el resultado. La siguiente tabla muestra un set de datos de 14 compradores, y contiene el rango de edad de cada comprador y si posee o no título universitario. 

#Rango EdadTítulo UniversitarioComprador
120-30nono
220-30nono
331-45nosi
446-60nosi
546-60sisi
646-60sino
731-45sisi
820-30nono
920-30sisi
1046-60sisi
1120-30sino
1231-45nosi
1331-45sisi
1446-60nono
Datos Ejemplo Clasificación Basada en Reglas

La regla 1:

Si, el comprador está en 20-30 años y tiene título universitario; entonces, es un comprador.

#Rango EdadTítulo UniversitarioComprador
920-30sisi
1120-30sisi
Datos Ejemplo Clasificación Basada en Reglas – Aplicada la Regla 1

Por tanto, al evaluar la regla 1, vemos que de las 14 entradas que tiene el set de datos, la regla solamente satisface las condiciones para 2, por tanto, la cobertura de dicha regla es 14.28% (2/14); y, por otro lado, se observa que la regla solamente predice el resultado exitosamente para uno de las dos entradas, por tanto, la exactitud de esta regla es del 100% (2/2). (Han, Kamber, & Pei, 2012)

Para clasificar la información puede existir más de una regla que satisfaga las condiciones, para estos casos, se puede aplicar, cualquiera de las siguientes dos opciones presentadas a continuación:

  • Clasificación por tamaño: consiste en asignar mayor peso a las reglas cuyo antecedente contenga más restricciones
  • Clasificación de reglas: consiste en asignar de antemano un peso para cada regla.

Cuando no existe ninguna regla que satisfaga las condiciones, se debe aplicar una regla por defecto, que predice el resultado en función de los datos de entrenamiento. Esta regla debe ser aplicada al final. (Han, Kamber, & Pei, 2012)

Bibliografía

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Máquinas de Soporte Vectorial

Es un método de clasificación para data lineal y no lineal, que utiliza un mapeo no lineal para transformar la data de entrenamiento en una dimensión superior; con esta, se identifica el hiperplano óptimo de separación. Con una asignación no lineal apropiada para una suficientemente alta dimensionalidad, datos de dos clases pueden siempre estar separados por un hiperplano. (Han, Kamber, & Pei, 2012)

Los algoritmos de soporte vectorial, se emplean cuando se desea clasificar nuevos objetos no visibles en dos grupos distintos en función de sus propiedades y un conjunto de ejemplos conocidos, que ya están categorizados.

Un buen ejemplo de un sistema de este tipo es la clasificación de un conjunto de nuevos documentos en grupos de sentimiento positivo o negativo, sobre la base de otros documentos que ya han sido clasificados como positivos o negativos. Del mismo modo, otro ejemplo, es la clasificación de los nuevos mensajes de correo electrónico en spam o no spam, basado en un gran corpus de documentos que ya han sido marcados como spam o no spam por los seres humanos.

Los algoritmos de soporte vectorial modelan la situación mediante la creación de un espacio de características, la cual es un espacio vectorial de dimensiones finitas, en las que cada dimensión representa una «característica» de un objeto en particular. En el contexto de spam o clasificación de documentos, cada una «característica» es la prevalencia o la importancia de una palabra en particular. (Halls, 2014)

El objetivo de las máquinas de soporte vectorial es la formación de un modelo que asigna nuevos objetos que no se ven en una categoría en particular. Esto se logra mediante la creación de una partición lineal del espacio de características en dos categorías. Sobre la base de las características de los nuevos objetos no visibles, se coloca un objeto «por encima» o “por debajo» del plano de separación, lo que lleva a una categorización. Esto hace que sea un ejemplo de un clasificador lineal no probabilístico. (Halls, 2014)

Sin embargo, gran parte del beneficio de las máquinas de soporte vectorial, proviene del hecho de que no están restringidas a ser clasificadores lineales. Utilizando una técnica conocida como el truco del núcleo que pueden llegar a ser mucho más flexible mediante la introducción de diversos tipos de límites de decisión no lineales. (Halls, 2014)

Bibliografía

Halls, M. (12 de Septiembre de 2014). QuantStart. Obtenido de Support Vector Machines: A Guide for Beginners: https://www.quantstart.com/articles/Support-Vector-Machines-A-Guide-for-Beginners

Han, J., Kamber, M., & Pei, J. (2012). Data Mining Concepts and Techniques (Tercera ed.). Waltham, Massachusetts, USA: Morgan Kaufmann.

Algoritmos Genéticos

Los algoritmos genéticos son un método para resolver problemas de optimización con restricciones y sin restricciones que se basa en la selección natural, tratan de incorporar las ideas de la evolución natural. Los algoritmos genéticos modifican repetidamente una población de soluciones individuales; en cada paso, los algoritmos genéticos seleccionan individuos al azar de la población actual para ser padres y los utiliza para producir los hijos para la próxima generación. En generaciones sucesivas, la población «evoluciona» hacia una solución óptima. Se utilizan para resolver una variedad de problemas de optimización que no son muy adecuadas para los algoritmos de optimización estándar, incluyendo problemas en los que la función objetivo es discontinua, no diferenciables, estocástica, o altamente no lineal. (The MathWorks Inc., 2016)

El proceso básico para un algoritmo genético sigue los siguientes pasos:

Población Inicial: Crear una población inicial. Esta población suele ser generada de forma aleatoria y puede ser de cualquier tamaño.

  1. Evaluación: Cada miembro de la población es luego evaluado y se calcula un nivel de ajuste para ese individuo. El nivel de ajuste se calcula basado respecto a la satisfacción de los requisitos deseados.
  2. Selección: Constantemente se desea incrementar el nivel de ajuste de la población. La selección, por tanto, ayuda a incrementar el nivel de ajuste descartando los malos diseños y manteniendo solo los mejores individuos de la población. Existen algunos métodos de selección, pero la idea fundamental es la misma, hacer que sea más probable que los individuos más aptos sean los seleccionados para la próxima generación.
  3. Cruce: Consiste en crear nuevos individuos mediante la combinación de los aspectos de los individuos seleccionados. El objetivo es que mediante la combinación de ciertos rasgos a partir de dos o más individuos se genere una descendencia con mayor nivel de ajuste, que heredarán las mejores características de cada uno de los padres de ella.
  4. Mutación: La mutación se considera un operador básico, que proporciona un pequeño elemento de aleatoriedad en los individuos de la población. Si bien se admite que el operador de cruce es el responsable de efectuar la búsqueda a lo largo del espacio de posibles soluciones, el operador de mutación es el responsable del aumento o reducción del espacio de búsqueda dentro del algoritmo genético y del fomento de la variabilidad genética de los individuos de la población.
  5. Repetición: Una vez obtenida la nueva generación, se puede empezar de nuevo desde el paso dos hasta llegar a una condición de terminación.

Terminación: cuando el algoritmo ha encontrado la selección más probable o el nivel de ajuste es el deseado, se presume que la solución que es lo suficientemente buena y cumple con un criterio de mínimos predefinidos. (Jacobson, 2012)

Aunque los algoritmos genéticos son fáciles de describir y programar, su comportamiento puede ser complicado, y varias preguntas abiertas existen acerca de cómo funcionan y para qué tipo de problemas que son los más adecuados.

La teoría tradicional de los algoritmos genéticos (formulada por primera vez en Holanda, 1975) asume que, en un nivel muy general de descripción, los algoritmos genéticos trabajan mediante el descubrimiento, enfatizando, y recombinando los buenos «individuos» de soluciones en una manera altamente paralela. La idea aquí es que las buenas soluciones tienden a estar formadas por bloques de combinaciones de valores de un alto nivel de ajuste de las cadenas en las que están presentes. (Mitchel, 1999)

Bibliografía

Agudelo, L., López-Lezama, J. M., & Muñoz, N. (11 de Febrero de 2014). Scielo – Scientific Electronic Library Online. Obtenido de Análisis de Vulnerabilidad de Sistemas de Potencia Mediante Programación Binivel: http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-07642014000300013

Jacobson, L. (12 de Febrero de 2012). The Project Spot. Obtenido de Creating a genetic algorithm for beginners: http://www.theprojectspot.com/tutorial-post/creating-a-genetic-algorithm-for-beginners/3

Mitchel, M. (1999). An Introduction to Genetic Algorithms. Cambridge, Massachusetts: Massachusetts Institute of Technology.

The MathWorks Inc. (2016). The MathWorks – Documentation. Obtenido de What Is the Genetic Algorithm?: http://www.mathworks.com/help/gads/what-is-the-genetic-algorithm.html?requestedDomain=www.mathworks.com

Redes Neuronales

Las redes neuronales son un complejo algoritmo utilizado para el análisis predictivo, estas se encuentran inspiradas en la estructura del cerebro humano. Una red neuronal proporciona un modelo muy simple en comparación con el cerebro humano, pero funciona bastante bien para la analítica predictiva.

Las redes neuronales son ampliamente utilizadas para la clasificación de datos, estos algoritmos procesan data histórica y presente para estimar los valores futuros, descubriendo cualquier correlación compleja oculta en los datos, de una manera análoga a la empleada por el cerebro humano. (Bari, Chaouchi, & Jung, 2014)

Las redes neuronales se pueden utilizar para hacer predicciones en los datos de series de tiempo, tales como los pronósticos meteorológicos. Una red neural puede ser diseñada para detectar patrones en datos de entrada y producir una salida libre de ruido. (Bari, Chaouchi, & Jung, 2014)

La estructura de un algoritmo de red neuronal tiene tres capas:

  • La capa de entrada se alimenta valores de los datos pasados ​​a la siguiente capa (oculta). Los círculos negros representan nodos de la red neural.
  • La capa oculta encapsula varias funciones complejas que crean predictores; a menudo esas funciones están ocultas para el usuario. Un conjunto de nodos (círculos negros) en la capa oculta representa funciones matemáticas que modifican los datos de entrada; estas funciones son llamadas neuronas.
  • La capa de salida recoge las predicciones hechas en la capa oculta y produce el resultado final: la predicción del modelo.

Cada neurona toma un conjunto de valores de entrada; cada uno está asociado con un peso y un valor numérico conocido como sesgo. La salida de cada neurona es una función de la salida de la suma ponderada de cada entrada más el sesgo. (Bari, Chaouchi, & Jung, 2014)

La mayoría de las redes neuronales usan funciones matemáticas para activar las neuronas. Una función es una relación entre un conjunto de entradas y un conjunto de salidas, con la regla de que cada entrada corresponde a una salida. (Gershenson)

Las neuronas en una red neuronal pueden utilizar función sigmoide para que coincidan las entradas con las salidas.

El objeto de la utilización de esta función en las redes neuronales, se debe a que la mayoría de estas funciones tienen derivadas que son positivas y de fácil cálculo; son continuas, pueden servir como tipos de funciones de suavizado, y son funciones limitadas. (Bari, Chaouchi, & Jung, 2014)

Esta combinación de características, exclusivas para las funciones sigmoides, es vital para el funcionamiento de un algoritmo de red neuronal, especialmente cuando se requiere emplear el uso de cálculos con derivadas.

El peso de cada neurona es un valor numérico que se puede derivarse utilizando prácticas, algoritmos supervisados o no supervisados.

  • En el caso de los algoritmos supervisados, los pesos se derivan mediante el ingreso de los datos de entrada y salida de la data de muestra para el algoritmo hasta que los pesos están sintonizados (es decir, hay una coincidencia casi perfecta entre las entradas y salidas).
  • En el caso de los algoritmos no supervisados, la red neuronal se presenta solamente con entradas, y el algoritmo genera las salidas correspondientes. Cuando se procesa nuevamente el algoritmo con nueva data de entrada, el algoritmo produce nuevos resultados que son similares a las salidas anteriores, entonces, se presume que los pesos de las neuronas se han ajustado.

Las redes neuronales tienden a tener una alta precisión incluso si los datos tienen una cantidad significativa de ruido. Eso es una gran ventaja; cuando la capa oculta todavía puede descubrir relaciones en los datos a pesar del ruido. Por otro lado, una desventaja de los algoritmos de red neuronal es que la exactitud de la predicción puede ser válido sólo dentro del período de tiempo durante el cual se reunieron los datos de entrenamiento. (Bari, Chaouchi, & Jung, 2014)

Bibliografía

Bari, A., Chaouchi, M., & Jung, T. (2014). How Predictive Analysis Neural Networks Work. Obtenido de For Dummies: http://www.dummies.com/how-to/content/how-predictive-analysis-neural-networks-work.html

Gershenson, C. (s.f.). Artificial Neural Networks for Beginners. Obtenido de Data Science Knowledge Repo: https://datajobs.com/data-science-repo/Neural-Net-%5BCarlos-Gershenson%5D.pdf

Regresión Lineal

La regresión lineal es uno de los métodos fundamentales y más utilizados en el análisis predictivo. La regresión lineal es utilizada para describir data y explicar la relación existente entre una variable dependientes y varias variables independientes. (Statistics Solutions, 2013)

El método de regresión lineal, es considerado una variación del algoritmo de árboles de decisión, debido a que los árboles de decisión cumplen la finalidad encontrar la relación entre dos variables una dependiente y otra independiente. El objeto del modelo de regresión lineal es el ajustar los puntos de un set de datos, a una sola línea, la relación toma la forma de una ecuación para la recta que mejor represente el set de datos.  (Microsoft, 2015)

La recta que mejor se ajusta al modelo de datos, es la que contiene el valor mínimo de la sumatoria de los cuadrados de las distancias entre cada punto y la recta. Eso significa, que existe una y sola una recta que cumple esta condición.

Adicionalmente, los análisis de regresión lineal llevan asociados una serie de procedimientos de diagnóstico como los análisis de residuos y puntos de influencia, que informan sobre la estabilidad e idoneidad del análisis, permitiendo obtener datos para mejor el análisis. Una medida de ajuste que ha recibido gran aceptación en el contexto del análisis de regresión es el coeficiente de determinación R2, se trata de una medida estandarizada que toma valores entre 0 y 1, 0 cuando la relación entre las variables es nula y 1 cuando la relación entre las variables es perfecta. (Merino & Ruiz, 2016)

Bibliografía

Merino, A., & Ruiz, M. Á. (2016). Análisis de datos con SPSS 13 Base. The McGraw Hill.

Microsoft. (2015). Microsoft Developer Network. Obtenido de https://msdn.microsoft.com/en-us/library/ms174949.aspx

Statistics Solutions. (2013). What is Linear Regression? Obtenido de http://www.statisticssolutions.com/what-is-linear-regression/

Regresión Lineal Multiple

El método de regresión lineal múltiple permite realizar el análisis para más de una variable explicativa; ofreciendo la ventaja de utilizar más información en la construcción del modelo y, consecuentemente, realizar estimaciones más precisas.

El objetivo del modelo es identificar de un conjunto de variables explicativas: x1, x2, …, xn; cuáles son las que más influyen en la variable dependiente “Y”. El resultado en lugar de ser una línea recta, será un plano que recibe el nombre de Hiperplano. (Rojo, 2007)

De manera similar a la regresión lineal simple, los coeficientes de la ecuación que forma el hiperplano, son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mínima, es decir, que se va a minimizar la varianza residual.

Bibliografía

Rojo, J. (2007). Regresión lineal múltiple . Obtenido de Instituto de Economía y Geografía Madrid: http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.pdf

Regresión No Lineal

Los modelos de regresión lineal no siempre pueden ajustarse a la distribución de los datos, porque a veces la relación entre Y y X no es lineal, sino que exhibe algún grado de curvatura. La estimación directa de los parámetros de funciones no-lineales es un proceso bastante complicado. No obstante, a veces se pueden aplicar las técnicas de regresión lineal por medio de transformaciones de las variables originales. (Minitab, 2016)

Por tanto, la regresión no lineal genera una ecuación para describir la relación no lineal entre una variable de respuesta continua y una o más variables predictores, y predice nuevas observaciones. Se Utiliza la regresión no lineal en lugar de la regresión habitual de mínimos cuadrados cuando no se pueda modelar adecuadamente la relación con parámetros lineales. Los parámetros son lineales cuando cada término del modelo es aditivo y contiene solo un parámetro que multiplica el término.

En la minería de datos, para los modelos predictivos de regresión no lineal se debe elegir una función para el modelado que depende del conocimiento del comportamiento del set de datos. Las formas no lineales posibles son: (Castejón, 2011)

  • cóncava
  • convexa
  • crecimiento
  • descenso exponencial      
  • curva sigmoidal (S)
  • curvas asintóticas.

Entre las funciones más comunes para adaptar al set de datos se encuentra:

  • El modelo recíproco: también conocido como hipérbola, donde una de las variables va aumentando y la otra va disminuyendo
  • El modelo gamma
  • El modelo potencial, muy utilizado en ajuste de precio-demanda
  • El modelo exponencial muy utilizado en ajuste de crecimiento poblacionales
  • El modelo logístico para estudiar el crecimiento de poblaciones
  • El modelo de parábola logarítmica, cuya ecuación del modelo es:
  • El modelo de Gompertz, utilizado para el estudio de crecimientos poblacionales

Bibliografía

Castejón, O. (2011). Diseño y Análisis de Experimentos con Statitix. Maracaibo, Venezuela: Fondo Editorial Biblioteca Universidad Rafael Urdaneta. Obtenido de http://www.uru.edu/fondoeditorial/libros/pdf/manualdestatistix/cap9.pdf

Minitab. (2016). Regresión No Líneal. Obtenido de Soporte de Minitab 17: http://support.minitab.com/es-mx/minitab/17/topic-library/modeling-statistics/regression-and-correlation/basics/nonlinear-regression/