Los algoritmos del machine learning, y más concretamente el algoritmo de regresión logística, puede ayudar a predecir la probabilidad de que se produzcan acontecimientos observando puntos de datos históricos. Por ejemplo, puede predecir si un individuo ganará las elecciones o si lloverá hoy.
Así de importante es el modelo de regresión logística, por eso, a continuación te compartimos toda la información que necesitas saber sobre él.
¿Qué es la regresión logística?
La regresión logística es un método de análisis estadístico para predecir un resultado binario, como un sí o un no, basado en observaciones previas de un conjunto de datos.
Un modelo de regresión logística predice una variable de datos dependiente analizando la relación entre una o más variables independientes existentes. Por ejemplo, podría utilizarse para predecir si un candidato político ganará o perderá unas elecciones o si un estudiante de secundaria será admitido o no en una determinada universidad. Estos resultados binarios permiten decidir directamente entre dos alternativas.
Este modelo puede tener en cuenta múltiples criterios de entrada. En el caso de la aceptación en la universidad, la función logística podría tener en cuenta factores como la media de notas del estudiante, la puntuación del SAT y el número de actividades extracurriculares. Basándose en datos históricos sobre resultados anteriores que implican los mismos criterios de entrada, puntúa los nuevos casos según su probabilidad de caer en una de las dos categorías de resultados.
Tal vez te interese: Especialización en Gestión de Redes de Valor y Logística
La regresión logística se ha convertido en una herramienta importante en la disciplina del Machine learning. Permite que los algoritmos utilizados en las aplicaciones de aprendizaje automático clasifiquen los datos entrantes basándose en datos históricos. A medida que llegan datos relevantes adicionales, los algoritmos mejoran la predicción de las clasificaciones dentro de los conjuntos de datos.
La regresión logística también puede desempeñar un papel en las actividades de preparación de datos al permitir que los conjuntos de datos se coloquen en cubos específicamente predefinidos durante el proceso de extracción, transformación y carga (ETL) con el fin de organizar la información para el análisis.
Métricas principales para la evaluación de modelos de regresión
Existen 3 métricas principales para la evaluación de modelos de regresión:
- R cuadrado/ R cuadrado ajustado
- Error cuadrático medio (MSE)/Error cuadrático medio (RMSE)
- Error medio absoluto (MAE)
R cuadrado/ R cuadrado ajustado
El cuadrado R mide la variabilidad de la variable dependiente que puede explicar el modelo. Es el cuadrado del coeficiente de correlación (R) y por eso se llama R cuadrado.
El cuadrado de R se calcula mediante la suma del cuadrado del error de predicción dividido por la suma total del cuadrado que sustituye la predicción calculada por la media. El valor de R cuadrado está entre 0 y 1 y un valor mayor indica un mejor ajuste entre la predicción y el valor real.
El cuadrado R es una buena medida para determinar lo bien que el modelo se ajusta a las variables dependientes. Sin embargo, no tiene en cuenta el problema del sobreajuste. Si su modelo de regresión tiene muchas variables independientes, debido a que el modelo es demasiado complicado, puede ajustarse muy bien a los datos de entrenamiento, pero funciona mal para los datos de prueba. Por eso se introduce la R cuadrada ajustada, ya que penaliza las variables independientes adicionales añadidas al modelo y ajusta la métrica para evitar problemas de sobreajuste.
Error cuadrático medio (MSE)/Error cuadrático medio (RMSE)
Mientras que el cuadrado de R es una medida relativa de lo bien que el modelo se ajusta a las variables dependientes, el error cuadrático medio es una medida absoluta de la bondad del ajuste.
El error cuadrático medio se calcula mediante la suma del cuadrado del error de predicción, que es el resultado real menos el resultado previsto, y se divide por el número de puntos de datos. Le da un número absoluto sobre cuánto se desvían los resultados predichos del número real. No se pueden interpretar muchas cosas a partir de un solo resultado, pero le da un número real para comparar con los resultados de otros modelos y ayudarle a seleccionar el mejor modelo de regresión.
El error cuadrático medio (RMSE) es la raíz cuadrada del MSE. Se utiliza más comúnmente que el MSE porque, en primer lugar, a veces el valor del MSE puede ser demasiado grande para compararlo fácilmente. En segundo lugar, el MSE se calcula por el cuadrado del error, por lo que la raíz cuadrada lo devuelve al mismo nivel de error de predicción y lo hace más fácil de interpretar.
Error Medio Absoluto (MAE)
El error absoluto medio (MAE) es similar al error cuadrático medio (MSE). Sin embargo, en lugar de la suma del cuadrado del error en MSE, MAE está tomando la suma del valor absoluto del error.
En comparación con el MSE o el RMSE, el MAE es una representación más directa de la suma de términos de error. El MSE penaliza más el error de predicción grande al cuadrado, mientras que el MAE trata todos los errores por igual.
Fuente: Songhao Wu – 3 Best metrics to evaluate Regression Model?
¿Cómo funciona el análisis de regresión?
Amazon creó buenos ejemplos en su blog sobre cómo funciona la regresión logística. Nos cuenta que para entenderla, primero debemos entender el análisis de regresión básica. A continuación te mostramos algunos de sus ejemplos:
Identifica la pregunta
Cualquier análisis de datos comienza con una pregunta empresarial. Para la regresión logística, hay que formular la pregunta para obtener resultados concretos:
¿Los días de lluvia afectan nuestras ventas mensuales? (sí o no)
¿Qué tipo de actividad de tarjeta de crédito realiza el cliente? (autorizado, fraudulento o potencialmente fraudulento).
Recopila datos históricos
Una vez identificada la pregunta, debe identificar los factores de los datos que intervienen. A continuación, recopila datos anteriores para todos los factores. Por ejemplo, para responder a la primera pregunta que se muestra arriba, puedes recopilar el número de días de lluvia y los datos de ventas mensuales de cada mes en los últimos tres años.
Entrena el modelo de análisis de regresión
Deberás procesar los datos históricos mediante un software de regresión. El software procesa los diferentes puntos de datos y los conecta matemáticamente mediante ecuaciones. Por ejemplo, si el número de días lluviosos durante tres meses es 3, 5 y 8 y el número de ventas en esos meses es 8, 12 y 18, el algoritmo de regresión conectará los factores con la ecuación:
Número de ventas = 2* (número de días lluviosos) + 2
Realiza predicciones para valores desconocidos
Para valores desconocidos, el software utiliza la ecuación para hacer una predicción. Si sabe que lloverá durante seis días en julio, el software calculará el valor de venta de julio en 14.
Términos clave de la regresión logística
Entender la terminología es crucial para descifrar correctamente los resultados de la regresión logística. Conocer el significado de los términos específicos te ayudará a aprender rápidamente si eres nuevo en la estadística o en el machine learning.
Los siguientes son algunos de los términos comunes utilizados en el análisis de regresión:
Variable: Cualquier número, característica o cantidad que pueda medirse o contarse. La edad, la velocidad, el género y los ingresos son ejemplos.
Coeficiente: Un número, normalmente un entero, multiplicado por la variable a la que acompaña. Por ejemplo, en 12y, el número 12 es el coeficiente.
EXP: Forma abreviada de exponencial.
Valores atípicos: Puntos de datos que difieren significativamente del resto.
Estimador: Algoritmo o fórmula que genera estimaciones de los parámetros. Prueba de chi-cuadrado: También llamada prueba de chi-cuadrado, es un método de comprobación de hipótesis para verificar si los datos son los esperados.
Error estándar: La desviación estándar aproximada de una muestra estadística de la población.
Regularización: Método utilizado para reducir el error y el sobreajuste mediante el ajuste de una función (de forma adecuada) en el conjunto de datos de entrenamiento.
Multicolinealidad: Ocurrencia de intercorrelaciones entre dos o más variables independientes.
Bondad de ajuste: Descripción de lo bien que un modelo estadístico se ajusta a un conjunto de observaciones.
Odds ratio: Medida de la fuerza de la asociación entre dos eventos.
Funciones de verosimilitud logarítmica: Evalúa la bondad de ajuste de un modelo estadístico.
Prueba de Hosmer-Lemeshow: Prueba que evalúa si las tasas de eventos observadas coinciden con las tasas de eventos esperadas.
Tipos de análisis de regresión logística
Existen tres tipos de modelos de regresión logística, que se definen en función de la respuesta categórica.
Regresión logística binaria
En este enfoque, la respuesta o variable dependiente es de naturaleza dicotómica, es decir, sólo tiene dos resultados posibles (por ejemplo, 0 o 1). Algunos ejemplos populares de su uso incluyen la predicción de si un correo electrónico es spam o no o si un tumor es maligno o no. Dentro de la regresión logística, éste es el enfoque más utilizado y, en general, es uno de los clasificadores más comunes para la clasificación binaria.
Regresión logística multinomial
En este tipo de modelo de regresión logística, la variable dependiente tiene tres o más resultados posibles; sin embargo, estos valores no tienen un orden especificado. Por ejemplo, los estudios de cine quieren predecir qué género de película es probable que vea un espectador para comercializar las películas con mayor eficacia. Un modelo de regresión logística multinomial puede ayudar al estudio a determinar la fuerza de la influencia de la edad, el género y el estado de las citas de una persona en el tipo de película que prefiere. El estudio puede entonces orientar una campaña publicitaria de una película específica hacia un grupo de personas que probablemente vayan a verla.
Regresión logística ordinal
Este tipo de modelo de regresión logística se aprovecha cuando la variable de respuesta tiene tres o más resultados posibles, pero en este caso, estos valores tienen un orden definido. Ejemplos de respuestas ordinales son las escalas de calificación de la A a la F o las escalas de valoración del 1 al 5.
Uso de la regresión logística
La regresión logística se ha hecho especialmente popular en la publicidad en línea, ya que permite a los profesionales del marketing predecir la probabilidad de que los usuarios de un sitio web específico hagan clic en determinados anuncios en forma de porcentaje de sí o no.
La regresión logística también puede utilizarse en los siguientes ámbitos:
- En la salud, para identificar los factores de riesgo de las enfermedades y planificar las medidas preventivas; en la investigación farmacológica para determinar la eficacia de los medicamentos en los resultados de salud en función de la edad, el sexo y el origen étnico.
- En aplicaciones de previsión meteorológica para predecir las nevadas y las condiciones meteorológicas.
- En las encuestas políticas para determinar si los votantes votarán a un determinado candidato.
En los seguros, para predecir las probabilidades de que un asegurado muera antes de que expire la póliza en función de criterios específicos, como el sexo, la edad y el examen físico.
En el sector bancario, para predecir las posibilidades de que un solicitante de un préstamo lo incumpla o no, basándose en los ingresos anuales, los impagos y las deudas anteriores.