la regresión lineal es una herramienta simple pero poderosa para analizar la relación entre un conjunto de variables independientes y dependientes. Pero, a menudo la gente tiende a ignorar las suposiciones de OLS antes de interpretar los resultados de la misma. Por lo tanto, es un paso esencial para analizar diversas estadísticas reveladas por OLS.
en Estadística, la selección de modelos es un arte. una gran cantidad de factores se tienen en cuenta en caso de hacer este arte significativo., Veamos cada una de las estadísticas una por una y veamos cómo puede afectar la confiabilidad de los resultados . En el siguiente ejemplo, cinco variables se devuelven en una variable de salida.
R-cuadrado: Significa el «porcentaje de variación en el dependiente que es explicada por las variables independientes». Aquí, la variación del 73,2% en y se explica por X1, X2, X3, X4 y X5., Esta estadística tiene un inconveniente, aumenta con el aumento del número de predictores(variables dependientes). Por lo tanto, no es concluyente en caso de que se decida si la variable adicional se suma al poder de previsibilidad de la regresión.
Adj. R-squared: esta es la versión modificada de R-squared que se ajusta para el número de variables en la regresión. Aumenta solo cuando una variable adicional se suma al poder explicativo de la regresión.
Prob(estadística F): Esto indica la importancia general de la regresión., Esto es para evaluar el nivel de significancia de todas las variables juntas a diferencia del estadístico t que lo mide para variables individuales. La hipótesis nula bajo esto es «todos los coeficientes de regresión son iguales a cero». Prob (F-estadística) representa la probabilidad de que la hipótesis nula sea verdadera. Según los resultados anteriores, la probabilidad es cercana a cero. Esto implica que, en general, las regresiones son significativas.
AIC / BIC: representa los criterios de información de Akaike y se utiliza para la selección de modelos. Penaliza el modo de errores en caso de que se agregue una nueva variable a la ecuación de regresión., Se calcula como el número de parámetros menos la probabilidad del modelo general. Un AIC inferior implica un mejor modelo. Considerando que, BIC significa Bayesian information criteria y es una variante de AIC donde las sanciones se hacen más severas.
Prob(Omnibus): una de las suposiciones de OLS es que los errores se distribuyen normalmente. La prueba Omnibus se realiza para comprobar esto. Aquí, la hipótesis nula es que los errores se distribuyen normalmente. Prob (Omnibus) se supone que está cerca del 1 para que satisfaga la suposición de OLS. En este caso Prob (Omnibus) es 0.,062, lo que implica que la suposición de OLS no se cumple. Debido a esto, los coeficientes estimados fuera de él no son los mejores estimadores lineales imparciales(azul).
Durbin-watson: otra suposición de OLS es de homoscedasticidad. Esto implica que la varianza de errores es constante. Se prefiere un valor entre 1 y 2. Aquí, es ~1.8 lo que implica que los resultados de regresión son confiables desde el lado de interpretación de esta métrica.
Prob(Jarque-Bera): estoy en línea con la prueba Omnibus. También se realiza para el análisis de distribución de los errores de regresión., Se supone que está de acuerdo con los resultados de Omnibus de la prueba. Un valor grande de JB test indica que los errores no se distribuyen normalmente.