la régression Linéaire est un outil simple, mais puissant pour analyser la relation entre un ensemble de variables indépendantes et dépendantes. Mais, souvent, les gens ont tendance à ignorer les hypothèses des MCO avant d’interpréter les résultats. C’est donc une étape essentielle pour analyser diverses statistiques révélées par OLS.
en statistique, la sélection de modèles est un art. de nombreux facteurs sont pris en considération pour rendre cet art significatif., Regardons chacune des statistiques une par une et voyons comment cela peut affecter la fiabilité des résultats . Dans l’exemple suivant, cinq variables sont régressées sur une variable de sortie.
R-squared: Il signifie le « pourcentage de la variation de charge qui est expliquée par les variables indépendantes”. Ici, la variation de 73,2% de y est expliquée par X1, X2, X3, X4 et X5., Cette statistique a un inconvénient, elle augmente avec l’augmentation du nombre de prédicteurs(variables dépendantes). Par conséquent, il devient peu concluant dans le cas où il doit être décidé si une variable supplémentaire ajoute au pouvoir de prévisibilité de la régression.
adj.R-squared: il s’agit de la version modifiée de R-squared qui est ajustée pour le nombre de variables dans la régression. Il n’augmente que lorsqu’une variable supplémentaire ajoute au pouvoir explicatif de la régression.
Prob(F-statistique): cela indique la signification globale de la régression., Il s’agit d’évaluer le niveau de Signification de toutes les variables ensemble, contrairement à la statistique t qui le mesure pour des variables individuelles. L’hypothèse nulle sous ceci est « tous les coefficients de régression sont égaux à zéro ». Prob (F-statistics) représente la probabilité que l’hypothèse nulle soit vraie. Selon les résultats ci-dessus, la probabilité est proche de zéro. Cela implique que, dans l’ensemble, les régressions sont significatives.
AIC / BIC: il représente les critères D’information D’Akaike et est utilisé pour la sélection de modèles. Il pénalise le mode erreurs dans le cas où une nouvelle variable est ajoutée à l’équation de régression., Il est calculé comme le nombre de paramètres moins la probabilité du modèle global. Un CIA inférieur implique un meilleur modèle. Attendu que, BIC signifie Bayesian information criteria et est une variante de AIC où les sanctions sont rendues plus sévères.
Prob(Omnibus): une des hypothèses d’OLS est que les erreurs sont normalement distribuées. Le test Omnibus est effectué afin de vérifier cela. Ici, l’hypothèse nulle est que les erreurs sont distribuées normalement. Prob (Omnibus) est censé être proche du 1 pour qu’il satisfasse l’hypothèse OLS. Dans ce cas, Prob(Omnibus) vaut 0.,062, ce qui implique que L’hypothèse OLS n’est pas satisfaite. Pour cette raison, les coefficients estimés à partir de celui-ci ne sont pas les meilleurs estimateurs linéaires non biaisés(bleu).
Durbin-watson: une autre hypothèse D’OLS est l’homoscédasticité. Cela implique que la variance des erreurs est constante. Une valeur comprise entre 1 et 2 est préférée. Ici, c’est ~1.8 ce qui implique que les résultats de régression sont fiables du côté de l’interprétation de cette métrique.
Prob(Jarque-Bera): Il i en ligne avec le test Omnibus. Il est également effectué pour l’analyse de la distribution des erreurs de régression., Il est censé être d’accord avec les résultats du test Omnibus. Une grande valeur de JB test indique que les erreurs ne sont pas normalement distribuées.