Une autre approche pour identifier la multicollinéarité est via le facteur d’inflation de la variance. Le VIF indique le pourcentage de la variance gonflée pour le coefficient de chaque variable. À partir d’une valeur de 1 (aucune colinéarité), un VIF compris entre 1 et 5 indique une colinéarité modérée, tandis que les valeurs supérieures à 5 indiquent une colinéarité élevée. Parmi les cas où une VIF élevée serait acceptable, citons l’utilisation de termes d’interaction, de termes polynomiaux ou de variables fictives (variables nominales comportant trois catégories ou plus). Les matrices de corrélation permettent d’identifier la corrélation entre les paires de variables tandis que la VIF permet l’évaluation globale de la multicolinéarité. La matrice de corrélation de la plupart des variables continues est présentée ci-dessous afin de mettre en évidence les différentes paires de variables colinéaires. Le VIF peut être calculé à l’aide du package statsmodels ; le bloc de code ci-dessous présente les valeurs du VIF avec les variables colinéaires incluses (à gauche) et supprimées (à droite).
# Setting the predictor variables
X_o = df_wdummy]
X_r1 = df_wdummy]#
from statsmodels.stats.outliers_influence import variance_inflation_factorvif = pd.Series()], index=X_o.columns,
name='vif_full')
vif_r = pd.Series()], index=X_r1.columns,
name='vif_collinear_rvmd')
pd.concat(, axis=1)
Les valeurs VIF correspondent à la matrice de corrélation ; par exemple, paire de variables NOX et INDUS, le coefficient de corrélation est supérieur à 0.5 (0,61), et les valeurs VIF respectives sont supérieures à 5. L’élimination des variables colinéaires RAD et NOX a amélioré les chiffres VIF. L’abandon de variables colinéaires uniquement sur la base du chiffre VIF le plus élevé n’est pas un moyen garanti de construire le modèle le plus performant, comme élaboré dans la section suivante.
Nous construisons un modèle de base en abandonnant toutes les variables colinéaires identifiées dans la matrice de corrélation (indiquée ci-dessus), en attendant que TAX et RAD soient abandonnées ensuite.
# Baseline variables
X_bl = df_wdummy]
y_bl = df_wdummy# Explore mitigating multi-collinearity
vif_bl = pd.Series()], index=X_bl.columns,
name='vif_bl')X_noTAX = X_bl.drop(,axis=1)
X_noRAD = X_bl.drop(,axis=1)
vif_noTAX = pd.Series()],
index=X_noTAX.columns, name='vif_noTAX')
vif_noRAD = pd.Series()],
index=X_noRAD.columns, name='vif_noRAD')
pd.concat(, axis=1)
Bien que l’abandon de la variable TAX sur la base du VIF semble être meilleur, une approche prudente consiste à vérifier via la métrique R-carré ajustée (ajustée pour le nombre de prédicteurs, la métrique n’augmente que si la variable ajoutée suivante améliore le modèle plus que ce qui serait attendu par hasard).
# Without TAX
model = sm.OLS(y, sm.add_constant(X_noTAX)).fit()
print_model = model.summary()
print(print_model)
# Without RAD
model = sm.OLS(y, sm.add_constant(X_noRAD)).fit()
print_model = model.summary()
print(print_model)
.
D’après le R- ajusté plus élevé.au carré ajusté plus élevé, nous pouvons en déduire que le modèle est plus performant si la variable RAD est supprimée ! Le problème de la multicollinéarité étant réglé, la prochaine étape pourrait être d’explorer l’ajout de termes d’interaction pour potentiellement stimuler les performances du modèle.