"""Importing the api class from statsmodels"""
import statsmodels.formula.api as sm
"""X_opt variable has all the columns of independent variables of matrix X
in this case we have 5 independent variables"""
X_opt = X[:,[0,1,2,3,4]]
"""Running the OLS method on X_opt and storing results in regressor_OLS"""
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()
En utilisant la méthode du résumé, vous pouvez vérifier dans votre noyau les valeurs p de votre variables écrites sous la forme 'P>|t|'. Ensuite, recherchez la variable avec la valeur p la plus élevée. Supposons que x3 ait la valeur la plus élevée, par exemple 0,956. Supprimez alors cette colonne de votre tableau et répétez toutes les étapes.
X_opt = X[:,[0,1,3,4]]
regressor_OLS = sm.OLS(endog = y, exog = X_opt).fit()
regressor_OLS.summary()
Répétez ces méthodes jusqu'à ce que vous supprimiez toutes les colonnes dont la valeur p est supérieure à la valeur de signification (par exemple 0,05). Au final, votre variable X_opt contiendra toutes les variables optimales dont la valeur p est inférieure au seuil de signification.