Introduction:
La régression linéaire est l’un des algorithmes les plus simples et les plus couramment utilisés en apprentissage automatique pour prédire une variable continue en fonction d’une ou plusieurs variables d’entrée. Scikit-Learn est une bibliothèque de machine learning en Python qui offre une implémentation simple et efficace de la régression linéaire. Dans ce tutoriel, nous allons apprendre à entraîner un modèle de régression linéaire en utilisant Scikit-Learn.
Étapes pour entraîner un modèle de régression linéaire avec Scikit-Learn:
- Importer les bibliothèques nécessaires:
Tout d’abord, importons les bibliothèques nécessaires, y compris Scikit-Learn, NumPy et Pandas. Voici un exemple de code pour cela:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
- Charger les données:
Ensuite, chargez vos données dans un dataframe Pandas. Assurez-vous que vos données sont propres et prêtes à être utilisées pour l’apprentissage machine. Vous pouvez utiliser la fonctionpd.read_csv()
pour charger les données à partir d’un fichier CSV par exemple.
data = pd.read_csv('data.csv')
- Préparer les données pour l’apprentissage:
Une fois les données chargées, séparez les caractéristiques (variables d’entrée) et la cible (variable de sortie) dans des tableaux séparés. Par convention, les caractéristiques sont généralement représentées parX
et la cible pary
.
X = data[['feature1', 'feature2', 'feature3']]
y = data['target']
- Diviser les données en ensemble d’entraînement et ensemble de test:
Avant d’entraîner notre modèle, nous devons diviser nos données en ensembles d’entraînement et de test. Cela nous permettra de mesurer la performance de notre modèle sur des données qu’il n’a pas vues pendant l’entraînement. Utilisez la fonctiontrain_test_split()
pour cela.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
- Entraîner un modèle de régression linéaire:
Maintenant que nos données sont prêtes, nous pouvons créer et entraîner notre modèle de régression linéaire en utilisant la classeLinearRegression
de Scikit-Learn.
model = LinearRegression()
model.fit(X_train, y_train)
- Faire des prédictions:
Une fois le modèle entraîné, nous pouvons l’utiliser pour faire des prédictions sur de nouvelles données. Utilisez la méthodepredict()
pour cela.
predictions = model.predict(X_test)
- Évaluer le modèle:
Enfin, évaluez la performance de votre modèle en utilisant des métriques telles que l’erreur quadratique moyenne (MSE) ou le coefficient de détermination (R²). Vous pouvez également visualiser les résultats en traçant les prédictions par rapport aux valeurs réelles.
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, predictions)
r2 = r2_score(y_test, predictions)
print("Mean Squared Error:",mse)
print("R² Score:",r2)
Conclusion:
Dans ce tutoriel, nous avons vu comment entraîner un modèle de régression linéaire en utilisant Scikit-Learn. Il est important de noter que ce n’est qu’un point de départ et qu’il existe de nombreuses façons d’améliorer la performance de votre modèle, telles que l’ingénierie des caractéristiques et l’optimisation des hyperparamètres. Expérimentez avec différentes techniques et continuez à apprendre pour devenir un meilleur praticien de l’apprentissage machine.