Les pipelines de Scikit-learn

Posted by

Alfalfa

–

September 23, 2024

Les pipelines Scikit-Learn sont des outils puissants et efficaces pour simplifier le processus de création, d’entraînement et de déploiement de modèles d’apprentissage automatique. Ils permettent de chaîner plusieurs étapes de prétraitement des données et de modélisation dans un flux de travail unique, ce qui facilite la répétabilité et la gestion des modèles.

Dans ce tutoriel, nous allons vous expliquer comment utiliser les pipelines Scikit-Learn pour construire un modèle d’apprentissage automatique, en utilisant un exemple simple de classification.

Importer les bibliothèques nécessaires

Tout d’abord, importez les bibliothèques nécessaires :

import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

Charger les données

Pour cet exemple, nous allons utiliser un jeu de données simple de classification binaire. Vous pouvez charger vos propres données en utilisant la fonction pd.read_csv() si elles sont stockées dans un fichier CSV.

data = pd.DataFrame({
    'feature1': [1, 2, 3, 4, 5],
    'feature2': [10, 20, 30, 40, 50],
    'target': [0, 1, 0, 1, 0]
})
X = data[['feature1', 'feature2']]
y = data['target']

Diviser les données en ensembles d’entraînement et de test

Divisez les données en ensembles d’entraînement et de test en utilisant la fonction train_test_split() de Scikit-Learn.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Créer un pipeline

Maintenant, nous allons créer un pipeline en chaînant deux étapes : la standardisation des données à l’aide de StandardScaler et la modélisation à l’aide d’un classificateur RandomForestClassifier.

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier())
])

Entraîner le modèle

Entraînez le modèle sur l’ensemble d’entraînement en utilisant la méthode fit() du pipeline.

pipeline.fit(X_train, y_train)

Prédire les étiquettes

Prédisez les étiquettes des données de test en utilisant la méthode predict() du pipeline.

predictions = pipeline.predict(X_test)

Évaluer le modèle

Évaluez la performance du modèle en calculant l’exactitude des prédictions en utilisant la fonction accuracy_score() de Scikit-Learn.

accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")

En suivant ces étapes simples, vous avez créé un pipeline Scikit-Learn pour construire et évaluer un modèle d’apprentissage automatique. Les pipelines sont extrêmement utiles pour structurer et automatiser vos travaux d’apprentissage automatique, en vous permettant de créer des flux de travail reproductibles et faciles à gérer.