Les pipelines Scikit-Learn sont des outils puissants et efficaces pour simplifier le processus de création, d’entraînement et de déploiement de modèles d’apprentissage automatique. Ils permettent de chaîner plusieurs étapes de prétraitement des données et de modélisation dans un flux de travail unique, ce qui facilite la répétabilité et la gestion des modèles.
Dans ce tutoriel, nous allons vous expliquer comment utiliser les pipelines Scikit-Learn pour construire un modèle d’apprentissage automatique, en utilisant un exemple simple de classification.
- Importer les bibliothèques nécessaires
Tout d’abord, importez les bibliothèques nécessaires :
import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
- Charger les données
Pour cet exemple, nous allons utiliser un jeu de données simple de classification binaire. Vous pouvez charger vos propres données en utilisant la fonction pd.read_csv()
si elles sont stockées dans un fichier CSV.
data = pd.DataFrame({
'feature1': [1, 2, 3, 4, 5],
'feature2': [10, 20, 30, 40, 50],
'target': [0, 1, 0, 1, 0]
})
X = data[['feature1', 'feature2']]
y = data['target']
- Diviser les données en ensembles d’entraînement et de test
Divisez les données en ensembles d’entraînement et de test en utilisant la fonction train_test_split()
de Scikit-Learn.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
- Créer un pipeline
Maintenant, nous allons créer un pipeline en chaînant deux étapes : la standardisation des données à l’aide de StandardScaler
et la modélisation à l’aide d’un classificateur RandomForestClassifier
.
pipeline = Pipeline([
('scaler', StandardScaler()),
('classifier', RandomForestClassifier())
])
- Entraîner le modèle
Entraînez le modèle sur l’ensemble d’entraînement en utilisant la méthode fit()
du pipeline.
pipeline.fit(X_train, y_train)
- Prédire les étiquettes
Prédisez les étiquettes des données de test en utilisant la méthode predict()
du pipeline.
predictions = pipeline.predict(X_test)
- Évaluer le modèle
Évaluez la performance du modèle en calculant l’exactitude des prédictions en utilisant la fonction accuracy_score()
de Scikit-Learn.
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")
En suivant ces étapes simples, vous avez créé un pipeline Scikit-Learn pour construire et évaluer un modèle d’apprentissage automatique. Les pipelines sont extrêmement utiles pour structurer et automatiser vos travaux d’apprentissage automatique, en vous permettant de créer des flux de travail reproductibles et faciles à gérer.
REJOINDRE LA COMMUNAUTE OPENCLASS4ALL https://www.youtube.com/channel/UCE-61 3S-bsuLukwHDhnRxIA/?sub_confirmation=1
Comment vous avez importé la LogisticRegressor
Grand merci pour l'effort qualite et richesse Bonne continuation Merçi .
@openclass4all best video
merci pour cette video de qualité mon frère
Merci beaucoup @openclass4all. C'est parfait pour le deploiement du modele en production.
merci bcp vous méritez 1M de j'aime
pratique claire et bien expliqué Merci encore
Très riche en contenu; merci
Merci big man. Contenu très riche et très intéressant
Merci pour cette video hyper riche en contenue
Est-ce que vous faites des tutos / formations sur le logiciel R ?
Merci pour toutes ces videos de qualite.
Bonne continuation
Nice video
Très intéressante cette vidéo.
Très bonne vidéo avez vous une address mail afin de prendre contacte avec vous.Merci encore.
Good job Ousmane!
Merci, extrêmement intéressant.
N'hesitez pas à poser vos questios si vous en avez concernant les PIPELINES ou les autres videos de la chaine.