Les pipelines de Scikit-learn

Posted by


Les pipelines Scikit-Learn sont des outils puissants et efficaces pour simplifier le processus de création, d’entraînement et de déploiement de modèles d’apprentissage automatique. Ils permettent de chaîner plusieurs étapes de prétraitement des données et de modélisation dans un flux de travail unique, ce qui facilite la répétabilité et la gestion des modèles.

Dans ce tutoriel, nous allons vous expliquer comment utiliser les pipelines Scikit-Learn pour construire un modèle d’apprentissage automatique, en utilisant un exemple simple de classification.

  1. Importer les bibliothèques nécessaires

Tout d’abord, importez les bibliothèques nécessaires :

import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
  1. Charger les données

Pour cet exemple, nous allons utiliser un jeu de données simple de classification binaire. Vous pouvez charger vos propres données en utilisant la fonction pd.read_csv() si elles sont stockées dans un fichier CSV.

data = pd.DataFrame({
    'feature1': [1, 2, 3, 4, 5],
    'feature2': [10, 20, 30, 40, 50],
    'target': [0, 1, 0, 1, 0]
})
X = data[['feature1', 'feature2']]
y = data['target']
  1. Diviser les données en ensembles d’entraînement et de test

Divisez les données en ensembles d’entraînement et de test en utilisant la fonction train_test_split() de Scikit-Learn.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  1. Créer un pipeline

Maintenant, nous allons créer un pipeline en chaînant deux étapes : la standardisation des données à l’aide de StandardScaler et la modélisation à l’aide d’un classificateur RandomForestClassifier.

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', RandomForestClassifier())
])
  1. Entraîner le modèle

Entraînez le modèle sur l’ensemble d’entraînement en utilisant la méthode fit() du pipeline.

pipeline.fit(X_train, y_train)
  1. Prédire les étiquettes

Prédisez les étiquettes des données de test en utilisant la méthode predict() du pipeline.

predictions = pipeline.predict(X_test)
  1. Évaluer le modèle

Évaluez la performance du modèle en calculant l’exactitude des prédictions en utilisant la fonction accuracy_score() de Scikit-Learn.

accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy}")

En suivant ces étapes simples, vous avez créé un pipeline Scikit-Learn pour construire et évaluer un modèle d’apprentissage automatique. Les pipelines sont extrêmement utiles pour structurer et automatiser vos travaux d’apprentissage automatique, en vous permettant de créer des flux de travail reproductibles et faciles à gérer.

0 0 votes
Article Rating
22 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
@openclass4all
1 month ago

REJOINDRE LA COMMUNAUTE OPENCLASS4ALL https://www.youtube.com/channel/UCE-61 3S-bsuLukwHDhnRxIA/?sub_confirmation=1

@maimounakane6169
1 month ago

Comment vous avez importé la LogisticRegressor

@barikam2m891
1 month ago

Grand merci pour l'effort qualite et richesse Bonne continuation Merçi .

@vosinh2180
1 month ago

@openclass4all best video

@AudreyDjiosseuTiodo
1 month ago

merci pour cette video de qualité mon frère

@achillestephane53
1 month ago

Merci beaucoup @openclass4all. C'est parfait pour le deploiement du modele en production.

@idrissasylla7315
1 month ago

merci bcp vous méritez 1M de j'aime

@youssouphdahaba1748
1 month ago

pratique claire et bien expliqué Merci encore

@olyneniyomwungere5991
1 month ago

Très riche en contenu; merci

@mouhamadoudegaullebodiang687
1 month ago

Merci big man. Contenu très riche et très intéressant

@elpacifico7782
1 month ago

Merci pour cette video hyper riche en contenue

@appartementschambres140
1 month ago

Est-ce que vous faites des tutos / formations sur le logiciel R ?

@appartementschambres140
1 month ago

Merci pour toutes ces videos de qualite.

@poudredechebe8713
1 month ago

Bonne continuation

@karimmache4018
1 month ago

Nice video

@engelbertwambatchinde8586
1 month ago

Très intéressante cette vidéo.

@cyrillebaumont9222
1 month ago

Très bonne vidéo avez vous une address mail afin de prendre contacte avec vous.Merci encore.

@cheikhtidianediop8388
1 month ago

Good job Ousmane!

@vosinh2180
1 month ago

Merci, extrêmement intéressant.

@openclass4all
1 month ago

N'hesitez pas à poser vos questios si vous en avez concernant les PIPELINES ou les autres videos de la chaine.