Machine Learning – Practical Lesson on Classification using scikit-learn

Posted by


Neste tutorial, vamos aprender como realizar classificação com a biblioteca scikit-learn em Python. Vamos usar um conjunto de dados de exemplo e praticar a aplicação de vários algoritmos de aprendizado de máquina para classificação, como o algoritmo de árvore de decisão e SVM (Support Vector Machine).

Passo 1: Instalação do scikit-learn

Para começar, certifique-se de ter o scikit-learn instalado em seu ambiente Python. Você pode instalar a biblioteca usando o comando pip:

pip install scikit-learn

Passo 2: Importando as bibliotecas necessárias

Para iniciar o trabalho de classificação, importaremos as bibliotecas scikit-learn e pandas para carregar e manipular os dados. Além disso, importaremos os algoritmos de classificação que vamos usar.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

Passo 3: Carregando os dados

Neste tutorial, vamos usar um conjunto de dados de exemplo sobre flores, disponível no repositório de exemplo do scikit-learn. Vamos carregar o conjunto de dados e examiná-lo.

from sklearn.datasets import load_iris

iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target

X = df.drop('target', axis=1)
y = df['target']

Passo 4: Dividindo os dados em conjuntos de treinamento e teste

Para avaliar o desempenho dos modelos de classificação, é importante dividir os dados em conjuntos de treinamento e teste. Vamos dividir os dados usando a função train_test_split do scikit-learn.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Passo 5: Treinando o modelo de árvore de decisão

Vamos começar treinando um modelo de árvore de decisão para classificar as flores no conjunto de dados. Em seguida, testaremos o modelo com os dados de teste e avaliaremos sua precisão.

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f'Acurácia do modelo de árvore de decisão: {accuracy}')

Passo 6: Treinando o modelo SVM

Agora, vamos treinar um modelo SVM (Support Vector Machine) para classificar os dados de flores. Novamente, testaremos o modelo com os dados de teste e avaliaremos sua precisão.

svm = SVC()
svm.fit(X_train, y_train)

y_pred_svm = svm.predict(X_test)
accuracy_svm = accuracy_score(y_test, y_pred_svm)

print(f'Acurácia do modelo SVM: {accuracy_svm}')

Passo 7: Conclusão

Neste tutorial, aprendemos como realizar classificação com a biblioteca scikit-learn em Python. Exploramos a aplicação de modelos de árvore de decisão e SVM em um conjunto de dados de flores. É importante lembrar que a escolha do algoritmo de classificação depende do conjunto de dados e do problema em questão. Recomenda-se explorar diferentes algoritmos e ajustar seus parâmetros para obter o melhor desempenho do modelo. Espero que este tutorial tenha sido útil e que você esteja mais confiante em realizar tarefas de aprendizado de máquina com o scikit-learn.

0 0 votes
Article Rating
1 Comment
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
@thiagoaraujocampos8725
3 months ago

Diego, as suas aulas são incríveis! 🙂