Neste tutorial, vamos aprender como realizar classificação com a biblioteca scikit-learn em Python. Vamos usar um conjunto de dados de exemplo e praticar a aplicação de vários algoritmos de aprendizado de máquina para classificação, como o algoritmo de árvore de decisão e SVM (Support Vector Machine).
Passo 1: Instalação do scikit-learn
Para começar, certifique-se de ter o scikit-learn instalado em seu ambiente Python. Você pode instalar a biblioteca usando o comando pip:
pip install scikit-learn
Passo 2: Importando as bibliotecas necessárias
Para iniciar o trabalho de classificação, importaremos as bibliotecas scikit-learn e pandas para carregar e manipular os dados. Além disso, importaremos os algoritmos de classificação que vamos usar.
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
Passo 3: Carregando os dados
Neste tutorial, vamos usar um conjunto de dados de exemplo sobre flores, disponível no repositório de exemplo do scikit-learn. Vamos carregar o conjunto de dados e examiná-lo.
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
X = df.drop('target', axis=1)
y = df['target']
Passo 4: Dividindo os dados em conjuntos de treinamento e teste
Para avaliar o desempenho dos modelos de classificação, é importante dividir os dados em conjuntos de treinamento e teste. Vamos dividir os dados usando a função train_test_split do scikit-learn.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
Passo 5: Treinando o modelo de árvore de decisão
Vamos começar treinando um modelo de árvore de decisão para classificar as flores no conjunto de dados. Em seguida, testaremos o modelo com os dados de teste e avaliaremos sua precisão.
clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo de árvore de decisão: {accuracy}')
Passo 6: Treinando o modelo SVM
Agora, vamos treinar um modelo SVM (Support Vector Machine) para classificar os dados de flores. Novamente, testaremos o modelo com os dados de teste e avaliaremos sua precisão.
svm = SVC()
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)
accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f'Acurácia do modelo SVM: {accuracy_svm}')
Passo 7: Conclusão
Neste tutorial, aprendemos como realizar classificação com a biblioteca scikit-learn em Python. Exploramos a aplicação de modelos de árvore de decisão e SVM em um conjunto de dados de flores. É importante lembrar que a escolha do algoritmo de classificação depende do conjunto de dados e do problema em questão. Recomenda-se explorar diferentes algoritmos e ajustar seus parâmetros para obter o melhor desempenho do modelo. Espero que este tutorial tenha sido útil e que você esteja mais confiante em realizar tarefas de aprendizado de máquina com o scikit-learn.
Diego, as suas aulas são incríveis! 🙂