El Iris dataset es uno de los conjuntos de datos más populares y utilizados en el campo del Machine Learning. Contiene información sobre tres especies de flores de iris: setosa, versicolor y virginica, cada una con cuatro características medidas en centímetros: longitud del sépalo, anchura del sépalo, longitud del pétalo y anchura del pétalo.
En este tutorial, te guiaré a través del proceso de cargar y utilizar el Iris dataset en Scikit-Learn para entrenamientos de Machine Learning. Scikit-Learn es una de las librerías más utilizadas en Python para realizar tareas de Machine Learning.
Paso 1: Importar las librerías necesarias
Lo primero que debes hacer es asegurarte de tener instaladas las librerías necesarias. Si no las tienes instaladas, puedes hacerlo utilizando pip:
pip install scikit-learn numpy matplotlib
Una vez tengas las librerías instaladas, importa las siguientes en tu script de Python:
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
Paso 2: Cargar el Iris dataset
Para cargar el Iris dataset, simplemente utiliza la función load_iris()
de Scikit-Learn. Esta función devuelve un objeto que contiene los datos y las etiquetas de las muestras.
iris = datasets.load_iris()
X = iris.data
y = iris.target
Paso 3: Dividir el dataset en conjuntos de entrenamiento y prueba
Para evitar el sobreajuste de nuestro modelo, es importante dividir el dataset en conjuntos de entrenamiento y prueba. Utiliza la función train_test_split()
de Scikit-Learn para hacer esto:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
En este caso, estamos dividiendo el dataset en un 80% para entrenamiento y un 20% para pruebas.
Paso 4: Crear y entrenar un modelo de Machine Learning
Ahora que tenemos nuestros conjuntos de entrenamiento y prueba, podemos crear y entrenar un modelo de Machine Learning. En este caso, vamos a utilizar un clasificador de K vecinos más cercanos:
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
Paso 5: Hacer predicciones y evaluar el modelo
Una vez que hayamos entrenado nuestro modelo, podemos hacer predicciones sobre los datos de prueba y evaluar su precisión utilizando la función accuracy_score()
de Scikit-Learn:
y_pred = knn.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo:", accuracy)
Esta precisión nos dará una idea de qué tan bien está funcionando nuestro modelo en el dataset de prueba.
¡Y eso es todo! Ahora puedes usar el Iris dataset en Scikit-Learn para entrenar modelos de Machine Learning. Recuerda que este es solo un ejemplo básico y que hay muchas formas más complejas de utilizar este conjunto de datos para tareas más avanzadas de Machine Learning.¡Buena suerte!
Muy buen video, sigue asi 😀