pandas split train test - Python (1)

📌 相关文章

📜 pandas split train test - Python (1)

📅 最后修改于: 2023-12-03 14:45:02.886000 🧑 作者: Mango

Pandas Split Train Test - Python

在训练和评估机器学习模型时，需要将数据集拆分为训练集和测试集。在Python中，可以使用pandas库中的功能来轻松地拆分数据集。

数据集

首先，我们需要加载数据集。在本例中，我们将使用Iris数据集。

import pandas as pd

# 加载数据集
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
df.head()

上面的代码加载了Iris数据集，并使用head()函数显示前几行数据。

数据拆分

拆分数据集的最简单方法是随机选择一定比例的数据作为测试集。在本例中，我们将选择20％的数据作为测试集，其余80％作为训练集。

from sklearn.model_selection import train_test_split

# 拆分数据集为训练集和测试集，测试集占20%
train, test = train_test_split(df, test_size=0.2)

print('训练集大小:', len(train))
print('测试集大小:', len(test))

上面的代码中，我们使用train_test_split()函数从Iris数据集中拆分训练集和测试集。我们将test_size参数设置为0.2，这意味着测试集占数据集的20％，训练集占数据集的80％。拆分后，我们输出训练集和测试集的大小。

结论

现在，我们已经成功地将数据集拆分为训练集和测试集，并且可以使用这些数据来训练和评估机器学习模型。