📌  相关文章
📜  pandas split train test - Python (1)

📅  最后修改于: 2023-12-03 14:45:02.886000             🧑  作者: Mango

Pandas Split Train Test - Python

在训练和评估机器学习模型时,需要将数据集拆分为训练集和测试集。在Python中,可以使用pandas库中的功能来轻松地拆分数据集。

数据集

首先,我们需要加载数据集。在本例中,我们将使用Iris数据集。

import pandas as pd

# 加载数据集
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)
df.head()

上面的代码加载了Iris数据集,并使用head()函数显示前几行数据。

数据拆分

拆分数据集的最简单方法是随机选择一定比例的数据作为测试集。在本例中,我们将选择20%的数据作为测试集,其余80%作为训练集。

from sklearn.model_selection import train_test_split

# 拆分数据集为训练集和测试集,测试集占20%
train, test = train_test_split(df, test_size=0.2)

print('训练集大小:', len(train))
print('测试集大小:', len(test))

上面的代码中,我们使用train_test_split()函数从Iris数据集中拆分训练集和测试集。我们将test_size参数设置为0.2,这意味着测试集占数据集的20%,训练集占数据集的80%。拆分后,我们输出训练集和测试集的大小。

结论

现在,我们已经成功地将数据集拆分为训练集和测试集,并且可以使用这些数据来训练和评估机器学习模型。