Python的逻辑回归-拆分数据 - 芒果文档

📌 相关文章

📜 Python的逻辑回归-拆分数据

📅 最后修改于: 2020-12-13 14:03:01 🧑 作者: Mango

我们有大约四万一千条记录。如果我们将全部数据用于模型构建，则不会剩下任何数据用于测试。因此，通常，我们将整个数据集分为两个部分，例如70/30百分比。我们将70％的数据用于模型构建，其余的用于测试预测所创建模型的准确性。您可以根据需要使用不同的拆分比率。

创建特征数组

在拆分数据之前，我们将数据分为两个数组X和Y。X数组包含我们要分析的所有要素(数据列)，Y数组是布尔值的一维数组，是布尔值的输出预测。为了理解这一点，让我们运行一些代码。

首先，执行以下Python语句以创建X数组-

In [17]: X = data.iloc[:,1:]

要检查X的内容，请使用head打印一些初始记录。以下屏幕显示了X数组的内容。

In [18]: X.head ()

初步记录

该数组有几行23列。

接下来，我们将创建包含“ y ”值的输出数组。

创建输出数组

要为预测值列创建数组，请使用以下Python语句-

In [19]: Y = data.iloc[:,0]

检查头内容。以下屏幕输出显示结果-

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

现在，使用以下命令拆分数据-

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

这将创建四个数组，分别称为X_train，Y_train，X_test和Y_test 。和以前一样，您可以使用head命令检查这些数组的内容。我们将使用X_train和Y_train数组来训练我们的模型，并使用X_test和Y_test数组来进行测试和验证。

现在，我们准备构建分类器。我们将在下一章对此进行研究。