📜  Python的逻辑回归-拆分数据

📅  最后修改于: 2020-12-13 14:03:01             🧑  作者: Mango


我们有大约四万一千条记录。如果我们将全部数据用于模型构建,则不会剩下任何数据用于测试。因此,通常,我们将整个数据集分为两个部分,例如70/30百分比。我们将70%的数据用于模型构建,其余的用于测试预测所创建模型的准确性。您可以根据需要使用不同的拆分比率。

创建特征数组

在拆分数据之前,我们将数据分为两个数组X和Y。X数组包含我们要分析的所有要素(数据列),Y数组是布尔值的一维数组,是布尔值的输出预测。为了理解这一点,让我们运行一些代码。

首先,执行以下Python语句以创建X数组-

In [17]: X = data.iloc[:,1:]

要检查X的内容,请使用head打印一些初始记录。以下屏幕显示了X数组的内容。

In [18]: X.head ()

初步记录

该数组有几行23列。

接下来,我们将创建包含“ y ”值的输出数组。

创建输出数组

要为预测值列创建数组,请使用以下Python语句-

In [19]: Y = data.iloc[:,0]

检查内容。以下屏幕输出显示结果-

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

现在,使用以下命令拆分数据-

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

这将创建四个数组,分别称为X_train,Y_train,X_test和Y_test 。和以前一样,您可以使用head命令检查这些数组的内容。我们将使用X_train和Y_train数组来训练我们的模型,并使用X_test和Y_test数组来进行测试和验证。

现在,我们准备构建分类器。我们将在下一章对此进行研究。