📜  从 csv 到 pandas 数据框 - Python (1)

📅  最后修改于: 2023-12-03 15:06:30.894000             🧑  作者: Mango

从 csv 到 pandas 数据框 - Python

介绍

在数据科学领域中,数据集的处理是非常重要的。而 csv 文件是我们经常使用的一种格式。在 Python 中,使用 pandas 库可以方便地将 csv 文件转换成 pandas 数据框,进行数据处理和分析。

本文将介绍使用 pandas 库将 csv 文件转换成 pandas 数据框的方法。同时也会介绍一些 pandas 的基本操作。

代码示例

首先,我们需要先导入 pandas 库。

import pandas as pd

接着,使用 pd.read_csv() 函数读取 csv 文件。

data_frame = pd.read_csv('data.csv')

其中,data.csv 是你要读取的 csv 文件的文件名。

若 csv 文件中包含了表头(即第一行为列名),则可以直接使用 pd.read_csv() 函数读取,并自动将第一行作为列名。

若 csv 文件中不包含表头,则需要添加一个 header=None 参数,让函数认为第一行不是列名。同时需要手动为数据框添加列名,例如通过设置 columns=[...] 实现。

data_frame = pd.read_csv('data_without_header.csv', header=None, columns=['col1', 'col2', 'col3', 'col4'])
pandas 数据框的基本操作

使用上面的方法得到了 pandas 数据框,我们便可以进行数据处理和分析了。

1. 查看数据框

我们可以使用以下方法查看数据框的前几行或后几行。

# 查看前 5 行
data_frame.head()

# 查看后 5 行
data_frame.tail()

若不想查看前后 5 行,可以在括号内调整参数,如 data_frame.head(10) 则查看前 10 行。

2. 选择列

可以使用列名来选择列。

# 选择单列
data_frame['col1']

# 选择多列
data_frame[['col1', 'col3']]
3. 选择行

可以使用行号、行标签或条件来选择行。

# 选择单行
data_frame.iloc[0]

# 选择多行
data_frame.iloc[1:3]

# 按条件选择行
data_frame[data_frame['col1'] > 10]
4. 筛选

筛选是通过指定条件来保留符合条件的行或列。

# 按条件筛选行
data_frame[data_frame['col1'] > 10]

# 按条件筛选列
data_frame.loc[:, data_frame.columns != 'col2']

这里使用了 loc 方法,该方法用于通过行标签和列标签进行数据选择。

5. 统计数据

pandas 数据框提供了很多用于统计数据的函数,比如计算均值、中位数、最大值、最小值等。

# 均值
data_frame.mean()

# 中位数
data_frame.median()

# 最大值
data_frame.max()

# 最小值
data_frame.min()

此外,还可以使用 describe() 函数查看数据的基本情况。

data_frame.describe()
结论

在数据处理和分析方面,pandas 数据框是一种非常方便的数据结构,并且还提供了很多用于数据处理和分析的函数。如果你经常处理 csv 文件,那么使用 pandas 库将 csv 文件转换成 pandas 数据框,能够让你更轻松地进行数据分析。