📜  使用 Pandas 在Python中进行数据操作(1)

📅  最后修改于: 2023-12-03 14:49:44.533000             🧑  作者: Mango

使用 Pandas 在Python中进行数据操作

简介

Pandas 是一个基于 NumPy 的 Python 数据分析库,通常用来处理和分析表格型或异质型的数据。Pandas 可以方便地处理数据中的缺失值、数据合并、数据清洗、数据筛选等操作,是数据科学家和分析师必不可少的工具之一。

Pandas 的安装和导入
安装 Pandas

要使用 Pandas ,首先需要安装它,可以通过 pip 命令进行安装:

pip install pandas
导入 Pandas

安装完成后,可以在 Python 文件中通过 import 语句导入 Pandas 库:

import pandas as pd
创建 DataFrame
从列表创建 DataFrame
# 从列表创建 DataFrame
data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]]
df = pd.DataFrame(data, columns=['Name', 'Age'])

print(df)

# 输出结果:
#        Name  Age
# 0     Alice   25
# 1       Bob   30
# 2   Charlie   35
从字典创建 DataFrame
# 从字典创建 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35]
}
df = pd.DataFrame(data)

print(df)

# 输出结果:
#        Name  Age
# 0     Alice   25
# 1       Bob   30
# 2   Charlie   35
从 CSV 文件中创建 DataFrame
# 从 CSV 文件中创建 DataFrame
df = pd.read_csv('data.csv')

print(df)

# 输出结果:
#        Name  Age
# 0     Alice   25
# 1       Bob   30
# 2   Charlie   35
DataFrame 操作
查看 DataFrame 数据
# 查看 DataFrame 的前几行数据
print(df.head())

# 查看 DataFrame 的后几行数据
print(df.tail())

# 查看 DataFrame 的行数和列数
print(df.shape)

# 查看 DataFrame 的描述性统计信息
print(df.describe())
选择数据

选择列数据

# 选择一列数据
print(df['Name'])

# 选择多列数据
print(df[['Name', 'Age']])

选择行数据

# 选择第一行数据
print(df.iloc[0])

# 选择第一行到第二行数据
print(df.iloc[0:2])

# 选择满足特定条件的行数据
print(df[df['Age'] > 30])
修改数据
# 修改指定位置的数据
df.loc[0, 'Age'] = 26

# 新增一列数据
df['Gender'] = ['Female', 'Male', 'Male']

print(df)
删除数据
# 删除指定位置的数据
df.drop([0], inplace=True)

# 删除指定列的数据
df.drop(['Gender'], axis=1, inplace=True)

print(df)
排序数据
# 对 DataFrame 按某一列升序排列
print(df.sort_values('Age'))

# 对 DataFrame 按某一列降序排列
print(df.sort_values('Age', ascending=False))
导出数据
# 将 DataFrame 导出为 CSV 文件
df.to_csv('output.csv', index=False)

以上就是 Pandas 在Python中进行数据操作的简单介绍。Pandas 是一个功能强大的库,可以进行更多复杂的数据操作,有兴趣的读者可以深入学习。