📜  熊猫示例 - Python (1)

📅  最后修改于: 2023-12-03 14:56:12.305000             🧑  作者: Mango

熊猫示例 - Python

简介

熊猫(Pandas)是一种开源数据分析和数据操作库,常用于数据预处理、数据清洗、数据分析等领域。熊猫提供了高效的数据结构和数据分析工具,同时也能与众多的数据来源进行交互(如Excel、CSV、数据库等)。

安装

熊猫可以使用pip命令进行安装:

pip install pandas
数据结构

熊猫提供了两种主要的数据结构 - Series 和 DataFrame。

  • Series

Series是一种一维的数据结构,类似于Numpy中的一维数组。每个Series对象由两个数组组成,一个用于存储数据,另一个用于存储标签(索引)。

import pandas as pd
import numpy as np

s = pd.Series([1,3,5,np.nan,6,8])
print(s)

输出结果如下:

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
  • DataFrame

DataFrame是一种二维的数据结构,类似于Excel表格。每个DataFrame对象由多个Series组成,每个Series代表一列数据。可以使用字典、CSV文件、Excel文件等创建DataFrame。

import pandas as pd
import numpy as np

data = {
    'name': ['Alice', 'Bob', 'Charles', 'David'],
    'age': [25, 32, 18, 47],
    'gender': ['F', 'M', 'M', 'M']
}
df = pd.DataFrame(data)
print(df)

输出结果如下:

      name  age gender
0    Alice   25      F
1      Bob   32      M
2  Charles   18      M
3    David   47      M
数据操作

熊猫提供了丰富的数据操作方法,如:

  • 读写数据(CSV、Excel、数据库、JSON等格式)
  • 切片、筛选、过滤、排序、分组等操作
  • 数据合并、重塑、透视表等数据转换操作
  • 数据可视化(基于Matplotlib库)
  • 数据缺失值处理等

以下是一个简单示例:

import pandas as pd
import numpy as np

data = {
    'name': ['Alice', 'Bob', 'Charles', 'David'],
    'age': [25, 32, 18, 47],
    'gender': ['F', 'M', 'M', 'M']
}
df = pd.DataFrame(data)

# 基本信息
print(df.info())

# 基本统计信息
print(df.describe())

# 根据条件筛选数据
print(df[df.age > 30])

# 按照年龄排序
print(df.sort_values(by='age'))

# 新增一列数据
df['income'] = [5000, 8000, 3000, 10000]
print(df)

# 按照性别和年龄分组,并计算各组平均收入
print(df.groupby(['gender', 'age']).mean())

# 绘制柱状图
df.plot(kind='bar', x='name', y='income')
总结

熊猫是一种功能强大的数据分析和操作库,可以轻松地进行数据预处理、数据清洗、数据分析等工作。熊猫提供了丰富的数据结构和数据操作方法,可以灵活地适应各种数据需求。