📜  Python数据操作(1)

📅  最后修改于: 2023-12-03 15:04:39.626000             🧑  作者: Mango

Python数据操作

Python是一个强大的数据处理语言,提供了丰富的包用于数据操作。本文将介绍Python在数据操作方面的应用。

Pandas

Pandas是Python中最常用的数据处理库之一,提供了高效的数据结构和数据分析工具。Pandas中的两种主要数据结构是Series和DataFrame。Series是一维数组,可以用于处理单个列或行的数据。DataFrame是二维数组,可以用于处理多列或多行的数据。

创建Series
import pandas as pd

# 创建Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])

print(s)

输出:

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
创建DataFrame
# 创建DataFrame
df = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20190101'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': 'foo'
})

print(df)

输出:

     A          B    C  D      E    F
0  1.0 2019-01-01  1.0  3   test  foo
1  1.0 2019-01-01  1.0  3  train  foo
2  1.0 2019-01-01  1.0  3   test  foo
3  1.0 2019-01-01  1.0  3  train  foo
数据选择和过滤

Pandas提供了多种方法用于选择和过滤数据。

# 选择第一列
print(df['A'])

# 选择前两行
print(df[0:2])

# 根据条件过滤数据
print(df[df['E'].isin(['train'])])
数据处理

Pandas提供了多种方法用于数据处理。

# 计算均值
print(df.mean())

# 计算行均值
print(df.mean(axis=1))

# 对数据进行排序
print(df.sort_values(by='B'))
Numpy

Numpy是Python中常用的数值计算库,提供了高效的数组和矩阵计算。

创建数组
import numpy as np

# 创建一维数组
a = np.array([1, 2, 3, 4])
print(a)

# 创建二维数组
b = np.array([[1, 2], [3, 4]])
print(b)
数组计算
# 数组加法
c = a + b
print(c)

# 数组乘法
d = a * b
print(d)

# 点积运算
e = np.dot(a, b)
print(e)
数组函数
# 求和
print(np.sum(a))

# 求均值
print(np.mean(b))

# 求最大值
print(np.max(a))

# 求最小值
print(np.min(b))
Matplotlib

Matplotlib是Python中常用的数据可视化库,提供了多种绘图函数用于可视化数据。

线形图
import matplotlib.pyplot as plt

# 创建数据
x = np.arange(0, 10, 0.1)
y = np.sin(x)

# 绘制线形图
plt.plot(x, y)

plt.show()
散点图
# 创建数据
x = np.random.rand(50)
y = np.random.rand(50)

# 绘制散点图
plt.scatter(x, y)

plt.show()
条形图
# 创建数据
y = [10, 20, 30, 40]
x = [1, 2, 3, 4]

# 绘制条形图
plt.bar(x, y)

plt.show()
总结

本文简要介绍了Python在数据操作方面的应用,包括Pandas、Numpy和Matplotlib的主要功能和用法。这些库提供了强大的数据处理和可视化功能,是Python中常用的数据操作工具。