📜  Pandas NumPy(1)

📅  最后修改于: 2023-12-03 15:33:23.692000             🧑  作者: Mango

Pandas NumPy

介绍

PandasNumPy 是 Python 数据科学领域中的重要工具包。Pandas 由 NumPy 构建而成,并添加了一些数据结构和数据处理工具,提供了更高级、更具表现力的数据操作。Pandas 和 NumPy 一同形成了 Python 数据科学领域的重要根基。

Pandas

Pandas 中最重要的数据结构是 Series 和 DataFrame。Series 是一种一维数组,在其中每个元素都有一种自己的标签,被称为索引。DataFrame 则是一个表格型的数据结构,其中每列可以是不同的值类型(数值、字符串、布尔型等),每列可以被认为是一个 Series。

下面是一个示例,展示如何使用 Pandas 创建一个 DataFrame:

import pandas as pd
import numpy as np

data = {'Country': ['Belgium', 'India', 'Brazil'],
        'Capital': ['Brussels', 'New Delhi', 'Brasília'],
        'Population': [11190846, 1303171035, 207847528]}
df = pd.DataFrame(data)
print(df)

输出结果:

   Country    Capital  Population
0  Belgium   Brussels    11190846
1    India  New Delhi  1303171035
2   Brazil   Brasília   207847528

可以看到,DataFrame 呈现了一个表格性的结构,其中每列的数据类型可以自动匹配。

Pandas 提供了大量的方法处理数据,包括数据清洗、转换、聚合、分组等等。例如,下面的代码展示了如何计算 DataFrame 中每列的平均值:

print(df.mean())

输出结果:

Population    512979803.0
dtype: float64

Pandas 还支持数据的读取和写入,可以轻松地读取和写入多种不同的数据格式。例如,下面的代码展示了如何将 DataFrame 写入到 CSV 文件中:

df.to_csv('countries.csv', index=False)
NumPy

NumPy 提供了高效的数组操作,是许多数据科学工具的基础。NumPy 中最重要的数据结构是 ndarray(n 维数组),它可以用来表示所有类型的数据,包括数字、字符以及其他类型等等。

以下是一个简单的示例,展示了如何使用 NumPy 创建一个一维数组:

import numpy as np

a = np.array([1, 2, 3])
print(a)

输出结果:

[1 2 3]

NumPy 提供了大量的数组操作,包括索引、切片、分割、堆叠、排序等等。例如,下面的代码展示了如何计算数组 a 中的平均值:

print(np.mean(a))

输出结果:

2.0

NumPy 还支持随机数生成、线性代数、傅里叶变换等其他计算。例如,下面的代码展示了如何使用 NumPy 生成随机的二维数组:

b = np.random.random((3, 4))
print(b)

输出结果:

[[0.9790663  0.49595517 0.67841513 0.45453512]
 [0.26347027 0.48419854 0.93628513 0.43094055]
 [0.75847818 0.75373528 0.03152744 0.29534761]]
总结

Pandas 和 NumPy 是 Python 数据科学领域的两个最基础、最重要的工具包。Pandas 提供了高级的数据操作和处理,NumPy 则提供了高效的数组操作和计算。学会使用 Pandas 和 NumPy,可以让我们更加高效、方便地处理和分析数据。