用于数据分析的 Pandas 和 NumPy 练习(1)

📌 相关文章

📜 用于数据分析的 Pandas 和 NumPy 练习(1)

📅 最后修改于: 2023-12-03 15:27:11.224000 🧑 作者: Mango

用于数据分析的 Pandas 和 NumPy 练习

介绍

Pandas 和 NumPy 是 Python 中用于数据科学和分析的两个重要的库。Pandas 是一个专门用于数据操作的库，使数据的清洗和分析变得更加简单。NumPy 是一个用于数值计算和矩阵运算的库，提供了一个基于数组的数据结构来处理数学运算。

本文将介绍 Pandas 和 NumPy 的基础知识和用法，包括但不限于如何读取、处理、过滤、排序和统计数据。通过这些例子，您将熟悉这两个库，更好地理解如何处理数据和分析数据。

Pandas

Pandas 可以处理多种类型的数据结构，常用的有 Series 和 DataFrame。Series 是一个一维的数据结构，类似于 Python 中的列表或数组。DataFrame 是一个二维的结构，可以看作是由多个 Series 组成的表格。

以下是一些 Pandas 基本用法的示例：

读取数据

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('data.csv')

# 读取 Excel 文件
data = pd.read_excel('data.xlsx')

# 读取 SQL 数据库
import sqlite3
conn = sqlite3.connect('database.db')
data = pd.read_sql_query('SELECT * FROM Users', conn)

数据清洗

# 删除重复行
data.drop_duplicates(inplace=True)

# 处理缺失值
data.dropna()      # 删除带有缺失值的行
data.fillna(value) # 用指定值填充缺失值

数据过滤

# 筛选出满足条件的行
data[data['age'] > 30]

# 按条件分组并对分组后的数据进行聚合操作
data.groupby('category').sum()

# 使用逻辑操作符满足多个条件
data[(data['age'] > 30) & (data['gender'] == 'M')]

数据排序

# 按指定列排序
data.sort_values('age', inplace=True)

数据统计

# 基本统计信息
data.describe()

# 计算均值
data.mean()

# 计算标准差
data.std()

# 计算中位数
data.median()

NumPy

NumPy 中最常用的就是 ndarray 类型，它是一个 N 维数组，可以进行各种矩阵运算。

以下是一些 NumPy 基本用法的示例：

创建 ndarray

import numpy as np

# 从列表创建一维数组
a = np.array([1, 2, 3])

# 从列表创建二维数组
b = np.array([[1, 2], [3, 4]])

# 从元组创建空数组
c = np.empty((2, 3))

# 从元组创建全是 0 的数组
d = np.zeros((2, 3))

# 从元组创建全是 1 的数组
e = np.ones((2, 3))

数组运算

# 加法
a + b

# 减法
a - b

# 乘法
a * b

# 矩阵乘法
np.dot(a, b)

# 平方根
np.sqrt(a)

# 指数函数
np.exp(a)

# 求和
np.sum(a)

总结

本文介绍了 Pandas 和 NumPy 的基础用法，包括如何读取、处理、过滤、排序和统计数据。它们是 Python 中必不可少的库，对于数据分析和处理非常有用。通过本文的示例，您可以更好地理解它们的用法，更好地处理和分析数据。