📜  用于数据分析的 Pandas 和 NumPy 练习(1)

📅  最后修改于: 2023-12-03 15:27:11.224000             🧑  作者: Mango

用于数据分析的 Pandas 和 NumPy 练习

介绍

Pandas 和 NumPy 是 Python 中用于数据科学和分析的两个重要的库。Pandas 是一个专门用于数据操作的库,使数据的清洗和分析变得更加简单。NumPy 是一个用于数值计算和矩阵运算的库,提供了一个基于数组的数据结构来处理数学运算。

本文将介绍 Pandas 和 NumPy 的基础知识和用法,包括但不限于如何读取、处理、过滤、排序和统计数据。通过这些例子,您将熟悉这两个库,更好地理解如何处理数据和分析数据。

Pandas

Pandas 可以处理多种类型的数据结构,常用的有 Series 和 DataFrame。Series 是一个一维的数据结构,类似于 Python 中的列表或数组。DataFrame 是一个二维的结构,可以看作是由多个 Series 组成的表格。

以下是一些 Pandas 基本用法的示例:

读取数据
import pandas as pd

# 读取 CSV 文件
data = pd.read_csv('data.csv')

# 读取 Excel 文件
data = pd.read_excel('data.xlsx')

# 读取 SQL 数据库
import sqlite3
conn = sqlite3.connect('database.db')
data = pd.read_sql_query('SELECT * FROM Users', conn)
数据清洗
# 删除重复行
data.drop_duplicates(inplace=True)

# 处理缺失值
data.dropna()      # 删除带有缺失值的行
data.fillna(value) # 用指定值填充缺失值
数据过滤
# 筛选出满足条件的行
data[data['age'] > 30]

# 按条件分组并对分组后的数据进行聚合操作
data.groupby('category').sum()

# 使用逻辑操作符满足多个条件
data[(data['age'] > 30) & (data['gender'] == 'M')]
数据排序
# 按指定列排序
data.sort_values('age', inplace=True)
数据统计
# 基本统计信息
data.describe()

# 计算均值
data.mean()

# 计算标准差
data.std()

# 计算中位数
data.median()
NumPy

NumPy 中最常用的就是 ndarray 类型,它是一个 N 维数组,可以进行各种矩阵运算。

以下是一些 NumPy 基本用法的示例:

创建 ndarray
import numpy as np

# 从列表创建一维数组
a = np.array([1, 2, 3])

# 从列表创建二维数组
b = np.array([[1, 2], [3, 4]])

# 从元组创建空数组
c = np.empty((2, 3))

# 从元组创建全是 0 的数组
d = np.zeros((2, 3))

# 从元组创建全是 1 的数组
e = np.ones((2, 3))
数组运算
# 加法
a + b

# 减法
a - b

# 乘法
a * b

# 矩阵乘法
np.dot(a, b)

# 平方根
np.sqrt(a)

# 指数函数
np.exp(a)

# 求和
np.sum(a)
总结

本文介绍了 Pandas 和 NumPy 的基础用法,包括如何读取、处理、过滤、排序和统计数据。它们是 Python 中必不可少的库,对于数据分析和处理非常有用。通过本文的示例,您可以更好地理解它们的用法,更好地处理和分析数据。