📜  使用 Pandas 简化数据摄取(1)

📅  最后修改于: 2023-12-03 14:49:44.652000             🧑  作者: Mango

使用 Pandas 简化数据摄取

Pandas 是一个高效、强大、灵活且易于使用的数据处理和分析工具,适合许多不同类型的数据,包括时间序列数据、非结构化数据等。本文将介绍如何使用 Pandas 进行数据摄取,以便程序员更轻松地进行数据处理和分析。

安装 Pandas

在使用 Pandas 之前,需要先安装它。可以使用 pip 工具进行安装,在命令行中执行以下命令:

pip install pandas
导入 Pandas

完成安装后,需要在脚本中导入 Pandas。通常使用以下形式导入:

import pandas as pd
读取数据

使用 Pandas 读取数据非常容易,Pandas 提供了许多内置的读取函数,支持读取各种不同的数据源,例如 CSV、Excel、JSON、SQL 等等。

读取 CSV 文件

使用 read_csv 函数可以读取 CSV 文件。例如,以下代码读取了名为 data.csv 的文件:

df = pd.read_csv('data.csv')
读取 Excel 文件

使用 read_excel 函数可以读取 Excel 文件。例如,以下代码读取了名为 data.xlsx 的文件:

df = pd.read_excel('data.xlsx')
读取 JSON 文件

使用 read_json 函数可以读取 JSON 文件。例如,以下代码读取了名为 data.json 的文件:

df = pd.read_json('data.json')
读取 SQL 数据

使用 read_sql 函数可以读取 SQL 数据。需要提供连接字符串和 SQL 查询语句。例如,以下代码使用 SQLite 数据库读取表 data 中的数据:

import sqlite3

conn = sqlite3.connect('data.db')

df = pd.read_sql('SELECT * FROM data', conn)
数据预览

读取数据后,使用以下代码可以预览数据:

print(df.head())

默认情况下,head 函数返回 DataFrame 的前 5 行数据。可以通过传递参数来指定返回的行数。例如,以下代码返回 DataFrame 的前 10 行数据:

print(df.head(10))
数据处理

Pandas 支持各种数据处理操作,可以帮助你轻松地清理、转换和合并数据。

数据清理

数据清理是数据处理的一个重要部分。通常会遇到缺失值、重复值、异常值等数据问题。使用 Pandas 可以轻松地处理这些问题。

处理缺失值

使用 isnull 函数可以检测数据中的缺失值。例如,以下代码返回 DataFrame 中每列的缺失值个数:

print(df.isnull().sum())

使用 fillna 函数可以填充缺失值。例如,以下代码使用 0 填充 DataFrame 中的缺失值:

df = df.fillna(0)

处理重复值

使用 duplicated 函数可以检测重复值。例如,以下代码返回 DataFrame 中的重复值个数:

print(df.duplicated().sum())

使用 drop_duplicates 函数可以删除重复值。例如,以下代码删除 DataFrame 中的重复值:

df = df.drop_duplicates()
数据转换

数据转换是将数据从一种形式转换为另一种形式的过程。使用 Pandas 可以进行多种类型的数据转换,例如数据类型转换、数据透视等。

数据类型转换

使用 astype 函数可以将数据类型转换为其他类型。例如,以下代码将 DataFrame 中的所有列转换为 float 类型:

df = df.astype(float)

数据透视

使用 pivot_table 函数可以根据数据的某些属性构建数据透视表。例如,以下代码根据数据中的性别和年龄属性构建数据透视表:

df_pivot = df.pivot_table(index=['Gender'], columns=['Age'], values=['Salary'], aggfunc=np.mean)
数据合并

数据合并是将两个或更多数据源组合成一个数据源的过程。使用 Pandas 可以执行多种类型的数据合并,例如连接、合并等。

连接

使用 merge 函数可以将两个 DataFrame 连接在一起。例如,以下代码根据 key 列将两个 DataFrame 连接在一起:

df_merged = pd.merge(df1, df2, on='key')
总结

使用 Pandas 可以轻松地读取、预览、处理和合并数据。可以使用 Pandas 中提供的多种函数和方法,对不同类型的数据进行操作。在进行数据分析和机器学习时,建议使用 Pandas 作为数据摄取和数据处理的首选工具。