📜  熊猫 read_table()函数(1)

📅  最后修改于: 2023-12-03 15:40:49.008000             🧑  作者: Mango

熊猫 read_table()函数介绍

熊猫(Pandas)是一个强大的Python数据分析工具库,广泛应用于数据清洗、分析和处理。其中,read_table()函数是熊猫库中的一个重要函数,用于从文件或URL读取表格形式的数据。

函数描述

read_table()函数可以读取多种类型的表格数据,包括CSV、TSV和最常用的文本文件格式等。该函数支持多种参数配置,包括文件路径、分隔符、列名、行标签等,具体参数详见下表:

| 参数名称 | 类型 | 描述 | 默认值 | | --- | --- | --- | --- | | filepath_or_buffer | str 或文件对象 | 文件路径或文件对象 | 必选 | | sep/delimiter | str | 分隔符 | "\t"(tab键) | | header | int 或列表 | 指定标题所在行/列的索引,如果没有标题则为None
也可以传入列表来设置多级标题 | 0 | | names | 序列 | 注明每个列的名称 | None | | index_col | int 或序列 | 索引列的位置或列名,指定后该列为DataFrame的行标签 | None | | skiprows | 序列 | 要跳过的行数,可以使用整数、标签、序列和函数 | None | | skipfooter | int | 要从底部摘除的行数 | 0 | | nrows | int | 要读取的行数(不包括标题行) | None | | usecols | 序列 | 要返回的列,可以使用整数、标签和序列 | None | | dtype | 字典 | 每列的数据类型 | None | | parse_dates | 序列 | 需要解析为日期时间的列 | False | | infer_datetime_format | bool | 自动推断日期时间格式 | False | | encoding | str | 文件字符编码格式 | None |

代码示例

读取包含电影信息的CSV文件,并创建一个DataFrame对象:

import pandas as pd

# 读取CSV文件
df = pd.read_table("movies.csv", sep=",", header=0,  encoding='utf-8')

读取TSV格式的文件,并指定行索引:

import pandas as pd

# 读取TSV文件
df = pd.read_table("movies.tsv", sep="\t", header=0, index_col=0, encoding='utf-8')

读取从网站获取的HTML表格:

import pandas as pd

# 读取HTML表格
url = 'https://en.wikipedia.org/wiki/World_population'
tables = pd.read_html(url)

# tables返回一个包含DataFrame对象的列表,取第一张表
df = tables[0]

# 显示前5行数据
print(df.head())
总结

通过read_table()函数,我们可以轻松地读取各种文件或URL中的表格数据,并进一步进行数据分析、挖掘和可视化等。熟练掌握该函数的使用方法对于Python数据分析及数据处理的程序员来说是一个必备技能。