📌  相关文章
📜  在数据框中获取随机行 - Python (1)

📅  最后修改于: 2023-12-03 14:51:27.560000             🧑  作者: Mango

在数据框中获取随机行 - Python

在进行数据科学任务时,经常需要随机抽样从数据集中获取一定数量的样本行。在 Python 中,可以使用 Pandas 中的 sample() 方法获取随机行。

语法
df.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)

其中:

  • n: 返回的行数。
  • frac: 随机抽取的行占原始数据框的比例。
  • replace: 是否有重复抽样的情况。
  • weights: 每个样本行的权重。
  • random_state: 随机数种子,用于重复结果。
  • axis: 在哪个维度上抽样,默认为行(axis=0)。

nfrac 不能同时使用,如果同时使用,会优先使用 n

示例
import pandas as pd

# 读取数据集
df = pd.read_csv('data.csv')

# 随机抽取 5 行
sampled_df = df.sample(n=5)

# 随机抽取 10% 的行
sampled_df = df.sample(frac=0.1)

# 随机抽取 10 行,有重复抽样
sampled_df = df.sample(n=10, replace=True)
结论

使用 Pandas 中的 sample() 方法,可以非常方便地从数据框中获取随机行,扩大数据集的覆盖面,增加模型的准确度。