📜  python中的dataframe(1)

📅  最后修改于: 2023-12-03 15:34:24.927000             🧑  作者: Mango

Python中的DataFrame

什么是DataFrame

DataFrame是Pandas库中的一个数据结构,它是由行和列组成的二维表格结构。每列可以是不同的数据类型(例如字符串、整数或浮点数等)。

创建DataFrame
从CSV文件创建DataFrame
import pandas as pd

df = pd.read_csv('my_data.csv')
从列表创建DataFrame
data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'gender': ['F', 'M', 'M', 'M']}

df = pd.DataFrame(data)
从字典创建DataFrame
import numpy as np

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'gender': ['F', 'M', 'M', 'M']}

df = pd.DataFrame(data, index=['a', 'b', 'c', 'd'])
DataFrame的属性和方法
数据展示

head()

使用head()方法来展示DataFrame的前几行,默认为前五行。

df.head()

tail()

使用tail()方法来展示DataFrame的后几行,默认为后五行。

df.tail()
列操作

选择列

df['name'] # 选择一列
df[['name', 'age']] # 选择多列

添加列

df['height'] = np.array([165, 180, 173, 190])

删除列

df.drop('age', axis=1, inplace=True)
行操作

按索引选择行

df.loc['b'] # 选择一行
df.loc[['b', 'c']] # 选择多行

按位置选择行

df.iloc[2] # 选择一行
df.iloc[1:3] # 选择多行

添加行

new_data = {'name': 'Eva', 'age': 28, 'gender': 'F', 'height': 170}
df = df.append(new_data, ignore_index=True)

删除行

df.drop(2, axis=0, inplace=True)
数据统计

描述性统计

df.describe() # 得到 DataFrame 的描述性统计信息

按列计算统计信息

df.mean() # 计算df每一列的平均值
df.median() # 计算df每一列的中位数
df.std() # 计算df每一列的标准差
结论

DataFrame是一个非常有用的数据结构,它可以让我们轻松地处理数据集。在Python中使用DataFrame可以非常方便地进行数据清理和分析,而Pandas库则是Python中最流行的数据分析工具之一。