📜  Python|熊猫 dataframe.info()(1)

📅  最后修改于: 2023-12-03 14:46:30.040000             🧑  作者: Mango

Python Pandas DataFrame.info()

介绍

Pandas是Python下面最流行的数据操作和分析库。它提供了DataFrame类型,该类型旨在处理带标签列和行的多维数组。DataFrame.info()是一个将有关DataFrame的详细信息输出到控制台的方法。

DataFrame.info() 方法返回DataFrame的各个列的数据类型、有多少非空值、内存使用情况和DataFrame的总行数等信息。这对于了解数据集的一般属性非常有用,可能有助于指导处理数据缺失值的决策以及在进行数据可视化之前必要的数据预处理步骤。

用法

要使用此方法,请在DataFrame名称后面键入.info()即可,例如:

import pandas as pd

df = pd.read_csv('data.csv')

df.info()

输出将是类似于下面这样的表:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
#   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      1000 non-null   object 
 1   Age       1000 non-null   int64  
 2   Gender    1000 non-null   object 
 3   Location  1000 non-null   object 
dtypes: int64(1), object(3)
memory usage: 31.4+ KB
  • <class 'pandas.core.frame.DataFrame'> 表示这是一个 DataFrame 对象
  • RangeIndex: 1000 entries, 0 to 999 表示该 DataFrame 共有 1000 行, 其中 0-999 的索引是默认的,可以通过指定索引进行修改
  • Data columns (total 4 columns): 表示该 DataFrame 的所有列 ,[ ] 中的数字为其包含的值的数量
  • Column Non-Null Count Dtype 表示每个列的名称、该列的非 NULL 值的数量以及该列的数据类型。
  • memory usage: 31.4+ KB 表示该 DataFrame 占用内存的字节数
返回的值

DataFrame.info() 方法返回DataFrame的元数据。在行数,列数,列名称,缺失值等特性的数据框架上提供个性化的汇编和摘要信息。

返回一个包含以下信息的字符串:

  • DataFrame 的行范围、列名称和列计数的描述
  • 每列非空元素的数量和数据类型

最后,还提供了对内存使用情况的描述。

示例

下面是一个具体的 DataFrame.info() 方法示例,给出一个名为 data 的 DataFrame 对象,它包含有三列:

import pandas as pd

data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Dave', 'Eve'],
    'age': [25, 35, 20, None, 40],
    'gender': ['F', 'M', 'M', 'M', '-']
}

df = pd.DataFrame(data)

df.info()

输出结果为:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      object 
 1   age     4 non-null      float64
 2   gender  5 non-null      object 
dtypes: float64(1), object(2)
memory usage: 248.0+ bytes

可以看到,该表有 5 行,每列的数据类型以及缺失值的计数。由于第 4 行缺少年龄数据,因此只统计了 4 个非空值,通过此结果可以轻松了解整个数据集的有效信息。

总结

在Python Pandas中,DataFrame.info() 方法可以帮助您深入了解数据集的属性。它提供了每列的数据类型、缺少值的计数以及DataFrame的行数等信息。在数据分析过程中,了解数据在内存中占用的空间和缺少数据项对其他数据项的影响等问题是非常重要的。此外,DataFrame.info() 方法比较简单且易于理解,也是Pandas库的入门方法之一。