📜  Pyspark – 将 JSON 转换为 DataFrame

📅  最后修改于: 2022-05-13 01:54:45.406000             🧑  作者: Mango

Pyspark – 将 JSON 转换为 DataFrame

在本文中,我们将在 Pyspark 中将 JSON 字符串转换为 DataFrame。

方法一:使用 read_json()

我们可以使用 pandas.read_json 读取 JSON 文件。这个方法主要用于通过pandas读取JSON文件。

这里我们将使用这个 JSON 文件进行演示:



代码:

Python3
# import pandas to read json file
import pandas as pd
  
# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
  
# creating a dataframe from the json file named student
dataframe = spark.createDataFrame(pd.read_json('student.json'))
  
# display the dataframe (Pyspark dataframe)
dataframe.show()


Python3
# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# read json file
data = spark.read.json('college.json')
  
# display json data
data.show()


输出:

方法二:使用 spark.read.json()

这用于从文件中读取 json 数据并以数据框的形式显示数据

用于演示的 JSON 文件:

代码:

蟒蛇3

# importing module
import pyspark
  
# importing sparksession from pyspark.sql module
from pyspark.sql import SparkSession
  
# creating sparksession and giving an app name
spark = SparkSession.builder.appName('sparkdf').getOrCreate()
  
# read json file
data = spark.read.json('college.json')
  
# display json data
data.show()

输出: