📜  如何使用Python将 PDF 文件转换为 Excel 文件?

📅  最后修改于: 2022-05-13 01:55:16.642000             🧑  作者: Mango

如何使用Python将 PDF 文件转换为 Excel 文件?

在本文中,我们将看到如何使用Python将 PDF 转换为 Excel 或 CSV 文件。它可以用各种方法来完成,这里我们将使用一些方法。

方法一:使用pdftables_api

这里将使用pdftables_api模块将 PDF 文件转换为任何其他格式。它是一个简单的基于 Web 的API,因此可以从任何编程语言中调用。

安装:

pip install git+https://github.com/pdftables/python-pdftables-api.git

安装后,您需要一个 API KEY。转到PDFTables.com 并注册,然后访问 API页面 查看您的 API 密钥。

对于将 PDF 文件转换为 excel 文件,我们将使用xml()方法。

句法:

xml(pdf_path, xml_path)

下面是实现:

使用的PDF文件:

PDF文件

Python3
# Import Module
import pdftables_api
  
# API KEY VERIFICATION
conversion = pdftables_api.Client('API KEY')
  
# PDf to Excel 
# (Hello.pdf, Hello)
conversion.xlsx("pdf_file_path", "output_file_path")


Python3
# Import Module 
import tabula
  
# Read PDF File
# this contain a list
df = tabula.read_pdf("PDF File Path", pages = 1)[0]
  
# Convert into Excel File
df.to_excel('Excel File Path')


输出:

excel文件

方法 2:使用 tabula-py

这里将使用tabula-py模块将 PDF 文件转换为任何其他格式。

安装:

pip install tabula-py

在开始之前,首先我们需要安装Java并在PATH变量中添加一个Java安装文件夹。

  • 安装Java点击这里
  • 将Java安装文件夹(C:\Program Files (x86)\ Java\jre1.8.0_251\bin)添加到环境路径变量

方法:

  • 使用read_pdf()方法读取PDF文件。
  • 然后我们将使用to_excel()方法将 PDF 文件转换为 Excel 文件。

句法:

read_pdf(PDF File Path, pages = Number of pages, **agrs)

下面是实现:

使用的PDF文件:

PDF文件

蟒蛇3

# Import Module 
import tabula
  
# Read PDF File
# this contain a list
df = tabula.read_pdf("PDF File Path", pages = 1)[0]
  
# Convert into Excel File
df.to_excel('Excel File Path')

输出:

excel文件