使用 BeautifulSoup 将 HTML 转换为文本(1)

📌 相关文章

📜 使用 BeautifulSoup 将 HTML 转换为文本(1)

📅 最后修改于: 2023-12-03 14:49:37.522000 🧑 作者: Mango

使用 BeautifulSoup 将 HTML 转换为文本

在网页爬虫应用开发中，我们常常会遇到将 HTML 转换为文本的需求，这个时候就需要用到 BeautifulSoup 这个非常强大的 Python 库了。

安装

在开始使用之前，需要先安装 BeautifulSoup，可以通过以下命令安装：

pip install beautifulsoup4

基本用法

使用 BeautifulSoup 将 HTML 转换为文本，主要有两个方法：

get_text()：获取 HTML 中所有文本，忽略标签和标签属性。
prettify()：美化 HTML 格式，可以方便地获取想要的标签和属性。

下面是一个简单的例子：

from bs4 import BeautifulSoup

html = '<html><head><title>这是标题</title></head><body><p>这是一段文本</p></body></html>'
soup = BeautifulSoup(html, 'html.parser')

# 获取所有文本
text = soup.get_text()
print(text)

# 美化 HTML 格式并获取某个标签
prettified_html = soup.prettify()
print(prettified_html)

p_tag = soup.find('p')
print(p_tag)

运行结果如下：

这是标题

这是一段文本

<html>
 <head>
  <title>
   这是标题
  </title>
 </head>
 <body>
  <p>
   这是一段文本
  </p>
 </body>
</html>


<p>这是一段文本</p>

从上面的结果可以看到，使用 get_text() 方法可以获取 HTML 内容中的所有文本，而使用 prettify() 方法则可以美化 HTML 格式。

总结

BeautifulSoup 是一款非常强大的 Python 库，可以帮助我们将 HTML 转换为文本，并且提供了丰富的功能，可以帮助我们更准确地获取想要的内容。如果你有 HTML 解析的需求，不妨尝试一下 BeautifulSoup，相信你一定会喜欢它！

使用 BeautifulSoup 将 HTML 转换为文本

安装

基本用法

更多功能

总结