📌  相关文章
📜  beautifulsoup 从网站获取数据 - Python (1)

📅  最后修改于: 2023-12-03 15:29:36.524000             🧑  作者: Mango

beautifulsoup 从网站获取数据 - Python

BeautifulSoup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。它通常用于 web scraping 程序中,其操作步骤如下:

  1. 发送 HTTP 请求获取网页内容
  2. 解析网页内容,获取所需数据
  3. 对数据进行处理

下面我们将演示如何使用 BeautifulSoup 从网站获取数据。

准备工作

首先,我们需要安装 BeautifulSoup。打开终端并输入以下命令:

pip install beautifulsoup4

此命令将安装 BeautifulSoup 包。

代码实现

以下代码展示了如何使用 BeautifulSoup 从指定的网站获取数据,并打印其标题和正文内容。

import requests
from bs4 import BeautifulSoup

# 发送 HTTP 请求获取网页内容
url = 'https://www.example.com'
response = requests.get(url)

# 解析网页内容,获取所需数据
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title.string
content = soup.find('div', class_='content').get_text()

# 对数据进行处理
print('Title: {}'.format(title))
print('Content: {}'.format(content))

上述代码将从 https://www.example.com 获取网页内容,并使用 BeautifulSoup 对其进行解析,随后从中提取标题和正文内容,最后将结果打印输出。

结论

BeautifulSoup 是一个用于从 HTML 和 XML 文件中提取数据的 Python 库,它可以帮助开发者轻松地从网站获取数据。它具有友好的 API 和丰富的文档,是完成 web scraping 程序的理想选择。