📜  python 获取 html 信息 - Python (1)

📅  最后修改于: 2023-12-03 14:46:17.908000             🧑  作者: Mango

Python 获取 HTML 信息

Python 是一种非常流行的编程语言,它被广泛应用于编写 Web 应用程序和数据分析。Python 中有许多库可以帮助我们获取 HTML 信息,包括标准库和第三方库。本文将介绍主要的几种方法。

使用 urllib

urllib 是 Python 的标准库之一,可以用来处理 URL。我们可以使用它来获取 HTML 信息。

import urllib.request

url = "http://www.example.com/"

html = urllib.request.urlopen(url).read().decode("utf8")

print(html)

上面的代码发送了一个 GET 请求,从 URL 中获取 HTML 信息,然后将 HTML 内容解码为 UTF-8 格式并打印出来。

使用 requests

requests 是一个非常方便的第三方库,可以用来发送 HTTP 请求并获取响应。我们可以使用它来获取 HTML 信息。

import requests

url = "http://www.example.com/"

response = requests.get(url)

html = response.content.decode("utf8")

print(html)

上面的代码发送了一个 GET 请求,从 URL 中获取 HTML 信息,然后将 HTML 内容解码为 UTF-8 格式并打印出来。

使用 BeautifulSoup

BeautifulSoup 是一个第三方库,可以用来解析 HTML 信息。我们可以使用它来获取 HTML 信息。

import requests
from bs4 import BeautifulSoup

url = "http://www.example.com/"

response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

print(soup.prettify())

上面的代码发送了一个 GET 请求,从 URL 中获取 HTML 信息,然后使用 BeautifulSoup 解析 HTML 信息并将其美化输出。

总结

本文介绍了如何使用 Python 中的一些库来获取 HTML 信息,包括 urllib、requests 和 BeautifulSoup。使用这些方法可以帮助我们获取 Web 上的信息,并将其用于数据分析和其他目的。