Python网页抓取教程(1)

📌 相关文章

📜 Python网页抓取教程(1)

📅 最后修改于: 2023-12-03 14:46:47.448000 🧑 作者: Mango

Python 网页抓取教程

在现代互联网时代，网页已经成为获取各种信息的主要途径之一。而对于程序员来说，如何利用 Python 抓取网页数据则显得尤为重要。本教程将教你如何使用 Python 来实现简单的网页抓取功能，从而获取需要的数据。

准备工作

在开始学习 Python 网页抓取之前，我们需要先安装一些必要的 Python 库。具体来说，我们需要安装以下库：

requests：用于发送 HTTP 请求，从而获取网页内容；
BeautifulSoup4：用于解析 HTML 文档，并提取我们需要的数据。

你可以通过以下命令来安装这两个库：

pip install requests beautifulsoup4

网页抓取实例

在讲解完必要的准备工作之后，让我们来看一个网页抓取的实例。本实例将抓取豆瓣电影 Top 250 的数据，并将电影的名称、评分、导演等信息输出到命令行。

import requests
from bs4 import BeautifulSoup

# 请求网页
url = 'https://movie.douban.com/top250'
response = requests.get(url)

# 解析网页
soup = BeautifulSoup(response.text, 'html.parser')

# 获取电影列表
movie_list = soup.find(class_="article").find_all('li')

# 循环打印电影信息
for movie in movie_list:
    # 获取电影名称
    name = movie.find(class_="title").string

    # 获取电影评分
    rating = movie.find(class_="rating_num").string

    # 获取电影导演和演员
    bd = movie.find(class_="bd").get_text().split('\n')
    director = bd[1].strip().split(':')[1].strip()
    actors = bd[2].strip().split(':')[1].strip()

    # 打印电影信息
    print(f'电影名称：{name}\n电影评分：{rating}\n导演：{director}\n演员：{actors}\n')

上述代码首先请求了豆瓣电影 Top 250 的网页，并将得到的网页内容传递给 BeautifulSoup 进行解析。接着，我们通过查找 HTML 标签获取到电影列表，并对每个电影依次提取其名称、评分、导演和演员等信息。

最后，我们通过循环打印每个电影的信息，从而完成了简单的网页抓取功能。

总结

本教程主要介绍了如何使用 Python 利用 requests 和 BeautifulSoup 库来进行网页抓取。希望读者通过本教程的学习，能够掌握网页抓取的基本步骤，并能够应用到实际的项目中。