📜  Requests-使用请求进行网页搜集

📅  最后修改于: 2020-10-21 08:38:47             🧑  作者: Mango


 

我们已经了解了如何使用Python请求库从给定的URL获取数据。我们将尝试使用以下方法从Tutorialspoint网站(位于https://www.tutorialspoint.com/tutorialslibrary.htm上)中收集数据-

  • Requests库
  • 来自Python的Beautiful soup库

我们已经安装了Requests库,现在让我们安装Beautiful soup软件包。如果您想探索美丽汤的更多功能,这里是https://www.crummy.com/software/BeautifulSoup/bs4/doc/上提供的美丽汤官方网站。

安装Beautifulsoup

我们将在下面看到如何安装Beautiful Soup-

E:\prequests>pip install beautifulsoup4
Collecting beautifulsoup4
Downloading https://files.pythonhosted.org/packages/3b/c8/a55eb6ea11cd7e5ac4ba
cdf92bac4693b90d3ba79268be16527555e186f0/beautifulsoup4-4.8.1-py3-none-any.whl
(
101kB)
|████████████████████████████████| 102kB 22kB/s
Collecting soupsieve>=1.2 (from beautifulsoup4)
Downloading https://files.pythonhosted.org/packages/81/94/03c0f04471fc245d08d0
a99f7946ac228ca98da4fa75796c507f61e688c2/soupsieve-1.9.5-py2.py3-none-any.whl
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.8.1 soupsieve-1.9.5

现在,我们已经安装了Python请求库和漂亮的汤。

现在让我们编写代码,该代码将从给定的URL中抓取数据。

网页抓取

import requests
from bs4 import BeautifulSoup
res = requests.get('https://www.tutorialspoint.com/tutorialslibrary.htm')
print("The status code is ", res.status_code)
print("\n")
soup_data = BeautifulSoup(res.text, 'html.parser')
print(soup_data.title)
print("\n")
print(soup_data.find_all('h4'))

使用请求库,我们可以从给定的URL中获取内容,漂亮的汤类库可以帮助解析它并以所需的方式获取详细信息。

您可以使用漂亮的汤库通过Html标签,类,id,css选择器以及更多方式来获取数据。以下是我们得到的输出,其中我们已经打印了页面的标题以及页面上的所有h4标签。

输出

E:\prequests>python makeRequest.py
The status code is 200
Free Online Tutorials and Courses
[

Academic

,

Computer Science

,

Digital Marketing

,

Monuments

,

Machine Learning

,

Mathematics

,

Mobile Development

,

SAP

,

Software Quality

,

Big Data & Analytics

,

Databases

,

Engineering Tutorials

,

Mainframe Development

,

Microsoft Technologies

,

Java Technologies

,

XML Technologies

,

Python Technologies

,

Sports

,

Computer Programming

,

DevOps

,

Latest Technologies

,

Telecom

,

Exams Syllabus

,

UPSC IAS Exams

,

Web Development

,

Scripts

,

Management

,

Soft Skills

,

Selected Reading

,

Misc

]