📜  使用Python从网页中提取标题

📅  最后修改于: 2022-05-13 01:55:28.844000             🧑  作者: Mango

使用Python从网页中提取标题

先决条件使用Python Python Urllib 模块 Web Scraping 工具在 Python 中实现 Web Scraping

在本文中,我们将编写Python脚本从给定的网页 URL 中提取网页的标题。

方法一:bs4 Beautiful Soup(bs4) 是一个Python库,用于从 HTML 和 XML 文件中提取数据。这个模块没有内置于Python中。要安装此类型,请在终端中输入以下命令。

pip install bs4

requests模块允许您非常轻松地发送 HTTP/1.1 请求。这个模块也没有内置于Python中。要安装此类型,请在终端中输入以下命令。

pip install requests

方法:

  • 导入模块
  • 制作请求实例并传入 URL
  • 将请求传递给 Beautifulsoup()函数
  • 使用'title'标签找到他们所有的标签('title')

代码:

Python3
# importing the modules
import requests
from bs4 import BeautifulSoup
  
# target url
url = 'https://www.geeksforgeeks.org/'
  
# making requests instance
reqs = requests.get(url)
  
# using the BeaitifulSoup module
soup = BeautifulSoup(reqs.text, 'html.parser')
  
# displaying the title
print("Title of the website is : ")
for title in soup.find_all('title'):
    print(title.get_text())


Python3
# importing the modules
from urllib.request import urlopen
from bs4 import BeautifulSoup
  
# target url
url = 'https://www.geeksforgeeks.org/'
  
# using the BeaitifulSoup module
soup = BeautifulSoup(urlopen(url))
  
# displaying the title
print("Title of the website is : ")
print (soup.title.get_text())


Python3
# importing the module
from mechanize import Browser
  
# target url
url = 'https://www.geeksforgeeks.org/'
  
# creating a Browser instance
br = Browser()
br.open(url)
  
# displaying the title
print("Title of the website is : ")
print( br.title())


输出:

Title of the website is : 
GeeksforGeeks | A computer science portal for geeks

方法二:在这个方法中,我们将使用urllibBeautifulsoup模块来提取网站的标题。 urllib 是一个包,允许您使用程序访问网页。

安装:

pip install urllib

方法:

  • 导入模块
  • 使用 request.urlopen(URL) 读取 URL。
  • 从 HTML 文档中找到带有 soup.title 的标题

执行:

蟒蛇3

# importing the modules
from urllib.request import urlopen
from bs4 import BeautifulSoup
  
# target url
url = 'https://www.geeksforgeeks.org/'
  
# using the BeaitifulSoup module
soup = BeautifulSoup(urlopen(url))
  
# displaying the title
print("Title of the website is : ")
print (soup.title.get_text())

输出:

Title of the website is : 
GeeksforGeeks | A computer science portal for geeks

方法三:在这个方法中,我们将使用机械化模块。它是Python中的有状态程序化网页浏览。通过简单的 HTML 表单填写和点击链接以编程方式浏览页面。

安装:

pip install mechanize

方法:

  • 导入模块。
  • 初始化 Browser() 实例。
  • 检索网页内容 Browser.open()。
  • 使用 Browser.title() 显示标题

执行:

蟒蛇3

# importing the module
from mechanize import Browser
  
# target url
url = 'https://www.geeksforgeeks.org/'
  
# creating a Browser instance
br = Browser()
br.open(url)
  
# displaying the title
print("Title of the website is : ")
print( br.title())

输出:

Title of the website is : 
GeeksforGeeks | A computer science portal for geeks