使用Python从给定的 HTML 中提取 CSS 标签

先决条件：使用 BeautifulSoup 在Python中实现 Web Scraping

在本文中，我们将了解如何使用Python从 HTML 文档或 URL 中提取 CSS。

所需模块：

bs4: Beautiful Soup(bs4) 是一个Python库，用于从 HTML 和 XML 文件中提取数据。这个模块没有内置于Python中。要安装此类型，请在终端中输入以下命令。

pip install bs4

请求：请求允许您非常轻松地发送 HTTP/1.1 请求。这个模块也没有内置于Python中。要安装此类型，请在终端中输入以下命令。

pip install requests

方法：

导入模块
创建一个 HTML 文档并在代码中指定 CSS 标签
将 HTML 文档传递给 Beautifulsoup()函数
现在使用 select() 方法遍历标签。

执行：

Python3

# import module
from bs4 import BeautifulSoup
  
# Html doc
html_doc = """


Geeks


paragraphs
  
Welcome geeks.
  
  
Hello geeks.
  
java
python


"""
soup = BeautifulSoup(html_doc, "lxml")
  
# traverse CSS from soup
print("display by CSS class:")
print(soup.select(".example"))

Python3

# import module
from bs4 import BeautifulSoup
import requests
  
# link for extract html data
# Making a GET request 
      
def getdata(url):
    r=requests.get(url)
    return r.text
html_doc = getdata('https://www.geeksforgeeks.org/')
soup = BeautifulSoup(html_doc,"lxml")
  
# traverse CSS from soup
  
print("\nTags by CSS class:")
print(soup.select(".header-main__wrapper"))

输出：

display by CSS class:
[java, 
python]

现在让我们获取带有 URL 的 CSS 标签：

蟒蛇3

# import module
from bs4 import BeautifulSoup
import requests
  
# link for extract html data
# Making a GET request 
      
def getdata(url):
    r=requests.get(url)
    return r.text
html_doc = getdata('https://www.geeksforgeeks.org/')
soup = BeautifulSoup(html_doc,"lxml")
  
# traverse CSS from soup
  
print("\nTags by CSS class:")
print(soup.select(".header-main__wrapper"))

输出：