📜  使用简单的 HTML DOM 解析器在PHP抓取网页

📅  最后修改于: 2022-05-13 02:24:09.663000             🧑  作者: Mango

使用简单的 HTML DOM 解析器在PHP抓取网页

Web Scraping 是一种用于从网站中提取大量数据的技术,这些数据被提取并保存到计算机中的本地文件或数据库中,或者可以用作 API。大多数网站显示的数据只能使用网络浏览器查看。它们不提供保存此数据副本以供使用的功能。因此,唯一的选择是复制和粘贴所需的选定数据,这实际上是一项非常乏味的工作,可能需要数小时才能完成。换句话说,Web Scraping 是一种自动化此类过程的技术,代替手动工作,Web Scraping 软件可在几秒钟内执行相同的任务。网页抓取可以通过将选定的 DOM 组件作为目标,然后处理或存储网页的该 DOM 元素之间的文本来完成。为了在PHP做同样的事情,有一个 API 可以解析整个页面并在 DOM 中查找所需的元素。它是简单的 HTML DOM 解析器。要了解有关 Web Scraping 的更多信息,请访问本文。

可以通过单击此链接下载它。

示例 1:下面给出的示例显示了使用此 API 来显示本地主机上的 google 搜索。

  • HTML代码:
    
    
      
    
        
          
        
          
        
          
        Document
    
      
    
        
                                

                            
      
  • PHP代码:
    
    

    输出:本地服务器上的输出是

    示例 2:这里我们将尝试访问 google 的第一个搜索结果上的文本。为此,我们首先将具有第一个结果的 DOM 组件获取到向 google 询问的查询中。在这里,我们从 DOM 中获取具有类“kCrYT”的 span 标签,其中包含所有搜索的详细信息列表,但我们只需要第一个,因此循环只迭代一次。

    • PHP代码:如果您已经在 Google 搜索引擎上搜索过任何内容,则此代码将起作用。
      find('div.kCrYT') as $elements) {
          echo $elements->plaintext;
          break;
      }
      ?>
      
    • 输出:
      GeeksforGeeks is a very fast-growing community among programmers
      and have a reach of around 10 million+ readers globally. Writing will
      surely enhance your knowledge of the subject as before writing any
       topic, you need to be very crisp and clear about it.