📜  提取超链接 - R 编程语言(1)

📅  最后修改于: 2023-12-03 15:39:51.225000             🧑  作者: Mango

提取超链接 - R 编程语言

在 R 编程语言中,我们经常需要从网页中获取数据。其中最常见的任务是从网页中提取超链接。本文将介绍如何在 R 中使用 rvest 包提取超链接。

步骤
  1. 安装 rvest

    在 R 中安装 rvest 包可以使用以下命令:

    install.packages("rvest")
    
  2. 从网页中获取 HTML 内容

    使用 read_html() 函数读取并解析网页。例如,以下代码获取百度首页的 HTML 内容:

    library(rvest)
    
    url <- "https://www.baidu.com/"
    html <- read_html(url)
    
  3. 提取超链接

    使用 html_nodes() 函数选择包含超链接的节点,并使用 html_attr() 函数提取超链接。例如,以下代码提取百度首页的所有超链接:

    links <- html_nodes(html, "a")
    hrefs <- html_attr(links, "href")
    

    在这里,html_nodes() 函数选择了所有的 <a> 元素,html_attr() 函数提取了这些元素的 href 属性。你可以选择不同的元素和属性来提取你需要的超链接。

  4. 结果

    最后,我们将提取到的超链接列表输出到控制台。

    cat("超链接列表:\n")
    cat(hrefs, sep = "\n")
    

    输出结果应该如下所示:

    超链接列表:
    https://www.baidu.com/gaoji/preferences.html
    http://www.baidu.com/duty/
    http://jianyi.baidu.com/
    ...
    
总结

使用 rvest 包从网页中提取超链接非常简单。只需要使用 html_nodes() 函数选择包含超链接的元素,再使用 html_attr() 函数提取超链接的属性即可。使用上述代码,你可以从任何网页中提取超链接,并将它们用于自己的项目中。