📜  使用 R 语言从网页中提取所有 URL(1)

📅  最后修改于: 2023-12-03 14:49:45.997000             🧑  作者: Mango

使用 R 语言从网页中提取所有 URL

本文将介绍如何使用 R 语言从网页中提取所有 URL。这在网络爬虫和数据分析中非常常见,可以帮助我们从各种网站中收集数据。我们将介绍使用 rvest 包在 R 中提取 URL 的方法。

安装 rvest

第一步是安装 rvest 包。您可以使用以下命令在 R 中完成安装:

install.packages("rvest")
提取 URL

假设我们要从 Google 的首页提取所有链接。我们可以使用以下代码完成:

library(rvest)

url <- "https://www.google.com/"
html <- read_html(url)

links <- html %>%
  html_nodes("a") %>%
  html_attr("href")

links

我们首先将 rvest 包导入 R。然后指定 URL 并使用 read_html() 函数将 HTML 内容读取到变量 html 中。接着,我们使用 html_nodes() 函数和 CSS 选择器 a 来选择所有 a 标签,然后使用 html_attr() 函数和属性名称 href 来提取所有链接。最后,我们将链接存储在变量 links 中并将其打印出来。

如果要将链接保存到文件中,可以使用以下代码:

write.csv(links, file = "links.csv")

这将链接保存为 CSV 文件 links.csv

总结

在本文中,我们介绍了如何使用 R 语言从网页中提取所有 URL。我们使用 rvest 包来选择所有 a 标签并提取它们的 href 属性。这是一个有用的技能,可以帮助我们从网站中收集数据。