📜  R-Web数据

📅  最后修改于: 2020-11-29 07:49:36             🧑  作者: Mango


许多网站提供供用户使用的数据。例如,世界卫生组织(WHO)以CSV,txt和XML文件的形式提供有关健康和医疗信息的报告。使用R程序,我们可以以编程方式从此类网站中提取特定数据。 R中用于从Web抓取数据的某些软件包是-“ RCurl”,XML”和“ stringr”,它们用于连接到URL,标识文件的必需链接并将其下载到本地环境。

安装R包

需要以下软件包来处理URL以及指向文件的链接。如果它们在R环境中不可用,则可以使用以下命令进行安装。

install.packages("RCurl")
install.packages("XML")
install.packages("stringr")
install.packages("plyr")

输入数据

我们将访问URL天气数据,并使用R下载2015年的CSV文件。

我们将使用getHTMLLinks()函数来收集文件的URL。然后,我们将使用函数download.file()将文件保存到本地系统。由于我们将一次又一次地对多个文件应用相同的代码,因此我们将创建一个被多次调用的函数。文件名以R列表对象的形式作为参数传递给此函数。

# Read the URL.
url 

验证文件下载

运行上面的代码后,您可以在当前的R工作目录中找到以下文件。

"JCMB_2015.csv" "JCMB_2015_Apr.csv" "JCMB_2015_Feb.csv" "JCMB_2015_Jan.csv"
   "JCMB_2015_Mar.csv"