R语言：rvest抓取网页信息

#R语言：rvest抓取网页信息| 来源: 网络整理| 查看: 265

好久没有用R了，今天复习了下，用rvest写了个抓取 http://pubmed.cn 网站关键字搜索结果的脚本，分享一下。

需求按关键字搜索, 并记录文章列表中的链接等信息。打开文章页面, 提取其中的abstract摘要信息。分析网站请求

打开网站, 输入关键字 disease ，可以得到搜索链接，明显是GET请求 http://pubmed.cn/search?q=disease&p=2&pn=20&vt=Summary&ot=PublicationDate&st=main&dt=&ft= 观察链接，可以看出 q=disease 是关键字, p=2 是页码, pn=20 是每页记录数, 其它的参数也都可以尝试出来

搜索列表抓取函数 library("rvest") getPageList % html_attr("href") # 选择authors等标签内的文本, 并进行gsub处理掉其中的空格等多余字符 authors % html_text() %>% gsub(pattern=" {2,}|\n|\r", replacement="") sources % html_text() %>% gsub(pattern="\r|\n *", replacement=" ") pmid % html_text() %>% gsub(pattern="\r\n| ?|\u00A0",replacement="") # 结果保存入dataframe并返回 iData % gsub(pattern="Abstract(\\n)*(\\t)*|\\n\\t*", replacement="") # 有的页面没有摘要信息, 会返回 character(0) , 需要做个处理, 否则会报错 if (identical(tmp, character(0))){ tmp

【本文地址】

公司简介

联系我们