R语言:rvest抓取网页信息 您所在的位置:网站首页 html_nodes R语言:rvest抓取网页信息

R语言:rvest抓取网页信息

#R语言:rvest抓取网页信息| 来源: 网络整理| 查看: 265

好久没有用R了,今天复习了下,用rvest写了个抓取 http://pubmed.cn 网站关键字搜索结果的脚本,分享一下。

需求 按关键字搜索, 并记录文章列表中的链接等信息。 打开文章页面, 提取其中的abstract摘要信息。 分析网站请求

打开网站, 输入关键字 disease ,可以得到搜索链接,明显是GET请求 http://pubmed.cn/search?q=disease&p=2&pn=20&vt=Summary&ot=PublicationDate&st=main&dt=&ft= 观察链接,可以看出 q=disease 是关键字, p=2 是页码, pn=20 是每页记录数, 其它的参数也都可以尝试出来

搜索列表抓取函数 library("rvest") getPageList % html_attr("href") # 选择authors等标签内的文本, 并进行gsub处理掉其中的空格等多余字符 authors % html_text() %>% gsub(pattern=" {2,}|\n|\r", replacement="") sources % html_text() %>% gsub(pattern="\r|\n *", replacement=" ") pmid % html_text() %>% gsub(pattern="\r\n| ?|\u00A0",replacement="") # 结果保存入dataframe并返回 iData % gsub(pattern="Abstract(\\n)*(\\t)*|\\n\\t*", replacement="") # 有的页面没有摘要信息, 会返回 character(0) , 需要做个处理, 否则会报错 if (identical(tmp, character(0))){ tmp


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有