爬虫遇到空白页 | 您所在的位置:网站首页 › 百度百科爬虫空白 › 爬虫遇到空白页 |
大约在两个月前,京东动态加载的评论数据还是可以正常访问的,可是有人在我关于京东评论爬虫教程中评论之后我才发现,评论数据页面没法正常查看了。 其实在京东的robots协议中就包含了禁止访问含"?"的url,如下图所示 首先,在确定url没错的情况下,首先想到的肯定是有反爬虫机制。 常见的反爬:要求有登陆状态(例如淘宝)、访问频次检测等 常用的策略:构造cookie、更换浏览器、使用代理ip、selenium模拟点击等 通过抓包分析后发现,这种反爬叫做网页referer,它能够记录你访问新网页前网站的网址,Chrome刷新网页,按F12在network中查看Referer上一个网页地址 这里以python代码为例,讨论应对Referer反爬虫 import requests url = "https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv16247&productId=100000177760&score=0&sortType=5&page=6&pageSize=10&isShadowSku=0&rid=0&fold=1" headers = { 'Accept': '*/*', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36', 'Referer':"https://item.jd.com/100000177760.html#comment"} r = requests.get(url,headers=headers) print(r.text)结果如下 |
CopyRight 2018-2019 实验室设备网 版权所有 |