简单爬取微博评论详细解析，学习爬取ajax异步数据交换动态网页

您所在的位置：网站首页 › 为什么微博用户界面不一样呢 › 简单爬取微博评论详细解析，学习爬取ajax异步数据交换动态网页

简单爬取微博评论详细解析，学习爬取ajax异步数据交换动态网页

2024-07-13 09:40:33| 来源: 网络整理| 查看: 265

爬取微博评论详细解析，学习爬取ajax异步数据交换动态网页 1.什么是ajax异步数据交换网页 2.用到的工具模块和简单解释 3.网页内容解析 4.代码实现及解释

1.什么是ajax异步数据交换网页

简单来说，就像微博评论一样，你获取新的内容不需要翻页，一直在固定的一个网页不断往下拉就行，手机端和电脑端都是如此；这样的网页用，把信息不断地数出在同一个网页上地技术就是ajax，具体地不必再说，直接切入爬取正题。

2.用到的工具模块和简单解释

1.爬虫主要模块 requests模块 2.用于计时的time模块 3.用于随机获取指定内容的random模块当然，time模块和random模块可以不需要，就能完成所有爬取功能。不过，使用Time 是可以看一下爬取耗时，如果耗时太久想办法优化，也可以用于延迟程序运行一小段时间（就是创造爬取间隔时间），使用random是为了构造user-agent池。延迟程序运行一小段时间和构造user-agent 池都是为了防止微博发现你在爬取评论，微博反爬能力还是强的，我刚开始没用的程序延迟的时候，老是被反爬，被反爬的时候不仅爬取不到信息，连你网页上的评论也不给你看了，要等十几分钟才能恢复。我在爬取很多条博客的时候，亲身实验，每一页爬取时间间隔在1-2s，爬取效果比较稳妥，使用user-agent池交替更换user-agent 就可以缩短爬取时间间隔至0-1s。

3.网页内容解析

1.我爬的是移动端微博，微博主页网页https://m.weibo.cn 2.随便选取一条评论数较多的微博，点进去（我随便找了一篇7000多评论的）在这里插入图片描述 3.解析第一步 f12 ，你懂的。。。找到network,再找到XHR,点进去。（XHR存放的就是通过ajax方式传递信息的文本，这些文本也是网页，网页内容是标准的json（json可以理解为str化的字典） 4.在这个页面上，光标移到左边的网页不断往下拉看评论，使劲拉到，左边的XHR里面就会产生新的文件，没错这些就是不断呈现给网页的评论数据了（上衣张图还是只有一个文件，现在有好多）在这里插入图片描述 5.每一个文件装有一定数量的评论信息（你可以观察很多文件是重复的，不必理会），可以点进去双击具体查看内容，这就是我们爬取的目标了。要爬取所有评论，当然要爬取完所有的这些文件（也就是网页），现在问题是，我们怎么获取这些网页的链接呢，不可能一直拉下去拉到头呀，就算你想拉下去让他们全部刷新也要花好久。

6.怎么找到所有链接呢？注意看我红色圈圈的两条，它们后面有两串数字，mid=xxxxxx，和max_id=xxxxxxx，还有一个max_id_type,两个链接的mid是相同的（因为它是这篇博文的id，这篇博文的所有mid当然相同），max_id是不相同的，（max_id_type这两条都是0，但是后面的不一定是），所以所有这些链接的区别仅仅是max_id和max_id_type的数值了，现在就要去找它们的关系。

7.大胆猜测一下，上一条链接必定存储着怎么打开下一个链接的信息，也就是max_id和max_id_type。点开一个链接的priview可以大致查看它的信息。在这里插入图片描述点开小箭头：一点开就会发现下一条链接的信息了。所以目标就是爬取这一条链接评论的信息的时候，记录下一条信息的max_id和max_id_type

8.找到了不断爬取的方式，那现在就要来找到我们爬取的主要内容，还是在上一张图的priview中不断点开小箭头查去更多内容。在这里插入图片描述

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

简单爬取微博评论详细解析，学习爬取ajax异步数据交换动态网页

简单爬取微博评论详细解析，学习爬取ajax异步数据交换动态网页

今日新闻

点击排行

推荐新闻

图片新闻

专题文章