【GUI软件】小红书按关键词批量采集笔记详情,支持多关键词,含笔记正文、转评赞藏等 | 您所在的位置:网站首页 › 小红书爬取话题用户信息 › 【GUI软件】小红书按关键词批量采集笔记详情,支持多关键词,含笔记正文、转评赞藏等 |
一、背景介绍1.1 爬取目标 您好!我是 @马哥python说,一名10年程序猿。 熟悉我的小伙伴都了解,我之前开发过2款软件: 【GUI软件】小红书搜索结果批量采集,支持多个关键词同时抓取! 【GUI软件】小红书详情数据批量采集,含笔记内容、转评赞藏等,支持多笔记同时采集! 而今天介绍的这个软件,相当于以上2个软件的结合版,即根据关键词爬取笔记的详情数据。 开发成界面软件的目的:方便不懂编程代码的小白使用,无需安装python,无需改代码,双击打开即用! 软件界面截图: 软件运行界面爬取结果截图: 结果截图1结果截图2结果截图3以上。 1.2 演示视频软件使用演示:(不懂编程的小白直接看视频,了解软件作用即可,无需看代码) 1.3 软件说明几点重要说明: Windows用户可直接双击打开使用,无需Python运行环境,非常方便! 需要填入cookie中的a1值和web_session值 支持按笔记类型(综合/视频/图文)和排序方式(综合/最新/最热)爬取 支持同时爬多个关键词 每个关键词最多可采集220条左右笔记,与网页端数量一致 爬取过程中,每爬一条,存一次csv结果,防止程序异常中断丢失前面的数据(每条间隔1~2s) 爬取过程中,有log文件详细记录运行过程,方便回溯 爬取完成后,自动导出结果到csv文件 爬取共16个字段,含:关键词,笔记id,笔记链接,笔记标题,笔记内容,笔记类型,发布时间,修改时间,IP属地,点赞数,收藏数,评论数,转发数,用户昵称,用户id,用户主页链接。 以上。 二、代码讲解2.1 爬虫采集-搜索接口首先,定义接口地址作为请求地址: 定义一个请求头,用于伪造浏览器: 加上请求参数,告诉程序你的爬取条件是什么: 2.2 爬虫采集-详情接口首先,定义接口地址作为请求地址: 定义一个请求头,用于伪造浏览器: 加上请求参数,告诉程序你的爬取条件是什么: 下面就是发送请求和接收数据: 逐个解析字段数据,以"笔记标题"为例: 熟悉xhs的朋友都知道,有些笔记是没有标题的,所以这里加上try保护,防止程序报错导致中断运行。 其他字段同理,不再赘述。 下面就是发送请求和接收数据: 定义一些空列表,用于存放解析后字段数据: 循环解析字段数据,以"笔记标题"为例: 其他字段同理,不再赘述。 最后,是把数据保存到csv文件: 完整代码中,还含有:判断循环结束条件、js逆向解密、笔记类型(综合/视频图文)筛选、排序方式筛选(综合/最新/最热)等关键实现逻辑。 2.3 cookie说明其中,cookie是个关键参数。 cookie里的a1和web_session获取方法,如下: 查看a1和web_session这两个值非常重要,软件界面需要填写!! 开发者模式的打开方法:页面空白处->右键->检查。 2.4 软件界面模块主窗口部分: 输入控件部分: 底部版权部分: 以上。 2.5 日志模块好的日志功能,方便软件运行出问题后快速定位原因,修复bug。 核心代码: 日志文件截图: 日志文件以上。 三、获取源码及软件爱学习的小伙伴,完整python源码及可执行软件,我已打包好,并上传至我的微信公众号"老男孩的平凡之路",后台回复"爬小红书搜索详情软件"即可获取。 我是@马哥python说,一名10年程序猿,持续分享Python干货中! |
CopyRight 2018-2019 实验室设备网 版权所有 |