【GUI软件】小红书按关键词批量采集笔记详情，支持多关键词，含笔记正文、转评赞藏等

您所在的位置：网站首页 › 小红书爬取话题用户信息 › 【GUI软件】小红书按关键词批量采集笔记详情，支持多关键词，含笔记正文、转评赞藏等

【GUI软件】小红书按关键词批量采集笔记详情，支持多关键词，含笔记正文、转评赞藏等

2024-06-01 11:29| 来源: 网络整理| 查看: 265

一、背景介绍1.1 爬取目标

您好！我是 @马哥python说，一名10年程序猿。

熟悉我的小伙伴都了解，我之前开发过2款软件：

【GUI软件】小红书搜索结果批量采集，支持多个关键词同时抓取！

【GUI软件】小红书详情数据批量采集，含笔记内容、转评赞藏等，支持多笔记同时采集！

而今天介绍的这个软件，相当于以上2个软件的结合版，即根据关键词爬取笔记的详情数据。

开发成界面软件的目的：方便不懂编程代码的小白使用，无需安装python，无需改代码，双击打开即用！

软件界面截图：

软件运行界面

爬取结果截图：

结果截图1结果截图2结果截图3

以上。

1.2 演示视频

软件使用演示：（不懂编程的小白直接看视频，了解软件作用即可，无需看代码）

1.3 软件说明

几点重要说明：

Windows用户可直接双击打开使用，无需Python运行环境，非常方便！

需要填入cookie中的a1值和web_session值

支持按笔记类型（综合/视频/图文）和排序方式（综合/最新/最热）爬取

支持同时爬多个关键词

每个关键词最多可采集220条左右笔记，与网页端数量一致

爬取过程中，每爬一条，存一次csv结果，防止程序异常中断丢失前面的数据（每条间隔1~2s）

爬取过程中，有log文件详细记录运行过程，方便回溯

爬取完成后，自动导出结果到csv文件

爬取共16个字段，含：关键词,笔记id,笔记链接,笔记标题,笔记内容,笔记类型,发布时间,修改时间,IP属地,点赞数,收藏数,评论数,转发数,用户昵称,用户id,用户主页链接。

以上。

二、代码讲解2.1 爬虫采集-搜索接口

首先，定义接口地址作为请求地址：

定义一个请求头，用于伪造浏览器：

加上请求参数，告诉程序你的爬取条件是什么：

2.2 爬虫采集-详情接口

首先，定义接口地址作为请求地址：

定义一个请求头，用于伪造浏览器：

加上请求参数，告诉程序你的爬取条件是什么：

下面就是发送请求和接收数据：

逐个解析字段数据，以"笔记标题"为例：

熟悉xhs的朋友都知道，有些笔记是没有标题的，所以这里加上try保护，防止程序报错导致中断运行。

其他字段同理，不再赘述。

下面就是发送请求和接收数据：

定义一些空列表，用于存放解析后字段数据：

循环解析字段数据，以"笔记标题"为例：

其他字段同理，不再赘述。

最后，是把数据保存到csv文件：

完整代码中，还含有：判断循环结束条件、js逆向解密、笔记类型（综合/视频图文）筛选、排序方式筛选（综合/最新/最热）等关键实现逻辑。

2.3 cookie说明

其中，cookie是个关键参数。

cookie里的a1和web_session获取方法，如下：

查看a1和web_session

这两个值非常重要，软件界面需要填写！！

开发者模式的打开方法：页面空白处->右键->检查。

2.4 软件界面模块

主窗口部分：

输入控件部分：

底部版权部分：

以上。

2.5 日志模块

好的日志功能，方便软件运行出问题后快速定位原因，修复bug。

核心代码：

日志文件截图：

日志文件

以上。

三、获取源码及软件

爱学习的小伙伴，完整python源码及可执行软件，我已打包好，并上传至我的微信公众号"老男孩的平凡之路"，后台回复"爬小红书搜索详情软件"即可获取。

我是@马哥python说，一名10年程序猿，持续分享Python干货中！

【本文地址】

公司简介

联系我们