如何爬取小红书文章 您所在的位置:网站首页 小红书爬取某个人的关注列表 如何爬取小红书文章

如何爬取小红书文章

2024-04-06 04:34| 来源: 网络整理| 查看: 265

纯技术研究分享

先说思路,正常小红书的文章,如果想通过网页爬取,需要知道文章的id,

例如:‘https://www.xiaohongshu.com/explore/64bbad45000000001700d709’ 

网页端爬取:

1.思路是通过无头浏览器,利用python就可以模拟账号验证码登录,这个有点麻烦,也可以把二维码截图,拍了发到企业微信(助手)群里,收到的时候扫码(容易封号)登录

可以用搜索的方式找到你要的文章或者视频资源。

这个是找标题,图片和视频也是类似的方法//div/*[@id="detail-title"]

爬到后就可以自己存入mysql或者mongodb,这里不得不提一下,小红书的图片尽然没加水印,这就造成了很多的原文章被数据公司窃取的风险,最近看到小红书的图片改成webp格式了,估计也快了。

方法2:

用安卓app写一个模拟操作的程序,可以模拟用户登录,然后搜索你要的信息,爬取文章的接口

抓安卓的网络包,方法还是python的selenium,webdriver安卓辅助模式,存mysql。都有封号的风险,最好使用代理,切换一下账号。

3.思路三,是用微信小程序的文章列表爬取,这个比较容易点。

以上是目前能用的方式,都有封号的风险,作为技术研究可以交流,商业应用涉及小红书公司信息安全,以上均为学习经验,不要用于商业,不要用于商业,不要用于商业。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有