【Python】爬虫：微博找人页面爬虫（一）

2024-06-06 19:23| 来源: 网络整理| 查看: 265

最近想通过爬去微博上大V信息来做爬虫练手，于是，在微博-找人页面，看到有许多分类，并且里面都是些大V，页面：https://d.weibo.com/1087030002_417# 在这里插入图片描述上面有许多分类，所以想爬取从明星后的所有分类，共有50个大类，每个大类下有各自的小类，这次就按大类进行爬取。每种大类下面，都包含一定数量的列表页，有的分类下面是空的，不过也不影响。

爬取思路

将爬取的页面分为两类，列表页和文章页，列表页中包含每个文章页的链接，以及列表页的下一页链接。文章页就是每个博主的页面了。列表页：在这里插入图片描述文章页：爬取思路：先爬取列表页，再爬取文章页这里需要维护两个队列（后面会讲到），一个高优先级队highlevel，列用于存储列表页url，一个低优先级队列lowlevel用于存储文章页，两个队列都是FIFO模式。 1，往highlevel中插入起始的列表页url。 2，从highlevel取出url，爬取到当前列表页的下一页url，并存入highlevel，爬取当前列表页中文章页的url，并存入lowlevel中。 3，重复步骤2，直到highlevel中无列表页的url。 4，在步骤3后，就可以从lowlevel中取文章页url，下载页面，解析后存入数据库中。

需要解决问题 1，模拟登陆，找人页面需要登录微博账号后才可以访问。 2，两个url队列如何维护？ 3，文章页面下载，解析，存储？

未完待续，后面的博客会有解决上述问题的方法，欢迎大家评论讨论！！！

【本文地址】

公司简介

联系我们