Web scraper 爬虫傻瓜教程（不断更新中）

2023-09-02 10:01| 来源: 网络整理| 查看: 265

教程安装基本操作打开Web scraper使用Web scraper创建爬取运行爬虫，查看数据这里讲一个复杂一点的例子帮助大家学习参考：

安装 Web scraper只支持chrome浏览器，可以从chrome网上应用店下载这个插件，安装好后在扩展程序页面启用插件。Web scraper具备反爬虫机制，模拟人手动操作浏览器，适合轻度的数据爬取，而且免费！在这里插入图片描述

基本操作打开Web scraper

当我们想要抓取某网页的时候，需要调出来Web scraper的开发界面，这点开发人员肯定很懂。不懂的下面提供几种方法：

windows 系统下可以使用快捷键 F12，有的型号的笔记本需要按 Fn+F12Mac 系统下可以使用快捷键 command+option+i在网页右键点击检查（ctrl+shift+i）直接在 Chrome 界面上操作，点击设置 → \rightarrow →更多工具 → \rightarrow →开发者工具打开之后长这样，如果不在网页的下方就点这三个竖着的小圆点，给它换到网页下方。在这里插入图片描述

换好之后长这样，就可以看的Web scraper插件了~ 在这里插入图片描述

使用Web scraper 创建爬取首先需要创建一个新的爬取：Create new sitemap → \rightarrow →Create sitemap Import sitemap是导入脚本在这里插入图片描述

添加请求头，命名和将我们要爬取的网页url填好之后点Create Sitemap 这里要说明一下，一个Sitemap可以有多个Selector，在这里插入图片描述

理解工具

创建选择器时需使用 Element preview 和 Data preview 功能以确保你选中了正确的网页元素及数据。 1）Id - 爬取标题的命名，自己随意取 2）Type - 抓取数据的类型名字 Text（文本）选择器；Link（链接）选择器；Popup LINK（弹出链接）选择器；Image（图像）选择器；Table（表格）选择器；Element attribute（元素属性）选择器；HTML 选择器；Element；Element scroll down（滑动）；Element click（点击）；Grouped（组块）选择器。在这里插入图片描述

3）selector - CSS 选择器选取所需元素； 4）multiple - 如果要选择多个记录需勾选此项。从两个或多个选中 multiple 的选择器中提取的数据不会合并到一个单独记录中； 5）delay - 选择器生效前的延迟时长； 6）parent selectors - 为此选择器选择母选择器以产生选择器树形结构； 7）文本选择器（Text selector）； 8）链接选择器（Link selector）； 9）元素选择器（Element selector）。在这里插入图片描述

运行爬虫，查看数据

在这里插入图片描述 1）Selector graph - 查看爬虫逻辑 2）Scrape - 运行爬虫 3）Browse - 查看数据 4）Export data as CSV - 保存数据

这里讲一个复杂一点的例子帮助大家学习任务：账号：中国日报（https://weibo.com/chinadailywebsite?is_all=1）时间：2020年3月11号——2021年3月10号关键词：新冠爬取符合以上条件的所有推送的文字部分，以及发布时间，和转发，评论和点赞的数量利用微博自己的高级搜索，锁定关键词和具体时间段在这里插入图片描述

如果抓取多页网站，Start url可以设定page=[2-5]表示第2页到第5页，如果是步长为2页，则可以:[2-5:2]。建立selector，Type选择Element scroll down用于爬取下拉滚动式的页面结构体。在这里插入图片描述

建立新的selector，负责展开全文。Type选择Element click来模拟点击。在这里插入图片描述

建立新的selector，负责抓取正文内容。Type选择Text。在这里插入图片描述

建立新的selector，负责抓取时间日期。Type选择Text。在这里插入图片描述

同理，建立新的selector，负责抓取转赞评。Type选择Text。就不放图了。

注意：每次选择网页元素一定要点击Mutiple，从top到bottom选择两次自己要抓取的内容，比如要抓取微博推送内容，抓取该页面第一条和第二条，接下来板块都会自动抓取。 speed要调整一下，不然抓取的内容会不全。

参考：如何使用web scraper收集大量微博信息使用Selenium实现微博爬虫(预登录、展开全文、翻页)Webscraper爬取使用总结（持续更新）Web Scraper官网教程翻页选择器Element click selector --webscraper操作手册web scraper 里的 Element click 模拟点击「加载更多」Web Scraper 使用教程（五）- 进阶用法（Element scroll down）Web Scraper 高级用法——Web Scraper 抓取多条内容 | 简易数据分析 07web scraper 爬取微博粉丝性别以及微博内容web scraper中Selectors解析简易数据分析 12 | Web Scraper 翻页——抓取分页器翻页的网页简易数据分析Web Scraper傻瓜式爬虫插件之进阶套路有关webscraper的问题，看这个就够了爬取2000篇 Matrix 文章，这是一份可视化踹门教程介绍一款好用又易学的爬虫工具：web scraperWeb Scraper 教程web scraper 入门到精通之路不写代码，超级简单实用的爬虫工具：web scraper！Web Scraper教程

【本文地址】

公司简介

联系我们