爬虫研究现状（可自行加删）

2023-07-10 09:09| 来源: 网络整理| 查看: 265

知识内容自互联网

2000年诞生网页API和API爬虫。2002年10月份，Lycos搜索引擎的访问量高达3700万，成为全世界访问量排名第5的网站。2005-2006年网络抓取软件的可视化。在2018年，众所周知的万维网，或通俗的“互联网”，由超过18亿个网站组成。只需点击几下鼠标，就可以获得如此巨大的数据量。随着越来越多的人上网，每秒产生的数据也越来越多。搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。国外的Inktomi，它本身并不是直接面向用户的搜索引擎，但向包括Overture、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。爬虫技术历经20多年的发展，目前技术已日趋多样。为满足不同用户多种多样的需求，创建开发了类型众多的爬虫系统。

在国内近五年来说，大多数爬虫是用后台脚本类语言写的，其中python是用的最多最广的，并且页诞生了很多优秀的库和框架，如scrapy、BeautifulSoup 、pyquery、Mechanize等。但是一般来说，搜索引擎的爬虫对爬虫的效率要求更高，会选用c++、java，详情排名前50的开源Web爬虫用于数据挖掘。对于简单爬虫，瓶颈在于数据分析及提取，而网络效率和语言关系并不大。在近几年nodejs发展非常快，使得javascript遍地开花，有些人也开始尝试用node做爬虫，这其实和其它后台脚本语言没什么区别，也不如python、php开发效率高、爬虫方面类库多，各方面资源也不如前两者丰富。依旧不能在node里发起ajax请求，不能执行原网页的dom，因为node的javascript执行环境和浏览器的执行环境并不相同，就像如同jvm上的java和谷歌上的java一样。

【本文地址】

公司简介

联系我们