网页浏览器的搜索引擎及算法(包括网页，App内，后台数据等)

2024-06-14 01:41| 来源: 网络整理| 查看: 265

网页上的搜索引擎，App内的应用框搜索及后台的数据搜索等？中国两大主流搜索引擎：百度和Google。微软的搜索引擎：http://m2.cn.bing.com/搜索引擎要素：链接的质量和数量，排名，爬虫，索引，迭代算法等.搜索引擎开发：1.如何合理的创建索引，2.如何查询索引搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。

-- 一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成： 1.搜索器的功能是在互联网中漫游，发现和搜集信息。 2.索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。 3.检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。 4.用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。网页的权重：通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。

> 搜索引擎的工作原理： 1.第一步：爬行搜索引擎是通过一种特定规律的软件跟踪网页的链接，从一个链接爬到另外一个链接，像蜘蛛在蜘蛛网上爬行一样，所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的，它需要遵从一些命令或文件的内容。 2.第二步：抓取存储搜索引擎是通过蜘蛛跟踪链接爬行到网页，并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时，也做一定的重复内容检测，一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容，很可能就不再爬行。 3.第三步：预处理搜索引擎将蜘蛛抓取回来的页面，进行各种步骤的预处理。 ⒈提取文字;⒉中文分词;⒊去停止词;⒋消除噪音（搜索引擎需要识别并消除这些噪声，比如版权声明文字、导航条、广告等……）;5.正向索引;6.倒排索引;7.链接关系计算;8.特殊文件处理除了HTML 文件外，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word、WPS、XLS、PPT、TXT 文件等。我们在搜索结果中也经常会看到这些文件类型。但搜索引擎还不能处理图片、视频、Flash 这类非文字内容，也不能执行脚本和程序。 4.第四步：排名用户在搜索框输入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程与用户直接互动的。但是，由于搜索引擎的数据量庞大，虽然能达到每日都有小的更新，但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

-- 关键字：

选择;与网站内容相关;搜索次数多，竞争小;主关键词，不可太宽泛;主关键词，不太特殊;商业价值;提取文字;中文分词;去停止词;消除噪声;去重;正向索引;倒排索引;链接关系计算;特殊文件处理

-- 一个搜索引擎(PageRank算法)需要做以下三件事情： 1.网络爬虫，获取所有可以公开访问的网页； 2.将所有网页标号，这样可以根据关键词或短语进行快速查找； 3.在数据库中按照网页重要性得分进行排序。这样，当用户进行搜索时，更重要的网页信息就会排在前面。

搜索引擎- http://blog.csdn.net/cdnight/article/category/2373955 创建一个分布式网络爬虫的故事（python）- http://geek.csdn.net/news/detail/238859 互联网上五个最高级的搜索引擎- https://blog.csdn.net/MIcF435p6D221sSdLd2/article/details/79579535 搜索引擎开发的技术心得- https://blog.csdn.net/breaknull/article/details/66970450

> 开源搜索引擎目前主流的开源搜索引擎主要有两个，一个是基于Java的Apache Lucene，另一个是基于C++的Sphinx。在建立索引所需时间方面，Sphinx只需Lucene时间的50%左右，但是索引文件Sphinx比Lucene要大一倍，即Sphinx采用的是空间换时间的策略。在全文检索速度方面，二者相差不大。全文检索精确度方面，Lucene要优于Sphinx。另外，在加入中文分词引擎的难易程度上，Lucene要优于Sphinx。因此，在一般情况下，选择Lucene作为全文搜索引擎是比较好的选择。

调研：开源搜索引擎-- http://blog.csdn.net/xum2008/article/details/8740063 搜索引擎开源软件-- http://www.oschina.net/project/tag/130/search-engine 大数据处理方面的 7 个开源搜索引擎-- http://www.open-open.com/news/view/193eb09 曾经名噪一时的7个搜索引擎：现在都在哪里呢？- http://geek.csdn.net/news/detail/94974 开源搜索引擎之路- http://blog.csdn.net/pkueecser/article/details/5908328

全文搜索属于最常见的需求，开源的 Elasticsearch （以下简称 Elastic）是目前全文搜索引擎的首选。分布式搜索引擎 ElasticSearch，它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。 https://www.elastic.co/cn/

Lucene的搜索引擎,Zettair、MG4J、Lemur、Lucene系、openSearchServer、Sphinx等，paoding分词，中国牛人实现的分词算法，抓取、压缩、存储、分词、分类、整理、索引、合并、搜索、语义理解、缓存、加速、展示。 lucene的一些相关项目玩了玩，包括solr、compass、luke,heritrix,GlusterFS等。heritrix是一个强大的网络爬虫，我用这东东花了两天时间，把公司的新闻频道都给抓下来了，比较横。GlusterFS是一个分布式文件系统，但经过一番研究后，发现它用来做文件镜像备份比较好，适合网站应用。所幸的是lucene的发明者Doug Cutting发起了另一个开源项目nutch，它是一个完全的搜索引擎应用程序，包括crawl,distributed computing,search三个部分，这个项目基本上满足我当时对于搜索引擎架构的需求。 google的mapreduce和dfs都用java实现了一遍. Baidu搜索引擎的其它特色包括：百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划（Blitzen Project）开始后，技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品。-- 用Elasticsearch构建电商搜索平台- http://www.sojson.com/blog/176.html 电商数据一般有3种主要类型的数据系统： 1.关系型数据库，大多数互联网公司会选用mysql作为关数据库的主选，用于存储商品，用户信息等数据。关系型数据库对于事务性非常高的OLTP操作(比如订单，结算等)支持良好。 2.hadoop生态，hadoop是数据仓库主要的载体，除了备份关系型数据库的所有版本，还存储用户行为，点击，曝光，互动等海量日志数据，hadoop对于数据分析，数据挖掘等OLAP支持比关系型数据库更加具有扩展性和稳定性。 3.搜索引擎，以elasticsearch和solr为代表。搜索引擎是获取信息最高效的途径，几乎成为各类网站，应用的基础标配设施(地位仅次于数据库)。

目前搜索引擎技术已经有非常成熟的开源解决方案，最出名的ElasticSearch和Solr都是基于lucence的。很多中小型互联网公司搜索引擎都是基于这两个开源系统搭建的，但是即便如此，一个搜索引擎团队想把搜索引擎质量做到商用标准，从系统熟悉，服务搭建，功能定制，通常需要花费较长时间。另外一个索引问题是全量索引。有如下几个场景让全量索引是一个必要过程：实时更新有可能会丢数据，每次很少的丢失时间长了降低搜索引擎的质量。周期性的全量更新是解决这个问题的最直接的方法；即使能够保证实时更新，业务的发展有可能有重新建索引的需求(比如增加字段，修改属性，修改分词算法等)。很多搜索引擎是在业务开始后很久才搭建的，冷启动必须全量创建索引。采用 Hadoop-es 利用hadoop分布式的特性来创建索引。hadoop-es让分布式索引对用户透明，就像单机更新索引一样。一个是分布式的数据平台，一个是分布式搜索引擎，如果能把这两个结合就能够实现分布式的全量索引过程。商业电商搜索算法另外两个重要技术，一个是类目体系建立和应用，另一个是个性化技术。

-- 百度联盟可以算是一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。一个网站的命脉就是流量，而网站的流量可以分为两类。一类是自然流量，一类就是通过搜索引擎而来的流量。通过对网站访问者搜索行为的深度分析，对于进一步制定更为有效的网络营销策略具有重要价值。 ⒈从网络营销的环境看，搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用； ⒉从效果营销看，很多公司之所以可以应用网络营销是利用了搜索引擎营销； ⒊就完整型电子商务概念组成部分来看，网络营销是其中最重要的组成部分，是向终端客户传递信息的重要环节。

> 搜索引擎算法算法大体可以分为3类：1.基于随机漫游模型的，比如PageRank，Repution算法；2.基于Hub和Authority相互加强模型的，如HITS及其变种；3.基于概率模型的，如SALSA，PHITS，基于贝叶斯模型的，如贝叶斯算法及其简化版本。在网络搜索中有两种关键的驱动因素：内容分析和链接分析。传统的WEB搜索引擎大多数是基于关键字匹配的，返回的结果是包含查询项的文档，也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性，破坏搜索引擎结果的客观性和准确性。另外，有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面，并且目录大多靠人工维护，主观性强，费用高，更新速度慢.

搜索引擎的一些基本算法分析- http://blog.sina.com.cn/s/blog_80432aa20100ty5s.html 几种搜索引擎算法- http://blog.csdn.net/lixam/article/details/39889425

-- 关于搜索引擎的几大核心算法浅析: 1.Hilltop算法 Hilltop算法由Krishna Baharat在2000年左右所研究的，于2001年申请了专利Hilltop算法可以简单理解为与主题相关的PR值。传统PR值与特定关键词或主题没有关联，只计算链接关系。Hilltop算法同样是计算链接关系，不过它更关注来自主题相关页面的链接权重。在Hilltop算法中把这种主题相关页面称为专家文件。显然，针对不同主题或搜索词有不同的专家文件。

2.TrustRank算法 TrustRank是近年来比较受关注的基于链接关系的排名算法。TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究，用来检测垃圾网站，并且于2006年申请专利。TrustRank算法发明人还发表了一份专门的PDF文件，说明TrustRank算法的应用。 TrustRank算法基于一个基本假设：好的网站很少会链接到坏的网站。反之则不成立，也就是说，坏的网站很少链接到好网站这句话并不成立。正相反，很多垃圾网站会链接到高权威、高信任指数的网站，试图提高自己的信任指数。虽然TrustRank算法最初是作为检测垃圾的方法，但在现在的搜索引擎排名算法中，TrustRank概念使用更为广泛，常常影响大部分网站的整体排名。TrustRank算法最初针对的是页面级别，现在在搜索引擎算法中，TrustRank值也通常表现在域名级别，整个域名的信任指数越高，整体排名能力就越强。

3.HITS算法 HITS是英文Hyperlink-Induced Topic Search 的缩写，意译为“超链诱导主题搜索”。按照HITS算法，用户输入关键词后，算法对返回的匹配页面计算两种值，一种是枢纽值（Hub Scores），另一种是权威值（Authority Scores），这两个值是互相依存、互相影响的。所谓枢纽值，指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在页面的枢纽值之和。HITS算法会提炼出两种比较重要的页面，也就是枢纽页面和权威页面。枢纽页面本身可能没有多少导入链接，但是有很多导出链接指向权威页面。权威页面本身可能导出链接不多，但是有很多来自枢纽页面的导入链接。 HITS算法是针对特定查询词的，所以称为主题搜索。 HITS算法的最大缺点是，它在查询阶段进行计算，而不是在抓取或预处理阶段。所以HITS算法是以牺牲查询排名响应时间为代价的。也正因为如此，原始HITS算法在搜索引擎中并不常用。不过HITS算法的思想很可能融入到搜索引擎的索引阶段，也就是根据链接关系找出具有枢纽特征或权威特征的页面。

4.Google和PageRank算法搜索引擎Google最初是斯坦福大学的博士研究生Sergey Brin和Lawrence Page实现的一个原型系统[2]，现在已经发展成为WWW上最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎，它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理，使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的PageRank值，从而决定网页在结果集中的出现位置，PageRank值越高的网页，在结果中出现的位置越前。 5. Google新搜索引擎算法Hummingbird。

> 可以研究的课题：学习搜索引擎的设计、超链分析技术的实现（有时间的话）

【本文地址】

公司简介

联系我们