[内附完整源码和文档] 基于python的新闻检索系统 您所在的位置:网站首页 搜索引擎报告怎么写的 [内附完整源码和文档] 基于python的新闻检索系统

[内附完整源码和文档] 基于python的新闻检索系统

2024-07-18 04:25| 来源: 网络整理| 查看: 265

1 系统介绍 1.1 系统需求 新闻检索系统:定向采集不少于 4 个中文社会新闻网站或频道,实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。本项目未使用 lucene,Goose 等成熟开源框架。

1.2 系统思路与框架 本系统总体的实现思路如图 1 所示:

在这里插入图片描述 一个完整的搜索系统主要的步骤是:

对新闻网页进行爬虫得到语料库

抽取新闻的主体内容,得到结构化的 xml 数据

内存式单遍扫描索引构建方法构建倒排索引,供检索模块使用

用户输入查询,得到相关文档返回给用户

2 设计方案 2.1 新闻爬取 2.1.1 算法简述 该模块针对搜狐,网易,腾讯三大主流新闻网站及官方的参考消息网站进行了新闻获取。并基于其网站结构,设计了不同的爬取模式。由于网站架构两两相似,以下选取两种类型的典型代表进行介绍:

(1)搜狐新闻 搜狐新闻除正常主页外,存在隐藏的列表式新闻页 , 如 http://news.sohu.com/1/0903/62/subject212846206.shtml 。

(2)网易新闻 可以将网易新闻及腾讯新闻归结为一般类型的新闻主页,我们采用了自新闻主页开始的广度优先的递归爬取策略。注意到新闻的正文页往往是静态网页.html,因此,我们将网页中出现的所有以.html 结尾的网页的 URL 均记录下来,在爬取到一定量时,进行一次去重。

对于一些不是新闻



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有