-
题名Geeking:基于胜者表的体育新闻搜索引擎系统
- 1
-
-
作者
林裕杰
陈新荃
高妍
肖卡飞
胡红祥
花强
-
机构
中国科学院深圳先进技术研究院
中国科学院上海高等研究院
中国科学院计算技术研究所
中国科学院沈阳计算技术研究所
河北大学数学与信息科学学院
-
出处
《集成技术》
2016年第2期97-108,共12页
-
基金
国家自然科学基金(61433012
U1435215
+1 种基金
11171086)
河北省自然科学基金(F2013201064)
-
文摘
文章介绍了体育新闻搜索引擎系统Geeking的框架结构和各项功能,其结构分为网页爬取、胜者表构建、检索处理、用户界面4个部分,其主要功能包含查询词校正、自动补全、检索结果排序、相似新闻聚类以及显示页面中关键词高亮并提供网页快照。输入查询请求时,系统根据搜索日志和新闻热词自动补全查询词,搜索不到相关结果时校正查询,给出推荐的查询词。检索新闻文档时,使用胜者表快速查找查询词项的相关文档,综合tf-idf权重和新闻标题、发布时间等因素计算文档的相关性并按得分排序。在相似新闻聚类中,结合最长公共子序列和编辑距离衡量新闻标题之间的相似度,以新闻标题相似度代表新闻文档的相似度。测试结果表明,基于胜者表的Geeking搜索引擎系统各项功能协调效果好,检索响应速度快。
-
关键词
搜索引擎
体育新闻
胜者表
编辑距离
聚类
查询词校正
-
Keywords
search engine
sports news
champion list
levenshtein distance
clustering
query term correction
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-