-
题名基于特征词群的新闻类重复网页和近似网页识别算法
- 1
-
-
作者
程芃森
安俊秀
-
机构
成都信息工程学院计算机学院
成都信息工程学院软件工程学院
-
出处
《成都信息工程学院学报》
2012年第4期374-379,共6页
-
基金
四川省科技厅软科学计划资助项目(2011ZR0058)
成都信息工程学院自然科学与技术发展基金项目(CSRF201002)对本文的资助
-
文摘
新闻类网页是互联网上冗余信息的重灾区。冗余网页不仅会加剧搜索引擎的处理负担,并且会降低用户体验,因此有必要对互联网上的冗余新闻网页实施消重处理。该算法依据新闻报道的自然语法特点将一篇新闻报道分解到词,从7类词性类别中提取该类别最高词频的词组成新闻报道的特征词群;通过词级倒排索引的建立,完成不同网页间特征词群的检索和对比;通过类型倒排索引的建立,完成重复和近似网页的识别和分类管理。本算法在实施过程借助于搜索引擎系统原有模块,避免新模块的引入保持了系统的简洁性;实验表明该算法是有效的,在测试的网页中召回率达93.5%,准确率达88.4%。冗余网页小粒度分类识别上具有的缺陷,在很大程度上影响了准确率的提高。
-
关键词
计算机应用
网页消重
词性分类
特征词群
-
Keywords
computer application
elimination of duplicated web pages
part-of-speech classification
feature words group
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-