基于概念和语义网络的近似网页检测算法被引量：15

Near Duplicated Web Pages Detection Based on Concept and Semantic Network

下载PDF

导出

摘要在搜索引擎的检索结果页面中,用户经常会得到内容近似的网页.为了提高检索整体性能和用户满意度,提出了一种基于概念和语义网络的近似网页检测算法DWDCS(near-duplicate webpages detection based on concept and semantic network).改进了经典基于小世界理论提取文档关键词的算法.首先对文档概念进行抽取和归并,不但解决了"表达差异"问题,而且有效降低了语义网络的复杂度;从网络结构的几何特征对其进行分析,同时利用网页的语法和结构信息构建特征向量进行文档相似度的计算,由于无须使用语料库,使得算法天生具有领域无关的优点.实验结果表明,与经典的网页去重算法(I-Match)和单纯依赖词汇共现小世界模型的算法相比,DWDCS具有很好的抵抗噪声的能力,在大规模实验中获得了准确率>90%和召回率>85%的良好测试结果.良好的时空间复杂度及算法性能不依赖于语料库的优点,使其在大规模网页去重实际应用中获得了良好的效果. Reprinting websites and blogs produces a great deal redundant WebPages. To improve search efficiency and user satisfaction, the near-Duplicate WebPages Detection based on Concept and Semantic network （DWDCS） is proposed. In the course of developing a near-duplicate detection system for a multi-billion pages repository, this paper makes two research contributions. First, the key concept is extracted, instead of the keyphrase, to build Small Word Network （SWN）. This not only reduces the complexity of the semantic network, but also resolves the ＂expression difference＂ problem. Second, this paper considers both syntactic and semantic information to present and compute the documents＇ similarities. In a large-scale test, experimental results demonstrate that this approach outperforms that of both I-Match and keyphrase extraction algorithms based on SWN. Many advantages such as linear time and space complexity, without using a corpus, make the algorithm valuable in actual practice.

作者曹玉娟牛振东赵堃彭学平

机构地区北京理工大学计算机科学技术学院北京航天飞行控制中心

出处《软件学报》 EI CSCD 北大核心 2011年第8期1816-1826,共11页 Journal of Software

基金国家自然科学基金(60803050 60705022) 新世纪优秀人才计划(NCET-06-0161)

关键词网页去重算法小世界网络近似网页均方差 duplicate removal algorithm small world network near duplicated Web page standard deviation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1鲍军鹏,沈钧毅,刘晓东,宋擒豹.自然语言文档复制检测研究综述[J].软件学报,2003,14(10):1753-1760. 被引量：69
2吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

二级参考文献7

1[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
2[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
3[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
4[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
5[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
6卢汉清,孔维新,廖明,马颂德.基于内容的视频信号与图像库检索中的图像技术[J].自动化学报,2001,27(1):56-59. 被引量：30
7宋擒豹,沈钧毅.数字商品非法复制和扩散的监测机制[J].计算机研究与发展,2001,38(1):121-125. 被引量：38

共引文献101

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
3曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
4卢小康,王小华,王荣波.一种句子级别的中文文本复制检测方法[J].杭州电子科技大学学报（自然科学版）,2009,29(6):45-48. 被引量：1
5王雯,廖祥忠.数字图像作品抄袭鉴定研究[J].大连理工大学学报,2011,51(S1):98-101.
6谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量：2
7白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
8金博,史彦军,滕弘飞.中文文档复制检测系统研究[J].计算机工程,2005,31(19):79-81. 被引量：9
9魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
10金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007,47(1):125-130. 被引量：28

同被引文献173

1向培素.聚类算法综述[J].西南民族大学学报（自然科学版）,2011,37(S1):112-114. 被引量：14
2顾芳,曹存根.知识工程中的本体研究现状与存在问题[J].计算机科学,2004,31(10):1-10. 被引量：26
3蔡鸿明,何援军,刘胡瑶.基于分层语义网络的设计资源库建模及实现[J].计算机集成制造系统,2005,11(1):73-78. 被引量：7
4赵国庆,黄荣怀,陆志坚.知识可视化的理论与方法[J].开放教育研究,2005,11(1):23-27. 被引量：354
5张文修,魏玲,祁建军.概念格的属性约简理论与方法[J].中国科学（E辑）,2005,35(6):628-639. 被引量：193
6王珊,张俊,彭朝晖,战疆,杜小勇,Zhao-hui Xiao-yong.基于本体的关系数据库语义检索[J].计算机科学与探索,2007,1(1):59-78. 被引量：15
7游福成,杨炳儒.知识发现状态空间统一模型及其应用[J].计算机工程,2005,31(19):35-37. 被引量：2
8ZHANG Wenxiu,WEI Ling,QI Jianjun.Attribute reduction theory and approach to concept lattice[J].Science in China(Series F),2005,48(6):713-726. 被引量：70
9陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
10毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16

引证文献15

1魏诗云,杨家骏.网页近似重复检测算法研究[J].计算机光盘软件与应用,2012,15(8):135-136.
2程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
3蒙祖强,黄柏雄.一种新的网络热点话题提取方法[J].小型微型计算机系统,2013,34(4):743-748. 被引量：6
4王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：8
5杨菲,黄柏雄.词共现网络的遗传聚类在话题发现中的应用[J].计算机工程与应用,2013,49(14):126-129. 被引量：7
6蒙祖强,徐杨,杨俊瑶.一种运用相容语义块约简的网络话题检测方法[J].小型微型计算机系统,2013,34(11):2513-2517. 被引量：1
7高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
8李恒新,韩坚华.关系型数据库数据的高效判重[J].华南师范大学学报（自然科学版）,2015,47(1):121-126. 被引量：2
9陈婧.基于语义网的软件工程数据查询处理技术[J].电子技术与软件工程,2015(4):198-198. 被引量：1
10陈羽中,方明月,郭文忠.面向微博热点话题发现的多标签传播聚类方法研究[J].模式识别与人工智能,2015,28(1):1-10. 被引量：16

二级引证文献122

1牛华勇,窦一轩,夏晓雪.国内外财经文本分析研究综述[J].语料库语言学,2022,9(2):81-95.
2李家瑞,李华昱,闫阳,付亚凤.基于事件抽取的学科建设知识图谱构建与应用[J].计算机系统应用,2022,31(11):100-110. 被引量：2
3李华昱,付亚凤,闫阳,李家瑞.基于LEBERT的多模态领域知识图谱构建[J].计算机系统应用,2022,31(11):79-90. 被引量：2
4于碧辉,孙思,李岳.面向电网安全监测的领域本体自动构建[J].计算机系统应用,2020,29(11):243-249. 被引量：5
5朱丽雅,张珺,洪亮,罗绍辉,兰度.数字人文领域的知识图谱:研究进展与未来趋势[J].知识管理论坛,2022(1):87-100. 被引量：4
6唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11.
7张逸,李渴,邵振国,罗海荣.基于标准文件的电能质量领域本体构建方法[J].电力系统自动化,2020,44(17):102-111. 被引量：6
8张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
9施恒利,刘亮亮,王石,符建辉,张再跃,曹存根.汉字种子混淆集的构建方法研究[J].计算机科学,2014,41(8):229-232. 被引量：7
10李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014,33(9):157-162. 被引量：5

1曹玉娟,牛振东,彭学平,江鹏.一个基于特征向量的近似网页去重算法[J].中国索引,2009,7(1):11-14. 被引量：5
2杨文忠,彭曙蓉.简报近似网页的一种检测算法[J].微计算机应用,2006,27(1):22-22.
3张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.
4张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
5徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
6周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
7张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
8杜海刚,李先国.一种基于关键词的近似网页检测算法[J].微计算机应用,2008,29(2):41-45. 被引量：2
9彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量：10
10闫亮,李先国.基于网页特征关键词的近似检测算法[J].科学技术与工程,2009,9(4):919-923.

软件学报

2011年第8期

浏览历史

内容加载中请稍等...

基于概念和语义网络的近似网页检测算法被引量：15

参考文献2

二级参考文献7

共引文献101

同被引文献173

引证文献15

二级引证文献122

相关作者

相关机构

相关主题

浏览历史

基于概念和语义网络的近似网页检测算法 被引量：15

参考文献2

二级参考文献7

共引文献101

同被引文献173

引证文献15

二级引证文献122

相关作者

相关机构

相关主题

浏览历史

基于概念和语义网络的近似网页检测算法被引量：15