网页去重方法研究及算法设计被引量：1

Study on duplicated removal method Web pages and algorithm design

下载PDF

导出

摘要针对在网页检索结果中经常出现内容相同的冗余页面的问题,为了按用户偏好对搜索结果进行筛选,提出了一种通过中文字主题要素学习网页内容的网页去重算法.该算法通过抽取网页要素中用户偏好的短语来抽取网页的内容,根据学习的网页内容计算其相似度来判断网页的重复度.经与相似方法比较,结果表明,该方法能够完成针对中文内容网页的去重,具有较高的查全率和查准率. In view of the Web page retrieval result, the user frequently obtains the same content redundant page. In order to solve this problem, one kind of duplicated Web pages removal algorithm according to the user＇s interest is proposed to study Web pages content on elements of Chinese topic. This method follows the three steps ： First, extract phrase of the user＇s interest which is Chinese elements content of Web pages, then study Web pages content extracted and finally, calculates their similarity according to the study news content to judge the heavy multiplicity of the news homepage. Compared with simliar methods, the experimental result indicated that, in view of the Chinese content web pages duplicated, this method obtains the high recall and the accuracy ratio.

作者张素智樊得强

机构地区郑州轻工业学院计算机与通信工程学院

出处《郑州轻工业学院学报（自然科学版）》 CAS 2010年第2期63-66,74,共5页 Journal of Zhengzhou University of Light Industry:Natural Science

基金河南省重点科技攻关项目(082102210054) 河南省自然科学基金资助(0411010500)

关键词中文字主题要素模糊匹配去重算法查全率差准率 elements of Chinese subject fuzzy matching duplicate removal algorithm recall ratio accuracy. ratio

分类号 TM912.2 [电气工程—电力电子与电力传动]

引文网络
相关文献

参考文献7

1李文慧,黄立冬.搜索引擎的差异化发展[J].科技情报开发与经济,2008,18(31):91-92. 被引量：1
2易中梅.应用检索实例谈谈信息检索的查全率和查准率[J].科技信息,2008(24):363-364. 被引量：8
3曹欢增.提高科技文献查全率的几项措施[J].科技情报开发与经济,2008,18(32):72-74. 被引量：9
4段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12
5张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].中国中文信息学学会二十周年学术会议论文集(续集),2001.
6Zhao J,Zhang J,Zhao R.A practical verifiable multi-secret sharing scheme[J].Comp Standards and Interfaces,2007,29(1):138.
7王鹏,张永奎,张彦,刘睿.基于新闻网页主题要素的网页去重方法研究[J].计算机工程与应用,2007,43(28):177-180. 被引量：7

二级参考文献21

1易中梅.应用检索实例谈谈信息检索的查全率和查准率[J].科技信息,2008(24):363-364. 被引量：8
2李育嫦.文献检索中提高查全率与查准率的方法探讨[J].图书馆学研究,2002(11):92-93. 被引量：26
3孙世恺.从新闻诸要素谈起(上)[J].新闻与写作,1997(6):6-7. 被引量：1
4董振东,董强.面向信息处理的词汇语义研究中的若干问题[J].语言文字应用,2001(3):27-32. 被引量：35
5孙君,陈陶.提高文献查全率和查准率的有效途径——逻辑运算符、位置算符和通配符的灵活运用[J].现代情报,2006,26(10):167-169. 被引量：12
6沈艳红.信息检索中检索词的选择对查全率的影响[J].情报探索,2006(11):73-74. 被引量：11
7中国互联网周刊.2007年中国搜索引擎行业年度点评[EB/OL].[2008 -02 -17].http://bbs.sowang.com/viewthread.php?tid =23220&extra = page%3D2.
8张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].中国中文信息学学会二十周年学术会议论文集(续集),2001.
9Shih L K,Karger D R.Using URLs and Table Layout for Web Classification Tasks.In:Proceedings of WWW'04,New York,New York,USA,2004
10Yang Yinming,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization.In:Proceedings of ICML,Nashville,Tennessee,USA,1997

共引文献45

1曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
2连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
3罗永莲,张永奎.基于发布时间的新闻网页去重方法研究[J].计算机工程与应用,2007,43(6):119-121. 被引量：3
4王鹏,张永奎,张彦,刘睿.基于新闻网页主题要素的网页去重方法研究[J].计算机工程与应用,2007,43(28):177-180. 被引量：7
5阎亚杰.网页去重方法研究[J].电脑开发与应用,2008,21(8):60-62. 被引量：6
6罗永莲,罗永秀,张永奎.突发事件新闻网页的去重方法研究[J].计算机应用与软件,2008,25(8):24-26. 被引量：4
7朱志宁,黄青松.快速的中文网页分类方法实现[J].山西电子技术,2008(4):7-9. 被引量：1
8杨申彦,黄青松.网页去重在基于Web企业竞争情报平台中的应用与研究[J].云南民族大学学报（自然科学版）,2008,17(4):380-382.
9曹欢增.提高科技文献查全率的几项措施[J].科技情报开发与经济,2008,18(32):72-74. 被引量：9
10任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报（自然科学版）,2009,27(1):141-144. 被引量：5

同被引文献14

1姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
2曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
3王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
4王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
5高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
6杨文忠,章兢.用信息-摘要算法提高Web信息检索效率的研究[J].计算机技术与发展,2006,16(6):222-223. 被引量：3
7魏丽霞,郑家恒.基于网页文本结构的网页去重[J].计算机应用,2007,27(11):2854-2856. 被引量：13
8谢蕙,秦杰,胡双双.基于用户查询关键词的网页去重方法研究[J].现代图书情报技术,2008(7):43-46. 被引量：6
9阎亚杰.网页去重方法研究[J].电脑开发与应用,2008,21(8):60-62. 被引量：6
10樊勇,郑家恒.网页去重方法研究[J].计算机工程与应用,2009,45(12):141-143. 被引量：7

引证文献1

1闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1

二级引证文献1

1刘驰,闫宏飞.基于元信息的云盘资源检索结果去重[J].山东大学学报（理学版）,2016,51(7):11-17.

1白冰,李华,张明星.基于多层向量空间的信息检索研究[J].世界科技研究与发展,2012,34(6):976-978.
2陈启跃,任芊,孙宏伟,许丹诚,董守龙.行波型超声波电机步进闭环控制法研究[J].仪器仪表与分析监测,2009(2):4-6.
3杨增力,王友怀,周虎兵,朱林,周特军,王春艺.保护定值在线校核系统与故障信息系统接口技术及应用[J].水电能源科学,2013,31(9):216-219.
4何锡点,李江林,李献伟,克潇.文本典型票的操作序列解析算法[J].电力系统保护与控制,2010,38(12):86-89. 被引量：1
5张莲梅,陈世鸿,陈红梅,许继红,杨璃.基于分布式电力资源库的搜索引擎框架[J].高电压技术,2005,31(8):66-68. 被引量：9
6孙兰会,成锋,陆愈实.基于GIS的路径规划算法研究与实现[J].现代电子技术,2016,39(5):101-104. 被引量：5
7周剑,张国芳,代宇涵.基于CIM标准的四川省电网图模数集成方法研究[J].四川电力技术,2016,39(2):45-48. 被引量：2
8楼凤丹,裴旭斌,王志强,纪德良.基于云计算及大数据技术的电力搜索引擎技术研究[J].电网与清洁能源,2016,32(12):86-92. 被引量：28
9孙世明,江伟,彭晖,陈宁,杨雪.地区电网智能报警系统的构建[J].南方电网技术,2011,5(6):73-76. 被引量：12
10梁锋,夏晓斌.35KV输电线路的设计与施工[J].科技风,2016(24):116-117.

郑州轻工业学院学报（自然科学版）

2010年第2期

浏览历史

内容加载中请稍等...

网页去重方法研究及算法设计被引量：1

参考文献7

二级参考文献21

共引文献45

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

网页去重方法研究及算法设计 被引量：1

参考文献7

二级参考文献21

共引文献45

同被引文献14

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

网页去重方法研究及算法设计被引量：1