一种提高中文搜索引擎检索质量的HTML解析方法被引量：20

A HTML Parser to Improve Chinese Search Engines

下载PDF

导出

摘要中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。 While using search engine, people always find so many irrelevant or peripherally relevant items in the result list. Most of them are produced by the words irrelevant to the topic of a web page. It is costly or even impossible to remove such items using traditional keyword methods. In this paper, we define the concept of noise in web pages, and propose a novel approach to clean the noise information of web pages in the pre-processing stage. A novel model of Chinese web pages and 4 simple rules are build to discard noise from HTML files. Experimental results show that, all the indirect items that appear in the results of site grouping are removed correctly and about 11% irrelevant or indirect items that cannot be excluded by commercial Chinese search engines are removed by our approach.

作者宋睿华马少平陈刚李景阳

机构地区清华大学计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2003年第4期19-26,共8页 Journal of Chinese Information Processing

基金国家重点基础研究资助项目 (973) (G19980 30 5 0 9) 自然科学基金资助项目 (6 0 2 2 30 0 4 ) 86 3高科技资助项目 (2 0 0 1AA114 0 82 )

关键词中文搜索引擎检索质量 HTML解析方法网页噪声分块模型网页去噪中文信息处理 computer application Chinese information processing HTML parser noise filtering block model search engine

分类号 TP391.3 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Kushmerick, N., Weld, D.S., and Doorenbos, R., Wrapper Induction for Information Extraction,Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, 729 - 735, 1997.
2Carchiolo, V. ; Longheu, A. ; Malgeri, M., Structuring the Web, Database and Expert Systems Applications, 2000. Proceedings. 11th International Workshop on, 1123 - 1127, 2000.
3Jinlin Chen, Baoyao Zhou, Jin Shi, HongJiang Zhang, Qiu Fengwu, Function-based object model towards website adaptation, WWW10, 587- 596, 2001.
4Michal Cutler, Yungming Shih, Weiyi Meng, Using the Structure of HTML Documents to Improve Retrieval, Proceedings of the USENIX Symposium on Internet Technologies and Systems, 241- 251,1997.
5S. Chakrabarti, B.Dom, D. Gibson, H. Kleinberg, P. Raghavan, S. Rajagopalan, Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text, WWWT, 1998.
6N. Craswell, D. Hawking, S. E. Robertson, Effective Site Finding Using Link Anchor Information,SIGIR 2001, 2001.
7P. Buneman, Semistructured data, In Proceedings of the ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Databases Systems, 117- 121, 1997.

同被引文献194

1封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
5常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
6朱精南,赵明生.网页版面中区域几何信息的确定[J].计算机工程,2004,30(10):45-48. 被引量：4
7欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
8王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
9汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
10赵心宇,朱齐丹,朱达书.应用WinPcap捕获网络数据包[J].应用科技,2004,31(11):29-31. 被引量：18

引证文献20

1蔡国民,王雅琳.搜索引擎的相关排序算法分析与优化[J].吉首大学学报（自然科学版）,2006,27(5):17-19. 被引量：4
2陈磊,冯玉珉.一种基于网页自动分类的分类查询搜索引擎[J].电脑与信息技术,2004,12(6):47-51.
3张春元,康耀红.基于示例的Web信息自动获取系统的设计与实现[J].计算机应用,2005,25(B12):55-57.
4陈再良,凌力,周强.dPageRank——一种改进的分布式PageRank算法[J].计算机应用,2006,26(1):21-24. 被引量：7
5夏绪虎,杨炳儒.海量信息搜索共享服务系统的设计与实现[J].计算机工程与应用,2006,42(28):164-166.
6张晋,李太君,邱钊.校园网络信息过滤与监控系统的设计与实现[J].现代计算机,2006,12(11):29-33.
7高克宁,王波,张斌,游镇.WWW网站分类体系包装器WCSW[J].东北大学学报（自然科学版）,2007,28(1):44-48. 被引量：1
8王艳,张帆.基于Web挖掘技术的信息检索系统设计与实现[J].情报学报,2007,26(3):339-343. 被引量：3
9陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
10陈爽,李先国,陈福,李素.一种抽取新闻网页结构化数据的方法[J].燕山大学学报,2007,31(6):485-488. 被引量：1

二级引证文献76

1徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
2宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
3蒋卫星,金瓯,张彬.Web搜索算法研究综述[J].计算机技术与发展,2007,17(4):178-181. 被引量：2
4王钢明,屠建飞.基于Web信息抽取的技术成果信息采集系统[J].成组技术与生产现代化,2007,24(4):34-36.
5鲍宇,曾国荪,管红杰.Web数据挖掘中的可信数据来源[J].计算机科学,2009,36(4):211-214. 被引量：1
6程晓伟,田东风.基于树及索引的HTML表格数据挖掘算法研究[J].电脑知识与技术,2009,5(4):2553-2556.
7杨仁广,孟祥增.网络多媒体主题搜索策略研究[J].中国科技资源导刊,2009,41(2):37-41.
8杨仁广,孟祥增.网络多媒体教学资源主题搜索研究[J].电化教育研究,2009,30(5):83-88. 被引量：4
9王祖析.基于网页内容的网页消重高效检测算法研究[J].佳木斯大学学报（自然科学版）,2010,28(1):22-24. 被引量：1
10李金波.我国网络信息检索统计分析[J].情报科学,2010,28(3):404-407. 被引量：2

1李慧驰.改进的随机分块模型[J].科技致富向导,2013(32):282-282.
2王希,郭浩,陈俊杰.基于随机分块模型的静息态功能脑网络可信度优化[J].太原理工大学学报,2016,47(2):218-222.
3李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：4
4孙楠,张华伟.一种新的用于数据挖掘工具的网页净化算法[J].郑州轻工业学院学报（自然科学版）,2011,26(3):85-87.
5吴桐,王玲.基于帧差分块的混合高斯背景模型[J].计算机工程与应用,2014,50(23):176-180. 被引量：7
6钟楚玲,朱丹,曹二堂.一种提高搜索引擎检索质量的网页解析法[J].信息化纵横,2009(5):38-40.
7殷兰芳,吴舒辞,黄华军.融合网页噪声和n-gram的钓鱼网站检测算法[J].网络安全技术与应用,2015(1):85-86.
8艾泽潭,石庚辰.小波变换在图像去噪中的应用[J].科技导报,2010,28(1):102-106. 被引量：12
9封小云,邱龙刚.基于高斯混合模型的太阳电池片颜色分类设想与验证[J].太阳能,2016(3):33-37.
10丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(B06):175-177. 被引量：6

中文信息学报

2003年第4期

浏览历史

内容加载中请稍等...

一种提高中文搜索引擎检索质量的HTML解析方法被引量：20

参考文献7

同被引文献194

引证文献20

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

一种提高中文搜索引擎检索质量的HTML解析方法 被引量：20

参考文献7

同被引文献194

引证文献20

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

一种提高中文搜索引擎检索质量的HTML解析方法被引量：20