期刊文献+

WEB主题检索的性能优化设计 被引量:1

Performance Optimization of Web Topic Search
下载PDF
导出
摘要 Web主题检索是信息检索领域一个将采集技术与过滤方法结合的新兴方向,也是信息处理领域的研究热点。针对现有主题检索系统在Web页面文本的主题相关性判断和Spider搜索策略方面存在的问题,引入两个性能优化方案,即利用信息抽取技术,提出了一种基于模式集的主题相关性判断方法来提高主题判断准确度;针对pagerank在主题检索中存在的不足,引入基于增强学习的页面评估算法,提出了Web环境优先的搜索策略。最后根据实验结果评估两个算法的性能。 Focused web crawling is a new crawling direction in the field of information retrieval which is combined with filtering methods.And it also is a research hotspot in the information processing field.In order to improve the performace of the Web Topic Search System,the paper introduces two performace optimization methods.One method, based on information extraction,is presented to improve the accuracy of obtained documents;The other one is a new Web Topic search strategy based on WEB environment precedence,which uses a function,based on reinforcement learning,to value Web pages and characterize Web topic environment.Thls method works well in promoting the search efficiency on rare information in effect.Finally,the performace of two methods is evaluated by experiments.
出处 《计算机工程与应用》 CSCD 北大核心 2006年第4期183-185,188,共4页 Computer Engineering and Applications
基金 河北省自然科学基金资助项目(编号:F2004000132)
关键词 信息抽取技术 信息抽取模式 模式匹配 WEB环境 增强学习 information extraction,extraction pattern,pattern matching,WEB Environment,reinforcement learning
  • 相关文献

参考文献6

  • 1Andras Lorincz, Istvan Kokai, Attila Meretei.Intelligent High-Performance Crawlers Used To Reveal Topic-Specific Structure of the WWW[J].Foundations of Computer Science, 2002 ; 13 (4) : 477-495.
  • 2李盛涛 吴丽辉 于满泉.主题Web信息采集的研究与设计[C]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2004.476-481.
  • 3陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量:126
  • 4T G Dietterich.Hierarchical reinforcement learning with the max q value function decomposition [ J ]. Journal of Artificial Intelligence Research, 2000 ; 13 : 227 -303.
  • 5R S Sutton,A G Barto.Reinforcement Learning:an Introduction[M]. Cambridge,MA:MIT Press, 1998.
  • 6朱靖波 姚天顺.面向TDT的主题相似性计算模型[C]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2004.476-481.

二级参考文献1

共引文献125

同被引文献8

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部