面向主题的Web信息收集系统的设计与实现被引量：12

Design and Implementation of a Topic-focused Web Information-gathering System

下载PDF

导出

摘要随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行文档相关度计算 ,并结合页面链接的上下文信息过滤页面 ;借鉴并修改了Shark启发式查找算法来查找相关页面 ;可采用多机并行下载提高收集效率 ;并依据站点的重要程度进行动态更新 .在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统 ,整个系统在低性能的台式机上就能运行 ,并可获得较高的属于指定主题的页面的收集精度和收集效率 . With the explosive growth of information on Internet, the coverage and retrieval precision of mainstream search engines have been declining. It has become a tendency to develop specific Internet information retrieval tools. A topic-focused web information-gathering system described in this paper is the core facility of such tools. We use vector space Modal to represent and calculate the relevance of html web pages, filter web pages in conjunction with context of web pages link, search related pages using modified Shark-Algorithm, crawl web using multiple machines, update downloaded information according to the significance of web sites. We have implemented this information-gathering system in an Internet information search engine for computer educational resources. It works well on popular PC and achieves high topic-focused information retrieval precision and high crawl efficiency.

作者潘春华武港山

机构地区南京大学计算机软件新技术国家重点实验室南京大学计算机科学与技术系

出处《小型微型计算机系统》 CSCD 北大核心 2003年第12期2150-2154,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金 (60 0 730 30 )资助国家教育部"现代远程教育关键技术研究重点项目"资助富士通研究的项目资助

关键词 Web信息收集系统搜索引擎信息检索万维网 WWW 互联网主题系统设计 information-gathering search engine information retrieval world wide web

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1[1]Web surpasses one billion documents: inktomi/NEC press release [EB/OL]. available at http://www. inktomi. com, Jan 18 2000.
2[2]Steve Lawrence and C. Lee Giles, Accessibility of information on the Web[J]. Nature, July 1999,Vol 400(8).
3[3]J. Cho, H. Garcia-Molina, and L. Page. Efficient crawling through URL ordering [C]. In: Proceedings of the Seventh World-Wide Web Conference, 1998.
4[4]Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine [C]. In:Proceedinga of the Seventh International World Wide Web Conference, April 1998, 107～117.
5[5]Google! Search engine[EB/OL]:http://www. google. com.
6[6]NEC ResearchIndex search engine [EB/OL]:http://www. researchindex. com.
7[7]Salton G and McGill M. Introduction to modern information retrieval[M]. McGraw-Hill, 1983.
8[8]Michael Hersovici, Michal Jacovi, Yoelle S. Maarek etc. The shark-search algorithm - an application: tailored Web site mapping[EB/OL]. Available at http://www7. scu. edu. au/programme/fullpapers/1849/com1 849. htm.
9[9]Jon M. Kleinberg. Authoritative sources in a hyperlinked environment[C]. In: Proceedings of the ACM-SIAM Symposium on Discrete Algotirhms, 1998, and as IBM Research Report RJ 10076, May 1997.
10[10]S. Chakrabarti, M. van der Berg, and B. Dom. Focused crawling: a new approach to topic-specific web resource discovery[C].In: Proc. of the 8th International World-Wide Web Conference (WWW8), 1999.

同被引文献89

1林海霞,原福永,陈金森.主题网络蜘蛛搜索策略贪婪性解决方法[J].微电子学与计算机,2006,23(z1):278-280. 被引量：4
2徐斌,刘赛,康立山,郑刚.基于遗传算法的信息检索技术[J].计算机工程,2004,30(9):74-75. 被引量：14
3吴丽辉,王斌,余智华.一个基于Web的信息获取系统的框架与实现[J].微电子学与计算机,2004,21(10):121-123. 被引量：2
4陈康,武港山.基于Ontology的信息检索技术研究[J].中文信息学报,2005,19(2):51-57. 被引量：29
5宋峻峰,张维明,肖卫东,唐九阳.基于本体的信息检索模型研究[J].南京大学学报（自然科学版）,2005,41(2):189-197. 被引量：44
6张敏,马少平,宋睿华.DF还是IDF?主特征模型在Web信息检索中的使用[J].软件学报,2005,16(5):1012-1020. 被引量：13
7刘静,尹存燕,陈家骏.一种规则和贝叶斯方法相结合的文本自动分类策略[J].计算机应用研究,2005,22(7):84-86. 被引量：7
8周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
9李新安,石冰.基于决策树方法的特定主题Web搜索策略[J].计算机应用,2006,26(1):223-226. 被引量：3
10刘军,凌云,王勋.基于Ontology的面向主题的网络信息采集算法[J].图书情报工作,2006,50(5):78-82. 被引量：6

引证文献12

1白曦,吕晓枫,孙吉贵.基于加权向量空间模型的网络搜索[J].计算机应用研究,2007,24(2):51-53. 被引量：7
2徐德智,王庆涛,王斌.基于本体的Web信息采集[J].现代图书情报技术,2007(2):53-55. 被引量：2
3罗长寿,孙素芬,张峻峰,于峰,刘月仙.基于查准率的网页信息搜索技术研究分析[J].情报杂志,2007,26(3):115-117. 被引量：1
4王铮,王庆,汪定伟.电子商务中基于贝叶斯网络的货源信息检索模型[J].小型微型计算机系统,2009,30(1):178-182. 被引量：1
5徐德智,郭渭莉.基于本体的主题相关度算法研究[J].云南大学学报（自然科学版）,2007,29(S1):51-54. 被引量：3
6张博,蔡皖东.面向主题的网络蜘蛛技术研究及系统实现[J].微电子学与计算机,2009,26(5):52-55. 被引量：13
7殷妮哿.Internet中的多媒体快速查询[J].电脑开发与应用,2009,22(9):30-32.
8张秋亮,熊善柏,赵思明,洪军.水产品信息网的建立[J].天津农业科学,2011,17(1):138-143. 被引量：4
9王翠英.基于分众分类的信息唤醒机制研究[J].情报理论与实践,2013,36(10):53-57. 被引量：4
10杨闱元.自由式信息收集平台的设计[J].信息安全与技术,2015,6(3):78-79 86.

二级引证文献35

1梁勇,章成志,王昊.基于CSSCI的期刊知识地图的构建[J].现代图书情报技术,2008(2):58-63. 被引量：9
2陈卓君,陈军华.基于未知数据源的数据信息抽取研究[J].计算机工程与科学,2008,30(7):114-117. 被引量：1
3吴彦文,吴世杰,刘晋萍.蚁群算法在网络教育资源检索中的应用[J].计算机应用与软件,2008,25(11):197-198. 被引量：1
4孙素芬,罗长寿,魏清凤.Web农业实用技术自动问答系统设计实现[J].现代图书情报技术,2009(7):70-74. 被引量：5
5罗长寿,张峻峰,孙素芬,魏清凤.基于改进VSM的农业实用技术自动问答系统研究[J].安徽农业科学,2009,37(28):13948-13950.
6刘继红,吴军华,任明鑫.基于改进的网络蜘蛛算法抽取Web站点结构的方法[J].江南大学学报（自然科学版）,2009,8(5):555-559. 被引量：5
7王宇新,刘海峰,郭禾,陈鑫.一种有效的专题信息集中和检索策略[J].计算机应用研究,2010,27(6):2106-2108. 被引量：4
8谭龙江.基于搜索引擎优化的网络宣传机模型[J].计算机应用,2010,30(8):2232-2234. 被引量：3
9熊金辉,杨勇,罗海燕,王淑彦,刘怡良.基于扩展SKOS模型的简单农业本体系统建设方法[J].沈阳农业大学学报,2010,41(4):503-505. 被引量：1
10彭冬,蔡皖东.面向Web论坛的网络信息获取技术及系统实现[J].计算机工程与科学,2011,33(1):157-160. 被引量：7

1金钊,陈艳.一种目标Web信息收集系统的设计与实现[J].信息技术,2013,37(3):172-175. 被引量：1
2朱雪莲.专用Web信息收集系统的设计和实现[J].煤炭技术,2011,30(8):190-191.
3潘春华,冯太明,武港山.基于移动爬虫的专用Web信息收集系统的设计[J].计算机工程与应用,2003,39(36):153-156. 被引量：3
4曹宁,吴中海,刘宏志,张齐勋.HDFS下载效率的优化[J].计算机应用,2010,30(8):2060-2065. 被引量：23
5葛强,陈前程,周珂,臧文乾,严运广,方鑫.一种遥感数据快速传输策略研究[J].计算机工程,2016,42(6):27-30. 被引量：3
6王挺.智能搜索引擎在企业人力资源管理决策支持系统中的应用[J].电脑知识与技术,2010,6(8X):6856-6857. 被引量：3
7王正,罗万明,阎保平.并行下载最优机制[J].软件学报,2009,20(8):2255-2268. 被引量：4
8廖彬,于炯,张陶,杨兴耀.基于P2P的分布式文件系统下载效率优化[J].计算机应用,2011,31(9):2317-2320. 被引量：2
9曾黄麟,黄艳.基于信息最大覆盖率蚁群算法的Rough集属性优化约简[J].四川理工学院学报（自然科学版）,2011,24(4):452-455. 被引量：2
10李娟,陈斌.基于SI模型的信息传播研究[J].信息系统工程,2015,28(8):135-136. 被引量：2

小型微型计算机系统

2003年第12期

浏览历史

内容加载中请稍等...

面向主题的Web信息收集系统的设计与实现被引量：12

参考文献10

同被引文献89

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

面向主题的Web信息收集系统的设计与实现 被引量：12

参考文献10

同被引文献89

引证文献12

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

面向主题的Web信息收集系统的设计与实现被引量：12