智能Web中文主题信息收集系统IRobot的设计被引量：7

The Design of Intelligent Chinese Web Topic Information Gather System IRobot

下载PDF

导出

摘要本文介绍了智能Web中文主题信息收集系统IRobot的设计思想和方法。针对Web主题信息收集所具有的许多新特性,系统采用了对待收集URL进行相关度预测为主,对已收集页面进行相关度评价结合的收集机制。尤其在URL的相关度预测中,深入考虑了Web主题信息结构和组织特性的多种因素,综合提高了系统的性能。相比已有的研究,系统的精度和收集效率更高,且更为稳定,并能够自动获得主题领域内重要资源的列表。 This paper introduces the design of intelligent Chinese Web topic information gather system IRobot in detail. According to the new features of Web topic informationgather, this system do relevance predication to the URLs to be gathered,together with the relevance scoring to the pages gathered. Especially in relevant predication, new issues about topic information are taken into account thoroughly. All the factors together improve the performance of system. Compared to other research results in this field, IRobot perform better in precision,efficiency and stability, also it can provide us a list of most important Web resources in topic field searched.

作者马亮陈群秀王俊徐国伟

机构地区清华大学计算机系智能技术与系统国家重点实验室富士通中国研究开发中心有限公司

出处《中文信息学报》 CSCD 北大核心 2002年第5期23-29,共7页 Journal of Chinese Information Processing

关键词智能Web中文主题信息收集系统 IROBOT 信息检索相关度预测相关度评价中文信息处理系统设计 information retrieval topic information gather relevance predication relevance scoring Chinese information processing

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1韩彬斌,王培康.Web网页识别算法研究[J].情报学报,2001,20(1):77-81. 被引量：8

二级参考文献2

1邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现[J].情报学报,1999,18(3):195-201. 被引量：32
2吴秀清,韩彬斌.基于Bayes算法的Web网页识别[J].计算机工程,2000,26(3):6-7. 被引量：3

共引文献7

1耿增民,刘万春.电离辐射计量网页识别方法[J].原子能科学技术,2005,39(5):477-480. 被引量：1
2虞建华.粤北山区翻腾水泥巨龙 “英德现象”惊骇业内人士[J].中国建材,2006(5):24-25.
3连瑞梅.电子商务中Web页面个性化推荐系统的架构[J].中国管理信息化（综合版）,2007,10(9):86-89. 被引量：2
4余立,张毅.为“无网络”用户提供信息服务的模式[J].中国信息导报,2002(9):21-23. 被引量：1
5孟海滨,伍瑞昌.Internet专业领域信息资源的分层获取技术研究[J].现代图书情报技术,2002(6):59-60. 被引量：1
6董慧,安璐.数字图书馆关键技术的分析与启示（下）[J].情报学报,2003,22(1):52-58. 被引量：13
7张俊伟,张岭,马范援.提供个性化服务的搜索引擎页面排序算法[J].计算机工程,2003,29(19):58-59. 被引量：5

同被引文献40

1林海霞,原福永,陈金森.主题网络蜘蛛搜索策略贪婪性解决方法[J].微电子学与计算机,2006,23(z1):278-280. 被引量：4
2周敏子,周皓峰,王晨,汪卫,施伯乐.使用频繁结构提炼网络权威资源[J].计算机研究与发展,2004,41(10):1614-1620. 被引量：1
3吴丽辉,王斌,余智华.一个基于Web的信息获取系统的框架与实现[J].微电子学与计算机,2004,21(10):121-123. 被引量：2
4李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80. 被引量：17
5周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：155
6杨宝森,来玲.面向学科的网络信息挖掘系统研究[J].情报理论与实践,2006,29(2):240-242. 被引量：3
7黄进,姜莹,杨雨,尤新生.基于数据挖掘的我国船舶工业发展现状分析研究[J].国防技术基础,2006(9):29-31. 被引量：4
8AlmPanidis,G,KotroPoulos,C.,and Pitas.I.Combining Text and Link Analysis for Focused Crawhng-an Application for Vertical Search Engines.Information System.Vol.32(6),2007,886-908.
9M.NajorkJ.Wiener.Breadth-First Search Crawling Yields High-Quality Pages.In Proceedings of the 1oht Interactional World Wide Web Conference,Hong Kong May 2001.
10Tang T,Hawking D,Craswell N,et al.Focused crawling for both Topical relevance and quality of medical information[C].Bremen:Proceedings of CIKM2005,2005:582-586.

引证文献7

1吴金红,张玉峰,王翠波.面向主题的网络竞争情报采集系统[J].现代图书情报技术,2006(12):54-57. 被引量：18
2庞景安.网络信息数据采集的质量控制研究[J].情报理论与实践,2007,30(4):526-530. 被引量：5
3张博,蔡皖东.面向主题的网络蜘蛛技术研究及系统实现[J].微电子学与计算机,2009,26(5):52-55. 被引量：13
4曾水香,罗林波.基于改进Hits算法的多主题爬虫研究与实现[J].福建电脑,2010,26(5):88-89. 被引量：2
5王彩虹.基于Web数据挖掘的科研协同服务模式探索[J].现代情报,2012,32(5):51-54. 被引量：1
6汪维熙,马静.一种动态更新知识体系模型及其在专题信息采集中的应用研究[J].情报学报,2012,31(6):583-588. 被引量：2
7田江涛.构建企业级智能搜索引擎实现跨域问题检索[J].数字技术与应用,2023,41(6):91-93. 被引量：2

二级引证文献42

1陈卓民.基于HITS算法改进的Web数据挖掘方法研究应用[J].自动化与仪器仪表,2016(7):255-257. 被引量：1
2刘高勇,汪会玲,吴金红.基于语义Web Service的Deep Web动态竞争情报采集[J].情报杂志,2008,27(3):79-81. 被引量：5
3赵洁,金培权.Web环境下本体和实体驱动的企业竞争情报获取机制研究[J].情报理论与实践,2008,31(5):777-780. 被引量：5
4张洋.网络信息计量学与搜索引擎研究[J].图书情报工作,2008,52(11):14-17. 被引量：2
5刘继红,吴军华,任明鑫.基于改进的网络蜘蛛算法抽取Web站点结构的方法[J].江南大学学报（自然科学版）,2009,8(5):555-559. 被引量：5
6宋新平,吴晓伟,刘竞.基于信息融合和综合集成研讨厅混合的企业竞争情报系统[J].图书情报工作,2009,53(22):76-79. 被引量：5
7赵洋,滕桂法,张玉新,何冬梅.基于Internet的农业信息垂直搜索引擎的设计[J].河北农业大学学报,2009,32(6):125-128. 被引量：6
8赵洁.基于关系抽取的企业竞争情报获取与融合框架[J].情报学报,2010,29(2):377-384. 被引量：9
9韩宇,黄青松.基于改进PageRank的情报主题相关度预测策略[J].微型电脑应用,2010,26(3):48-50. 被引量：1
10王宇新,刘海峰,郭禾,陈鑫.一种有效的专题信息集中和检索策略[J].计算机应用研究,2010,27(6):2106-2108. 被引量：4

1突破新“净”界iRobot发布全新Roomba880吸尘机器人[J].数码时代,2014,0(5):25-25.
2王天河,马庆龙.基于射频无源定位的智能跟踪机器人系统[J].兵工自动化,2010,29(7):84-87. 被引量：4
3泳池清扫机器人[J].微型计算机,2007(09Z):19-19.
4iRobot推出全新拖地机器人[J].机器人技术与应用,2016,0(2):12-12.
5张含阳.iRobot的成功之路可复制么?[J].机器人产业,2016(6):58-62.
6机器人都是活雷锋[J].新潮电子,2014(4):166-171.
7王迎春,沈应龙.先行者:iRobot的成就与经验[J].世界科学,2014(8):23-25.
8石军,王儒敬,王志红.基于Web数据挖掘的一种个性化方法[J].计算机工程与应用,2006,42(7):137-139. 被引量：3
9郭辉,蔡庆生.Web主题信息监控系统设计与实现[J].计算机应用,2003,23(8):41-43. 被引量：1
10刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1

中文信息学报

2002年第5期

浏览历史

内容加载中请稍等...

智能Web中文主题信息收集系统IRobot的设计被引量：7

参考文献1

二级参考文献2

共引文献7

同被引文献40

引证文献7

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

智能Web中文主题信息收集系统IRobot的设计 被引量：7

参考文献1

二级参考文献2

共引文献7

同被引文献40

引证文献7

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

智能Web中文主题信息收集系统IRobot的设计被引量：7