基于自动分类的网页机器人被引量：1

Internet Robot Based on Automatic Classification

下载PDF

导出

摘要随着互联网的普及和发展，网络上的信息资源越来越丰富，它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器，又称Robot. 讨论了抓取器与文本自动分类器相结合，对用户要求领域网页的收集。抓取器找到相关链接进行抓取，而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。 With the rapid expansion of Internet and the continuous increase of the amount of information on WWW.It is desired to develop efficient and intelli gentized tools to do it.A WWW information discovery and collect tool is called a robot. This paper disusses the combination of the text automatic classification with robot . The goal is to selectively seek out pages that are relevant to a p re-defined set of topics. The robot finds the link that is likely to be most rel evant for the robot,and avoids irrelevant regions of the Web.This leads to signi ficant savings in network resource, and keeps robot more efficient.

作者康平波王文杰

机构地区中国科技大学研究生院中国科学院研究生院信息科学与工程学院

出处《计算机工程》 CAS CSCD 北大核心 2003年第21期123-124,127,共3页 Computer Engineering

关键词网页机器人文本自动分类向量空间模型 Internet robot Text automatic classification Vector space model

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48

二级参考文献4

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2卜东波.聚类/分类理论研究及其在文本挖掘中的应用.中科院计算所博士学位论文[M].-,2000..
3黄萱菁,吴立德.基于向量空间模型的文档分类系统[J].模式识别与人工智能,1998,11(2):147-153. 被引量：24
4邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45

共引文献47

1雷小锋,夏征义,谢昆青.SROC:一种面向结构鲁棒性的迭代聚类方法[J].计算机研究与发展,2007,44(z3):263-267.
2卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
3罗永莲,张永奎.基于混合特征的中文文本分类[J].电脑开发与应用,2005,18(4):4-5. 被引量：1
4胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
5白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4
6王强,王晓龙,关毅,徐志明.K-NN与SVM相融合的文本分类技术研究[J].高技术通讯,2005,15(5):19-24. 被引量：10
7万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
8王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
9王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
10庄世芳,林世平,陈旭晖,苏芳仲.基于概念集和粗集的中文Web文本挖掘特征提取的研究[J].福建电脑,2006,22(2):31-32. 被引量：1

同被引文献1

1张义忠,赵明生,朱精南.基于内容的中文网页自动分类研究[J].信息与控制,2001,30(5):408-412. 被引量：5

引证文献1

1叶帮利.特教网络资源自动搜集整理机器人的开发研究[J].电脑知识与技术,2006(9):76-76. 被引量：2

二级引证文献2

1叶帮利.数字图书馆看门狗设计与实现[J].电脑开发与应用,2009,22(7):33-34.
2周秋华,胡金秀.江西省特殊教育学校网络资源建设现状调查研究[J].南昌教育学院学报,2019,34(1):37-40.

1康平波,田永鸿,黄铁军.智能化网页资源收集工具的设计与实现[J].计算机工程,2004,30(4):88-89. 被引量：2
2雪痕.爽玩自制机器人大格斗[J].软件指南,2010(11):77-77.
3芋芊.轻松下载被深藏的网络资源[J].电脑迷,2006,0(8):92-92.
4康平波,王文杰.基于自动分类的搜索引擎过滤系统[J].计算机工程,2004,30(2):95-97. 被引量：2
5唐懿芳,牛力,傅赛香,严小卫.文本的自动分类[J].广西师范大学学报（自然科学版）,2001,19(4):50-55. 被引量：5
6陈磊,冯玉珉.一种基于网页自动分类的分类查询搜索引擎[J].电脑与信息技术,2004,12(6):47-51.
7陈骏.语义网在文本分类中的应用[J].计算机工程与应用,2009,45(8):153-157.
8Flash“抓取器”[J].网管员世界,2012(14):120-120.
9叶鹏.HTTP网址抓取器[J].互联网天地,2006(6):34-34.
10董乐红,耿国华,周明全.一个中文文本自动分类器的设计[J].计算机应用与软件,2008,25(4):14-16.

计算机工程

2003年第21期

浏览历史

内容加载中请稍等...

基于自动分类的网页机器人被引量：1

参考文献1

二级参考文献4

共引文献47

同被引文献1

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于自动分类的网页机器人 被引量：1

参考文献1

二级参考文献4

共引文献47

同被引文献1

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于自动分类的网页机器人被引量：1