关于“中文网页自动分类竞赛”结果的分析被引量：6

The Analysis of a Contest Result on Chinese Web Page Automatic Categorization

下载PDF

导出

摘要在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。 A Chinese Web page automatic categorization contest was hold in national symposium on Search Engine and Web Mining and ten teams took part in this contest. After describing the contest rules, this paper analyses the contest results in details and we can have an explicit view on the present technologies of Chinese Web page automatic categorization: no explicit difference is shown among those classifiers had been developed and Chinese Web page categorization is more difficult than plain text categorization. This paper also attempt to provide a standard Chinese Web page categorization instance examples and develops them to be a base corpus of Chinese Web page categorization by continuous modification.

作者冯是聪王继民

机构地区北京大学计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2003年第5期34-40,共7页 Journal of Chinese Information Processing

基金国家973重大基础研究项目资助(G1999032706)

关键词计算机应用中文信息处理机器学习中文网页自动分类 TREC评测 computer application Chinese information processing machine learning Chinese Web page automatic categorization TREC evaluation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李蓉,叶世伟,史忠植.SVM-KNN分类器——一种提高SVM分类精度的新方法[J].电子学报,2002,30(5):745-748. 被引量：133
2李晓明.对中国曾有过静态网页数的一种估计[J].北京大学学报（自然科学版）,2003,39(3):394-398. 被引量：12
3闫宏飞,李晓明.关于中国Web的大小、形状和结构[J].计算机研究与发展,2002,39(8):958-967. 被引量：17

二级参考文献18

1李晓明,刘建国.搜索引擎技术及趋势[J].中国计算机用户,2000(9):27-28. 被引量：14
2祝福来.北大天网发布2002年中国网页调查报告[N].计算机世界,2003-01-27,A6版.
3[2]赵江华,闫宏飞,王建勇等. 天网中的并行与分布处理. 北京大学,技术报告:PKU CS NET TR2002001, 2002. Http://162.105.80.88/crazysite/home/report(Zhao Jianghua, Yan Hongfei, Wang Jianyong et al. Parallel and distributed processing in WebGather(in Chinese). Peking University, Tech Rep: PKU CS NET TR2002001, 2002.Http://162.105.80.88/crazysite/home/report)
4[3]Yan Hongfei, Wang Jianyong, Li Xiaoming. A dynamically reconfigurable model for a distributed web crawling system. In: 2001 Int'l Conf Computer Networks and Mobile Computing. Beijing, 2001. 157～162
5[4]Marc Najork, Janet L Wiener. Breadth-first search crawling yields high-quality pages. In: Proc of the 10th Int'l World Wide Web Conf. Hongkong, 2001. 114～118
6[5]Li Xiaoming, Wang Jianyong. WebGather: Towards quality and scalability of a web search service. In: Proc of the 10th Int'l World-Wide Web Conf. Hongkong, 2001
7[7]中国互联网络信息中心(CNNIC). 信息服务. 2000. http://www.nic.edu.cn/INFO/cindex.html(CNNIC. Information service(in Chinese), 2000. http://www.nic.edu.cn/INFO/cindex.html)
8[9]Andrei Broder, Ravi Kumar, Farzin Maghoul et al. Graph structure in the web: Experiments and models. In: Proc of the 9th Int'l World-Wide Web Conf. Amsterdam, 2000. 309～320
9[10]Reka Albert, Hawoong Jeong, Albert-Laszlo Barabasi. Internet: Diameter of the world-wide web. Nature, 1999, 401: 130～131
10[11]S R Kumar, P Raghavan, S Rajagopalan et al. Trawling the Web for emerging cyber-communities. In Proc of the 8th Int'l World-Wide Web Conf. Toronto, Canada, 1999. http://www8.org/w8-papers/4a-search-mining/trawling/trawling.html

共引文献159

1万磊,佟鑫,盛明伟,秦洪德,唐松奇.Softmax分类器深度学习图像分类方法应用综述[J].导航与控制,2019,0(6):1-9. 被引量：62
2赵向军,路梅.垃圾邮件过滤算法研究[J].徐州师范大学学报（自然科学版）,2006,24(4):52-55. 被引量：1
3陈翀,彭波,闫宏飞,王继民.一种词汇共现算法及共现词对检索系统排序的影响[J].清华大学学报（自然科学版）,2005,45(S1):1857-1860. 被引量：8
4刘晓莉,彭波.基于概率模型的名人网页相关度评价[J].清华大学学报（自然科学版）,2005,45(S1):1887-1891. 被引量：2
5王淑盛,徐正光,刘黄伟,王志良,史立峰.改进的K近邻方法在岩性识别中的应用[J].地球物理学进展,2004,19(2):478-480. 被引量：14
6施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
7朱家稷 ,闫宏飞 .一种Web多维分析模型及应用[J].情报学报,2004,23(5):553-560. 被引量：1
8张强,杨子龙,盛纲.浅谈SVM及其与KNN的联系[J].电脑知识与技术,2005(2):85-86.
9陈虎虎,钟方平,许学忠,董明荣.基于支持向量机的低空飞行目标声识别[J].系统工程与电子技术,2005,27(1):46-48. 被引量：11
10程冲,黄水清.利用正则表达式解析新闻网页的算法研究[J].农业图书情报学刊,2005,17(4):5-8. 被引量：7

同被引文献54

1樊友平,陈允平,孙婉胜,马笑潇,柴毅,黄席樾.基于主元分析和免疫聚类的双向特征数据压缩方法[J].系统仿真学报,2005,17(1):148-153. 被引量：7
2许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
3毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
4....http://trec.nist.gov/,,2005-08-25..
5Han E,Karypis G.Centroid-based document classification analysis & experimental result[C]. PKDD,2000:116-123.
6Tan Songbo, Cheng Xue-Qi, Moustafa M Ghanem. A novel refinement approach for text categorization[C].ACM CIKM,2005: 469-476.
7Salton G, Wong A,Yang C,A vector space model for automatic indexing[J].Commutation of ACM, 1995,18:613 -620.
8Freund Y, Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting [J]. Journal of Computer and System Sciences, 1997,55( 1): 119-139.
9Schapire R, Singer Y.BoosTexter:a boosting based system for text categorization[J].Machine Learning, 2000,39(203): 135 - 168.
10Krogh A,Vedelsby J. Neural network ensembles, ross validation, and active learning[C]. Tesauro G, Touretzky D S, Leen T K, et al. Advances in Neural Information Processing Systems 7, Cambridge, MA: MIT Press, 1995:231-238.

引证文献6

1魏松,钟义信,王翔英.中文Web文本挖掘系统WebTextMiner开发[J].计算机应用研究,2006,23(6):211-213. 被引量：1
2骆昌日,张新华,何婷婷,骆世广.基于DCM的中文文本分类[J].计算机工程与应用,2006,42(34):157-159. 被引量：1
3王小冷,王斌.一种抗噪音的中文网页分类方法[J].中文信息学报,2007,21(4):48-54. 被引量：1
4侯臣平,易东云,吴翊.基于最大差异延展算法的Web资源描述算法[J].系统仿真学报,2008,20(20):5553-5557.
5蒋宗礼,徐学可.文本分类中基于AdaBoost.MR的改进中心法[J].计算机工程与设计,2009,30(1):122-124. 被引量：2
6孔勇发,杨正方,张万林,龚江宏,张光寅.莫来石陶瓷的摩擦磨损特性[J].硅酸盐通报,1999,18(4):28-32. 被引量：2

二级引证文献7

1刘华.文本分类C#实现[J].现代图书情报技术,2007(3):43-45.
2李呈顺,张玉军,张景德.溶胶凝胶法制备多晶莫来石纤维[J].无机材料学报,2009,24(4):848-852. 被引量：12
3梁晓娜,于红,范丽民,骆桂爽.改进词频分类器集成的文本分类算法[J].智能系统学报,2010,5(2):177-180. 被引量：2
4郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
5冀素琴,石洪波,卫洁.基于Map Reduce的Bagging贝叶斯文本分类[J].计算机工程,2012,38(16):203-206. 被引量：2
6卫莉莉,王煜.领域Web文本采集与分类系统研究[J].电子世界,2012(21):80-81.
7李玖重,孙志钦.炼油加热炉用新型陶瓷空气预热器结构优化模拟研究[J].石油化工设备技术,2017,38(3):38-41. 被引量：3

1盛魁,赵鹏.中文网页自动分类综述[J].电脑知识与技术,2010,6(9X):7558-7560. 被引量：2
2贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12
3廖文军,叶喜民.中文网页自动分类系统研究[J].新乡师范高等专科学校学报,2007,21(2):67-69.
4郑津,景彦昊.中文网页自动分类构架设计[J].福建电脑,2014,30(4):153-154. 被引量：1
5徐德智,阳绿云.中文网页自动分类研究[J].计算机工程与科学,2001,23(6):33-35. 被引量：3
6孔令成,郑诚,吴永俊.一种基于VSM的中文网页分类方法[J].信息化纵横,2009(17):56-58.
7胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20
8胡燕,张颂扬.基于Google Web API的中文训练库自动获取方法研究[J].计算机与数字工程,2008,36(5):8-10. 被引量：1
9张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
10晒杂志是幸福的……[J].CAD/CAM与制造业信息化,2014,0(12):67-67.

中文信息学报

2003年第5期

浏览历史

内容加载中请稍等...

关于“中文网页自动分类竞赛”结果的分析被引量：6

参考文献3

二级参考文献18

共引文献159

同被引文献54

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

关于“中文网页自动分类竞赛”结果的分析 被引量：6

参考文献3

二级参考文献18

共引文献159

同被引文献54

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

关于“中文网页自动分类竞赛”结果的分析被引量：6