一种基于预分类的高效SVM中文网页分类器被引量：19

Efficient SVM Chinese Web page classifier based on pre-classification

下载PDF

导出

摘要中文网页分类技术是数据挖掘研究中的一个热点领域,而支持向量机(SVM)是一种高效的分类识别方法。首先给出了一个基于SVM的中文网页自动分类系统模型,详细介绍了分类过程中涉及的一些关键技术,其中包括网页预处理、特征选择和特征权重计算等。提出了一种利用预置关键词表进行预分类的方法,并详细说明了该方法的原理与实现。实验结果表明,该方法与单独使用SVM分类器相比,不仅大大减少了分类时间,准确率和召回率也明显提高。 Chinese Web page classification has been considered as a hot research area in data mining,and SVM is an effective method for learning the classification knowledge from massive data.In this paper,a model of automatic Chinese Web page classification system based on SVM is presented first.Then detailed design and implementation are introduced,and some key techniques about Chinese Web page classification,including Web page pre-processing,feature selection and weight computing are discussed.A pre-classification method by a given keywords list is proposed,and the principles and detailed implementation are described.The experiment shows that it not only reduces time but also increases in precision and recall compared with using SVM classifier only.

作者许世明武波马翠邸思徐洪奎杜如虚

机构地区西安电子科技大学计算机学院中国科学院深圳先进技术研究院

出处《计算机工程与应用》 CSCD 北大核心 2010年第1期125-128,共4页 Computer Engineering and Applications

关键词支持向量机中文网页分类文本分类机器学习 support vector machine Chinese Web page classification text classification machine learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Yang Yi-ming.An evaluation of statistical approaches to text categorization[J].Information Retrieval, 1999,1 ( 1 ) : 76-88.
2Yang Yi-ming,Slattery S,Ghani R.A study of approaches to hypertext categorization [J].J Intelligent Information System, 2002,18 (2/3):219-241.
3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
4Attardi G,Gull A,Sebastiani F.Automatic Web page categorization by link and.context analysis[C]//Proceedings of 1st European Symposium on Telematics,Hypermedia and Artificial Intelligence, (Varese, IT ), 1999.
5Shih L K,Karger D R.Using URLs and table layout for Web classification tasks[C]//Proceedings of the 13th International Conference on World Wide Web,200g.
6Shen Dou,Chen Zheng,Yang QianglWeb-page classification through summarization[C]//Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 2004 : 210-213.
7单松巍,冯是聪,李晓明.几种典型特征选取方法在中文网页分类上的效果比较[J].计算机工程与应用,2003,39(22):146-148. 被引量：76
8徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
9朱慕华,朱靖波,陈文亮.面向文本分类的多类别SVM组合方式的比较[c]//全国第八届计算语言学联合学术会议,2005:435-441.
10Lin C J,Weng R C,Keerthi S S.Trust region Newton method for large-scale logistic regression[R/OL].2007.http://www.csie.ntu.edu. tw/-cjlirdliblinear.

二级参考文献22

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4冯是聪单松巍张志刚等.一个中文网页数据集及其分类体系[A]..海峡两岸技术交流会[C].南京,2002-10.121-129.
5Yiming Yang,Jan O Pedersen.A comparative Study on Feature Selection in Text Categorization[C].In :Proceedings of the Fourteenth International Conference on Machine Leaming(ICML'97), 1997.
6Yiming Yang,Xin Liu.A re-examination of text categorization methods[C].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval SIGIR'99,1999:42---49.
7Yiming Yang.A study on thresholding strategies for text categorization[C].In:Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'01),2001.
8James Auen.Natural Language Understandin[M].The Benjamin/Cummings Publishing Company, 1991-05.
9Apte C,Damerau F J,Weiss S M.Automated Learning of Decision Rules for Text Categorization[J].ACM Trans On Inform Syst,12(3): 233-251.
10Salton G,Buckley B.Term-weighting Approaches in Automatic Text Retrieval[J].Information Processing and Management, 1998 ; 24(5 ) :513 -523.

共引文献417

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3张培颖.基于Web内容和日志挖掘的个性化网页推荐系统[J].计算机系统应用,2008,17(9):9-11. 被引量：6
4李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
5蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
6孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
7杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
8高博,朱东华,韩士雄.一种智能化的信息采集系统的研究与实现[J].兵工学报,2009,30(S1):130-134. 被引量：3
9李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
10陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2

同被引文献199

1高伟锋,刘连芳.基于分词和基于N-Gram的网页分类系统比较研究[J].广西科学院学报,2005,21(S1):58-60. 被引量：1
2彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
3李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
4刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
5王一丁.实际网络环境中不良图片的过滤方法[J].通信学报,2009,30(S1):103-106. 被引量：4
6杨震,范科峰,雷建军.隐私保护的自适应垃圾邮件过滤方法研究[J].通信学报,2009,30(S1):145-149. 被引量：2
7黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
8陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
9徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
10卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16

引证文献19

1何忠秀,王霜,安礼成.基于向量空间的网页内容相似度计算方法研究[J].计算机与现代化,2010(9):53-55. 被引量：4
2周洪翠,庄新妍.基于向量空间模型的文本信息表示[J].呼伦贝尔学院学报,2011,19(1):111-116. 被引量：3
3徐健,温浩胜.人才网页自动识别系统研究[J].现代图书情报技术,2011(6):20-26. 被引量：1
4胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7
5李永可,张太红,冯向萍,陈艳红,马健.中文农业网站多元线性回归识别研究[J].新疆农业大学学报,2011,34(5):442-446. 被引量：6
6陈翰,周杰,李弼程.一种基于综合特征的网页类型识别方法[J].信息工程大学学报,2011,12(6):738-744. 被引量：1
7骆万文,高飞,周学广.抗中文主动干扰关键词过滤研究综述[J].吉首大学学报（自然科学版）,2011,32(3):30-35.
8孙少波.利用本体集成和特征聚类的网页分类研究[J].现代电子技术,2012,35(14):93-96.
9李勇.中文网页分类研究综述[J].现代计算机,2012,18(15):3-7. 被引量：1
10田世全,陈钊.基于SVM的林产品贸易信息分类[J].电子世界,2014(9):188-189. 被引量：1

二级引证文献61

1刘潇,党全营,刘颖真,管凌霄.基于标签体系的环境数据推荐系统设计研究[J].网络安全与数据治理,2023,42(S01):91-96.
2杨志彬.基于聚类的教学资源管理系统[J].信息安全与技术,2011,2(11):106-107. 被引量：1
3李永可,吴悠,张太红,冯向萍,吴向前.维文垃圾网页多元线性回归识别研究[J].新疆大学学报（自然科学版）,2012,29(2):218-222. 被引量：1
4段园磊,张太红.基于向量空间模型中文农业网页分类技术研究[J].新疆农业大学学报,2012,35(2):164-167. 被引量：1
5乔建忠.一种基于统计特征面向“类型”主题抓取的网页相关性判断策略研究[J].现代图书情报技术,2012(6):9-16. 被引量：3
6李英英,王惠临.主题图技术在消费者健康信息资源组织中的应用——以糖尿病为例[J].现代图书情报技术,2013(12):55-61. 被引量：7
7蒋宗礼,时福林.基于链接关系的网页分类优化算法[J].计算机与现代化,2014(5):14-17. 被引量：2
8赵涛,张太红,陈燕红.中文农业网页去重及相似度判断研究[J].计算机技术与发展,2015,25(1):191-194. 被引量：2
9朱全银,潘禄,刘文儒,李翔,张永军,刘金岭.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24. 被引量：3
10李兆翠,朱振方,李颖.基于改进SVM的网页过滤系统研究[J].软件导刊,2016,15(2):159-161. 被引量：2

1贺海军,王建芬,周青,曹元大.基于决策支持向量机的中文网页分类器[J].计算机工程,2003,29(2):47-48. 被引量：19
2李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
3席耀一,林琛,李弼程,周杰,许旭阳.基于语义相似度的论坛话题追踪方法[J].计算机应用,2011,31(1):93-96. 被引量：22
4冯是聪,张志刚,李晓明.一种中文网页自动分类方法的实现及应用[J].计算机工程,2004,30(5):19-20. 被引量：15
5盛魁,赵鹏.中文网页自动分类综述[J].电脑知识与技术,2010,6(9X):7558-7560. 被引量：2
6肖雪,卢建云,余磊,龚恒.基于最低词频CHI的特征选择算法研究[J].西南大学学报（自然科学版）,2015,37(6):137-142. 被引量：6
7贾泂,梁久祯.基于支持向量机的中文网页自动分类[J].计算机工程,2005,31(10):145-147. 被引量：12
8廖文军,叶喜民.中文网页自动分类系统研究[J].新乡师范高等专科学校学报,2007,21(2):67-69.
9刘艳民.中文网页分类方法的研究[J].微电子学与计算机,2009,26(9):166-169. 被引量：3
10段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12

计算机工程与应用

2010年第1期

浏览历史

内容加载中请稍等...

一种基于预分类的高效SVM中文网页分类器被引量：19

参考文献11

二级参考文献22

共引文献417

同被引文献199

引证文献19

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

一种基于预分类的高效SVM中文网页分类器 被引量：19

参考文献11

二级参考文献22

共引文献417

同被引文献199

引证文献19

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

一种基于预分类的高效SVM中文网页分类器被引量：19