支持向量机在文本自动分类中的应用研究被引量：7

Support Vector Machine and Its Application in Automatic Document Classification

下载PDF

导出

摘要针对数据挖掘中的文本自动分类问题，提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型，该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后，即可应用于实际文档的自动分类。文中给出了该模型的构造及应用的方法，用两种核函数作为内积回旋方案，以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。 Aiming to documents classification in data mining, a classification method based on the support vector machine is presented in this paper. The multi-layer linked SVM model that can classify the samples set into multi-categories is constructed. After it is constructed according to training samples set, the model can be applied to practical samples automatic classification. The method is shown about how the model is constructed and applied to classification. Two sorts of kernel function are applied to SVM, they are multinominal function and radial basis function. The model and algorithm are applied to some documents of China periodical document database and classification results illustrate its practicability.

作者田晓宇梁静国

机构地区哈尔滨工程大学

出处《情报学报》 CSSCI 北大核心 2006年第2期208-214,共7页 Journal of the China Society for Scientific and Technical Information

关键词支持向量机文本分类机器学习模式识别 support vector machine, document classification, machine learning, pattern recognition.

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1李辉,史忠植,许卓群.运用文本领域的常识改善基于支撑向量机的文本分类器性能[J].中文信息学报,2002,16(2):7-13. 被引量：16
2李晓黎,刘继敏,史忠植.基于支持向量机与无监督聚类相结合的中文网页分类器[J].计算机学报,2001,24(1):62-68. 被引量：108
3陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习算法[J].软件学报,2003,14(3):451-460. 被引量：88
4VladimirN Vapnik著张学工译.统计学习理论的本质[M].北京：清华大学出版社,2000.1-125.
5张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):32-42. 被引量：2257

二级参考文献21

1李辉.支撑向量机及其在文本分类中的应用，北京大学博士论文[M].,2001..
2Peter Cord等邵维忠等（译）.Object-Oriented Analysis.Yourdon Press[M].北京:北京大学出版社,1992.65-77.
3[1]Vapnik V. The Nature of Statistical Learning Theory. New York: Springer-Verlag, 1995.
4[2]Stitson MO, Weston JAE, Gammerman A, Vovk V, Vapnik V. Theory of support vector machines. Technical Report, CSD-TR-96-17, Computational Intelligence Group, Royal Holloway: University of London, 1996.
5[3]Cortes C, Vapnik V. Support vector networks. Machine Learning, 1995,20:273～297.
6[4]Vapnik V. Statistical Learning Theory. John Wiley and Sons, 1998.
7[5]Gammerman A, Vapnik V, Vowk V. Learning by transduction. In: Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. Wisconsin, 1998. 148～156.
8[6]Joachims T. Transductive inference for text classification using support vector machines. In: Proceedings of the 16th International Conference on Machine Learning (ICML). San Francisco: Morgan Kaufmann Publishers, 1999. 200～209.
9[7]Boser BE, Guyon IM, Vapnik VN. A training algorithm for optimal margin classifiers. In: Haussler D, ed. Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory. Pittsburgh, PA: ACM Press, 1992. 144～152.
10[8]Burges CJC. Simplified support vector decision rules. In: Saitta L, ed. Proceedings of the 13th International Conference on Machine Learning. San Mateo, CA: Morgan Kaufmann Publishers, 1996. 71～77.

共引文献2466

1白岗岗,侯精明,史玉品,韩浩,郭凯华,李丙尧,付德宇.基于支持向量机的葫芦河流域径流变化的多因素贡献率分析[J].水土保持研究,2020,27(2):112-117. 被引量：2
2曾赟.第四种法学知识新形态——数据法学的研究定位[J].法制与社会发展,2023,29(1):41-59. 被引量：8
3乔丹,刘刚,杨执钧,钟韬,白雪.基于迁移学习的船舶目标识别[J].计算机应用研究,2020,37(S01):324-325. 被引量：1
4孟琮棠,赵银娣,向阳.基于卷积神经网络的遥感图像变化检测[J].现代测绘,2019,0(5):1-5. 被引量：3
5田海军,门洪,郎世伟.基于LS-SVM的电厂过热汽温仿真研究[J].微计算机信息,2007,23(10):270-272. 被引量：2
6张磊,夏士雄,牛强.基于SVM二叉决策树方法的矿井提升机故障诊断[J].微计算机信息,2008,24(10):198-199. 被引量：4
7瞿伟廉,谭冬梅.基于小波分析和支持向量机的结构损伤识别[J].武汉理工大学学报,2008,30(2):80-82. 被引量：3
8郑树剑,刘冀伟,何积铨,韩旭.基于支持向量机的混凝土结构中钢筋腐蚀的判别[J].电子器件,2007,30(5):1935-1938.
9殷彬,方思行.脾虚证诊断的数学模型[J].暨南大学学报（自然科学与医学版）,2006,27(3):363-367. 被引量：4
10王宇,丁萍,吴峻.基于SVM的光纤陀螺标度因数建模研究[J].舰船电子工程,2008,28(5):78-80. 被引量：1

同被引文献50

1胡于进,周小玲,凌玲,王学林.基于向量空间模型的贝叶斯文本分类方法[J].计算机与数字工程,2004,32(6):28-30. 被引量：7
2白广慧,连浩,许洪波,程学旗.自动分类技术在企业竞争情报系统中的应用[J].计算机工程与应用,2005,41(18):212-214. 被引量：4
3沈记全,张行文.基于Multi-Agent的Web文本挖掘系统[J].福建电脑,2005,21(11):2-3. 被引量：1
4陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
5胡国胜,钱玲,张国红.支持向量机的多分类算法[J].系统工程与电子技术,2006,28(1):127-132. 被引量：33
6任江涛,孙婧昊,施潇潇,黄焕宇,印鉴.一种用于文本聚类的改进的K均值算法[J].计算机应用,2006,26(B06):73-75. 被引量：24
7曹淑娟,刘小茂,张钧,刘振丙.基于类中心思想的去边缘模糊支持向量机[J].计算机工程与应用,2006,42(22):146-149. 被引量：8
8牛强,王志晓,陈岱,夏士雄.基于支持向量机的Web文本分类方法[J].微电子学与计算机,2006,23(9):102-104. 被引量：19
9尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
10李长玲,翟雪梅.基于PageRank的引文分析方法探讨[J].情报理论与实践,2007,30(1):122-124. 被引量：23

引证文献7

1孙超,张玉峰.基于SVM的企业竞争情报自动分类系统模型[J].情报杂志,2007,26(3):40-43. 被引量：1
2钱爱兵.基于RSS的Web新闻主题聚合系统的设计与实现[J].现代图书情报技术,2007(4):56-61. 被引量：12
3林永民,朱卫东.基尼指数在文本特征选择中的应用研究[J].计算机应用,2007,27(10):2584-2586. 被引量：5
4贾燕花,徐蔚鸿.K-means聚类和支持向量机结合的文本分类研究[J].计算机工程与应用,2010,46(22):172-174. 被引量：6
5刘忠宝,赵文娟,贾君枝.多标记用户分类系统构建方法研究[J].图书情报工作,2014,58(10):145-148. 被引量：1
6赵文娟.基于Hadoop的Web文本分类系统设计研究[J].兰州大学学报（自然科学版）,2014,50(6):892-896. 被引量：1
7赵文娟,任菊香.基于万有引力定律和PageRank的页面分类系统构建方法研究[J].情报科学,2015,33(6):35-38.

二级引证文献26

1王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
2任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
3左敬龙.基于嵌入式系统的聚合新闻服务阅读器设计与实现[J].茂名学院学报,2008,18(1):49-52. 被引量：1
4钱爱兵.基于主题的网络舆情分析模型及其实现[J].现代图书情报技术,2008(4):49-55. 被引量：72
5周序生.改进的最小最大聚类方法在新闻主题来源追踪中的应用[J].湖南工业大学学报,2009,23(1):66-70.
6郭莹光,陈启买.关注时事新闻的商品推荐模型[J].计算机应用与软件,2009,26(10):162-165.
7上官廷华,冯荣耀,柳宏川.一种基于熵和均方差法综合赋权的K-means算法[J].计算机与现代化,2010(4):34-36. 被引量：8
8余桂兰,左敬龙.基于RSS的离线数据库应用系统设计[J].计算机与现代化,2010(5):199-201.
9郝志勇,庄永龙,张学工.基础医学科研进展信息聚合平台构建[J].医学信息学杂志,2010,31(6):13-16. 被引量：3
10郑伟,奉国和.一种基于基尼指数和类内频率的特征选择方法[J].制造业自动化,2010,32(11):162-164.

1朱秀华.自组织神经网络在文本分类中的应用研究[J].农业图书情报学刊,2009,21(8):26-29.
2许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
3郑凤萍.基于模糊VSM和RBF网络文本分类方法的研究与实现[J].图书情报工作,2007,51(7):47-49. 被引量：2
4郑凤萍.一种新的中文文本分类算法[J].现代情报,2007,27(3):143-144. 被引量：2
5许少华,李小红,潘俊辉.基于模糊VSM和RBF网络的文本分类方法[J].计算机工程与设计,2007,28(1):145-148.
6郑凤萍,刘春雨.基于模糊向量空间的文本分类方法[J].情报科学,2007,25(4):588-591. 被引量：2
7杨延锟,许少华.基于FVSM的核聚类算法在文本聚类中的应用[J].长江大学学报（自科版）（上旬）,2010,7(1):72-75.
8关于加入“论文网上优先数字出版”的重要启事[J].西北农林科技大学学报（自然科学版）,2011,39(10):70-70.
9本刊加入“期刊数据库”及“期刊优先数字出版平台”声明[J].北京工业职业技术学院学报,2014,13(4):120-120.
10周群力,钱扬义.中学化学教育游戏在中国大陆的设计研究进展[J].化学教育,2014,35(1):76-80. 被引量：7

情报学报

2006年第2期

浏览历史

内容加载中请稍等...

支持向量机在文本自动分类中的应用研究被引量：7

参考文献5

二级参考文献21

共引文献2466

同被引文献50

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

支持向量机在文本自动分类中的应用研究 被引量：7

参考文献5

二级参考文献21

共引文献2466

同被引文献50

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

支持向量机在文本自动分类中的应用研究被引量：7