基于流形正则化的支持向量机文本分类被引量：12

Text Classification with a SVM based on Manifold Regularization

下载PDF

导出

摘要支持向量机(Support Vector Machine,SVM)是一种Vapnik等在统计学理论的基础上发展起来的可训练机器学习的方法。它主要针对小样本的机器学习,具有泛化性能好、高维操作方便、适应性强、全局优化、训练时间短、理论完备等特点,因此得到了日益广泛的应用和研究。本文将半监督学习算法应用到基于支持向量机的文本分类技术[1-2]中,提出了一组基于几何正则化方式的学习算法。虽然这种新型算法适用于无监督到完全监督的整个范围,本文专注于半监督学习算法方面的研究。之后,本文讨论了新型方法在SVM算法上的扩展。实验数据表明,这种新型算法可以有效的使用未标记数据。 SVM is a method proposed by Vapnik et al. and developed on the basis of the Statistical theory, and it is also a Trainable machine learning method. It focused on a small sample of the machine learning, with good generalization performance, ease of operation of the high-dimensional, adaptable, global optimization, short training time, a complete theory and so on. Therefore, it has been an increasingly wide range of applications and research. In this article, we will semi-supervised learning algorithm is applied to text classification techniques based on support vector machine. We propose a family of learning algorithms based on a new form of regularization that allows us to exploit the geometry of the marginal distribution. While this framework allows us to approach the full range of learning problems from unsupervised to supervised, we focus on the problem of semi-supervised learning. As a result, we obtain a SVM extension. Our experimental evidence suggests that our semi-supervised algorithms are able to use unlabeled data effectively.

作者袁爱领齐伟钱旭

机构地区中国矿业大学(北京)机电与信息工程学院

出处《软件》 2013年第2期65-68,共4页 Software

关键词半监督学习正则化核方法流形学习无标签数据支持向量机图谱轮 Semi-supervised learning regularization kernel methods manifold learning unlabeled data support vector machines spectral graph theory

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习算法[J].软件学报,2003,14(3):451-460. 被引量：88

二级参考文献17

1[1]Vapnik V. The Nature of Statistical Learning Theory. New York: Springer-Verlag, 1995.
2[2]Stitson MO, Weston JAE, Gammerman A, Vovk V, Vapnik V. Theory of support vector machines. Technical Report, CSD-TR-96-17, Computational Intelligence Group, Royal Holloway: University of London, 1996.
3[3]Cortes C, Vapnik V. Support vector networks. Machine Learning, 1995,20:273～297.
4[4]Vapnik V. Statistical Learning Theory. John Wiley and Sons, 1998.
5[5]Gammerman A, Vapnik V, Vowk V. Learning by transduction. In: Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. Wisconsin, 1998. 148～156.
6[6]Joachims T. Transductive inference for text classification using support vector machines. In: Proceedings of the 16th International Conference on Machine Learning (ICML). San Francisco: Morgan Kaufmann Publishers, 1999. 200～209.
7[7]Boser BE, Guyon IM, Vapnik VN. A training algorithm for optimal margin classifiers. In: Haussler D, ed. Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory. Pittsburgh, PA: ACM Press, 1992. 144～152.
8[8]Burges CJC. Simplified support vector decision rules. In: Saitta L, ed. Proceedings of the 13th International Conference on Machine Learning. San Mateo, CA: Morgan Kaufmann Publishers, 1996. 71～77.
9[9]Osuna E, Freund R, Girosi F. An improved training algorithm for support vector machines. In: Proceedings of the IEEE NNSP'97. Amelia Island, FL, 1997. 276～285.
10[10]Joachims T. Making large-scale SVM learning practical. In: Scholkopf, Burges C, Smola A, eds. Advances in Kernel Methods--Support Vector Learning B. MIT Press, 1999.

共引文献87

1马建斌,滕桂法,李滢,赵洋.TSVM在电子邮件作者身份分类技术上的应用[J].河北工业大学学报,2005,34(z1):124-126.
2李洋,方滨兴,郭莉.基于TSVM分类的网络入侵检测方法[J].计算机研究与发展,2007,44(z2):198-202.
3马琳,罗铁坚,宋进亮,叶世伟.Web性能测试与预测[J].中国科学院研究生院学报,2005,22(4):472-479. 被引量：8
4马琳,罗铁坚,叶世伟.一种基于转导的预测算法及其在软件性能测试中的应用[J].计算机工程,2005,31(16):170-172. 被引量：1
5宇缨,李清华.统计学习理论和支持向量机[J].沈阳大学学报,2005,17(4):42-47. 被引量：14
6田晓宇,梁静国.支持向量机在文本自动分类中的应用研究[J].情报学报,2006,25(2):208-214. 被引量：7
7张曦煌,须文波.基于增量学习的超球支持向量机设计[J].计算机工程与应用,2006,42(13):66-68. 被引量：2
8李晓宇,张新峰,沈兰荪.支持向量机(SVM)的研究进展[J].测控技术,2006,25(5):7-12. 被引量：45
9吴峰崎,孟光.基于支持向量机的转子振动信号故障分类研究[J].振动工程学报,2006,19(2):238-241. 被引量：19
10苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378

同被引文献133

1庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
2钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：29
3赵卓翔,王轶彤,田家堂,周泽学.社会网络中基于标签传播的社区发现新算法[J].计算机研究与发展,2011,48(S3):8-15. 被引量：37
4刘绍鹏,侯澍旻.一种基于分割的聚类算法用于振动信号解调(英文)[J].新型工业化,2013,2(10):8-15. 被引量：6
5耿志强,杨科,韩永明,顾祥柏.基于数据驱动有向图和高阶统计的控制系统故障检测方法[J].新型工业化,2013,2(11):1-11. 被引量：8
6胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化,2013,2(4):103-112. 被引量：18
7臧朝平,马双超.利用测试模态数据识别结构有限元模型误差源的一种新方法[J].新型工业化,2013,2(8):1-9. 被引量：7
8颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,34(8):63-66. 被引量：14
9李慧,刘东苏,任志纯.文献聚类技术及其评价函数[J].情报杂志,2004,23(7):17-18. 被引量：4
10孙晋文,肖建国.基于SVM的中文文本分类反馈学习技术的研究[J].控制与决策,2004,19(8):927-930. 被引量：16

引证文献12

1李兆阳,赵阿群.基于BRITE的向量地址平均长度仿真研究[J].软件,2015,36(2):45-48. 被引量：1
2尚耐丽,王骁力,沈鹍霄,卢玉领,马晓普,兰义华.半监督分类方法的研究[J].计算机应用与软件,2015,32(11):162-166. 被引量：4
3黄永毅,龚垒.基于主动学习的交互式支持向量机文本分类学习方法[J].电子技术与软件工程,2016(14):168-168. 被引量：2
4刘旭东,张晓丹.基于Pinball损失函数的半监督支持向量机[J].济南大学学报（自然科学版）,2017,31(1):42-47.
5李果,刘任任.基于地名识别的地方新闻分类方法[J].软件,2018,39(4):73-76. 被引量：1
6王洪东,贾宏哲,吴晓婷.一种改进的MVU降维方法[J].软件,2018,39(4):118-121.
7赵谦益.K-means算法中文文献聚类的Python实现[J].软件,2019,40(8):89-94. 被引量：6
8陈露,吴国仕,李晶.基于语义指纹和LCS的文本去重方法[J].软件,2014,35(11):25-30. 被引量：4
9陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件,2015,36(1):56-61. 被引量：38
10吕占伟,陶峥.无线传感器网络定位技术[J].软件,2015,36(4):76-80. 被引量：8

二级引证文献91

1曹来成,赵建军,崔翔,李可.基于余弦测度下K-means的网络空间终端设备识别[J].中国科学院大学学报（中英文）,2016,33(4):562-569. 被引量：9
2于洋,梁满贵,王哲.基于向量地址的数据中心网络数据面模型的研究[J].四川大学学报（工程科学版）,2016,48(4):129-135.
3黄永毅,龚垒.基于主动学习的交互式支持向量机文本分类学习方法[J].电子技术与软件工程,2016(14):168-168. 被引量：2
4盛华,张桂珠.一种融合K-means和快速密度峰值搜索算法的聚类方法[J].计算机应用与软件,2016,33(10):260-264. 被引量：13
5钟志琛.基于网络流量异常检测的电网工控系统安全监测技术[J].电力信息与通信技术,2017,15(1):98-102. 被引量：26
6汤洋,汤敏倩.网络招聘信息中职业类型与专业领域的情报分析[J].情报杂志,2017,36(6):72-77. 被引量：11
7叶菁,黄庆佳.一种基于内核级监测的恶意软件聚类分析方法[J].软件,2017,38(5):1-6.
8陈唯美,李晶,丑佳文,刘夏平.基于姿态识别与K-means算法的老年人安全伴侣[J].软件,2017,38(7):24-27.
9黄栋,徐博,许侃,林鸿飞,杨志豪.基于词向量和EMD距离的短文本聚类[J].山东大学学报（理学版）,2017,52(7):66-72. 被引量：11
10邵秀丽,印捷舟,张华东,王志刚.数据分析公共服务平台上K-Means算法的集成实现[J].南开大学学报（自然科学版）,2017,50(4):41-45. 被引量：2

1陈帅,赵海龙,衣俊艳.基于形态特征的车牌定位(英文)[J].电工技术学报,2015,30(S1):469-472.
2徐享忠,王精业,邵立嵩.基于XML的信息集成[J].计算机工程与应用,2002,38(24):50-52. 被引量：7
3王英,曾光宇.图像去噪算法研究[J].电脑与信息技术,2011,19(4):8-12. 被引量：27
4刘伟荣,刘高嵩,张龙祥.MIS系统开发的面向对象自适应生长原型法[J].计算技术与自动化,2000,19(3):84-86. 被引量：1
5张朝鑫.抽象级嵌入式系统设计模型描述[J].中国科技纵横,2014,0(13):20-20.
6王媛,黄永强.浅谈遥感影像的分类方法[J].科技致富向导,2013(17):43-43. 被引量：3
7郑士贵.双足行走机器人的实时神经网络控制:述评[J].管理观察,1996,0(7):41-41.
8孙骞,张进,胡建龙.基于BP神经网络的网络故障预测实验[J].中国新通信,2014,16(1):92-93.
9代码的末日[J].中国企业家,2016,0(12):11-11.
10全龙虎,王继东,崔赫日,王占山.基于PSO的PMSM模糊PI速度控制器设计[J].控制工程,2016,23(5):629-635. 被引量：9

软件

2013年第2期

浏览历史

内容加载中请稍等...

基于流形正则化的支持向量机文本分类被引量：12

参考文献1

二级参考文献17

共引文献87

同被引文献133

引证文献12

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

基于流形正则化的支持向量机文本分类 被引量：12

参考文献1

二级参考文献17

共引文献87

同被引文献133

引证文献12

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

基于流形正则化的支持向量机文本分类被引量：12