一种基于向量夹角的k近邻多标记文本分类算法被引量：6

An kNN Algorithm Based on Vector Angle for Multi-label Text Categorization

下载PDF

导出

摘要在多标记学习中,一个示例可以有多个概念标记。学习系统的目标是通过对由多标记样本组成的训练集进行学习,以尽可能正确地预测未知样本所对应的概念标记集。k近邻算法已被应用到多标记学习中,该算法将测试示例转化为多维向量,根据其k个近邻样本的标记向量来确定该测试示例的标记向量。传统的k近邻算法是基于向量的空间距离来选取近邻,而在自然语言处理中,文本间的相似度常用文本向量的夹角来表示,所以本文将文本向量间的夹角关系作为选取k近邻的标准并结合k近邻算法提出了一种多标记文本学习算法。实验表明,该算法在文档分类的准确率上体现出较好的性能。 In multi-label learning, each instance in the training set is associated with a set of labels, and the task is to output a label set whose size is unknown a priori for each unseen instance, k nearest neighbors （kNN） algorithm is recently applied to multi-label categorization. In detail, each instance is transformed into a vector and the label vector of the test instance is determined by its k nearest neighbors, which are chosen by the Euclidean distance of a couple of vectors. In this paper, a multi-label lazy learning approach named θ -MLkNN is presented, which is derived from the traditional k nearest neighbor （kNN） algorithm. Instead, we select the k nearest neighbors by the angle of two vectors. Experiments on a real-world text data set show that θ -MLkNN achieves better precision to traditional MLkNN algorithms.

作者广凯潘金贵

机构地区南京大学计算机软件新技术国家重点实验室

出处《计算机科学》 CSCD 北大核心 2008年第4期205-206,F0003,共3页 Computer Science

关键词机器学习多标记学习文本分类 Machine learning, Multi-label learning, Text categorization

分类号 TP311.134 [自动化与计算机技术—计算机软件与理论] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1周志华,陈世福.神经网络集成[J].计算机学报,2002,25(1):1-8. 被引量：245

二级参考文献2

1崔伟东,周志华,李星.神经网络VC维计算研究[J].计算机科学,2000,27(7):59-62. 被引量：3
2周志华,何佳洲,陈世福.神经网络国际研究动向——2000年国际神经网络联合大会评述[J].模式识别与人工智能,2000,13(4):415-418. 被引量：8

共引文献244

1杜扬帆,伍孝飞,乔百友.基于XGBoost-PredRNN++的海表面温度预测[J].计算机系统应用,2022,31(10):236-244. 被引量：1
2刘俊.Photoshop在印制电路制造中的应用[J].印制电路信息,2002(11):26-27.
3李朝奎,王利东,李吟,周新邵.土壤重金属污染评价方法研究进展[J].矿产与地质,2011,25(2):172-176. 被引量：43
4王飞,周鹏程,王雷,徐本连.一种面向新型入侵的获取和分类方法[J].计算机科学,2012,39(S3):45-50.
5安金霞,朱纪洪,袁夏明.基于神经网络知识库的多神经网络集成方法[J].中南大学学报（自然科学版）,2009,40(S1):1-9. 被引量：1
6陈万忠,孙保峰,高韧杰,雷俊.基于NNE技术的手臂运动模式识别算法研究[J].吉林大学学报（工学版）,2013,43(S1):69-73. 被引量：1
7闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
8施彦,黄聪明,侯朝桢.基于改进的PSO算法的神经网络集成[J].复旦学报（自然科学版）,2004,43(5):692-695. 被引量：8
9凌锦江,周志华.基于因果发现的神经网络集成方法[J].软件学报,2004,15(10):1479-1484. 被引量：9
10王攀,万君康,冯珊,魏崴,张坚坚.一类基于分治原理的多种群协同进化算法[J].系统工程与电子技术,2004,26(11):1687-1690. 被引量：5

同被引文献65

1郝春风,王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用,2007,43(15):170-172. 被引量：12
2Tsoumakas G,Katakis I.Multi-label Classification: An Overview[J].International Journal of Data Warehousing and Mining,2007,3(3): 1-13.
3Comité F,Gilleron R,Tommasi M.Learning Multi-label Alternating Decision Trees from Texts and Data[C]//Proc.of the 3rd International Conference on Machine Learning and Data Mining in Pattern Recognition.[S.l.]: Springer,2003: 35-49.
4Zhang Minling,Zhou Z H.ML-kNN: A Lazy Learning Approach to Multi-label Learning[J].Pattern Recognition.2007,40(7):2038-2048.
5Zhang M L,Zhou Zhihua.Multi-Label Learning by Instance Differentiation[C]//Proc.of the 22nd AAAI Conference on Artificial Intelligence.Vancouver,Canada: [s.n.],2007: 669-674.
6Blake C,Merz C.UCI Repository of Machine Learning Database[EB/OL].[1998-10-09].http://www.ics.uci.edu/mlean/ML Repository.html.
7Boutell M R,Luo Jiebo,Shen Xinpeng,et al.Learning Multi-label Scene Classification[J].Pattern Recognition.2004,37(9):1757-1771.
8Azran A.The Rendezvous Algorithm: Multiclass Semi-supervised Learning with Markov Random Walks[C]//Proc.of the 24th International Conference on Machine Learning.New York,USA: ACM Press,2007: 49-56.
9Sebastiani F.Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34 ( 1 ) : 1-47.
10Tsoumakas G, Katakis I.Multi-label classification: an overview[J]. International Journal of Data Warehousing and Mining, 2007, 3: 1-13.

引证文献6

1秦锋,黄俊,程泽凯.用于多标记学习的阈值确定算法[J].计算机工程,2010,36(21):214-216. 被引量：1
2乔健,田庆.利用最近邻信息快速分类多标签数据[J].计算机工程与应用,2011,47(32):138-140. 被引量：3
3高嘉伟,梁吉业,刘杨磊,李茹.一种基于Tri-training的半监督多标记学习文档分类算法[J].中文信息学报,2015,29(1):104-110. 被引量：8
4张晶,李德玉,王素格,李华.基于稳健模糊粗糙集模型的多标记文本分类[J].计算机科学,2015,42(7):270-275. 被引量：7
5吕庆莉.基于信息增益的中医体质多标记分类方法研究[J].中国中医药信息杂志,2019,26(6):97-100.
6李永,许鹏.基于标记特定特征和相关性的ML-KNN改进算法[J].计算机系统应用,2021,30(2):125-131. 被引量：2

二级引证文献21

1范海雄,刘付显,夏璐.基于概率LS-SVM的多标签非均衡样本分类算法[J].解放军理工大学学报（自然科学版）,2013,14(2):169-175.
2张怡文,李倩,吴正,袁翠霞.一种基于Interest-Model的用户推荐算法[J].江苏师范大学学报（自然科学版）,2013,31(2):38-41.
3肖诗伯,杨玉梅,兰鹰,吕思蜀.基于多标签属性的学术文献推荐研究[J].情报探索,2015(4):8-10. 被引量：5
4郭毅,黄磊.基于LPA和Tri-Training的半监督文本倾向性分类[J].北京交通大学学报,2015,39(6):114-121. 被引量：1
5周恩波,叶荣华,张微微,周子涵.一种基于成对标签的Rakel算法改进[J].计算机与现代化,2016(3):16-18. 被引量：3
6金永贤,张微微,周恩波.一种改进的RAKEL多标签分类算法[J].浙江师范大学学报（自然科学版）,2016,39(4):386-391. 被引量：2
7陶雯,王杉杉,李荣雨.基于多标记学习改进算法的入侵检测系统研究[J].自动化仪表,2017,38(9):57-60. 被引量：1
8龚静,黄欣阳.基于隐性语义索引的多标签文本分类集成方法[J].计算机工程与设计,2017,38(9):2556-2561. 被引量：6
9梁绍宸,徐苏平,窦慧莉,李洪梅,杨习贝.模糊粗糙集的LIFT数据分析[J].小型微型计算机系统,2018,39(5):1052-1057. 被引量：1
10高嘉伟,刘建敏.一种面向轨迹信息的时序数据流异常检测算法[J].计算机工程,2018,44(5):25-32. 被引量：4

1王峰.基于向量夹角的单幅图像超分辨率算法[J].软件导刊,2014,13(5):57-60.
2陈刚,刘庆敏.神经网络用于多类识别问题的有效方法[J].安徽建筑工业学院学报（自然科学版）,1999,7(3):73-77. 被引量：1
3侯阿临,廖庆,靳志娟,陈娟,耿莹.计算全息图的人工神经网络压缩算法[J].吉林大学学报（工学版）,2013,43(S1):21-24. 被引量：5
4陈振兴,严宣辉,吴坤安.具有多形态种群协同进化的多目标优化算法[J].模式识别与人工智能,2014,27(12):1078-1088. 被引量：1
5王伟,牛秦洲.基于多特征的模型检索技术[J].网络安全技术与应用,2012(2):32-33.
6骞森,朱剑英.基于奇异值分解的图像质量评价[J].东南大学学报（自然科学版）,2006,36(4):643-646. 被引量：20
7邓德标,方源敏,陈杰.基于三角形法向量的离散点三维构网方法[J].遥感信息,2013,28(1):11-15. 被引量：3
8蒋亮,蒙祖强,胡玉兰,常红岩.一种基于向量夹角的快速计算等价类算法[J].小型微型计算机系统,2015,36(10):2360-2364. 被引量：3
9吴伟交,王敏,黄心汉,毛尚勤.基于向量夹角的SIFT特征点匹配算法[J].模式识别与人工智能,2013,26(1):123-127. 被引量：11
10高扬,蒋增强,扈静,张铭鑫,刘明周.基于多维向量点的生产车间可视化监控技术研究[J].现代制造工程,2008(9):108-110. 被引量：7

计算机科学

2008年第4期

浏览历史

内容加载中请稍等...

一种基于向量夹角的k近邻多标记文本分类算法被引量：6

参考文献1

二级参考文献2

共引文献244

同被引文献65

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

一种基于向量夹角的k近邻多标记文本分类算法 被引量：6

参考文献1

二级参考文献2

共引文献244

同被引文献65

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

一种基于向量夹角的k近邻多标记文本分类算法被引量：6