基于余弦距离度量学习的伪K近邻文本分类算法被引量：19

Pseudo-K-nearest neighbor text classification algorithm based on cosine distance metric learning

下载PDF

导出

摘要距离度量学习在分类领域有着广泛的应用,将其应用到文本分类时,由于一般采用的向量空间模型(VSM)中的TF*IDF算法在对文本向量表达时向量均是维度相同并且归一化的,这就导致传统距离度量学习过程中采用的欧式距离作为相似度判别标准在文本分类领域往往无法取得预期的效果,在距离度量学习中的LMNN算法的启发下提出一种余弦距离度量学习算法,使其适应于文本分类领域,称之为CS-LMNN。考虑到文本分类领域中样本类偏斜情况比较普遍,提出采用一种伪K近邻分类算法与CS-LMNN结合实现文本分类,该算法首先利用CS-LMNN算法对训练数据进行距离度量学习,根据训练结果对测试数据使用伪K近邻分类算法进行分类,实验结果表明,该算法可以有效的提高分类精度。 Distance metric learning has a wide range of application in the area of classification. However, when applied to text classification, it is difficult to obtain good results. For the reason that in traditional area of text classification they choose vector space model as the way to transform a text to a vector, in which each vector is normalized and has the same dimension. The traditional distance metric learning use Euclidean distance as the similarity metric and its value is very sensitive to each dimension＇s value. A cosine LMNN similarity metric learning method is proposed to adapt LMNN to the text classification field called CS- LMNN. And taking into account the classes of training dataset is commonly skewed in text classification. A new pseudo K-nea rest neighbor classification algorithm is used to achieve text classification. The algorithm first uses the CS-LMNN algorithm to learn the distance metric in the training data, then do the classification using pseudo-K-nearest neighbor classification algorithm. Experiments show that this algorithm can effectively improve the classification accuracy.

作者彭凯汪伟杨煜普

机构地区上海交通大学自动化系系统控制与信息处理教育部重点实验室

出处《计算机工程与设计》 CSCD 北大核心 2013年第6期2200-2203,2211,共5页 Computer Engineering and Design

基金国家863高技术研究发展计划基金项目(2011AA040605)

关键词余弦距离度量学习伪K近邻文本分类向量空间模型 cosine distance metric learning pseudo-K-nearest neighbor text classification vector space model

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Kilian Q Weinberger, Lawrence K Saul. Distance metric lear- ning for large margin nearest neighbor classification [-J. Jour- nal of Machine Learning Research, 2009, 10: 207-244.
2LILT Yang, RONG Jkn. D/stance metric leamiv4g: A comprehensive survey ED. Technical Report. Department of Computer Science and Engineering, Michigan State University, 2006.
3熊忠阳,杨营辉,张玉芳.基于密度的kNN分类器训练样本裁剪方法的改进[J].计算机应用,2010,30(3):799-801. 被引量：13
4曾勇,杨煜普.广义近邻模式分类研究[D].上海:上海交通大学,2009.
5张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3840-3841. 被引量：45
6李晓红.中文文本分类中的特征词抽取方法[J].计算机工程与设计,2009,30(17):4127-4129. 被引量：16
7Weinberger K, Chapelle O. Large margin taxonomy embedding with an application to document categorization [C] //Vancou- ver, British Columbia, Canada Advances in Neural Informa- tion Processing Systems 21, 2009 1737-174.
8焦庆争,蔚承建.分布权值调节概率标准差的文本分类方法[J].计算机应用,2009,29(12):3303-3306. 被引量：2
9Weinberger K Q, Saul L K. Distance metric learning for large margin nearest neighbor classification [J]. The Journal of Ma- chine Learning Research, 2009 (10) : 207-244.

二级参考文献39

1孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
2张宇,刘挺,文勖.基于改进贝叶斯模型的问题分类[J].中文信息学报,2005,19(2):100-105. 被引量：47
3张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
4胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：47
5寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
6付德宇,代成琴.一个面向文本分类的中文特征词自动抽取方法[J].计算机工程与应用,2006,42(15):165-167. 被引量：4
7翟伟斌,周振柳,蒋卓明,许榕生.汉语分词词典设计[J].计算机工程与应用,2007,43(1):1-2. 被引量：11
8王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
9伍建军,康耀红.文本分类中特征降维方式的研究[J].海南大学学报（自然科学版）,2007,25(1):62-66. 被引量：4
10宣照国,党延忠.无词典中文特征词自动抽取的桥接模式滤除算法[J].计算机应用研究,2007,24(7):168-170. 被引量：1

共引文献78

1姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
2LI Yanling,DAI Guanzhong,ZHU Yehang,QIN Sen.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,12(5):902-906. 被引量：3
3任珂,蔡明,李亚平.基于概率密度距离的无监督特征选择方法[J].计算机工程与设计,2007,28(19):4734-4737. 被引量：1
4王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
5刘忠平,徐一周.离线签名验证中的多分类器集成[J].计算机工程与设计,2008,29(8):2127-2130.
6罗军,况夯.基于Boosting算法集成遗传模糊分类器的文本分类[J].计算机应用,2008,28(9):2386-2388. 被引量：1
7张韬,朱颢东.基于优化文档频和信息量的特征选择方法[J].济南大学学报（自然科学版）,2009,23(4):363-367. 被引量：2
8李静.基于Portal的大学图书馆个性化服务研究与实现[J].情报杂志,2009,28(7):170-174. 被引量：4
9马春华,朱颢东,钟勇.结合新型文档频和二进制可辨矩阵的特征选择[J].计算机应用,2009,29(8):2268-2271. 被引量：3
10马春华,朱颢东.使用PGA的特征选择方法[J].计算机工程与应用,2009,45(22):107-110. 被引量：1

同被引文献130

1刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
2ZhangYankun LiuChongqing.Efficient face recognition method based on DCT and LDA[J].Journal of Systems Engineering and Electronics,2004,15(2):211-216. 被引量：4
3李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
4王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
6张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
7程克非,张聪.基于特征加权的朴素贝叶斯分类器[J].计算机仿真,2006,23(10):92-94. 被引量：40
8张浩.论情绪和情感及其在认识中的功能——主体认识结构中的非理性要素研究[J].广东社会科学,2006(6):78-84. 被引量：26
9王艳,张帆,杨炳儒.基于Web挖掘的数字图书馆个性化技术研究[J].情报杂志,2007,26(1):37-38. 被引量：5
10卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31

引证文献19

1张伟,简刚.基于不均衡文本数据的集成分类方法设计[J].电信技术研究,2018,0(4):55-64.
2谢红,赵洪野.基于卡方距离度量的改进KNN算法[J].应用科技,2015,42(1):10-14. 被引量：17
3李伟,程利涛.一种改进的快速K-近邻分类方法[J].现代计算机（中旬刊）,2015(12):14-17. 被引量：5
4朱茜,覃华,冯志新,陈晨.一种大规模文本分类大间隔近邻算法[J].计算机与现代化,2016(6):68-72. 被引量：1
5李涛,刘斌.Spark平台下的高效Web文本分类系统的研究[J].计算机应用与软件,2016,33(11):33-36. 被引量：7
6邓曦辉,赵丽.基于数据块混合度量的加速K-近邻分类方法[J].计算机与现代化,2016(12):47-50.
7于丽,亚森.艾则孜.采用相关反馈和文档相似度的维吾尔语检索词加权方法[J].华侨大学学报（自然科学版）,2017,38(3):408-413.
8文勇军,吴冬冬,王键,唐立军.Spark平台下教育资源个性化推荐研究[J].智能计算机与应用,2017,7(2):25-30. 被引量：2
9王晓.基于采样压缩的加速K-NN分类方法[J].山西大同大学学报（自然科学版）,2017,33(4):17-20.
10王丽鹏,张鹏云,和志强.基于特征词匹配的政策文本分类算法研究与实现[J].河北省科学院学报,2017,34(3):1-6.

二级引证文献50

1骆公志,陈圣瑜.混合信息系统的邻域多粒度决策粗糙集及应用[J].模糊系统与数学,2023,37(2):144-153. 被引量：1
2董志超,温庆华,代鹰,马平,赵俊达.公转滑动轴承外圈划伤故障图像特征提取方法[J].煤炭工程,2022,54(S01):171-175. 被引量：4
3马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
4李扬,陆璐,崔红霞.谱聚类图像分割中相似度矩阵构造研究[J].计算机技术与发展,2016,26(7):55-58. 被引量：3
5王倩,杜久玲,刘颖,王伊琳.基于RGB动态纹理的人群活动变化检测[J].西安邮电大学学报,2016,21(6):29-34. 被引量：2
6苏佩娟,刘赪.基于K-近邻法的不等样分类[J].绵阳师范学院学报,2016,35(11):13-16. 被引量：2
7孙君顶,靳姣林,李海华,刘晓惠,陈鹏鹏.基于增强方向局部二值模式的纹理分类[J].计算机应用研究,2017,34(4):1249-1252.
8程时伟,蔡红刚,曹斌.基于群智感知服务的眼动数据众包计算[J].计算机集成制造系统,2017,23(5):1103-1112. 被引量：5
9柴宁,吴毅坚,赵文耘.基于数据特性的Spark任务性能优化[J].计算机应用与软件,2018,35(1):52-58. 被引量：2
10黄蕾,郭超亚.基于变差函数和局部方差图的煤岩图像纹理特征提取[J].工矿自动化,2018,44(4):62-68. 被引量：11

1沈媛媛,严严,王菡子.有监督的距离度量学习算法研究进展[J].自动化学报,2014,40(12):2673-2686. 被引量：23
2章东平,徐丽园.距离度量学习的摄像网络中行人重识别[J].中国计量大学学报,2016,27(4):424-428. 被引量：1
3陈开志,乐承沛,钟尚平.融合距离度量学习和SVM的图像匹配算法[J].小型微型计算机系统,2015,36(6):1353-1357. 被引量：9
4逯波,段晓东,王存睿,李泽东.基于多图像组信息的人脸识别研究[J].大连民族大学学报,2017,19(1):71-75.
5彭凯,魏岩,杨煜普.一种基于密度的大边界最近邻文本分类方法[J].计算机应用与软件,2013,30(7):83-85.
6战扬,金英,杨丰.基于监督的距离度量学习方法研究[J].信息技术,2011,35(12):21-23. 被引量：3
7李鸣,张鸿.基于深度特征分析的双线性图像相似度匹配算法[J].计算机应用,2016,36(10):2822-2825. 被引量：3
8杨金鸿,邓廷权.基于距离度量学习的半监督多视角谱聚类算法[J].四川大学学报（工程科学版）,2016,48(1):146-151. 被引量：2
9牛科,张小琴,贾郭军.基于距离度量学习的集成谱聚类[J].计算机工程,2015,41(1):207-210. 被引量：3
10罗剑,杨印根,雷震春.加权成对约束度量学习在说话人识别中的应用[J].计算机工程与应用,2016,52(11):158-163. 被引量：2

计算机工程与设计

2013年第6期

浏览历史

内容加载中请稍等...

基于余弦距离度量学习的伪K近邻文本分类算法被引量：19

参考文献9

二级参考文献39

共引文献78

同被引文献130

引证文献19

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于余弦距离度量学习的伪K近邻文本分类算法 被引量：19

参考文献9

二级参考文献39

共引文献78

同被引文献130

引证文献19

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于余弦距离度量学习的伪K近邻文本分类算法被引量：19