融合相似度图和随机游走模型的多标签短文本分类算法被引量：4

A short text multi-label classification method combining similarity graph and random walk model

下载PDF

导出

摘要提出一种融合相似度图和随机游走模型的多标签短文本分类算法。首先,以样本数据和标签为节点创建相似度图,借助外部知识库计算样本与标签之间的权重,得到预测样本与标签集合之间的匹配度。然后,将多标签数据映射成多标签依赖图,在图上进行重启随机游走,并将已获得的匹配度作为初始预测值,计算每个节点的概率分布,直到概率分布趋于稳定时,节点的概率分布即为标签的概率分布,进而确定预测文本的标签集。实验结果表明,本文提出的算法有较好的多标签文本分类性能,与同类算法相比较,分类性能显著提升。 A short text multi-label classification algorithm combining similarity graph and random walk model is proposed.Firstly,the sample data and labels are used as nodes to create a similarity graph,and the weight between the sample and the label is calculated with the help of an external know-ledge base to obtain the matching degree between the predicted sample and the label set.Secondly,the multi-label data are mapped into a multi-label dependency graph.A random walk is performed on the graph,and the previous matching degree is used as the initial prediction value to calculate the probability distribution of each node.When the probability distribution tends to be stable,the probability distribution of the node is the probability distribution of the label,and then the label set of the predicted text is determined.The experimental results show that the proposed method achieves better performance in the classification of multi-label texts.Compared with similar algorithms,the classification performance is significantly improved.

作者李晓红王闪闪马堉银马慧芳 LI Xiao-hong;WANG Shan-shan;MA Yu-yin;MA Hui-fang(College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China)

机构地区西北师范大学计算机科学与工程学院

出处《计算机工程与科学》 CSCD 北大核心 2021年第6期1081-1087,共7页 Computer Engineering & Science

基金国家自然科学基金(61762078,61967013) 高等学校创新创业基金(2020B-089) 甘肃省科技计划(20JR5RA518) 甘肃省自然科学基金(20JR10RA076)。

关键词多标签短文本分类相似度图重启随机游走语义网WordNet multi-label short text classification similarity graph restart random walk WordNet

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1邱继钊,计华,张化祥.基于标记特征的多标记学习改进算法[J].计算机工程与应用,2013,49(22):163-166. 被引量：1
2牟甲鹏,蔡剑,余孟池,徐建.基于标签相关性的类属属性多标签分类算法[J].计算机应用研究,2020,37(9):2656-2658. 被引量：12
3李锋,杨有龙.基于标签特征和相关性的多标签分类算法[J].计算机工程与应用,2019,55(4):48-55. 被引量：15

二级参考文献22

1Streich A, Buhmann J.Classification of multi-labeled data: a generative approaeh[C]//Proc of the ECML/PKDD,Antwerp, Belgium, 2008,2 : 390-405.
2Clare A, King R.Knowledge discovery in multi-label phenotype data[C]//Proc of the 5th European Conference on Principles of Data Mining and Knowledge Discovery.London:Springer-Verlag,2001:42-53.
3Gjorgjevikj D, Madjarov G.Two stage classifier chain architecture for efficient pair-wise multi-label learning[C]//Proc of the IEEE International Workshop on Machine Learning for Signal Processing, 2011.
4Trohidis K, Tsoumarkas G, Kalliris G, et al.Multi-label classi- fication of music into emotions[C]//Proc of International Conference on Music Information Retrieval.Berlin: Springer, 2008:307-315.
5Comite F D,Gilleron R,Tommasi M.Learning multi-label al- ternating decision trees from texts and data[C]//Proc of the 3rd Int Conf on Machine Learning and Data Mining in Pattern Recognition(MLDM 03).Berlin:Springer,2003:35-49.
6Elisseeff A, Weston J.A kernel method for multi-labeled classification[C]//Advances in Neural Information Process- ing Systems 14 (NIPS 01).Cambridge, MA: MIT Press, 2002 : 681-687.
7Boutell M R, Luo J, Shen X, et al.Learning multi-label scene classifieation[J].Pattem Recognition,2004,37(9) : 1757-1771.
8Tsoumakas G.Multi-label classification[J].International Journal of Data Warehousing & Mining,2007,3(3) : 12-16.
9Schapire R, Singer Y.BoosTexter: A boosting-based system for text categorization[J].Machine Learning, 2000,39 (2) : 135-168.
10Zhang M L, Zhou Z H.Multi-label neural net-works with applications to functional genomics and text categorization[J].IEEE Transactions on Knowledge and Data Engineering, 2006, 18 : 1338-1351.

共引文献22

1肖雪,刘云.嵌入式多标签分类算法的优化研究[J].北京化工大学学报（自然科学版）,2019,46(5):94-100. 被引量：2
2李玥瑢,周炜,欧红梅,邓瑶,郑安文,曹双双.基于SSM框架的高校服务平台的设计[J].信息系统工程,2019,0(10):52-53.
3秦梦莹,秦锋.基于类属特征和依赖标记的多标记分类算法[J].现代计算机,2020,26(35):13-20.
4赵诚,赵传信,夏芸.基于模糊向量机优化的信息分类优化模型设计[J].计算机仿真,2021,38(5):398-402.
5赖德迪,罗智徽,马应龙.基于共现分析的分类器链标签序列优化方法[J].系统工程与电子技术,2021,43(9):2526-2534. 被引量：3
6张述睿,张伯政,张福鑫,杨万春.面向ICD疾病分类的深度学习方法研究[J].计算机工程与应用,2021,57(18):172-180. 被引量：1
7张灿,代子彪,安鑫,李建华.样本线性化与数据去重的极限学习机[J].智能计算机与应用,2021,11(7):24-31.
8邱劲.加速多标签特征提取的内核依赖最大化[J].苏州科技大学学报（工程技术版）,2021,34(4):71-80.
9张晓瑞.基于卷积神经网络的多标签图像分类识别算法研究[J].通化师范学院学报,2022,43(2):75-82.
10唐冬来,齐雪坤,陈泽宇,康乐,黄璞.基于改进TF-IDF算法的供电营销服务方法[J].供用电,2022,39(2):22-28. 被引量：9

同被引文献44

1陈万志,赵宇璇.智慧校园隐式用户行为的数据挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):434-439. 被引量：13
2钱赛男,李英成,朱祥娥,刘晓龙.基于支持向量机的无序图像有序化研究[J].测绘科学,2020,45(2):111-116. 被引量：4
3孔希希,廖述魁,程兵.基于不同分词模式的文本分类研究[J].数学的实践与认识,2018,48(1):116-123. 被引量：5
4于游,付钰,吴晓平.中文文本分类方法综述[J].网络与信息安全学报,2019,5(5):1-8. 被引量：38
5李浩,张亚钏,康雁,杨兵,卜荣景,李晋源.融合循环知识图谱和协同过滤电影推荐算法[J].计算机工程与应用,2020,56(2):106-114. 被引量：28
6兰美辉,范全润,高炜.本体稀疏矩阵学习以及在相似度计算中的应用[J].西南大学学报（自然科学版）,2020,42(1):118-123. 被引量：6
7张潇璐,赵学敏,刘璇.基于情境感知的高校移动图书馆知识资源推荐研究[J].情报科学,2020,38(1):48-52. 被引量：30
8井美,惠小静,王蓉.基于相似度的直觉模糊推理反向三Ⅰ算法的鲁棒性[J].电子学报,2020,48(2):265-271. 被引量：5
9吴玉佳,李晶,宋成芳,常军.基于高效用神经网络的文本分类方法[J].电子学报,2020,48(2):279-284. 被引量：14
10曾凡锋,李玉珂,肖珂.基于卷积神经网络的语句级新闻分类算法[J].计算机工程与设计,2020,41(4):978-982. 被引量：9

引证文献4

1田英,郝兆才.基于增强加权共现图和图核相似性的文本分类方法[J].计算机工程与设计,2023,44(5):1434-1440. 被引量：1
2张岚,张向阳,王金柯,杨铁军,刘骞.基于改进支持向量机的数字档案多标签分类算法[J].电子设计工程,2024,32(3):41-44.
3潘媛,梁国迪,邵馨叶,李芹.基于图文多模态融合的文档片段语义相似度判定算法[J].电子设计工程,2024,32(3):106-109.
4随晓文.基于标签相似度的数字化书籍资源智能推荐算法[J].吉林大学学报（信息科学版）,2024,42(3):516-521.

二级引证文献1

1任敏慧,樊宇.自然语言处理在我国社会科学领域应用的发展路径识别与构建研究[J].科技和产业,2023,23(18):7-16. 被引量：2

1杨子民,彭小圣,郎建勋,王洪雨,王勃,刘纯.基于集群动态划分与BLSTM深度学习的风电集群短期功率预测[J].高电压技术,2021,47(4):1195-1203. 被引量：48
2李丽,庄庆华.基于时域分割的人体行为连续性动作预测仿真[J].计算机仿真,2021,38(5):339-343. 被引量：1
3研究人员创建了第一代儿童癌症基因图[J].中国肿瘤临床与康复,2021,28(5):630-630.

计算机工程与科学

2021年第6期

浏览历史

内容加载中请稍等...

融合相似度图和随机游走模型的多标签短文本分类算法被引量：4

参考文献3

二级参考文献22

共引文献22

同被引文献44

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合相似度图和随机游走模型的多标签短文本分类算法 被引量：4

参考文献3

二级参考文献22

共引文献22

同被引文献44

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合相似度图和随机游走模型的多标签短文本分类算法被引量：4