融合耦合距离区分度和强类别特征的短文本相似度计算方法被引量：12

Combining Coupled Distance Discrimination and Strong Classification Features for Short Text Similarity Calculation

下载PDF

导出

摘要短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率. Text similarity measures play a vital role in text related applications in tasks such as social networks,text mining,natural language processing,and others.The typical characteristics of short texts demonstrate severe sparseness and high dimension while the traditional short texts similarity calculation always ignores category information.A coupled distance discrimination and strong classification features based approach for short text similarity calculation,CDDCF,is presented.On the one hand,co-occurrence distance between terms are considered in each text to determine the co-occurrence distance correlation,based on which the weight for each term can be determined and the intra and inter relations between words are established.The similarity of coupling distance discrimination on short text can be captured.On the other hand,strong classification features are extracted via labeled texts.The similarity between two short texts is measured by using the common number of strong discrimination features with the same context.Finally,the distance discrimination and strong classification features are unified into a joint framework to measure the similarity of short texts.Experimental results show that CDDCF performs better compared to baseline algorithms in term of its performance and efficiency of similarity computation.

作者马慧芳刘文李志欣蔺想红 MA Hui-fang;LIU Wen;LI Zhi-xin;LIN Xiang-hong(College of Computer Science and Engineering,Northwest Normal University,Lanzhou,Gansu 730000,China;Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin,Guangxi 541004,China;Guangxi Key Lab of Multi-source Information Mining and Security,Guangxi Normal University,Guilin,Guangxi 541004,China)

机构地区西北师范大学计算机科学与工程学院桂林电子科技大学广西可信软件重点实验室广西师范大学广西多源信息挖掘与安全重点实验室

出处《电子学报》 EI CAS CSCD 北大核心 2019年第6期1331-1336,共6页 Acta Electronica Sinica

基金国家自然科学基金(No.61762078,No.61363058,No.61663004) 广西多源信息挖掘与安全重点实验室开放基金项目(No.MIMS18-08) 广西可信软件重点实验室研究课题(No.KX201705)

关键词文本挖掘自然语言处理文本聚类社会网络耦合关系特征提取语义消歧相似度计算 text mining natural language processing text clustering social network couplingrelation feature extraction word sense disambiguation similarity computation

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1曹玖新,陈高君,吴江林,刘波,周涛,胥帅,朱子青.基于多维特征分析的社交网络意见领袖挖掘[J].电子学报,2016,44(4):898-905. 被引量：41
2文翰,肖南峰.基于强类别特征近邻传播的半监督文本聚类[J].模式识别与人工智能,2014,27(7):646-654. 被引量：10
3刘文,马慧芳,脱婷,陈海波.融合共现距离和区分度的短文本相似度计算方法[J].计算机工程与科学,2018,40(7):1281-1286. 被引量：9

二级参考文献34

1同义词词林扩展版[EB/OL].[2011-03-03].http://www.ir-lab.org/.
2Chapelle O, Seholkopf B, Zien A. Semi-Supervised Learning. Cam- bridge, USA : MIT Press, 2006.
3Zhu X J. Semi-Supervised Learning Literature Survey [ EB/OL]. [ 2008 - 07 - 19 ]. http ://www. leexiang, com/semi-supervised- learning-literature -survey.
4Zhong S. Semi-Supervised Model-based Document Clustering: A Comparative Study. Machine Learning, 2006, 65( 1 ) : 3-29.
5Dueck D, Frey B J. Non-metric Affinity Propagation for Unsuper- vised Image Categorization// Proc of the 11 th IEEE International Conference on Computer Vision. Rio de Janeiro, Brazil, 2007:1-8.
6Bodenhofer U, Kothmeier A, Hochreiter S. APCluster: An R Pack- age for Affinity Propagation Clustering. Bioinfornmties, 2011, 27(17) : 2463-2464.
7Wu X J. An Improved Extreme Learning Machine for Classification Problem Based on Affinity Propagation Clustering. International Journal of Advancements in Computing Technology, 2012, 4 (10) : 274 -280.
8Culp M, Michailidis G. Graph-Based Semi-Supervised Learning. IEEE Trans on Pattern Analysis and Machine Intelligence, 2008, 30(1) : 174-179.
9Huang R Z, Lam W. An Active Learning Framework for Semi- Supervised Document Clustering with Language Modeling. Data & Knowledge Engineering, 2009, 68 ( 1 ) : 49-67.
10Zhao Y, Karypis G. Empirical and Theoretical Comparisons of Selected Criterion Functions for Document Clustering. Machine Learning, 2004, 55(3): 311-331.

共引文献57

1黄贤英,阳安志,刘小洋,刘广峰.融合兴趣的微博用户相似度计算研究[J].计算机应用研究,2020,37(1):66-70. 被引量：1
2王依章,王丽敏,韩旭明.属性分布相似度吸引子传播聚类算法研究[J].长春工业大学学报,2014,35(3):271-274.
3ZHANG Yangsen,ZHENG Jia,JIANG Yuru,HUANG Gaijuan,CHEN Ruoyu.A Text Sentiment Classification Modeling Method Based on Coordinated CNN-LSTM-Attention Model[J].Chinese Journal of Electronics,2019,28(1):120-126. 被引量：38
4王丽敏,王依章,韩旭明,黄娜.基于稳定阈值的吸引子传播算法[J].吉林大学学报（理学版）,2014,52(6):1249-1254. 被引量：1
5唐敏.多尺度变换近邻传播算法[J].长春工业大学学报,2015,36(2):198-201.
6王春梅,孙占全,李钊,杨春.科研动态搜索引擎的自动分类方法研究[J].科学与管理,2016,36(2):40-43.
7刘嘉琪,齐佳音.基于社会系统响应函数的在线群体分类研究[J].电子与信息学报,2016,38(9):2141-2149. 被引量：1
8徐华强.如何引导“网红”的正能量传播——以papi酱的整改为例[J].新闻研究导刊,2016,7(16):240-240.
9郭俊.面向大规模网络的超高密度信息存储系统设计[J].西安工程大学学报,2016,30(4):471-476. 被引量：20
10李志超,孔国利.近邻传播聚类算法的RBF隐含层节点优化[J].现代电子技术,2016,39(19):16-19. 被引量：1

同被引文献101

1韦洛霞,李勇,李伟,邵明珠,罗诗裕.汉字网络的3度分隔与小世界效应[J].科学通报,2004,49(24):2615-2616. 被引量：16
2金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
3吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
4章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量：39
5赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
6华秀丽,朱巧明,李培峰.语义分析与词频统计相结合的中文文本相似度量方法研究[J].计算机应用研究,2012,29(3):833-836. 被引量：42
7翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：34
8熊大平,王健,林鸿飞.一种基于LDA的社区问答问句相似度计算方法[J].中文信息学报,2012,26(5):40-45. 被引量：18
9游彬,严岳松,孙英阁,刘靖.基于HowNet的信息量计算语义相似度算法[J].计算机系统应用,2013,22(1):129-133. 被引量：16
10姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：71

引证文献12

1张斌.健身按摩推拿法[J].中国气功,2000(3):13-16.
2李凡,白尚旺,党伟超,潘理虎.基于Do-Bi-LSTM模型的电子政务文本相似度评估模型[J].计算机与现代化,2020,0(7):71-75. 被引量：1
3刘辉.基于强类别特征的文本相似度计算及其性能评估[J].软件工程,2020,23(10):5-7. 被引量：2
4李静,戴丽娜.基于整数线性模拟的多样性关键信息抽取仿真[J].计算机仿真,2020,37(10):365-368.
5胡文娟.人工智能的不平衡数据集异常点抽样算法[J].计算机仿真,2020,37(11):324-328. 被引量：2
6石彩霞,李书琴,刘斌.多重检验加权融合的短文本相似度计算方法[J].计算机工程,2021,47(2):95-102. 被引量：10
7刘亚波,吴秋轩.基于长短时记忆网络的电商大数据同一性标定[J].计算机工程与科学,2021,43(3):407-415. 被引量：1
8牛奉高,高旭霞.基于加权网络改进的中文短文本相似性度量模型[J].情报学报,2021,40(3):278-285. 被引量：4
9王东,夏梓渊.基于改进rcnn模型的多标签短文本自适应分类[J].计算机仿真,2021,38(5):388-392. 被引量：1
10卫欣玲.基于社区划分的现代文学作品个性化推荐算法[J].微型电脑应用,2021,37(12):198-201.

二级引证文献22

1巫奕君,秦永红.基于相似度模型的英语机器翻译研究[J].现代科学仪器,2020(6):159-162. 被引量：1
2童伟,王淑营.基于短文本相似度计算的工序卡片相似度计算方法[J].科学技术创新,2021(17):104-106. 被引量：1
3王平,梅子,龙志强.基于超球体高斯分布的悬浮系统异常检测[J].机车电传动,2021(6):9-17. 被引量：2
4王毓琦,高嵩,万校宏,李元元,杨子江.电网负荷分类评价反馈算法研究[J].山东电力技术,2022,49(3):20-24. 被引量：3
5袁绍正,周艳平.基于句子的多属性融合相似度计算方法[J].计算机系统应用,2022,31(4):303-308. 被引量：2
6朱明,陈一飞.面向物业投诉的字符级短文本分类模型[J].大众科技,2022,24(4):31-35. 被引量：1
7胡青宁,董金平,李婷玉,田源,苏宏伟.基于关键字的数据元语义描述方法[J].东北石油大学学报,2022,46(3):107-114.
8刘玉威,曹民,冯浩甲.基于自然语言处理的CNAS认可准则自动对标系统[J].电子科技,2023,36(5):28-33.
9邹丽强,何月顺.多特征融合的文本相似度方法[J].现代电子技术,2023,46(11):103-108. 被引量：1
10应文豪,孙中强,王诗愉,钟珊,龚声蓉.基于Spark的扩展孤立森林算法并行化改造实验设计[J].实验技术与管理,2023,40(4):75-81.

1方明之.自然语言处理技术发展与未来[J].科技传播,2019,11(6):143-144. 被引量：14
2赫荣红,黄劲松.四线圈磁耦合谐振式无线电能传输系统效率研究[J].测控技术,2018,37(11):120-124. 被引量：2
3祁云平,张雪伟,周培阳,胡兵兵,王向贤.基于十字连通形环形谐振腔金属-介质-金属波导的折射率传感器和滤波器[J].物理学报,2018,67(19):262-268. 被引量：9
4罗曜儒,李智.基于Bi-LSTM的生物医学文本语义消歧研究[J].软件导刊,2019,18(4):57-59. 被引量：3
5刘文,马慧芳,脱婷,陈海波.融合共现距离和区分度的短文本相似度计算方法[J].计算机工程与科学,2018,40(7):1281-1286. 被引量：9
6刘刚,左权,杨倩茹.一种基于指纹融合的跨语言剽窃检测技术[J].计算机应用研究,2019,36(1):168-174. 被引量：5
7蔡鹏飞,段朝伟.基于最优导向法则与距离约束的图像修复算法[J].电子测量与仪器学报,2018,32(10):119-125. 被引量：3
8张金,刘飞,张鹏展.有效提高磁耦合无线电能传输距离的仿真实现[J].金陵科技学院学报,2018,34(3):19-22. 被引量：1
9马慧芳,邢玉莹,王双,张旭鹏.融合词语共现距离和类别信息的短文本特征提取方法[J].计算机工程与科学,2018,40(9):1689-1695. 被引量：2
10卢越,李良炎.基于复合语料库的汉语语篇组织方式英化研究[J].语料库语言学,2018,0(1):79-94.

电子学报

2019年第6期

浏览历史

内容加载中请稍等...

融合耦合距离区分度和强类别特征的短文本相似度计算方法被引量：12

参考文献3

二级参考文献34

共引文献57

同被引文献101

引证文献12

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

融合耦合距离区分度和强类别特征的短文本相似度计算方法 被引量：12

参考文献3

二级参考文献34

共引文献57

同被引文献101

引证文献12

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

融合耦合距离区分度和强类别特征的短文本相似度计算方法被引量：12