混合词汇特征和LDA的语义相关度计算方法被引量：5

Combing lexical features and LDA for semantic relatedness measure

下载PDF

导出

摘要文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。 Computing semantic relatedness in text documents is a key problem in many domains,for example,NaturalLanguage Processing(NLP),Semantic Information Retrieval(SIR),etc.ESA(Explicit Semantic Analysis)for Wikipediahas received wide attention and applied mainly because of its simplicity and effectivity.However,use of ESA insemantic relatedness computation is inefficient due to its redundant concepts and high dimensionality.This paper presentsa new technique based on LDA(Latent Dirichlet Allocation)and JSD(Jensen-Shannon Divergence)to computer semanticrelatedness between text documents.The LDA is employed to reduce dimensionality and improve efficiency,and is usedto build topic model probability vector from highly dimensional document matrix.Instead of cosine distance,JSD is usedto compute semantic relatedness between documents.The results show that this technique based on LDA and JSD is moreeffective than ESA.Several benchmark test results have been presented to compare proposed technique with other methods.The results of experiment show that the proposed technique provides an increase of above3%and9%in Pearson correlationcoefficient than ESA and LDA,respectively.

作者肖宝李璞蒋运承 XIAO Bao;LI Pu;JIANG Yuncheng(School of Electronics and Information Engineering, Qinzhou University, Qinzhou, Guangxi 535011, China;School of Computer Science, South China Normal University, Guangzhou 510631, China;Software Engineering College, Zhengzhou University of Light Industry, Zhengzhou 450000, China)

机构地区钦州学院电子与信息工程学院华南师范大学计算机学院郑州轻工业学院软件学院

出处《计算机工程与应用》 CSCD 北大核心 2017年第12期152-157,165,共7页 Computer Engineering and Applications

基金国家自然科学基金(No.61272066) 广州市科技计划项目(No.2014J4100031) 广西高校中青年教师基础能力提升项目(No.KY2016LX431)

关键词主题模型词汇特征显式语义分析(ESA) 隐含狄利克雷分布(LDA) 语义相关度计算 topic model lexical features Explicit Semantic Analysis(ESA) Latent Dirichlet Allocation(LDA) semantic relatedness measure

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1孙琛琛,申德荣,单菁,聂铁铮,于戈.WSR:一种基于维基百科结构信息的语义关联度计算算法[J].计算机学报,2012,35(11):2361-2370. 被引量：26
2王荣波,谌志群,周建政,李治,高飞.基于Wikipedia的短文本语义相关度计算方法[J].计算机应用与软件,2015,32(1):82-85. 被引量：15

二级参考文献36

1Buchanan B G, Feigenbaum E A. Forward//Davis R, Lenat D B.Knowledge-Based Systems in Artificial Intelligence. New York: McGraw-Hill, 1982:39-51.
2Lenat D, Guha R. Building Large Knowledge Based Systems. New York: Addison Wesley, 1990.
3Ricardb B Y, Berthier R N. Modern Information Retrieval. New York: Addison Wesley, 1999.
4Deerwester S, Dumais S, Furnas G, Landauer T, Harshman R. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
5Alexander B, Graeme H. Evaluating wordnevbased measures of lexical semantic relatedness. Computational Linguistics, 2006, 32(1): 13-47.
6Mario J. Roget's thesaurus as a lexlcal resource for natural language processing [Ph. D. dissertation]. University of Ottawa, Ottawa, 2003.
7Milne D, Witten I H. An effective, low-cost measure of semantic relatedness obtained from Wikipedia links// Proceedings of the 23th Association for the Advancement of Artificial Intelligence. Chicago, US, 2008:25-30.
8Philip R. Using information content to evaluate semantic similarity in a taxonomy//Proceedings of the 14th Interna tional Joint Conference on Artificial Intelligence. Montreal, Canada, 1995:448-453.
9Mario J, Stan S. Roger's thesaurus and semantic similarity// Proceedings of Conference on Recent Advances in Natural Language Processing. Borovets, Bulgaria, 2003: 212-219.
10Li Yun. Mining semantic knowledge from Chinese Wikipedia [Ph. D. dissertation]. Beijing University of Posts and Telecommunications, Beijing, 2009.

共引文献39

1王其和.基于维基百科语义模型的农业信息聚类分析研究[J].情报科学,2013,31(12):101-104. 被引量：2
2万富强,吴云芳.基于中文维基百科的词语语义相关度计算[J].中文信息学报,2013,27(6):31-37. 被引量：9
3李志萍.基于随机游走模型的维基百科语义关系研究[J].电脑编程技巧与维护,2014(4):6-8.
4王磊,顾大权,侯太平,代曦.基于维基百科的气象本体的自动构建[J].计算机与现代化,2014(6):129-131. 被引量：6
5秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
6万力勇,黄传慧.用户生成性学习资源的知识组织机制研究[J].图书馆学研究,2014(19):47-53. 被引量：3
7刘运通,梁燕军.中文文法规则的化简及其语义计算效果对比[J].计算机工程与设计,2015,36(5):1375-1379. 被引量：1
8曾光.基于维基百科结构特征的语义相关度计算方法研究[J].情报科学,2015,33(9):72-75. 被引量：2
9李钝,薛昊原,李伦,郑志蕴.面向教学资源的实体链接算法[J].南京大学学报（自然科学版）,2015,51(4):901-908. 被引量：2
10孙琛琛,申德荣,寇月,聂铁铮,于戈.面向关联数据的联合式实体识别方法[J].计算机学报,2015,38(9):1739-1754. 被引量：9

同被引文献29

1杨凯峰,张毅坤,李燕.基于文档频率的特征选择方法[J].计算机工程,2010,36(17):33-35. 被引量：27
2孙琛琛,申德荣,单菁,聂铁铮,于戈.WSR:一种基于维基百科结构信息的语义关联度计算算法[J].计算机学报,2012,35(11):2361-2370. 被引量：26
3林鸿飞,王健,熊大平,刘晓鸣.基于类别参与度的社区问答专家发现方法[J].计算机工程与设计,2014,35(1):333-338. 被引量：12
4邱宁佳,高鹏,王鹏,陶跃.基于改进信息增益的ACO-WNB分类算法研究[J].计算机仿真,2019,36(1):295-299. 被引量：6
5王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：10
6袁庆升,张冬明,靳国庆,刘菲,包秀国.视频检索中图像信息量度量[J].通信学报,2016,37(2):80-87. 被引量：4
7钟艳如,梁毅芳,许本胜,曾聪文,卢宏成,吴帆,赵争君.基于网络本体语言的三维计算机辅助设计主模型相似性计算方法[J].计算机应用,2016,36(6):1599-1604. 被引量：5
8颛悦,熊锦华,马宏远,程舒杨,程学旗.一种支持混合语言的并行查询纠错方法[J].中文信息学报,2016,30(2):99-106. 被引量：1
9苏依拉,窦保媛,吉亚图.基于本体的蒙古语灾害信息检索模型[J].北京工业大学学报,2016,42(7):1017-1023. 被引量：4
10贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：69

引证文献5

1赵文普,赵逢禹,刘亚.开源问答服务系统专家推荐混合模型[J].计算机应用与软件,2018,35(6):42-47. 被引量：1
2李璞,蒋锦涛,张志锋,申红雪,梁辉,唐慧.低维显式语义空间下的语义关联度计算方法[J].信阳师范学院学报（自然科学版）,2019,32(4):675-682. 被引量：1
3王瑞,龙华,邵玉斌,杜庆治.基于Labeled-LDA模型的文本特征提取方法[J].电子测量技术,2020,43(1):141-146. 被引量：13
4袁野,廖薇.基于多重相关信息交互的文本相似度计算方法[J].计算机工程与科学,2022,44(7):1313-1320.
5蒲巧.双向交互机器人的语言自动生成仿真[J].计算机仿真,2019,36(4):310-314. 被引量：4

二级引证文献19

1林海香,卢冉,陆人杰,许丽,赵正祥,白万胜.基于LDA-CLCBA组合模型的高速铁路道岔故障诊断[J].电子测量与仪器学报,2022,36(3):251-259.
2王捍天.基于PID控制的机器人轨迹跟踪性能研究与比较[J].电子元器件与信息技术,2019,0(6):44-47. 被引量：16
3陈晨,侯景瑞,吴任力,王平.基于多源混合标签的社会化问答社区问题推荐方法研究[J].情报科学,2019,37(7):139-145. 被引量：6
4齐帅,潘克刚,齐宝峰,王欣婷,苏耀丁.交互机器人技术与发展[J].通信技术,2020,53(6):1449-1453. 被引量：2
5吴石松,林志达.基于seq2 seq和Attention模型的聊天机器人对话生成机制研究[J].自动化与仪器仪表,2020(7):186-189. 被引量：4
6王啸楠,尹辉平.基于自然语言处理的高校舆情情感倾向分析模型的研究[J].鞍山师范学院学报,2020,22(4):40-44. 被引量：1
7崔博智,崔博识,张深羿.基于CNN+LDA的图标聚类模型[J].中国科技投资,2020(11):19-22.
8宋彭彭,曾祥进,郑安义,米勇.基于注意力机制的自然场景文本检测[J].电子测量技术,2021,44(14):122-127. 被引量：5
9曹京晶,王莹,王烨,陈皓,张雪,张晓夏,朱晓晨.美国科学基金资助热点布局及对我国海洋领域规划的借鉴[J].情报工程,2021,7(5):62-74.
10李玮佳.割草智能机器人英语语言理解系统的设计与研究[J].农机化研究,2022,44(7):215-218.

1蒋秀林,朱文婕,谢静,陈玉娥.基于临床领域本体的语义信息检索模型研究[J].常州工学院学报,2016,29(2):43-46.
2王新宇,杜孝平,谢昆青.FP-growth算法的实现方法研究[J].计算机工程与应用,2004,40(9):174-176. 被引量：27
3孔娟,王卫华,王娟.基于区域分割与相关反馈的高效图像检索算法[J].微电子学与计算机,2009,26(10):57-60.
4王娟,赖思渝,李明东.基于相关反馈的图像标注与检索算法[J].计算机应用,2009,29(7):1947-1950.
5黄卫华.用CSS简单有效地美化网页[J].电子与电脑,2000,7(4):118-118.
6亦可.简单有效的WinRAR 另类加密小技[J].网友世界,2003(15):38-38.
7毛志圣.一种单片机系统外扩SRAM的检测方法[J].电脑编程技巧与维护,2013(18):109-109.
8陈文,王诗兵.FP-growth算法的一种优化实现[J].阜阳师范学院学报（自然科学版）,2005,22(2):56-58. 被引量：1
9姚志均,刘俊涛,赖重远,刘文予.一种改进的JSD距离的空间直方图相似度度量及目标跟踪[J].自动化学报,2011,37(12):1464-1473. 被引量：7
10肖宝,李璞,胡娇娇,蒋运承.基于潜在语义与图结构的微博语义检索[J].计算机工程,2017,34(6):182-188. 被引量：4

计算机工程与应用

2017年第12期

浏览历史

内容加载中请稍等...

混合词汇特征和LDA的语义相关度计算方法被引量：5

参考文献2

二级参考文献36

共引文献39

同被引文献29

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

混合词汇特征和LDA的语义相关度计算方法 被引量：5

参考文献2

二级参考文献36

共引文献39

同被引文献29

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

混合词汇特征和LDA的语义相关度计算方法被引量：5