基于双语LDA的跨语言文本相似度计算方法研究被引量：7

A cross-lingual document similarity calculation method based on bilingual LDA

下载PDF

导出

摘要基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。 Based on the idea of bilingual topic model, we analyze similarity of bilingual documents and propose a cross-lingual document similarity calculation method based on bilingual LDA. Firstly we use the bilingual parallel documents to train the bilingual LDA model and then use the trained model to predict the topic distribution of the new corpus. The new corpus＇s bilingual documents are mapped to the vector space of the same topic. We use the cosine similarity method and topic distribution combined to calculate the similarity o{ the bilingual documents of the new corpus. We improve the topic frequency in- verse document frequency method from the aspect of the dispersion of in-category and the between-cate gory topic distribution, and utilize the improved method to calculate feature topic weights. Experimental results show that the improved weight calculation method can enhance the recall rate, enable the LDA similarity calculation algorithm not limited to certain categories, and it is reliable.

作者程蔚线岩团周兰江余正涛王红斌

机构地区昆明理工大学信息工程与自动化学院昆明理工大学智能信息处理重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2017年第5期978-983,共6页 Computer Engineering & Science

基金国家自然科学基金(61363044 61462054) 云南省科技厅面上项目(2015FB135) 云南省教育厅科学研究基金(2014Z021) 昆明理工大学省级人培项目(KKSY201403028)

关键词双语LDA 跨语言文本相似度余弦相似度主题频率-逆文档频率 bilingual LDA cross-lingual document similarity calculation cosine similarity topic fre-quency-inverse document frequency

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：91
2王洪俊,施水才,俞士汶,肖诗斌.跨语言相似文档检索[J].中文信息学报,2007,21(1):30-37. 被引量：4

二级参考文献30

1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
2Philip Resnik.Parallel Strands:A Preliminary Investigation into Mining the Web for Bilingual Text[A].In:Third Conference of the Association for Machine Translation in the Americas (AMTA-98)[C],Langhorne,PA,Lecture Notes in Artificial Intelligence 1529,Springer,October,1998.
3Philip Resnik.Mining the Web for Bilingual Text[A].In:37th Annual Meeting of the Association for Computational Linguistics (ACL'99)[C].College Park,Maryland,June 1999.
4Wessel Kraaij Jian-Yun Nie.Embedding Web-based Statistical Translation Models in Cross-Language Information Retrieval[J].Computational Linguistics 29(3):381-419 (2003).
5Noah A.Smith.Detection of Translational Equivalence.Bachelor Thesis(2001)[D],University of Maryland.
6Noah A.Smith.From Words to Corpora:Recognizing Translation[A].In:Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2002)[C],Philadelphia,Pennsylvania.
7Ralf Steinberger,Bruno Pouliquen,Johan Hagman.Cross-Lingual Document Similarity Calculation Using the Multilingual Thesaurus EUROVOC[A].In:CICLing 2002[C]:415-424.
8Md.Maruf Hasan and Yuji Matsumoto.Multilingual Document Alignment-A Study with Chinese and Japanese[A].In:Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPRS2001)[C],Tokyo,November 2001,617-623.
9Md.Maruf Hasan.Cross-language Information Retrieval,Document Alignment and Visualization -A Study with Japanese and Chinese[D].PHD thesis(2001),Nara Institute of Science and Technology.
10Huaping Zhang,Qun Liu,Hao Zhang,Xueqi Cheng,Automatic Recognition of Chinese Unknown Words Based on Role[A],Tagging 19th International Conference on Computational Linguistics[C],SigHan Workshop,2002.8.

共引文献93

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
3戚珉.跨语言信息检索的偏最小二乘方法研究[J].宜春学院学报,2010,32(4):21-22.
4秦颖,李颖超.基于词语信息度的翻译对应句检索[J].外语教学与研究,2012,44(2):270-278.
5郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2
6丁梦晓,毕强,许鹏程,李洁,牟冬梅.基于用户兴趣度量的知识发现服务精准推荐[J].图书情报工作,2019,63(3):21-29. 被引量：20
7唐晓丽,白宇,张桂平,蔡东风.一种面向聚类的文本建模方法[J].山西大学学报（自然科学版）,2014,37(4):595-600. 被引量：8
8钟荣飞.基于主题模型的网络舆情监控系统设计[J].电脑知识与技术,2015,0(3):90-93. 被引量：1
9郑祥云,陈志刚,黄瑞,李博.基于主题模型的个性化图书推荐算法[J].计算机应用,2015,35(9):2569-2573. 被引量：35
10王寒茹,张仰森.文本相似度计算研究进展综述[J].北京信息科技大学学报（自然科学版）,2019,34(1):68-74. 被引量：10

同被引文献50

1曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：83
2李开成,贾琨,袁焕靖,赵阳.CTCS-3级列控系统标准规范体系的研究[J].铁道通信信号,2010,46(11):1-4. 被引量：8
3徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233
4卢晓娟.形态学国内外对比研究[J].外语与外语教学,2012(1):71-74. 被引量：4
5程传鹏,吴志刚.一种基于知网的句子相似度计算方法[J].计算机工程与科学,2012,34(2):172-175. 被引量：27
6李茹,王智强,李双红,梁吉业,Collin Baker.基于框架语义分析的汉语句子相似度计算[J].计算机研究与发展,2013,50(8):1728-1736. 被引量：46
7王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：91
8殷耀明,张东站.基于关系向量模型的句子相似度计算[J].计算机工程与应用,2014,50(2):198-203. 被引量：18
9郑霖,徐德华.基于改进TFIDF算法的文本分类研究[J].计算机与现代化,2014(9):6-9. 被引量：26
10安源,张玲.文献计量学在我国图书情报领域的应用研究进展综述[J].图书馆,2014(5):63-68. 被引量：92

引证文献7

1李开成,王翼娴.基于双语LDA的列控系统需求规范差异性分析[J].铁道通信信号,2019,55(4):1-5. 被引量：1
2李秀霞,邵作运.内容信息与引文信息融合的作者影响力评价研究[J].情报理论与实践,2020,43(2):72-77. 被引量：2
3潘润海,高盛祥,余正涛,刘奕洋,尤丛丛.融合关键词和语义特征的汉越文本相似度计算[J].小型微型计算机系统,2022,43(6):1309-1314.
4郭雷,周兰江,周蕾越.融合词语多特征的汉老短文本相似度计算[J].小型微型计算机系统,2023,44(4):759-765.
5雷歆,周蕾越,周兰江.融合语法及结构特征的汉老双语句子相似度计算方法[J].中文信息学报,2023,37(9):73-82. 被引量：1
6郭雷,周兰江,周蕾越.融合词性句法位置特征的汉老双语句子相似度计算[J].中文信息学报,2023,37(12):76-86.
7谢毅.移动网络相似信息重复记录智能检测仿真[J].计算机仿真,2019,36(2):439-442. 被引量：1

二级引证文献5

1金涛伟,冷荣伟,张迪,刘畅.基于信任模型的中医药方剂相似度计算方法[J].计算机仿真,2021,38(2):244-248. 被引量：2
2徐安雄,赵雪,李坤,王小敏.基于LDA的轨道交通信号系统故障文本数据处理方法研究[J].铁道通信信号,2021,57(5):56-59. 被引量：1
3李奇,李秀霞,李兴保.作者学术影响力动态评价研究[J].图书情报导刊,2021,6(8):54-60.
4宋凯,冉从敬.基于企业画像的高校专利个性化推荐[J].图书馆论坛,2022,42(9):123-131. 被引量：6
5张庆国,薛德军.基于BERT的术语使用规范度自动检测研究[J].信息技术与信息化,2024(6):32-37.

1郭月江,严馨,刘小惠,余正涛,线岩团,莫源源.融合主题和要素的汉柬可比语料获取方法[J].云南大学学报（自然科学版）,2017,39(3):360-368. 被引量：3
2李丽..net框架中委托的实现及设计思想分析[J].信息与电脑（理论版）,2012(8):60-62. 被引量：2
3徐曼.网上购物系统安全框架的设计思想分析[J].才智,2012,0(36):46-46.
4史永哲.计算机编程思想分析[J].硅谷,2010,3(10):160-160. 被引量：6
5冯本勇.基于Hadoop的协同过滤推荐算法[J].电子制作,2014,22(24):58-59. 被引量：2
6范辉,罗四维,韩臻.足球机器人系统的工作模型及通信行为[J].微型机与应用,2001,20(7):51-54. 被引量：1
7曹芳.近十年来我国电子文件研究论文的统计与分析[J].档案学研究,2003(4):45-49. 被引量：5
8徐彬凌,胡大川,钱诚,韩戴鸿,邬显豪.基于二次建模的政府信息化软件开发分析[J].电子世界,2016,0(15):24-24. 被引量：1
9汪淳,张羽,李东.基于网络舆情倾向性分析的机器学习方法研究[J].智能计算机与应用,2017,7(2):127-130. 被引量：1
10葛广帅,刘东升,张丽萍,侯敏.基于图模型的克隆代码演化痕迹构建及模式识别[J].计算机工程,2017,34(5):47-54. 被引量：3

计算机工程与科学

2017年第5期

浏览历史

内容加载中请稍等...

基于双语LDA的跨语言文本相似度计算方法研究被引量：7

参考文献2

二级参考文献30

共引文献93

同被引文献50

引证文献7

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于双语LDA的跨语言文本相似度计算方法研究 被引量：7

参考文献2

二级参考文献30

共引文献93

同被引文献50

引证文献7

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于双语LDA的跨语言文本相似度计算方法研究被引量：7