融合主题模型及双语词向量的汉缅双语可比文档获取方法被引量：2

Chinese-Burmese Comparable Document Acquisition Based on Topic Model and Bilingual Word Embedding

下载PDF

导出

摘要缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 To collect Chinese-Burmese comparable documents, this paper proposes a acquisition method based on topic model and bilingual word embedding, treating the cross-language document similarity issue as cross-language topic similarity measurement. First, we use the monolingual LDA topic model to extract the Chinese and Burmese topics, respectively, and get the corresponding topics distribution representation. Then, we calculate the topic words for Chinese and Burmese documents, and get the Chinese-Burmese bilingual topic word embedding by mapping the monolingual word embedding into a shared semantic space according the Chinese-Burmese bilingual dictionary. The similarity of Chinese and Burmese document is finally decided by both topic embedding and bilingual word embedding. The experimental results show that the F1 obtained by the proposed method is increased by 5.6% than the baseline using just the word embedding.

作者李训宇毛存礼余正涛高盛祥王振晗张亚飞 LI Xunyu;MAO Cunli;YU Zhengtao;GAO Shengxiang;WANG Zhenhan;ZHANG Yafei(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,Yunnan 650500,China;Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming,Yunnan 650500,China)

机构地区昆明理工大学信息工程与自动化学院昆明理工大学云南省人工智能重点实验室

出处《中文信息学报》 CSCD 北大核心 2021年第1期88-95,共8页 Journal of Chinese Information Processing

基金国家自然科学基金(61732005,61662041,61761026,61866019,61972186) 国家重点研发计划(2019QY1802,2019QY1801) 云南省应用基础研究计划重点项目(2019FA023) 云南省中青年学术和技术带头人后备人才项目(2019HB006)。

关键词主题模型双语词向量文档相似度汉语—缅甸语双语可比文档 topic model bilingual word embedding document similarity Chinese-Burmese bilingual comparable document

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王洪俊,施水才,俞士汶,肖诗斌.跨语言相似文档检索[J].中文信息学报,2007,21(1):30-37. 被引量：4
2石杰,周兰江,线岩团,余正涛.基于WordNet的中泰文跨语言文本相似度计算[J].中文信息学报,2016,30(4):65-70. 被引量：12

二级参考文献18

1金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
2宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：43
3Philip Resnik.Parallel Strands:A Preliminary Investigation into Mining the Web for Bilingual Text[A].In:Third Conference of the Association for Machine Translation in the Americas (AMTA-98)[C],Langhorne,PA,Lecture Notes in Artificial Intelligence 1529,Springer,October,1998.
4Philip Resnik.Mining the Web for Bilingual Text[A].In:37th Annual Meeting of the Association for Computational Linguistics (ACL'99)[C].College Park,Maryland,June 1999.
5Wessel Kraaij Jian-Yun Nie.Embedding Web-based Statistical Translation Models in Cross-Language Information Retrieval[J].Computational Linguistics 29(3):381-419 (2003).
6Noah A.Smith.Detection of Translational Equivalence.Bachelor Thesis(2001)[D],University of Maryland.
7Noah A.Smith.From Words to Corpora:Recognizing Translation[A].In:Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2002)[C],Philadelphia,Pennsylvania.
8Ralf Steinberger,Bruno Pouliquen,Johan Hagman.Cross-Lingual Document Similarity Calculation Using the Multilingual Thesaurus EUROVOC[A].In:CICLing 2002[C]:415-424.
9Md.Maruf Hasan and Yuji Matsumoto.Multilingual Document Alignment-A Study with Chinese and Japanese[A].In:Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPRS2001)[C],Tokyo,November 2001,617-623.
10Md.Maruf Hasan.Cross-language Information Retrieval,Document Alignment and Visualization -A Study with Japanese and Chinese[D].PHD thesis(2001),Nara Institute of Science and Technology.

共引文献14

1戚珉.跨语言信息检索的偏最小二乘方法研究[J].宜春学院学报,2010,32(4):21-22.
2秦颖,李颖超.基于词语信息度的翻译对应句检索[J].外语教学与研究,2012,44(2):270-278.
3程蔚,线岩团,周兰江,余正涛,王红斌.基于双语LDA的跨语言文本相似度计算方法研究[J].计算机工程与科学,2017,39(5):978-983. 被引量：7
4李霞,刘承标,章友豪,蒋盛益.基于局部和全局语义融合的跨语言句子语义相似度计算模型[J].中文信息学报,2019,33(6):18-26. 被引量：14
5孟明明,张坤,论兵,张晓明.一种面向知识图谱问答的语义查询扩展方法[J].计算机工程,2019,45(9):276-283. 被引量：11
6郭玉栋,左金平.大数据下数据库引文索引匹配误差检测仿真[J].计算机仿真,2020,37(2):394-397. 被引量：3
7胡艳霞,王成,李弼程,李海林,吴以茵.基于多头注意力机制Tree-LSTM的句子语义相似度计算[J].中文信息学报,2020,34(3):23-33. 被引量：18
8李炫达,周兰江,张建安.融合句子结构特征的汉老双语句子相似度计算方法[J].中文信息学报,2022,36(2):58-68.
9潘润海,高盛祥,余正涛,刘奕洋,尤丛丛.融合关键词和语义特征的汉越文本相似度计算[J].小型微型计算机系统,2022,43(6):1309-1314.
10徐菲菲,冯东升.基于注意力机制的Siamese-BiLSTM短文本相似度算法[J].计算机应用与软件,2022,39(4):281-286. 被引量：4

同被引文献17

1卢晓娟.形态学国内外对比研究[J].外语与外语教学,2012(1):71-74. 被引量：4
2石杰,周兰江,线岩团,余正涛.基于WordNet的中泰文跨语言文本相似度计算[J].中文信息学报,2016,30(4):65-70. 被引量：12
3张锡忠,徐建民.基于术语同义关系的文档相似度研究[J].河北大学学报（自然科学版）,2017,37(1):108-112. 被引量：3
4程蔚,线岩团,周兰江,余正涛,王红斌.基于双语LDA的跨语言文本相似度计算方法研究[J].计算机工程与科学,2017,39(5):978-983. 被引量：7
5徐建民,许彩云.基于文本和公式的科技文档相似度计算[J].数据分析与知识发现,2018,2(10):103-109. 被引量：8
6李晓林,张懿,李霖.基于地址语义理解的中文地址识别方法[J].计算机工程与科学,2019,41(3):551-558. 被引量：8
7郭浩,许伟,卢凯,唐球.基于CNN和BiLSTM的短文本相似度计算方法[J].信息技术与网络安全,2019,38(6):61-64. 被引量：15
8徐立.基于加权TextRank的文本关键词提取方法[J].计算机科学,2019,46(B06):142-145. 被引量：23
9何力,周兰江,周枫,郭剑毅.基于双向长短期记忆神经网络的老挝语分词方法[J].计算机工程与科学,2019,41(7):1312-1317. 被引量：17
10李霞,刘承标,章友豪,蒋盛益.基于局部和全局语义融合的跨语言句子语义相似度计算模型[J].中文信息学报,2019,33(6):18-26. 被引量：14

引证文献2

1李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
2郭雷,周兰江,周蕾越.融合词语多特征的汉老短文本相似度计算[J].小型微型计算机系统,2023,44(4):759-765.

1刘璐,蔡永明.基于语义加权的引文网络社区划分研究[J].新世纪图书馆,2021(1):50-56. 被引量：5
2冯子元,李晓作,赖佑贤.生态复合型微循环污水处理技术研究与应用[J].中国水能及电气化,2020(12):21-29. 被引量：2
3张翼鹏,马敬东.突发公共卫生事件误导信息受众情感分析及传播特征研究[J].数据分析与知识发现,2020,4(12):45-54. 被引量：10
4薛博文.我国国家认同研究现状及其热点演进分析[J].教育理论与实践,2021,41(4):31-36. 被引量：5
5高利华.攀枝花学院学术影响力分析研究——基于攀枝花学院1986年~2018年期刊论文的可视化分析[J].内蒙古科技与经济,2021(1):129-133.
6吴菲菲,冯家琪,黄鲁成.基于商标和专利数据的潜在研发商业化机会识别[J].情报杂志,2021,40(2):38-46. 被引量：9
7李少温,卢会林.差异性视角下公众行为特征对政府回应的影响研究——基于人民网地方政府留言板的实例分析[J].统计与管理,2021,36(4):76-81. 被引量：3
8本刊.第二十届中国计算语言学大会征稿启事[J].语言科学,2021,20(2):214-214.

中文信息学报

2021年第1期

浏览历史

内容加载中请稍等...

融合主题模型及双语词向量的汉缅双语可比文档获取方法被引量：2

参考文献2

二级参考文献18

共引文献14

同被引文献17

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合主题模型及双语词向量的汉缅双语可比文档获取方法 被引量：2

参考文献2

二级参考文献18

共引文献14

同被引文献17

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合主题模型及双语词向量的汉缅双语可比文档获取方法被引量：2