-
题名基于双语LDA的跨语言文本相似度计算方法研究
被引量:7
- 1
-
-
作者
程蔚
线岩团
周兰江
余正涛
王红斌
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学智能信息处理重点实验室
-
出处
《计算机工程与科学》
CSCD
北大核心
2017年第5期978-983,共6页
-
基金
国家自然科学基金(61363044
61462054)
+2 种基金
云南省科技厅面上项目(2015FB135)
云南省教育厅科学研究基金(2014Z021)
昆明理工大学省级人培项目(KKSY201403028)
-
文摘
基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。
-
关键词
双语lda
跨语言文本相似度
余弦相似度
主题频率-逆文档频率
-
Keywords
bilingual lda
cross-lingual document similarity calculation
cosine similarity
topic fre-quency-inverse document frequency
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于双语LDA的列控系统需求规范差异性分析
被引量:1
- 2
-
-
作者
李开成
王翼娴
-
机构
北京交通大学
-
出处
《铁道通信信号》
2019年第4期1-5,共5页
-
基金
中国铁路总公司科技研究开发计划.通信信号设备提升关键技术研究——C3系统与ETCS标准最新内容对比性研究.2017X012-A
-
文摘
分析最新国外规范与CTCS系统规范之间的差异,有助于推动CTCS系统需求规范的完善和后续相关规范的修订。本文以ETCS和CTCS两种跨语言的系统需求规范对比为研究对象,提出基于双语LDA的差异性比对方法。利用双语LDA模型.将两种系统需求规范文档映射到同一个需求向量空间,再分别获得两种规范的词语-需求分布以及需求-文档分布。结合TFIDF方法为每类需求和词语分配不同权重.然后利用余弦相似度算法,获取两种规范文档的相似度。选取规范中的部分文档进行实验测试,结果表明:该方法可以计算两种规范之间的相似度,解决了目前人工分析规范间差异性的繁琐问题,可以在实际工作中加以应用。
-
关键词
列控系统
系统需求规范
差异性分析
双语lda模型
文本相似度
-
Keywords
Train control system
Requirement specification of system: Difference analysis
Bilingual lda
Document similarity
-
分类号
U284.48
[交通运输工程—交通信息工程及控制]
-