期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
用于短文本关键词抽取的TTM_DMM主题翻译模型 被引量:1
1
作者 王瑞 秦永彬 闫盈盈 《计算机与数字工程》 2018年第5期945-949,955,共6页
基于主题翻译模型的短文本关键词抽取方法,均采用LDA(Latent Dirichlet Allocation)主题模型作为主题发现方法,然而LDA在处理特征稀疏的短文本时,主题发现效果较差,使得当前的主题翻译模型存在不完善之处。论文通过将DMM(Dirichlet Mult... 基于主题翻译模型的短文本关键词抽取方法,均采用LDA(Latent Dirichlet Allocation)主题模型作为主题发现方法,然而LDA在处理特征稀疏的短文本时,主题发现效果较差,使得当前的主题翻译模型存在不完善之处。论文通过将DMM(Dirichlet Multinomial Mixture)模型作为主题发现模型,结合统计机器翻译,提出了一种用于短文本关键词抽取的TTM_DMM(Topical Translation Model based on Dirichlet Multinomial Mixture)主题翻译模型。该模型利用DMM模型发现短文本主题信息,在主题约束下学习词语与关键词的翻译概率,从而提高短文本关键词抽取效果。在真实数据集上的实验结果表明,论文提出的TTM_DMM模型在评价指标Precious、Recall以及F-measure上优于现有的短文本关键词抽取方法。 展开更多
关键词 ttm_dmm主题翻译模型 短文本关键词抽取 DMM LDA 统计机器翻译
下载PDF
基于主题模型和统计机器翻译方法的中文格律诗自动生成 被引量:16
2
作者 蒋锐滢 崔磊 +2 位作者 何晶 周明 潘志庚 《计算机学报》 EI CSCD 北大核心 2015年第12期2426-2436,共11页
文中针对格律诗自动生成进行了研究.首先根据创作者提交的若干关键词,利用主题模型进行扩展得到更多的主题相关词,然后通过语言模型自动生成首句.在此基础上通过统计机器翻译的方法生成后续句.在生成过程中,利用主题模型进行诗词的意境... 文中针对格律诗自动生成进行了研究.首先根据创作者提交的若干关键词,利用主题模型进行扩展得到更多的主题相关词,然后通过语言模型自动生成首句.在此基础上通过统计机器翻译的方法生成后续句.在生成过程中,利用主题模型进行诗词的意境扩展,从而得到更加丰富的句子候选.该研究的主要特点和贡献是:首先提出以统计机器翻译为理论基础,将格律诗的上下句关系映射为统计翻译模型中源语言与目标语言的关系,设计了融入诗词领域知识的统计机器翻译模型.其次主题模型用来在生成过程中进行词汇集扩展,从而加强了诗词的主题及意境.另外文中还论述了基于BLEU的诗句生成的自动评测方法,并配合所设计的人工评价标准,形成了比较完备的诗词评价体系.实验结果证实了该方法的有效性. 展开更多
关键词 律诗生成 主题模型 统计机器翻译 自动评测
下载PDF
一种面向社区型问句检索的主题翻译模型 被引量:7
3
作者 张伟男 张宇 刘挺 《计算机学报》 EI CSCD 北大核心 2015年第2期313-321,共9页
基于统计机器翻译模型的问句检索模型,其相关性排序机制主要依赖于词项间的翻译概率,然而已有的模型没有很好地控制翻译模型的噪声,使得当前的问句检索模型存在不完善之处.文中提出一种基于主题翻译模型的问句检索模型,从理论上说明,该... 基于统计机器翻译模型的问句检索模型,其相关性排序机制主要依赖于词项间的翻译概率,然而已有的模型没有很好地控制翻译模型的噪声,使得当前的问句检索模型存在不完善之处.文中提出一种基于主题翻译模型的问句检索模型,从理论上说明,该模型利用主题信息对翻译进行合理的约束,达到控制翻译模型噪声的效果,从而提高问句检索的结果.实验结果表明,文中提出的模型在MAP(Mean Average Precision)、MRR(Mean Reciprocal Rank)以及p@1(precision at position one)等指标上显著优于当前最先进的问句检索模型. 展开更多
关键词 社区型问答 问句检索 主题模型 翻译模型 LDA(Latent DIRICHLET Allocation) 社会计算 社交网络
下载PDF
引入基于主题复述知识的统计机器翻译模型 被引量:1
4
作者 苏劲松 董槐林 +2 位作者 陈毅东 史晓东 吴清强 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2014年第10期1843-1849,共7页
针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取—主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种... 针对传统的基于双语平行语料的复述获取方法在复述获取和应用的过程中忽视文档上下文的缺点,引入基于主题模型的上下文信息来改善复述获取—主要致力于如何计算上下文无关的复述生成概率和上下文相关的复述生成概率.研究如何将上述2种概率融入统计机器翻译建模,以提高翻译系统的性能.多个测试集上的实验结果证明了该方法的有效性. 展开更多
关键词 统计机器翻译 复述 主题模型
下载PDF
用于短文本关键词抽取的主题翻译模型 被引量:1
5
作者 王瑞 秦永彬 +1 位作者 张丽 闫盈盈 《计算机工程与设计》 北大核心 2018年第6期1633-1638,共6页
为进一步改善短文本关键词抽取的效果,提出一种TTKE(topical translation for keyphrase extraction)主题翻译模型。结合主题模型与统计机器翻译模型的优势,通过长文本辅助短文本进行主题发现,学习特定主题下词语与关键词的对齐概率,为... 为进一步改善短文本关键词抽取的效果,提出一种TTKE(topical translation for keyphrase extraction)主题翻译模型。结合主题模型与统计机器翻译模型的优势,通过长文本辅助短文本进行主题发现,学习特定主题下词语与关键词的对齐概率,为给定短文本进行关键词抽取。在真实数据集上进行实验,实验结果表明,该模型能够有效提高短文本关键词抽取的效果。 展开更多
关键词 关键词抽取 短文本 长文本 主题翻译模型 主题发现 对齐概率
下载PDF
主题模型在统计机器翻译中的应用 被引量:1
6
作者 巢佳媛 贡正仙 《中国科技信息》 2013年第11期99-100,共2页
在基于短语的统计机器翻译中,短语表是解码器工作的核心部分,它主要包含了源端和目标端短语的翻译概率和词汇互译概率;但传统的短语表数量庞大,并且领域自适应能力差。为了在解码过程中挑选出更高质量的短语对,适当减少内存消耗和缩小... 在基于短语的统计机器翻译中,短语表是解码器工作的核心部分,它主要包含了源端和目标端短语的翻译概率和词汇互译概率;但传统的短语表数量庞大,并且领域自适应能力差。为了在解码过程中挑选出更高质量的短语对,适当减少内存消耗和缩小解码空间,本文介绍了一个简单易行的基于主题模型的统计机器翻译系统的实现:首先使用LDA工具建立主题模型,然后把主题模型信息嵌入到短语表中,最后为解码器设计一个预处理模块可以使解码器不需要改变就可以在翻译过程中根据主题选择合适的短语对,从而提高了翻译的效率和质量。 展开更多
关键词 统计机器翻译 主题模型 LDA
下载PDF
融合主题的汉越冶金领域统计机器翻译方法 被引量:2
7
作者 周珂 余正涛 高盛祥 《计算机工程》 CAS CSCD 北大核心 2017年第12期179-183,共5页
为有效利用领域知识提高汉越冶金领域的机器翻译效果,利用术语与主题的分布关系约束术语的选择,提出融合主题的统计机器翻译方法。建立术语翻译模型,抽取短语概率表时将术语对源语言文档的主题信息融入到翻译概率表中,利用主题分布描述... 为有效利用领域知识提高汉越冶金领域的机器翻译效果,利用术语与主题的分布关系约束术语的选择,提出融合主题的统计机器翻译方法。建立术语翻译模型,抽取短语概率表时将术语对源语言文档的主题信息融入到翻译概率表中,利用主题分布描述术语与主题之间的关系,同时使用冶金领域语料训练翻译模型,将2个模型融合到基于短语的汉越翻译系统解码过程中,指导选择出最符合领域特性的术语及译文。融合模型前后的对比实验结果表明,与基于短语的机器翻译方法相比,该方法可有效提高汉越冶金领域的翻译性能。 展开更多
关键词 冶金领域 统计机器翻译 主题模型 术语 联合翻译模型
下载PDF
译文语序的领域性思考:一种融合主题信息的领域自适应调序模型
8
作者 刘梦眙 姚亮 +2 位作者 洪宇 刘昊 姚建民 《中文信息学报》 CSCD 北大核心 2017年第5期50-58,共9页
领域自适应研究的目标是建立一种动态调整翻译模型,使翻译模型对目标领域的语言特征具备较强的学习和处理能力,借以保证翻译系统在不同领域获得平衡可靠的翻译能力。现有翻译模型的自适应研究已经取得显著进展,但调序过程的领域适应性... 领域自适应研究的目标是建立一种动态调整翻译模型,使翻译模型对目标领域的语言特征具备较强的学习和处理能力,借以保证翻译系统在不同领域获得平衡可靠的翻译能力。现有翻译模型的自适应研究已经取得显著进展,但调序过程的领域适应性研究相对较少。在该文前期工作中通过对大规模源语言和目标语言的真实互译样本统计发现,在语义等价的短语级互译对子中,36.17%的样本在不同领域中的语序存在显著差异。针对这一问题,该文从主题角度出发,探索不同主题分布下的短语调序差异,提出一种融合主题信息的领域自适应调序模型。实验结果显示,嵌入调序适应性模型的翻译系统取得了较为明显的性能优势。 展开更多
关键词 统计机器翻译 领域适应性 调序模型 主题模型
下载PDF
融合主题信息的篇章级神经机器翻译
9
作者 陈玺文 余正涛 +1 位作者 高盛祥 王振晗 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期1197-1207,共11页
目前的神经机器翻译方法以句子为单位作为输入,在翻译过程中不能有效利用篇章级上下文的信息,影响了机器翻译的性能.为解决现有机器翻译框架下的上下文信息缺失问题,提出一种融合主题信息的篇章级神经机器翻译方法.首先,将源语言当前句... 目前的神经机器翻译方法以句子为单位作为输入,在翻译过程中不能有效利用篇章级上下文的信息,影响了机器翻译的性能.为解决现有机器翻译框架下的上下文信息缺失问题,提出一种融合主题信息的篇章级神经机器翻译方法.首先,将源语言当前句子与源语言的前一句分别独立输入到源语言句子编码器和上下文编码器中;然后,采用注意力机制将2个编码器的输出映射为最终的上下文表,结合源语言句子编码器输出通过门控机制得到具有上下文信息和当前句子融合表征,同时将词嵌入后的源语言句子输入基于Bi-GRU和卷积神经网络的主题表征编码器映射为主题表征;最后,将融合后的句子表征以及主题表征分别通过2个串联的注意力机制参与解码.实验结果表明,该方法能够提高篇章级神经机器翻译的性能,相较于基准系统,该方法在BLEU值上最高提升了0.55个百分点. 展开更多
关键词 篇章翻译 神经机器翻译 主题模型 双编码器 句子表征
下载PDF
基于翻译模型的科研合作预测研究 被引量:3
10
作者 陈文杰 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第10期28-36,共9页
【目的】为促进科研人员间的交流合作,实现科研效率最大化,提出一种改进的翻译模型TransTopic,用于干细胞领域的科研合作预测研究。【方法】TransTopic旨在将科研合作网络中的节点和边统一映射为低维向量。利用LDA主题模型抽取论文的主... 【目的】为促进科研人员间的交流合作,实现科研效率最大化,提出一种改进的翻译模型TransTopic,用于干细胞领域的科研合作预测研究。【方法】TransTopic旨在将科研合作网络中的节点和边统一映射为低维向量。利用LDA主题模型抽取论文的主题分布特征,使用深度自编码器将主题特征编码为边向量,基于翻译机制得到节点向量,通过向量间的语义计算实现科研合作预测。【结果】TransTopic在链接预测上的AUC(95.21%)和MeanRank(17.48)指标均表现最优,并且主题预测的准确率达到86.52%。【局限】合作预测方法仅考虑了一步的翻译路径,并且作者的机构、研究兴趣和发文等级等多元信息没有得到充分的利用。【结论】基于翻译模型的预测方法可以有效完成干细胞领域的科研合作预测工作。 展开更多
关键词 翻译模型 深度自编码器 主题模型 链接预测
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部