期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于深度学习的多语言跨领域主题对齐模型 被引量:1
1
作者 余传明 原赛 +1 位作者 胡莎莎 安璐 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第5期430-439,共10页
在主题深度表示学习的基础上,该文提出了一种融合双语词嵌入的主题对齐模型(topic alignment model, TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨... 在主题深度表示学习的基础上,该文提出了一种融合双语词嵌入的主题对齐模型(topic alignment model, TAM),通过双语词嵌入扩充语义对齐词汇词典,在传统双语主题模型基础上设计辅助分布用于改进不同词分布的语义共享,以此改善跨语言和跨领域情境下的主题对齐效果;提出了2种新的指标,即双语主题相似度(bilingual topic similarity, BTS)和双语对齐相似度(bilingual alignment similarity, BAS),用于评价辅助分布对齐的效果。相比传统的对齐模型MCTA, TAM在跨语言主题对齐任务中双语对齐相似度提升了约1.5%,在跨领域主题对齐任务中F1值提升了约10%。研究结果对于改进跨语言和跨领域信息处理具有重要意义。 展开更多
关键词 跨语言主题对齐 跨领域主题对齐 深度学习 双语词嵌入 知识对齐
原文传递
基于跨语言神经主题模型的汉越新闻话题发现方法 被引量:6
2
作者 杨威亚 余正涛 +1 位作者 高盛祥 宋燃 《计算机应用》 CSCD 北大核心 2021年第10期2879-2884,共6页
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的... 针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。 展开更多
关键词 跨语言 主题对齐 神经主题模型 K-MEANS聚类 话题发现
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部