期刊文献+

藏汉跨语言话题模型构建及对齐方法研究 被引量:1

Research on the Extraction and Alignment of Tibetan-Chinese Cross-language Topics
下载PDF
导出
摘要 如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。 In contrast to the, To discover synchronication topics associated in Tibetan and Chinese social networking, we build LDA topic model on the basis of Tibetan Chinese comparable corpus, with word2vec as the input and Gibbs sampling to estimate model parameters. To align Tibetan topics and Chinese topics, we calculate the similarity be tween Tibetan and Chinese topics according to the distribution of text-topic disctrbution via a voting method based on cosine distance, Euclidean distance, Hellinger distance and KL distance.
作者 孙媛 赵倩
出处 《中文信息学报》 CSCD 北大核心 2017年第1期102-111,共10页 Journal of Chinese Information Processing
基金 国家自然科学基金(61501529 61331013) 国家语委项目(ZDI125-36 YB125-139)
关键词 藏汉跨语言 话题抽取 LDA 话题对齐 topic extraction LDA model topic alignment
  • 相关文献

参考文献4

二级参考文献177

共引文献401

同被引文献8

引证文献1

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部