摘要
如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。
In contrast to the, To discover synchronication topics associated in Tibetan and Chinese social networking, we build LDA topic model on the basis of Tibetan Chinese comparable corpus, with word2vec as the input and Gibbs sampling to estimate model parameters. To align Tibetan topics and Chinese topics, we calculate the similarity be tween Tibetan and Chinese topics according to the distribution of text-topic disctrbution via a voting method based on cosine distance, Euclidean distance, Hellinger distance and KL distance.
出处
《中文信息学报》
CSCD
北大核心
2017年第1期102-111,共10页
Journal of Chinese Information Processing
基金
国家自然科学基金(61501529
61331013)
国家语委项目(ZDI125-36
YB125-139)