期刊文献+

面向中朝跨语言文本分类的双语主题词嵌入模型的研究 被引量:5

Bilingual Topic Word Embedding for Chinese-Korean Cross-lingual Text Classification
下载PDF
导出
摘要 针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。 A bilingual topical word embedding model is proposed for the Chinese-Korean cross-lingual text classification task.The model combines the topic model with the bilingual word embedding to solve the influence of the ambiguity caused by polysemy on the accuracy to cross-lingual text classification.Firstly,the word embedding representation of bilingual words is trained in a large scale parallel sentence pairs with word-alignment.Secondly,the dataset of classification task is processed and represented by topic model,and the topic words in both languages are obtained.Finally,the word embeddings of these topic words are input into the traditional text classifier and the deep learning text classifier.The experimental results show that the accuracy reach 91.76%in the Chinese-Korean cross-lingual text classification task.
作者 王琪 田明杰 崔荣一 赵亚慧 WANG Qi;TIAN Mingjie;CUI Rongyi;ZHAO Yahui(Intelligent Information Processing Lab.,Department of Computer Science and Technology,Yanbian University,Yanji,Jilin 133002,China)
出处 《中文信息学报》 CSCD 北大核心 2020年第12期39-47,共9页 Journal of Chinese Information Processing
基金 国家语委“十三五”科研规划项目(YB135-76) 延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)。
关键词 跨语言文本分类 双语词嵌入模型 主题模型 一词多义 cross-lingual text classification bilingual word embedding topic model polysemy
  • 相关文献

参考文献3

二级参考文献74

  • 1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报(自然科学版),2005,45(S1):1802-1805. 被引量:27
  • 2毕玉德.面向语言信息处理的朝鲜语知识库研究[J].中文信息学报,2005,19(3):28-32. 被引量:9
  • 3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:389
  • 4王志玲,王效岳.国内文本分类研究论文的统计分析[J].图书情报工作,2006,50(11):136-138. 被引量:2
  • 5Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
  • 6Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
  • 7Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
  • 8Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
  • 9Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.
  • 10Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004.

共引文献253

同被引文献40

引证文献5

二级引证文献5

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部