面向中朝跨语言文本分类的双语主题词嵌入模型的研究被引量：5

Bilingual Topic Word Embedding for Chinese-Korean Cross-lingual Text Classification

下载PDF

导出

摘要针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。 A bilingual topical word embedding model is proposed for the Chinese-Korean cross-lingual text classification task.The model combines the topic model with the bilingual word embedding to solve the influence of the ambiguity caused by polysemy on the accuracy to cross-lingual text classification.Firstly,the word embedding representation of bilingual words is trained in a large scale parallel sentence pairs with word-alignment.Secondly,the dataset of classification task is processed and represented by topic model,and the topic words in both languages are obtained.Finally,the word embeddings of these topic words are input into the traditional text classifier and the deep learning text classifier.The experimental results show that the accuracy reach 91.76%in the Chinese-Korean cross-lingual text classification task.

作者王琪田明杰崔荣一赵亚慧 WANG Qi;TIAN Mingjie;CUI Rongyi;ZHAO Yahui(Intelligent Information Processing Lab.,Department of Computer Science and Technology,Yanbian University,Yanji,Jilin 133002,China)

机构地区延边大学计算机科学与技术学院智能信息处理研究室

出处《中文信息学报》 CSCD 北大核心 2020年第12期39-47,共9页 Journal of Chinese Information Processing

基金国家语委“十三五”科研规划项目(YB135-76) 延边大学外国语言文学世界一流学科建设科研项目(18YLPY13,18YLPY14)。

关键词跨语言文本分类双语词嵌入模型主题模型一词多义 cross-lingual text classification bilingual word embedding topic model polysemy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：239
2周国强,崔荣一.基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J].中文信息学报,2011,25(4):16-19. 被引量：13
3田明杰,崔荣一.面向跨语言文本分类与标签推荐的带标签双语主题模型的研究[J].计算机应用研究,2019,36(10):2911-2915. 被引量：4

二级参考文献74

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
2毕玉德.面向语言信息处理的朝鲜语知识库研究[J].中文信息学报,2005,19(3):28-32. 被引量：9
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
4王志玲,王效岳.国内文本分类研究论文的统计分析[J].图书情报工作,2006,50(11):136-138. 被引量：2
5Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990.
6Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57.
7Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022.
8Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235.
9Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006.
10Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004.

共引文献253

1李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
2刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
3汤雁冰.氧化铜铁矿石中伴生金银的回收[J].有色矿山,2000,29(3):28-31. 被引量：2
4阳小兰,钱程.基于主题提取和记忆模型的新闻推荐系统设计[J].计算机与数字工程,2012,40(6):47-50. 被引量：1
5周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
6陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
7乐小虬,洪娜.面向社会文本流数据探测爆发主题方法浅析[J].现代图书情报技术,2012(10):21-27.
8朱然,李德华.新闻聚合系统中的数据挖掘技术初探[J].电脑知识与技术,2013(1):148-151. 被引量：2
9许冶冰,刘超.基于主题的文档与代码间关联关系的提取研究[J].计算机工程与应用,2013,49(5):70-76. 被引量：3
10方锴.专家检索研究综述[J].科协论坛（下半月）,2013(2):102-104. 被引量：1

同被引文献40

1陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
2刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4. 被引量：125
3赵虹杰,刘华丽,任巨伟,林鸿飞.面向新闻的情感关键句抽取与极性判别[J].山西大学学报（自然科学版）,2014,37(4):588-594. 被引量：5
4滕飞,郑超美,李文.基于长短期记忆多维主题情感倾向性分析模型[J].计算机应用,2016,36(8):2252-2256. 被引量：21
5刘培玉,荀静,费绍栋,朱振方.基于隐马尔可夫模型的主观句识别[J].中文信息学报,2016,30(4):206-212. 被引量：10
6万琪,于中华,陈黎,宋磊磊,丁革建.利用新词探测提高中文微博的情感表达抽取[J].中国科学技术大学学报,2017,47(1):63-69. 被引量：5
7赵妍妍,秦兵,石秋慧,刘挺.大规模情感词典的构建及其在情感分类中的应用[J].中文信息学报,2017,31(2):187-193. 被引量：53
8杨根权,史卫亚.基于生成对抗网络的图像处理系统[J].信息通信,2018,31(11):79-81. 被引量：2
9冯兴杰,张志伟,史金钏.基于卷积神经网络和注意力模型的文本情感分析[J].计算机应用研究,2018,35(5):1434-1436. 被引量：63
10余传明,王峰,胡莎莎,安璐.基于生成对抗网络的跨语言文本情感分析[J].情报理论与实践,2019,42(11):135-141. 被引量：7

引证文献5

1宋千里,赖华.采用深度学习的小语种舆情监控方法[J].红外与激光工程,2021,50(S02):156-162. 被引量：2
2林伟.基于PSO-LSTM的中文微博情感分类研究[J].中国人民公安大学学报（自然科学版）,2022,28(1):95-101. 被引量：3
3祝婕,刘敏娜.基于GAN的跨语言文本匹配算法研究[J].自动化与仪器仪表,2023(4):20-24.
4颜婷婷,戎慧敏.基于BERT-Transformer的跨语言文本摘要技术研究[J].平顶山学院学报,2023,38(5):61-64.
5朱栩冉,余正涛,张勇丙.融合敏感词典和异构图的汉泰跨语言敏感信息识别[J].计算机工程与设计,2024,45(7):2150-2156.

二级引证文献5

1周湘贞,李帅,隋栋.基于深度学习和注意力机制的微博情感分析[J].南京师大学报（自然科学版）,2023,46(2):115-121. 被引量：5
2刘挺.融合深度学习与自然语言处理的文本情感分析研究[J].信息与电脑,2023,35(20):82-84. 被引量：2
3王思丽,杨恒,刘巍.基于混合机器学习的网络舆论情感识别方法研究[J].情报工程,2024,10(2):11-26. 被引量：1
4马乐蓉,李珊珊,郭帅.PSO-LSTM优化的癫痫预测和分类研究[J].天津职业技术师范大学学报,2024,34(3):21-26.
5张文源,甘勇.模糊关联结合网络爬虫的网络舆情监测仿真[J].计算机仿真,2024,41(11):534-538.

1朱佳.自媒体时代高校思想政治教育话语优化策略[J].下一代,2020,0(5):0112-0112.
2严清德.英语学习活动观下开展高中英语阅读教学[J].中学生英语,2021(4):34-34.
3医学名词术语使用规范[J].广西医科大学学报,2021,38(1):118-118.
4窦宇宸,胡勇.基于BERT的安全事件命名实体识别研究[J].信息安全研究,2021,7(3):242-249. 被引量：4
5苏剑.语言扶贫的理论逻辑、经验支持与实现路径[J].学术月刊,2020,52(9):67-73. 被引量：13
6檀锐,辛建飞.文学翻译中的损失[J].榆林学院学报,2021,31(1):111-115.
7丁石庆.论中国少数民族语言资源保护可持续精进路径[J].中央民族大学学报（哲学社会科学版）,2020(6):167-173. 被引量：5
8朱建国,丛沛桐,刘浩.山洪地质灾害预警APP在钟山县的应用研究[J].广东水利水电,2021(2):92-96. 被引量：5
9符国群,胡家镜,张成虎,白凯.运用扎根理论构建“子代-亲代”家庭旅游过程模型[J].旅游学刊,2021(2):12-26. 被引量：15
10汤美娟.从区隔走向融通:农村教育质量提升的语言进路[J].教育研究与实验,2021(1):34-40. 被引量：1

中文信息学报

2020年第12期

浏览历史

内容加载中请稍等...

面向中朝跨语言文本分类的双语主题词嵌入模型的研究被引量：5

参考文献3

二级参考文献74

共引文献253

同被引文献40

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向中朝跨语言文本分类的双语主题词嵌入模型的研究 被引量：5

参考文献3

二级参考文献74

共引文献253

同被引文献40

引证文献5

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

面向中朝跨语言文本分类的双语主题词嵌入模型的研究被引量：5