藏汉跨语言话题模型构建及对齐方法研究被引量：1

Research on the Extraction and Alignment of Tibetan-Chinese Cross-language Topics

下载PDF

导出

摘要如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。 In contrast to the, To discover synchronication topics associated in Tibetan and Chinese social networking, we build LDA topic model on the basis of Tibetan Chinese comparable corpus, with word2vec as the input and Gibbs sampling to estimate model parameters. To align Tibetan topics and Chinese topics, we calculate the similarity be tween Tibetan and Chinese topics according to the distribution of text-topic disctrbution via a voting method based on cosine distance, Euclidean distance, Hellinger distance and KL distance.

作者孙媛赵倩

机构地区中央民族大学信息工程学院国家语言资源监测与研究中心少数民族语言分中心

出处《中文信息学报》 CSCD 北大核心 2017年第1期102-111,共10页 Journal of Chinese Information Processing

基金国家自然科学基金(61501529 61331013) 国家语委项目(ZDI125-36 YB125-139)

关键词藏汉跨语言话题抽取 LDA 话题对齐 topic extraction LDA model topic alignment

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报（社会科学版）,2009,24(3):18-27. 被引量：15
2洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
3何明华.当代藏文信息处理的现状与展望[J].科技资讯,2014,12(23):249-249. 被引量：3
4徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：236

二级参考文献177

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：20
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3王华,丁晓青.一种多字体印刷藏文字符的归一化方法[J].计算机应用研究,2004,21(6):41-43. 被引量：10
4贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
5王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
6罗圣仪,江虹.藏文轻印刷系统[J].计算机世界月刊,1993(7):73-73. 被引量：2
7祁坤钰.《机器翻译用现代藏语语义词典》的设计研究[J].西北民族大学学报（自然科学版）,2004,25(3):33-37. 被引量：8
8高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
9扎西次仁.藏文的排序规则及其计算机自动排序的实现[J].中国藏学,1999(4):128-135. 被引量：16
10江荻,董颖红.藏字叠加结构线性处理统计分析[J].中文信息,1994,11(4):44-46. 被引量：11

共引文献401

1华林,陈燕,刘凌慧子.藏族记忆构建视域下藏族档案数字资源跨业界整合研究[J].西藏民族大学学报（哲学社会科学版）,2021,42(2):52-60. 被引量：7
2骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
3多拉.藏语语义理解中功能性虚词研究[J].西藏大学学报（社会科学版）,2011,26(4):106-112. 被引量：4
4刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
5姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
6刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：30
7鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络论坛热点话题挖掘[J].大连海事大学学报,2008,34(4):52-54. 被引量：20
8任晓东,张永奎,薛晓飞.基于K-Modes聚类的自适应话题追踪技术[J].计算机工程,2009,35(9):222-224. 被引量：13
9张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21
10饶洋辉,叶良,常红旭,程洁.新话题监测研究进展[J].图书馆杂志,2009,28(7):60-63.

同被引文献8

1赵妍妍,秦兵,车万翔,刘挺.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8. 被引量：106
2钟军,禹龙,田生伟,吐尔根.依布拉音.基于双层模型的维吾尔语突发事件因果关系抽取[J].自动化学报,2014,40(4):771-779. 被引量：11
3梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(5):155-161. 被引量：110
4张春霞,姬楠楠,王冠伟.受限波尔兹曼机[J].工程数学学报,2015,32(2):159-173. 被引量：103
5丁美昆,徐昱琳,蒋财军.深度信念网络研究综述[J].工业控制计算机,2016,29(4):80-81. 被引量：6
6郑亚楠,珠杰.基于词向量的藏文词性标注方法研究[J].中文信息学报,2017,31(1):112-117. 被引量：10
7玛尔哈巴.艾赛提,艾孜尔古丽,玉素甫.艾白都拉.基于语法的维吾尔语情感词汇自动获取[J].中文信息学报,2017,31(1):126-132. 被引量：4
8黄晨晨,巩微,伏文龙,冯东煜.基于深度信念网络的语音情感识别的研究[J].计算机研究与发展,2014,51(S1):75-80. 被引量：18

引证文献1

1胡伟,禹龙,田生伟,吐尔根.依布拉音,冯冠军,艾斯卡尔.艾木都拉.基于深度信念网络的维吾尔语事件伴随关系识别[J].中文信息学报,2018,32(5):65-73. 被引量：2

二级引证文献2

1王新颖,张惠然,张瑞程,赵斌,陈海群.基于深度学习的大数据管网风险评价方法[J].消防科学与技术,2019,38(6):902-905. 被引量：9
2涂小卫,张士强,王明.基于深度置信网络的牵引电机轴承故障诊断方法[J].城市轨道交通研究,2020,23(1):174-178. 被引量：19

1姜红军.金保工程灾备系统的设计与实现研究[J].中国管理信息化,2016,19(8):160-160.
2吴锡坤,刘洋.基于社交网络中非平衡文本聚类方法的研究[J].科技创新导报,2016,13(13):90-91.
3郭瑛媚,史晓东,陈毅东,高燕.基于话题分布相似度的无监督评论词消歧方法[J].北京大学学报（自然科学版）,2013,49(1):95-101. 被引量：2
4孙李斌,马贤明,赵明明.基于LDA主题模型的遥感图像表示与分类[J].科技视界,2013(7):58-58. 被引量：1
5韩兆元.试论韩汉语的特点[J].科技信息,2010(15X):191-191. 被引量：1
6扎西加,索南尖措.基于藏语信息处理的词类体系研究[J].西藏大学学报（社会科学版）,2008,23(2):36-41. 被引量：6
7唐艺嘉,江洁,王加.信息技术产业的社会网络结构分析[J].科技风,2013(21):11-12. 被引量：1
8网络安全实行国家统一标准化[J].新农业,2016,0(17):50-51.
9郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000,20(1):58-65. 被引量：31
10王双成,张剑飞,冷翠平.具有丢失数据的TAN分类器学习[J].小型微型计算机系统,2008,29(11):2095-2098.

中文信息学报

2017年第1期

浏览历史

内容加载中请稍等...

藏汉跨语言话题模型构建及对齐方法研究被引量：1

参考文献4

二级参考文献177

共引文献401

同被引文献8

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

藏汉跨语言话题模型构建及对齐方法研究 被引量：1

参考文献4

二级参考文献177

共引文献401

同被引文献8

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

藏汉跨语言话题模型构建及对齐方法研究被引量：1