藏语语料库词语分类体系及标记集研究被引量：18

Research on the Word Categories and Its Annotation Scheme for Tibetan Corpus

下载PDF

导出

摘要青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。 For the automatic segmentation and POS tagging, this paper proposes a Tibetan word category system and a annotation scheme after a careful analysis over a large Tibetan corpus. According to the practical demands on the Tibetan corpus, the Tibetan words are first divided into several main categories according to where they are content words or function words. Then several fine granularized sub-categories are further suggested. This framework has been proved valid for the processing of a Tibetan Corpus with 10 million characters.

作者才让加

机构地区青海师范大学藏文信息处理与机器翻译省级重点实验室

出处《中文信息学报》 CSCD 北大核心 2009年第4期107-112,共6页 Journal of Chinese Information Processing

基金国家语委资助项目(MZ115-018) 国家社会科学基金(07BYY035) 国家社会科学重点基金(05AYY001)

关键词计算机应用中文信息处理语料库藏语词语分类体系标记集 computer application Chinese information processing corpus Tibetan phrases category mark gathering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1吴蔚天.汉语计算语言学[M].北京:电子工业出版社,1994..
2俞士汶.关于现代汉语词语的语法功能分类[J].中国计算机报,1994,(21).
3俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64. 被引量：126
4多识.藏语语法论集[M].兰州:甘肃民族出版社,1987.
5孙宏林,陆勤,俞士汶.利用遗传算法实现词类标记集的优化[J].中文信息学报,2001,15(1):19-27. 被引量：1
6陈玉忠.信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,2005.
7青海师范大学民族部.藏汉对照简易藏文读本[M].西宁:青海民族出版社,1996.
8扎西加,多拉,大罗桑朗杰,欧珠.(信息处理用藏语词类及标记集规范》的理论说明[C]//第十一届全国少数民族信息技术研讨会议论文集,2007:441-452.
9多拉,扎西加,欧珠,大罗桑朗杰.信息处理用藏文词类及标记集规范(征求意见稿)[C]//第十一届全国民族语言文字信息学术研讨会论文集,2007:428-440.
10周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35

二级参考文献11

1周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：40
2孙宏林罗振声等.现代汉语研究语料库系统.计算机时代的汉语和汉字研究[M].北京:清华大学出版社,1996..
3周强，计算机研究与运用，1993年
4李子云，汉语句法规则，1992年
5房玉清，实用汉语语法，1992年
6吴竞存，现代汉语句法结构与分析，1992年
7范晓，汉语的短语，1991年
8团体著者，世界汉语教学，1989年，1期
9朱德熙，语法答问，1985年
10孙宏林，计算机时代的汉语和汉字研究，1996年

共引文献167

1杨丽姣,肖航,刘智颖.《信息处理用现代汉语词类标记规范》修订研究[J].语言文字应用,2021(3):111-120. 被引量：1
2吴先,胡俊峰.基于历时语料库的在线词典编纂系统设计[J].中文信息学报,2020(5):27-35. 被引量：1
3程勇,徐德宽,董军.基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究[J].中文信息学报,2020(4):101-110. 被引量：11
4谭晓平.现代汉语文本语料库建设及应用现状研究[J].对外汉语研究,2018,0(1):20-29.
5姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
6化振红.建立中古汉语语料库分词规范的若干问题[J].语言研究集刊,2021(2):151-167. 被引量：2
7刘亮.现代汉语广义助词知识库构建与应用[J].光盘技术,2008(4):14-16. 被引量：2
8杨芸,周昌乐,王雪梅,戴帅湘.基于机器理解的汉语隐喻分类研究初步[J].中文信息学报,2004,18(4):31-36. 被引量：15
9高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
10朱学锋,张化瑞,段慧明,俞士汶.《汉语高频词语法信息词典》的研制[J].语言文字应用,2004(3):98-104. 被引量：2

同被引文献121

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报（哲学社会科学版）,2007,34(6):115-122. 被引量：6
3紫腾嘉,李学琴.藏语的数量词[J].西南民族大学学报（人文社会科学版）,1999,20(S2):25-29. 被引量：1
4道布.中国的语言政策和语言规划[J].民族研究,1998(6):42-52. 被引量：34
5扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
6李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
7王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
8顾平,刁红军.屏幕取词原理与实现[J].计算机工程与应用,2004,40(28):109-112. 被引量：2
9祁坤钰.《机器翻译用现代藏语语义词典》的设计研究[J].西北民族大学学报（自然科学版）,2004,25(3):33-37. 被引量：8
10周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：40

引证文献18

1高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
2华却才让.藏汉句子局部对齐策略的研究[J].青海师范大学学报（自然科学版）,2010,26(4):39-43. 被引量：2
3史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56. 被引量：30
4才让加.面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究[J].中文信息学报,2011,25(6):157-161. 被引量：18
5赵栋材.面向藏语自然语言处理的藏语语言资源建设[J].西藏科技,2012(9):74-77. 被引量：2
6曹晖,韩小斌,董晓芳.中学藏语文教材词汇计量统计分析[J].科技风,2012(20):187-189.
7华却才让,赵海兴.基于判别式的藏语依存句法分析[J].计算机工程,2013,39(4):300-304. 被引量：17
8华却才让,姜文斌,赵海兴,刘群.基于词对依存分类的藏语树库半自动构建研究[J].中文信息学报,2013,27(5):166-172. 被引量：8
9完么才让,曹玉林.藏语及物与不及物动词的自动识别研究[J].西南民族大学学报（自然科学版）,2014,40(1):132-136.
10华却才让,刘群,赵海兴.判别式藏语文本词性标注研究[J].中文信息学报,2014,28(2):56-60. 被引量：9

二级引证文献95

1才藏太,赵海兴,才让加.汉藏句子自动对齐技术研究[J].青海师范大学学报（自然科学版）,2022,38(1):1-3.
2华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
3拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
4李文刚,周杰,杨保群.基于词典和句长及位置的双语对齐方法的改进[J].现代电子技术,2011,34(14):25-27. 被引量：2
5赵栋材.基于虚词切分的藏文分词系统的设计与实现[J].西藏大学学报（社会科学版）,2012,27(5):61-65. 被引量：5
6龙从军.藏语文本信息处理的几个关键问题[J].科研信息化技术与应用,2012,3(4):51-58. 被引量：2
7张晓艳,宋铁花.计算语言学及其视角下的翻译平台建设[J].山西农业大学学报（社会科学版）,2013,12(4):359-362. 被引量：2
8李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：28
9华却才让,姜文斌,赵海兴,刘群.基于词对依存分类的藏语树库半自动构建研究[J].中文信息学报,2013,27(5):166-172. 被引量：8
10华却才让,刘群,赵海兴.判别式藏语文本词性标注研究[J].中文信息学报,2014,28(2):56-60. 被引量：9

1多杰卓玛.现代藏语词语信息库构建研究[J].电脑开发与应用,2010,23(7):1-3.
2力毛措.藏语语料库管理系统中读写数据粒度问题的研究[J].青海师范大学学报（自然科学版）,2012,28(2):26-29.
3多杰卓玛.藏语语义框架的理解与描述[J].西北民族大学学报（自然科学版）,2009,30(2):17-21. 被引量：5
4才让加.藏语语料库词类描述方法研究[J].计算机工程与应用,2011,47(4):146-148. 被引量：7
5才让加.藏语语料库加工方法研究[J].计算机工程与应用,2011,47(6):138-139. 被引量：13
6张金溪,李永宏,单广荣,李照耀,江静.面向语音合成的藏语单音素与三音素自动切分算法研究[J].计算机应用研究,2013,30(11):3272-3275. 被引量：5
7《阳光藏汉机器翻译系统》应用效果良好[J].西藏科技,2015(3). 被引量：1
8我校与青海师范大学签订学科建设合作协议[J].华北科技学院学报,2011,8(2).
9才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报（自然科学版）,2005,26(2):39-42. 被引量：5
10韩孔礼.突出特色发挥优势推动科技工作迈上新台阶——对我校“863”高技术项目“汉藏科技机器翻译系统”研制成功的几点思考[J].科技．人才．市场,1999(B10):131-132.

中文信息学报

2009年第4期

浏览历史

内容加载中请稍等...

藏语语料库词语分类体系及标记集研究被引量：18

参考文献10

二级参考文献11

共引文献167

同被引文献121

引证文献18

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

藏语语料库词语分类体系及标记集研究 被引量：18

参考文献10

二级参考文献11

共引文献167

同被引文献121

引证文献18

二级引证文献95

相关作者

相关机构

相关主题

浏览历史

藏语语料库词语分类体系及标记集研究被引量：18