班智达藏文标注词典设计被引量：15

Design of Tibetan Part of Speech Tagging Dictionary

下载PDF

导出

摘要语料库加工是一项庞大的语言工程,其中分词标注是最基础性的工作,而分词标注词典是标注系统的重要组成,词典设计的优劣直接关系着分词标注的速度和效率。在设计国家语委项目《班智达藏文自动标注系统》的基础上,给出了分词标注词典库的结构及词典库索引查询算法。对85万字节藏语实验语料的分词和标注,分词准确率达99%,标注准确率达97%。 Corpus processing is a complicated project of language engineering, in which the segmentation and tagging are the fundamental work. The part - of speech tagging dictionary is an exxential composition of the taggging process, relating directly to the speed and efficiency of tagging. Based on design of project ＂Ban Zhi Da Titetan Au- to-tagging System＂ supported by the National Language Committee, this paper presents the construction of tagging dictionary and its index and search algorithm. The experiment on the 850 KB corpus of Tibetan shows that word segmentation accuracy rate can reach 99% and tagging accuracy rate can reach 97% .

作者才智杰才让卓玛

机构地区青海师范大学藏文信息研究中心

出处《中文信息学报》 CSCD 北大核心 2010年第5期46-49,共4页 Journal of Chinese Information Processing

基金国家语委资助项目(MZ05-118) 国家社会科学基金资助项目(07BYY035 09XYY024)

关键词藏语语料库分词标注词典索引 corpus of Tibetan segmentation tagging dictionory index

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1陈玉忠,李保利,俞士汶,兰措吉.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82. 被引量：49
2才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
3孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：107
6陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：50
7陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学,2003(4):97-107. 被引量：67

二级参考文献94

1郑玉玲.藏语方言语音量化分析[J].民族语文,1998(5):42-50. 被引量：4
2罗圣仪.计算机处理藏文的初步探讨[J].民族语文,1986(3):50-54. 被引量：3
3孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
4陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
5孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
6黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
7刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
8董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
9孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
10孙宏开,郑玉玲.计算机进行藏缅语语音相关分析的尝试[J].语言研究,1994,14(2):168-180. 被引量：3

共引文献429

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3贺胜,卢亚军,王正平.基于IMM-IME结构的藏文输入法研究[J].西北民族大学学报（自然科学版）,2008,29(1):29-32. 被引量：1
4周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
5王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
6张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
7李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
8尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
9范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
10张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7

同被引文献141

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：3
3李乐强,唐常杰,左劼,邱源枞,段磊,李川.基于同现度和自学习的中文字符组合发现[J].计算机研究与发展,2007,44(z3):268-272. 被引量：2
4孔江平.藏语（拉萨话）声调感知研究[J].民族语文,1995(3):56-64. 被引量：41
5林河水,程伟,曹晖,李文波,吴健,孙玉芳.一种符合ISO14651语义的藏文排序实现方法[J].中文信息学报,2004,18(5):36-41. 被引量：19
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
8高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
9扎西次仁.《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J].中国藏学,1997(2):122-133. 被引量：18
10江荻,董颖红.藏字叠加结构线性处理统计分析[J].中文信息,1994,11(4):44-46. 被引量：11

引证文献15

1完么扎西.藏语词语兼类情况及识别规则库[J].西藏大学学报（社会科学版）,2014,29(5):87-94.
2才智杰,才让卓玛.基于语料库的藏文字属性分析系统设计[J].计算机工程,2011,37(22):270-272. 被引量：10
3才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：2
4华却才让,刘群,赵海兴.判别式藏语文本词性标注研究[J].中文信息学报,2014,28(2):56-60. 被引量：9
5才让卓玛,李永明,才智杰.藏语语音合成单元选择[J].软件学报,2015,26(6):1409-1420. 被引量：5
6才智杰,才让卓玛.藏文字符的向量模型及构件特征分析[J].中文信息学报,2016,30(2):202-206. 被引量：6
7才智杰,才让卓玛.藏文字形结构分布研究[J].中文信息学报,2016,30(4):98-105. 被引量：6
8才智杰,孙茂松,才让卓玛.藏文字自动生成技术研究[J].高原科学研究,2017,1(1):98-103.
9扎西吉,罗巴.基于虚词和句尾词特征的藏语句子抽取方法[J].西北民族大学学报（自然科学版）,2018,39(4):39-43. 被引量：1
10拉玛扎西,才智杰,扎西吉.藏文紧缩格识别方法[J].计算机应用研究,2019,36(4):1080-1083. 被引量：6

二级引证文献50

1才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：3
2才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：2
3韦树关.新时期中国少数民族语言研究方法创新与实践[J].广西民族大学学报（哲学社会科学版）,2013,35(6):2-6. 被引量：1
4武强,边巴旺堆.信息检索系统中藏文自动提示的研究与实现[J].电脑知识与技术,2014,0(7):4378-4380.
5才让卓玛,李永明,才智杰.藏语语音合成单元选择[J].软件学报,2015,26(6):1409-1420. 被引量：5
6龙从军,刘汇丹,诺明花,吴健.基于藏语字性标注的词性预测研究[J].中文信息学报,2015,29(5):211-215. 被引量：3
7华却才让,赵海兴.藏文屏幕取词和翻译关键技术研究[J].青海师范大学学报（自然科学版）,2015,31(4):25-28.
8李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：22
9才智杰,才让卓玛.藏文字符的向量模型及构件特征分析[J].中文信息学报,2016,30(2):202-206. 被引量：6
10才智杰,才让卓玛.藏文字形结构分布研究[J].中文信息学报,2016,30(4):98-105. 被引量：6

1力毛措.藏语语料库管理系统中读写数据粒度问题的研究[J].青海师范大学学报（自然科学版）,2012,28(2):26-29.
2骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
3才让加.藏语语料库加工方法研究[J].计算机工程与应用,2011,47(6):138-139. 被引量：13
4杨乐,何军红,谷丛,仝维.基于Windows CE的电子词典的设计与实现[J].电子测量技术,2008,31(3):75-77. 被引量：1
5杨毅,王禹桥.一种改进逐字二分中文分词词典设计[J].湘潭大学自然科学学报,2009,31(4):124-128. 被引量：5
6张金溪,李永宏,单广荣,李照耀,江静.面向语音合成的藏语单音素与三音素自动切分算法研究[J].计算机应用研究,2013,30(11):3272-3275. 被引量：4
7《阳光藏汉机器翻译系统》应用效果良好[J].西藏科技,2015(3). 被引量：1
8才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报（自然科学版）,2005,26(2):39-42. 被引量：5
9黄建烁,徐秉铮,周三忠.机器翻译中介词的处理策略[J].中文信息学报,1992,6(3):35-41.
10韩旭,李娟,王永吉,杨达.基于协同相关性模型的特征需求自动标注系统[J].计算机应用与软件,2015,32(7):1-4.

中文信息学报

2010年第5期

浏览历史

内容加载中请稍等...

班智达藏文标注词典设计被引量：15

参考文献7

二级参考文献94

共引文献429

同被引文献141

引证文献15

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

班智达藏文标注词典设计 被引量：15

参考文献7

二级参考文献94

共引文献429

同被引文献141

引证文献15

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

班智达藏文标注词典设计被引量：15