藏文自动分词系统的设计被引量：14

Design of a Tibetan Word Segmentation System

下载PDF

导出

摘要语料库作为基本的语言数据库和知识库,是各种自然语言处理方法实现的基础。随着统计方法在自然语言处理中的广泛应用,语料库建设已成为重要的研究课题。自动分词是句法分析的一项不可或缺的基础性工作,其性能直接影响句法分析。本文通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能研究,介绍基于词典库的藏文自动分词系统的模型,给出了切分用词典库的结构、格分块算法和还原算法。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。 As the fundamental linguistic knowledge base,human-annotated corpora are the basis of many statistical natural language processing tasks.Along with the wide use of statistical methods in natural language processing,corpus construction becomes an important research area.Word segmentation is necessary prerequisite of syntax parsing;its performance determines the parsing accuracy in a large degree.By the statistical analysis on a Tibetan corpus with 850,000 bytes,we first investigate the distribution and the syntactic function of Tibetan words,introduce a dictionary-based Tibetan word segmentation model,and then present the dictionary structure,case-auxiliary blocking and restoring algorithms which are necessary to Tibetan word segmentation.The development of the Tibetan word segmentation system also facilitates the research of the Tibetan word input methods,the Tibetan electronic dictionary construction,the Tibetan word frequency statistics,the design and realization of the search engine,the development of the machine translation system,the security of the network information,the construction of the Tibetan corpus,and the Tibetan semantic analysis.

作者才智杰才让卓玛

机构地区青海师范大学藏文信息处理省部共建教育部重点实验室

出处《计算机工程与科学》 CSCD 北大核心 2011年第5期151-154,共4页 Computer Engineering & Science

基金科技部973前期预研项目(2010CB334708) 国家社会科学基金项目(09XYY024 07BYY035) 国家语委项目(MZ05-118) 青海师范大学科研创新计划项目青海师范大学中青年科研基金项目

关键词中文信息处理语料库藏文分词 Chinese information processing corpus Tibetan word segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1陈玉忠,俞士汶.藏文信息处理技术的研究现状与展望[J].中国藏学,2003(4):97-107. 被引量：67
2李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
3陈玉忠,李保利,俞士汶,兰措吉.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82. 被引量：49
4才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
5陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51
6孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
7才旦夏茸.藏文文法详解[M].西宁:青海民族出版社,1988.

二级参考文献40

1郑玉玲.藏语方言语音量化分析[J].民族语文,1998(5):42-50. 被引量：4
2罗圣仪.计算机处理藏文的初步探讨[J].民族语文,1986(3):50-54. 被引量：3
3陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
6孙宏开,郑玉玲.计算机进行藏缅语语音相关分析的尝试[J].语言研究,1994,14(2):168-180. 被引量：3
7鲍怀翘,徐昂,陈嘉猷.藏语拉萨话语音声学参数数据库[J].民族语文,1992(5):10-20. 被引量：15
8张连生.计算机藏文文字处理的设计[J].民族语文,1983(5):37-43. 被引量：5
9于道泉.藏文数码代字[J].民族语文,1982(3):1-7. 被引量：2
10张连生.藏文号码代字及其计算机排索[J].语言研究,1983,3(2):35-40. 被引量：1

共引文献344

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2贺胜,卢亚军,王正平.基于IMM-IME结构的藏文输入法研究[J].西北民族大学学报（自然科学版）,2008,29(1):29-32. 被引量：1
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
5李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
6尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
7范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
8张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
9郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
10陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26

同被引文献105

1华旦扎西,才智杰,班玛宝.一种基于TC_LSTM的藏文词拼写检查方法[J].中文信息学报,2020,34(5):50-55. 被引量：5
2才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：3
3普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
4紫腾嘉,李学琴.藏语的数量词[J].西南民族大学学报（人文社会科学版）,1999,20(S2):25-29. 被引量：1
5才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
6才让叁智.藏文搜索引擎中的分词算法研究[J].西藏大学学报（社会科学版）,2013,28(5):53-57. 被引量：4
7文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
8高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
9张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
10冯志伟.基于短语结构语法的自动句法分析方法[J].当代语言学,2000,2(2):84-98. 被引量：16

引证文献14

1张丽媛.1984—2011年中国自动分词研究综述[J].农业图书情报学刊,2012,24(6):140-143.
2项炜,金澎.基于词频学习和动态词频更新的藏文自动分词系统设计[J].计算机应用与软件,2014,31(5):106-109. 被引量：4
3完么扎西,尼玛扎西.藏语自动分词中的几个关键问题的研究[J].中文信息学报,2014,28(4):132-139. 被引量：7
4格桑多吉,乔少杰,何泽东.基于字典的藏文分词系统实现研究[J].电子技术与软件工程,2015(8):80-81. 被引量：2
5完么扎西,尼玛扎西.藏语自动分词中的数词识别方法研究[J].西藏大学学报（社会科学版）,2015,30(5):96-104.
6色差甲,贡保才让,才让加.基于最大熵和HMM的藏文新词识别对比研究[J].青海师范大学学报（自然科学版）,2018,34(1):12-16. 被引量：2
7扎西吉,才智杰,拉玛扎西.藏语判断句的句法结构树构建方法[J].西北民族大学学报（自然科学版）,2017,38(4):24-27. 被引量：3
8扎西吉,罗巴.基于虚词和句尾词特征的藏语句子抽取方法[J].西北民族大学学报（自然科学版）,2018,39(4):39-43. 被引量：1
9孙媛,王丽客,郭莉莉.基于改进词向量GRU神经网络模型的藏语实体关系抽取[J].中文信息学报,2019,33(6):35-41. 被引量：5
10才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：5

二级引证文献30

1蔡玉霞,孟佳娜.产品评论情感倾向性分类系统的设计与实现[J].大连民族学院学报,2015,17(5):511-514.
2完么扎西,尼玛扎西.藏语自动分词中的数词识别方法研究[J].西藏大学学报（社会科学版）,2015,30(5):96-104.
3赵越,李红.极大似然优化EM算法的汉语分词认知模型[J].科技通报,2016,32(4):178-181. 被引量：2
4张睿.基于短语相似度的统计机器翻译系统设计[J].自动化与仪器仪表,2017(8):66-67. 被引量：6
5拉巴顿珠,欧珠,赵栋材.藏文自动分词系统中虚词识别算法研究[J].计算机应用与软件,2017,34(9):299-301. 被引量：8
6色差甲,贡保才让,才让加.基于最大熵和HMM的藏文新词识别对比研究[J].青海师范大学学报（自然科学版）,2018,34(1):12-16. 被引量：2
7拉玛扎西,才智杰,扎西吉.藏文紧缩格识别方法[J].计算机应用研究,2019,36(4):1080-1083. 被引量：6
8才让当知,华却才让,却措卓玛,夏吾吉.基于混合模式的藏文音节切分[J].内蒙古师范大学学报（自然科学汉文版）,2019,48(5):406-412.
9黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：1
10仁青东主,头旦才让,尼玛扎西.汉藏机器翻译研究综述[J].中国藏学,2019,0(4):222-226. 被引量：5

1才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77. 被引量：18
2格桑.初中藏文信息处理中自动分词方法研究[J].杂文月刊（教育世界）,2016,0(8):174-175.
3卓玛吉,安见才让.藏文树型分词法的研究及实现[J].信息与电脑（理论版）,2013,0(7):25-26. 被引量：3
4叶西切忠,安见才让.藏文信息处理中自动分词方法的研究[J].科技信息,2011(31):236-236.
5格桑多吉,乔少杰,何泽东.基于字典的藏文分词系统实现研究[J].电子技术与软件工程,2015(8):80-81. 被引量：2
6汉城.计算机和自然语言(美国)[J].管理观察,1994,0(6):45-45.
7吕浩音,郭涛.ATPM语言数据库应用研究[J].陇东学院学报,2016,27(5):12-16.
8赵志靖,周静,冯锐,齐丙辰.智能人机交互中自动分词技术的实现[J].扬州大学学报（自然科学版）,2005,8(3):58-61. 被引量：3
9张永奎,李国臣.新闻语料自动分词系统[J].山西大学学报（自然科学版）,1993,16(3):280-284. 被引量：1
10祁坤钰.基于国际标准编码系统的藏文分词词典机制研究[J].西北民族大学学报（自然科学版）,2010,31(4):29-32. 被引量：3

计算机工程与科学

2011年第5期

浏览历史

内容加载中请稍等...

藏文自动分词系统的设计被引量：14

参考文献7

二级参考文献40

共引文献344

同被引文献105

引证文献14

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

藏文自动分词系统的设计 被引量：14

参考文献7

二级参考文献40

共引文献344

同被引文献105

引证文献14

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

藏文自动分词系统的设计被引量：14