多级索引的藏语分词词典设计被引量：6

Design of Tibetan word segmentation dictionary with multi-level index

下载PDF

导出

摘要藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。 Tibetan word segmentation dictionary is the vital basis of the system of Tibetan automatic word segmentation, with the scale of the dictionary and the arithmetic design directly related to the efficiency of the word segmentation. This project firstly collected all the Tibetan vocabulary entries and punctuations from many dictionaries, and form an enormous Tibetan word storeroom with about 100 000 vocabularies. Secondly, a unique Tibetan multi-level index word segmentation mechanism had been founded to analyze and design Tibetan who/e-word dichotomy for Tibetan word segmentation according to the characteristic of Tibetan words with different length. The experimental results indicate that the Tibetan word segmentation dictionary has the advantages of simple structure, quick word segmentation, high inquiry capability, etc.

作者姚徐郭淑妮李永宏于洪志

机构地区西北民族大学中国民族信息技术研究院西北民族大学中国民族语言文字信息技术重点实验室

出处《计算机应用》 CSCD 北大核心 2009年第B06期178-180,共3页 journal of Computer Applications

基金中国科学院自动化研究所模式识别国家重点实验室开放课题国家863计划项目(AA2006010101)

关键词藏语分词分词词典藏语整词二分法多级索引 Tibetan word segmentation, word segmentation dictionary, Tibetan whole-word dichotomy, multi-level index

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1魏进,常朝稳.单数组全映射分词词典[J].计算机工程与应用,2007,43(23):184-186. 被引量：4
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3翟伟斌,周振柳,蒋卓明,许榕生.汉语分词词典设计[J].计算机工程与应用,2007,43(1):1-2. 被引量：11
4李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
5陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51
6孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118

二级参考文献18

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
3才旦夏茸.藏文文法详解[M].西宁：青海民族出版社,1988..
4马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
5[6]Segal M,Korobkin,R Van W klcnfeh et al Fast Shadow and Lithting Effects is Using Texture Mapping[C],USA;Proceedings of SIGGRAPH92,1992,249-252.
6[7]S Seitz,C Dyer Photorealistic Scene Reconstruction by Voxel Coloring[C],CVPR,1997,1067～1073.
7Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491.
8Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56.
9梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
10Aoe J.An efficient digital search algorithm by using a double-array structure[J].IEEE Transactions on Software Engineering,1989(9).

共引文献235

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
4尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
5范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
6马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
7才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
8崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
9文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
10张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60

同被引文献66

1王磊.索引在查询优化中的作用[J].长春理工大学学报（高教版）,2009(2):178-179. 被引量：1
2紫腾嘉,李学琴.藏语的数量词[J].西南民族大学学报（人文社会科学版）,1999,20(S2):25-29. 被引量：1
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4祁坤钰.《机器翻译用现代藏语语义词典》的设计研究[J].西北民族大学学报（自然科学版）,2004,25(3):33-37. 被引量：8
5孙茂松,王洪君,李行健,富丽,黄昌宁,陈松岑,谢自立,张卫国.《信息处理用词汇研究》九五项目结题汇报信息处理用现代汉语分词词表[J].语言文字应用,2001(4):84-89. 被引量：24
6才藏太,华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究[J].中文信息学报,2005,19(6):7-12. 被引量：10
7俞士汶,朱学锋,王惠,张芸芸.现代汉语语法信息词典规格说明书[J].中文信息学报,1996,10(2):1-22. 被引量：34
8翟伟斌,周振柳,蒋卓明,许榕生.汉语分词词典设计[J].计算机工程与应用,2007,43(1):1-2. 被引量：11
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
10郑耿忠.自动分词算法在智能答疑系统中的应用研究[J].计算机工程与设计,2007,28(9):2224-2226. 被引量：4

引证文献6

1于绍娜,李霞丽,胥桂仙,杨智君.数据库索引研究[J].电子测试,2010,21(2):84-87. 被引量：2
2才华,普布卓玛.Unicode藏文分词系统的设计[J].西藏科技,2012(7):77-80. 被引量：2
3龙从军.藏语文本信息处理的几个关键问题[J].科研信息化技术与应用,2012,3(4):51-58. 被引量：2
4齐富民,谢晓尧,景凤宣.SVM词库智能更新技术在搜索分类中的应用[J].计算机工程与设计,2014,35(6):2017-2023. 被引量：1
5完么扎西,尼玛扎西.藏语自动分词中的数词识别方法研究[J].西藏大学学报（社会科学版）,2015,30(5):96-104.
6完么才让.基于词典的藏语分词系统中顺序、索引和二分查找算法的性能比较[J].信息与电脑,2016,28(3):75-76. 被引量：2

二级引证文献9

1霍志华,赵冬泉,孙莹莹,王浩昌,孙艳.污水处理厂绩效管理系统中的数据标准化管理模式研究[J].给水排水,2011,37(S1):448-451.
2臧勤.雷达辐射源数据库的优化[J].雷达与对抗,2010,30(3):63-66. 被引量：3
3刘波,刘雪朝,刘鸿剑,罗文奇,刘斌,胡玮祺,吴静.单调链与二分法的Douglas-Peucker改进算法[J].测绘科学,2019,44(2):50-55. 被引量：10
4康才畯,龙从军.藏语方式状语的语义类型与句法标记[J].民族语文,2014(4):69-74. 被引量：2
5赵燕,李晓辉,周云成,张越.基于朴素贝叶斯的农业文本分类方法研究[J].节水灌溉,2018(2):98-102. 被引量：8
6马拉毛草.浅谈藏语形容词的兼类与词缀研究[J].丝绸之路,2022(1):87-91.
7刘晓彤,赵小兵.藏文自动分词技术研究[J].中央民族大学学报（自然科学版）,2022,31(2):63-66. 被引量：2
8谭贺元.现场总线智能从站通信协议数据表查找方案探讨[J].南方金属,2023(6):44-47. 被引量：1
9赵虎,郑亚楠.藏语文本信息处理的几个关键问题分析[J].科学中国人,2016(1Z).

1杨毅,王禹桥.一种改进逐字二分中文分词词典设计[J].湘潭大学自然科学学报,2009,31(4):124-128. 被引量：5
2骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
3李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：27
4许华,刘勇.中文分词词典机制的研究[J].福建电脑,2010(3):42-43.
5赵志靖,周静,冯锐,齐丙辰.智能人机交互中自动分词技术的实现[J].扬州大学学报（自然科学版）,2005,8(3):58-61. 被引量：3
6张永奎,李国臣.新闻语料自动分词系统[J].山西大学学报（自然科学版）,1993,16(3):280-284. 被引量：1
7祁坤钰.基于国际标准编码系统的藏文分词词典机制研究[J].西北民族大学学报（自然科学版）,2010,31(4):29-32. 被引量：3
8张大方,戴明坚.多遍扫描联想自动分词系统[J].微电子学与计算机,1991,8(3):12-15.
9谭骏珊,吴惠雄.一种改进整词二分法的中文分词词典设计[J].信息技术,2009,33(5):40-42. 被引量：6
10刘勇,王崇.基于专业词典的带词长的中文分词技术的研究[J].科技信息,2012(34):188-189.

计算机应用

2009年第B06期

浏览历史

内容加载中请稍等...

多级索引的藏语分词词典设计被引量：6

参考文献6

二级参考文献18

共引文献235

同被引文献66

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

多级索引的藏语分词词典设计 被引量：6

参考文献6

二级参考文献18

共引文献235

同被引文献66

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

多级索引的藏语分词词典设计被引量：6