基于格助词和接续特征的藏文自动分词方案被引量：49

An Automatic Tibetan Segmentation Scheme Based on Case-Auxiliary Words and Continuous Features

下载PDF

导出

摘要本文结合藏文各类形态特征 ,首次提出了一种基于格助词和接续特征(BCCF ,BasedonCase auxiliarywordandContinuousFeature)的书面藏文自动分词方案。其总体技术特点是 :在格助词、接续特征、字性知识库以及词典支持下 ,进行逐级定位的确定性分词。初步测试表明 :这一方案在发现和消除切分歧义、解决未登录词问题 ,进而在提高藏文分词精度方面具有很高的实用价值。 This paper proposes a cascaded written Tibetan word segmentation scheme, which is based on case auxiliary words and continuous features. Using inflectional information such as case auxiliary words and continuous features and adopting a cascaded strategy are the key features of the proposed scheme. Preliminary experiments suggest that it could detect and eliminate segmentation ambiguities and deal with unknown words. The scheme has significant practical value in increasing the precision of segmentation.

作者陈玉忠李保利俞士汶兰措吉

机构地区北京大学计算语言学研究所青海师范大学

出处《语言文字应用》 CSSCI 北大核心 2003年第1期75-82,共8页 Applied Linguistics

基金国家 8 6 3计划 (2 0 0 1AA114 0 4 0 ) 973项目 (G19980 30 5 0 7 4 )资助

关键词格助词接续特征藏文分词 case auxiliary words continuous features Tibetan word segmentation

分类号 H214 [语言文字—少数民族语言]

引文网络
相关文献

参考文献7

1何克抗,徐辉,孙波.书面汉语自动分词专家系统设计原理[J].中文信息学报,1991,5(2):1-14. 被引量：30
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
4俞士汶.计算语言学的应用研究与基础研究[A].辉煌二十年--中国中文信息学会二十周年学术会议论文集[C].北京:清华大学出版社,2001.
5山木旦,郑绍功,扎喜拉旦等.新编藏文字典[S].西宁:青海民族出版社,1979.
6才旦夏茸.藏文文法详解[M].西宁：青海民族出版社,1988..
7嵌绕威色木.藏文动词释难[M].成都:四川民族出版社,1994.

二级参考文献7

1宋柔，计算语言学研究与应用，1993年
2孙茂松，计算语言学研究与应用，1993年
3郑家恒，计算语言学研究与应用，1993年
4张俊盛，中文信息学报，1992年，6卷，3期
5团体著者，姓氏人名用字分析统计，1990年
6梁南元.书面汉语自动分词系统—CDWS[J]中文信息学报,1987(02).
7揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55

共引文献129

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
5郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
6王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
7陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
8黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
9季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
10孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101

同被引文献360

1李永宏,孔江平,于洪志.藏语文-音自动规则转换及其实现[J].清华大学学报（自然科学版）,2008,48(S1):621-626. 被引量：19
2尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
3普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
4紫腾嘉,李学琴.藏语的数量词[J].西南民族大学学报（人文社会科学版）,1999,20(S2):25-29. 被引量：1
5仁青措.书面藏语词组结构类型分析[J].西南民族大学学报（人文社会科学版）,1997,18(1). 被引量：2
6陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
7张济川.藏语拉萨话声调分化的条件[J].民族语文,1981(3):14-18. 被引量：12
8朱学锋,俞士汶,王惠.现代汉语五万词语归类的实践[J].语言文字应用,1997(4):89-95. 被引量：8
9才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
10才让叁智.藏文搜索引擎中的分词算法研究[J].西藏大学学报（社会科学版）,2013,28(5):53-57. 被引量：4

引证文献49

1江荻.书面藏语的续连规则及词形变体的自动识别[J].民族语文,2004(6):50-54. 被引量：1
2才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
3高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报（社会科学版）,2009,24(3):18-27. 被引量：15
4关白.信息处理用藏文分词单位研究[J].中文信息学报,2010,24(3):124-128. 被引量：12
5华却才让,才让加.基于班智达藏文查询接口及信息抽取研究[J].微计算机信息,2010,26(18):208-209. 被引量：1
6才让卓玛,才智杰.现代藏文字构件分解方法[J].青海大学学报（自然科学版）,2010,28(4):83-86. 被引量：7
7才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49. 被引量：15
8才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77. 被引量：18
9才让加.藏语语料库词类描述方法研究[J].计算机工程与应用,2011,47(4):146-148. 被引量：7
10才让加.藏语语料库加工方法研究[J].计算机工程与应用,2011,47(6):138-139. 被引量：13

二级引证文献237

1钱小飞.语言数据资源建设中的关键问题及对策[J].语料库语言学,2021,8(2):94-105. 被引量：1
2华林,陈燕,刘凌慧子.藏族记忆构建视域下藏族档案数字资源跨业界整合研究[J].西藏民族大学学报（哲学社会科学版）,2021,42(2):52-60. 被引量：7
3尼玛扎西,李志蜀,群诺,普顿,拥措,陈安龙.一种在移动电话上实现藏文处理的方法[J].四川大学学报（工程科学版）,2009,41(1):162-167. 被引量：9
4多拉.藏语语义理解中功能性虚词研究[J].西藏大学学报（社会科学版）,2011,26(4):106-112. 被引量：4
5才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
6高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
7拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
8完么扎西.藏语词语兼类情况及识别规则库[J].西藏大学学报（社会科学版）,2014,29(5):87-94.
9文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
10文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2

1关白.浅析藏文分词中的几个概念[J].西藏大学学报（社会科学版）,2009,24(6):65-69. 被引量：4
2战庆胜.「ため」的语义考察[J].日语学习与研究,2009(3):1-8. 被引量：2
3韩维良.汉语自动分词系统中切分歧义与未登录词的处理策略[J].青海师范大学学报（自然科学版）,2004,20(2):31-34. 被引量：3
4王江阳.网络键谈交流与外语学习[J].河南农业,2007(14):28-28.
5祁坤钰.基于国际标准编码系统的藏文分词词典机制研究[J].西北民族大学学报（自然科学版）,2010,31(4):29-32. 被引量：3
6冯克江.说明书的文体特征与翻译[J].宜春学院学报,2010,32(11):161-164. 被引量：3
7李绍芳.从形态学角度探析计算机英语词汇的构成方式[J].牡丹江大学学报,2008,17(6):87-89. 被引量：1
8张旭,李嵘剑.论新媒体技术特点与大学英语教学的关系[J].开封教育学院学报,2015,35(2):86-87.
9涂王贝,唐尔龙.MT在论文摘要翻译中的应用研究[J].滁州学院学报,2016,18(4):39-43. 被引量：1
10包蝴蝶.浅谈多媒体技术对幼儿语言能力的影响[J].青年时代,2016,0(16):226-226.

语言文字应用

2003年第1期

浏览历史

内容加载中请稍等...

基于格助词和接续特征的藏文自动分词方案被引量：49

参考文献7

二级参考文献7

共引文献129

同被引文献360

引证文献49

二级引证文献237

相关作者

相关机构

相关主题

浏览历史

基于格助词和接续特征的藏文自动分词方案 被引量：49

参考文献7

二级参考文献7

共引文献129

同被引文献360

引证文献49

二级引证文献237

相关作者

相关机构

相关主题

浏览历史

基于格助词和接续特征的藏文自动分词方案被引量：49