基于词位的藏文黏写形式的切分被引量：6

Segmentation of Tibetan abbreviated forms based on word position

下载PDF

导出

摘要基于词位的统计分析方法识别并切分现代藏语文本中的黏写形式,其最大特点是减少了未登录词对识别效果的影响。首先根据藏文自身的特点,将常用的四词位扩充为六词位,再利用条件随机场模型作为标注建模工具来进行训练和测试,并根据规则对识别结果进行后处理。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并对模型选用的特征集进行优化。 The best feature of segmentation of Tibetan abbreviated forms based on word position is reducing the negative effects of unknown words. This article improves 4 word-position tag set to 6 word-position tag set to fit in with the characters of Tibetan, uses CRF as tagging model to train and test corpus data, then builds a rule base to post process the result data. The experimental result shows that the method has a high recognition rate and deserves further study. The next steps are to expand the corpus and optimize the feature template.

作者康才畯龙从军江荻

机构地区上海师范大学人文与传播学院中国社科院民族研究所中央民族大学民族语言监测分中心

出处《计算机工程与应用》 CSCD 2014年第11期218-222,共5页 Computer Engineering and Applications

基金国家自然科学基金(No.61132009)

关键词藏文黏写形式词位条件随机场特征模板后处理 Tibetan abbreviated forms word position Conditional Random Field（CRF） feature template post process

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1江荻.现代藏语组块分词的方法与过程[J].民族语文,2003(4):30-39. 被引量：17
2于江德,睢丹,樊孝忠.基于字的词位标注汉语分词[J].山东大学学报（工学版）,2010,40(5):117-122. 被引量：10
3王希杰.词位标注汉语分词中上下文有效范围定量分析[J].计算机应用,2012,32(5):1340-1342. 被引量：2
4李永燧.论藏缅语黏着语素与语言类型学[J].民族语文,2002(2):10-24. 被引量：4
5江孝感,徐罗丁,李长宁.汉语词素自动分词的一个理想方法[J].现代图书情报技术,1989(2):8-10. 被引量：1
6才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
7陈玉忠,李保利,俞士汶,兰措吉.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82. 被引量：49
8韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究,1999,16(10):8-9. 被引量：22
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
10巴桑杰布,羊毛卓玛,欧珠.藏文分词系统中紧缩格识别和藏字复原的算法研究[J].西藏科技,2012(2):73-75. 被引量：5

二级参考文献72

1于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3黄布凡.古藏语动词的形态[J].民族语文,1981(3):1-13. 被引量：28
4黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
5孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
6刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
7孙宏开.论藏缅语语法结构类型的历史演变(续)[J].民族语文,1992(6):54-60. 被引量：18
8史金波.西夏语的存在动词[J].语言研究,1984,4(1):215-228. 被引量：17
9刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
10孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101

共引文献368

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
7李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
8江荻.书面藏语的续连规则及词形变体的自动识别[J].民族语文,2004(6):50-54. 被引量：1
9张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
10邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6

同被引文献45

1才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
2祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
4Tomá Mikolov, IlyaSutskever,Hai-Son Leetc.Subword Language Modeling with Neural Networks[DB/OL], www.fit.vutbr.cz/-imikolov/rnnlm/char.pdf.
5龙从军,刘汇丹,吴健.藏语字性标注研究[C], 第十五届中国少数民族语言文字信息处理学术研讨会,延边,2015.
6赵小兵,孙媛,龙从军等.藏文拉丁转写、分词和词性分类规范-信息处理用现代藏语分词规范(草案)[M],北京: 商务印书馆, 2015.
7赵小兵,孙媛,龙从军等.藏文拉丁转写、分词和词性分类规范-信息处理用现代藏语词性标注规范(草案)[M],北京: 商务印书馆,2015.
8才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
9黄鹤鸣,达飞鹏.基于排序的现代藏文音节判定[J].计算机应用,2009,29(7):2003-2005. 被引量：12
10才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49. 被引量：15

引证文献6

1龙从军,刘汇丹,诺明花,吴健.基于藏语字性标注的词性预测研究[J].中文信息学报,2015,29(5):211-215. 被引量：7
2龙从军,刘汇丹,吴健.藏语音节标注研究[J].中文信息学报,2017,31(4):89-93. 被引量：2
3拉玛扎西,才智杰,扎西吉.藏文紧缩格识别方法[J].计算机应用研究,2019,36(4):1080-1083. 被引量：6
4才让当知,华却才让,却措卓玛,夏吾吉.基于混合模式的藏文音节切分[J].内蒙古师范大学学报（自然科学汉文版）,2019,48(5):406-412.
5王莉莉,王宏渊,白玛曲珍,杨鸿武.基于BiLSTM_CRF模型的藏文分词方法[J].重庆邮电大学学报（自然科学版）,2020,32(4):648-654. 被引量：7
6拉玛扎西,才智杰,班玛宝.基于混合策略的藏文虚词识别方法[J].中文信息学报,2019,0(7):75-80.

二级引证文献20

1洛桑嘎登,仁增多杰.基于知识反馈的藏文词性标注研究[J].计算机时代,2018(7):73-75. 被引量：1
2才让当知,华却才让,却措卓玛,夏吾吉.基于混合模式的藏文音节切分[J].内蒙古师范大学学报（自然科学汉文版）,2019,48(5):406-412.
3赵小兵,鲍薇,董建,包乌格德勒.基于数据增强的藏文改写检测研究[J].中文信息学报,2019,33(12):83-90. 被引量：5
4沙九,冯冲,张天夫,郭宇航,刘芳.多策略切分粒度的藏汉双向神经机器翻译研究[J].厦门大学学报（自然科学版）,2020,59(2):213-219. 被引量：7
5格桑加措.基于HMM模型的藏语词性标注研究[J].信息通信,2020(5):46-47.
6陈小莹,艾金勇.近十年我国藏文信息研究的特征分布与热点分析——基于CNKI核心期刊的文献计量及可视化分析[J].西藏民族大学学报（哲学社会科学版）,2020,41(3):141-147. 被引量：3
7刘晓彤,赵小兵.藏文自动分词技术研究[J].中央民族大学学报（自然科学版）,2022,31(2):63-66. 被引量：2
8陆柳杏,吴丹.非物质文化遗产领域汉藏双语本体的语义检索策略研究[J].图书情报工作,2022,66(13):15-24. 被引量：5
9Yuan Sun,Chaofan Chen,Andong Chen,Xiaobing Zhao.Tibetan Question Generation Based on Sequence to Sequence Model[J].Computers, Materials & Continua,2021(9):3203-3213.
10王进,李颖,蒋晓翠,吕晓旭,肖黄清.基于层级残差连接LSTM的命名实体识别[J].江苏大学学报（自然科学版）,2022,43(4):446-452. 被引量：7

1王希杰,黄勇杰.基于三词位的字标注汉语分词[J].安阳师范学院学报,2013(5):49-52.
2萧国政,高精鍊,双文庭,姬东鸿,郭婷婷,吴泓渺.词位重构与平行语言资源的再生性建设[J].中文信息学报,2014,28(6):95-100.
3王靖,徐向阳,符蓉.一种优化的用于中文分词的CRF机器学习模型[J].微计算机信息,2010,26(12):169-170. 被引量：1
4丁建立,慈祥,黄剑雄.一种基于免疫遗传算法的网络新词识别方法[J].计算机科学,2011,38(1):240-245. 被引量：11
5于江德,胡顺义,余正涛.三位一体字标注的汉语词法分析[J].中文信息学报,2015,29(6):1-7. 被引量：4
6丁捷慧.因为“学生”,才会“臻美”——我眼中的“臻美课堂”教学例谈[J].华人时刊·校长版,2016,0(6):81-81.
7林秋虾.基于支持向量机的中文分词[J].现代计算机,2011,17(19):11-13.
8于江德,王希杰.词位标注汉语分词技术详解[J].安阳师范学院学报,2010(5):1-5.
9王自力.预测辩证[J].预测,1983,2(3):128-128.
10蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3

计算机工程与应用

2014年第11期

浏览历史

内容加载中请稍等...

基于词位的藏文黏写形式的切分被引量：6

参考文献10

二级参考文献72

共引文献368

同被引文献45

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于词位的藏文黏写形式的切分 被引量：6

参考文献10

二级参考文献72

共引文献368

同被引文献45

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于词位的藏文黏写形式的切分被引量：6