基于深度学习的藏文分词方法被引量：14

Tibetan word segmentation based on deep learning

下载PDF

导出

摘要重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(RNN)、双向循环神经网络(Bi RNN)、层叠循环神经网络(Stacked RNN)、长短期记忆模型(LSTM)和编码器-标注器长短期记忆模型(Encoder-Labeler LSTM)。多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93.13%。 The application of deep learning on Tibetan word segmentation was studied.Several models of deep neural network were implemented,including recurrent neural network,bi-directional recurrent neural network,stacked recurrent neural network,long short-term memory network and encoder-labeler long short-term memory network.These models were performed on written style corpus,including legal text,government documents and news.Experimental results show that the encoder-labeler long shortterm memory network achieves the best results,the precision,recall and F value reach 92.96%,93.30% and 93.13% respectively.

作者李博涵刘汇丹龙从军吴健

机构地区中国科学院软件研究所中国科学院大学计算机与控制学院中国社会科学院民族学与人类学研究所

出处《计算机工程与设计》北大核心 2018年第1期194-198,共5页 Computer Engineering and Design

基金国家自然科学基金项目(61303165 61540057 61132009) 青海省自然科学基金项目(2016-ZJ-Y04 2016-ZJ-740) 国家语委重点基金项目(ZDI135-17)

关键词深度学习藏文分词循环神经网络长短期记忆编码器-标注器 deep learning Tibetan word segmentation recurrent neural network long short-term memory encoder-labeler

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1洛桑嘎登,杨媛媛,赵小兵.基于知识融合的CRFs藏文分词系统[J].中文信息学报,2015,29(6):213-219. 被引量：14
2李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：27
3才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
4陈玉忠,李保利,俞士汶,兰措吉.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82. 被引量：49
5史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56. 被引量：30
6才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77.

二级参考文献44

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
4才智杰.藏汉英电子词典的开发研究[J].青海师范大学学报（自然科学版）,2005,21(2):48-50. 被引量：8
5孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
6祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
7洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246
9才旦夏茸.藏文文法详解[M].西宁：青海民族出版社,1988..
10陈玉忠.信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,2005.

共引文献114

1才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
2拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
3江荻.书面藏语的续连规则及词形变体的自动识别[J].民族语文,2004(6):50-54. 被引量：1
4才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
5高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报（社会科学版）,2009,24(3):18-27. 被引量：15
6才智杰,才让卓玛.基于建构主义学习理论的藏文音素拼读法MCAI设计[J].微计算机信息,2010,26(6):220-221. 被引量：1
7关白.信息处理用藏文分词单位研究[J].中文信息学报,2010,24(3):124-128. 被引量：11
8华却才让,才让加.基于班智达藏文查询接口及信息抽取研究[J].微计算机信息,2010,26(18):208-209. 被引量：1
9才让卓玛,才智杰.现代藏文字构件分解方法[J].青海大学学报（自然科学版）,2010,28(4):83-86. 被引量：7
10才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49. 被引量：15

同被引文献136

1普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
2扎西加.上下文无关文法与藏语句法分析[J].西藏大学学报（社会科学版）,2013,28(5):37-42. 被引量：7
3才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
4才让叁智.藏文搜索引擎中的分词算法研究[J].西藏大学学报（社会科学版）,2013,28(5):53-57. 被引量：4
5张磊,周明,黄昌宁,潘海华.中文文本自动校对[J].语言文字应用,2001(1):19-26. 被引量：23
6罗霄,任勇,山秀明.基于Python的混合语言编程及其实现[J].计算机应用与软件,2004,21(12):17-18. 被引量：62
7陈笑蓉,秦进,汪维家,陆汝占.中文文本校对技术的研究与实现[J].计算机科学,2003,30(11):53-55. 被引量：6
8周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：39
9孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
10祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34

引证文献14

1桑杰端珠,才让加.神经网络藏文分词方法研究[J].青海科技,2018,25(6):15-21. 被引量：5
2严李强,周建朋,冯郅皓.藏文词库自扩充学习算法的设计与实现[J].高原科学研究,2019,3(3):106-112. 被引量：1
3夏吾吉,华却才让.基于投射的藏语语义依存分析研究[J].计算机工程与科学,2019,41(10):1868-1873. 被引量：4
4费德莲,袁凌云,权朝臣.面向信息处理的少数民族语料库构建分析[J].无线互联科技,2019,16(19):77-79. 被引量：2
5黄成龙.2018年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2019,40(4):61-69. 被引量：1
6Zhijuan Wang,Xiaobin Zhao,Wei Song,Antai Wang.Readability Assessment of Textbooks in Low Resource Languages[J].Computers, Materials & Continua,2019(7):213-225.
7才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：5
8王莉莉,王宏渊,白玛曲珍,杨鸿武.基于BiLSTM_CRF模型的藏文分词方法[J].重庆邮电大学学报（自然科学版）,2020,32(4):648-654. 被引量：6
9陈小莹,艾金勇.近十年我国藏文信息研究的特征分布与热点分析——基于CNKI核心期刊的文献计量及可视化分析[J].西藏民族大学学报（哲学社会科学版）,2020,41(3):141-147. 被引量：3
10李维,闫晓东,解晓庆.基于改进TextRank的藏文抽取式摘要生成[J].中文信息学报,2020,34(9):36-43. 被引量：6

二级引证文献32

1严李强,周建朋,冯郅皓.藏文词库自扩充学习算法的设计与实现[J].高原科学研究,2019,3(3):106-112. 被引量：1
2李建豹.基于CiteSpace的应用型人才培养模式研究进展[J].教育教学论坛,2020(53):336-338. 被引量：1
3黄成龙.2019年藏语研究前沿[J].西藏民族大学学报（哲学社会科学版）,2020,41(5):47-52.
4严李强,田博,梁炜恒,杨欢欢.藏文文本相似度计算方法研究[J].高原科学研究,2021,5(3):70-77. 被引量：2
5李伯涵,李红莲.一种融合关键词的生成式摘要方法[J].计算机应用研究,2021,38(11):3289-3292.
6夏吾吉,黄鹤鸣,华却才让.基于语义关系的藏语依存树库构建研究[J].电子技术与软件工程,2021(20):128-130. 被引量：1
7纪宏璠,杨春洪,杨兵.近十年我国高校教材建设与管理研究的现状分析--基于CSSCI来源期刊的文献计量及可视化分析[J].教育观察,2022,11(5):13-16. 被引量：3
8取次,高定国.藏文文本语料中音节错误类型统计分析[J].中央民族大学学报（自然科学版）,2022,31(2):13-20.
9刘晓彤,赵小兵.藏文自动分词技术研究[J].中央民族大学学报（自然科学版）,2022,31(2):63-66. 被引量：2
10谷莹,李贺,祝琳琳.融合主题聚类和语义图模型的产品评论自动摘要方法研究[J].图书情报工作,2022,66(13):118-126. 被引量：3

1王书芹,华钢,郝国生,谢春丽,刘海强.基于灰狼优化算法的长短期记忆网络在时间序列预测中的应用[J].中国科技论文,2017,12(20):2309-2314. 被引量：14
2郑飞,陈有有,赵认认.试论世界文化遗产的解说演变历程——以敦煌莫高窟为例[J].中国民族博览,2017,0(12):108-109.
3朋毛吉,安见才让.藏文从格助词“■”的识别算法研究[J].信息通信,2017,30(9):97-98. 被引量：1
4郭子扬.神经机器翻译中的神经网络关算法改进[J].电子世界,2018,0(1):68-69. 被引量：4
5赵晓群,张扬.语音关键词识别系统声学模型构建综述[J].燕山大学学报,2017,41(6):471-481. 被引量：8
6张剑,吴青,羊昕旖,王彬聪,吴宣为,徐向英,吕强.基于条件随机场的农业命名实体识别[J].计算机与现代化,2018(1):123-126. 被引量：10
7顾兴健,赵璐,金明,刘勇,刘传才.基于LSTM神经网络的我国典型试航海域环境短期预报方法研究[J].中国造船,2017,58(4):100-107. 被引量：7
8孔希希,廖述魁,程兵.基于不同分词模式的文本分类研究[J].数学的实践与认识,2018,48(1):116-123. 被引量：5
9杨楠.献给英语非谓语动词的赞歌[J].长江丛刊,2018(1):80-81.
10朱晶晶,韩立新.基于RNN句子编码器的聊天机器人[J].计算机与现代化,2018(1):32-35. 被引量：10

计算机工程与设计

2018年第1期

浏览历史

内容加载中请稍等...

基于深度学习的藏文分词方法被引量：14

参考文献6

二级参考文献44

共引文献114

同被引文献136

引证文献14

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于深度学习的藏文分词方法 被引量：14

参考文献6

二级参考文献44

共引文献114

同被引文献136

引证文献14

二级引证文献32

相关作者

相关机构

相关主题

浏览历史

基于深度学习的藏文分词方法被引量：14