贫语言资源条件下藏文分句数据集构建研究

Study on the Construction of Tibetan Sentence Segmentation Dataset under Scarcity Language Resources

下载PDF

导出

摘要基于深度学习的藏文自动分句研究中构建分句数据集,事关藏文分句模型性能和质量。鉴于现有的藏文自动分句数据稀缺问题,文章通过梳理藏文句法结构,提出了位于句末的谓语动词和谓语形容词,以及终结虚词和离合虚词可充当句尾标识符号的观点,并通过相关语料库构建了谓语形容词词典、谓语动词词典和句尾虚词词典,最终使用句尾词匹对方法成功从语料中切分出了40万条句子,解决了藏文分句数据集建构问题,为基于深度学习的藏文分句研究提供了可靠和较大规模的数据基础。 The construction of a clause dataset in the study of Tibetan automatic sentence segmentation based on deep learning is related to the performance and quality of the Tibetan sentence segmentation model.In view of the scarcity of existing Tibetan automatic clause segmentation data,by combing various syntactic structures of Tibetan,in this paper we propose that predicate verbs and predicate adjectives at the end of sentences,as well as terminal function words and clutch function words,can be used as the end-of-sentence identifiers,and then constructs predicate adjective dictionary,predicate verb dictionary and end-of-sentence function word dictionary through the relevant corpus,and finally successfully cuts 400000 sentences from the corpus by using the endof-sentence matching method,which solves the problem of constructing Tibetan clause datasets.It provides a reliable and large-scale data basis for Tibetan sentence segmentation study based on deep learning.

作者才让叁智多拉 Tsering-Samdrup;Dorla(Department of Chinese language and literature,Northwest Minzu University,Lanzhou 730030,China;School of Information Science and Technology,Tibet University,Lhasa 850000,China;State Key Laboratory of Tibetan Intelligent Information Processing and Application,Qinghai Normal University,Xining 810016,China)

机构地区西北民族大学中国语言文学学部西藏大学信息科学技术学院青海师范大学藏语智能信息处理及应用国家重点实验室

出处《高原科学研究》 CSCD 2022年第4期85-94,共10页 Plateau Science Research

基金国家自然科学基金项目(62266037,61866034) 2019年度西藏大学校级培育基金项目(ZDCZJH19-19) 西藏大学在职攻读博士学位资助项目(藏财预指[2022]1号)。

关键词藏文句子藏文垂符分句数据集 Tibetan sentences Tibetan brush stroke(shad) clause dataset

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1赵维纳,于新,刘汇丹,李琳,王磊,吴健.现代藏语助动词结尾句子边界识别方法[J].中文信息学报,2013,27(1):115-119. 被引量：7
2马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报（社会科学版）,2012,27(5):70-76. 被引量：8
3李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
4才藏太.基于最大熵分类器的藏文句子边界自动识别方法研究[J].计算机工程与科学,2012,34(6):187-190. 被引量：10
5却措卓玛,华却才让,才让当知,夏吾吉.基于混合策略的藏文句子边界识别[J].内蒙古师范大学学报（自然科学汉文版）,2019,48(5):400-405. 被引量：4
6徐涛,加羊吉,于洪志.统计与规则相结合的藏文句子自动断句方法[J].云南大学学报（自然科学版）,2012,34(6):653-657. 被引量：7

二级参考文献55

1共确降措.论藏文[J].西藏研究,1997(3):94-108. 被引量：7
2格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10
3于中华,张容,唐常杰,左劼,张天庆.基于前后文词形特征的生物医学文献句子边界识别[J].小型微型计算机系统,2006,27(1):180-184. 被引量：1
4祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
5王诗文.汉、藏语句子结构对比研究[J].西南民族大学学报（人文社会科学版）,2007,28(4):50-55. 被引量：4
6赵维纳,刘汇丹,于新,等.基于法律文本的藏语句子边界识别[C]//第五届全国青年计算语言学研讨会论文集,2010:480-486.
7胡书津.简明藏文文法[M].昆明:云南民族出版社,1988.
8Riley, M. D. Some applications of tree-based modeling to speech and language indexing [C]//Proceedings of the DARPA Speech and Natural Language Work- shop, 1989:339-352.
9Palmer, D. D. , Hearst M. A. Adaptive Multilingual Sentence Boundary Disambiguation [J]. Computational Linguistics, 1997, 23(2); 241-269.
10I.iu, Y. , Stoleke, A. , Shriberg, E. and Harper, M. Using Conditional Random Fields for Sentence Bound- ary Detection in Speech[C]//Proc. ACL, 2005 :451- 458.

共引文献22

1马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报（社会科学版）,2012,27(5):70-76. 被引量：8
2徐涛,加羊吉,于洪志.统计与规则相结合的藏文句子自动断句方法[J].云南大学学报（自然科学版）,2012,34(6):653-657. 被引量：7
3龙从军.藏语文本信息处理的几个关键问题[J].科研信息化技术与应用,2012,3(4):51-58. 被引量：2
4徐涛,于洪志,加羊吉.基于改进卡方统计量的藏文文本表示方法[J].计算机工程,2014,40(6):185-189. 被引量：4
5邹后孝.基于词语级的藏语显示情感句的情感分析与研究[J].网友世界,2014,0(17):317-317.
6艾孜海尔江,艾孜尔古丽,玉素甫.艾白都拉.现代维吾尔语句子分类系统[J].计算机与现代化,2015(3):84-87. 被引量：1
7陈鸿,金培权,岳丽华,胡玉娟,殷凤梅.基于上下文特征分类的评论长句切分方法[J].计算机工程,2015,41(9):233-237. 被引量：2
8司莉,何依.2000年以来我国多语言语料库研究进展[J].现代情报,2016,36(6):165-170. 被引量：2
9高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：6
10万福成,马宁,何向真.融合事件特征及语义角色标注的藏文信息抽取技术[J].广西师范大学学报（自然科学版）,2018,36(2):18-23. 被引量：1

1周士瑶.“也”表委婉语气的理据[J].南开语言学刊,2022(1):90-98.
2梁珍.基于构式理论的新兴流行构式“狠狠地X”研究[J].汉字文化,2022(12):4-6.
3金莲.巧分英语中的四个“也”[J].小学教学设计,2022(33):43-43.
4孟凡兰,万静.基于遗传算法的水利工程进度优化模型设计[J].四川水泥,2022(8):82-84.
5胡海寶.《廣韻》“不”字平聲一讀的性質及源流[J].汉语史研究集刊,2022(1):22-33.
6帅志强.民俗传播:妈祖雕塑的视觉修辞与身份认同[J].未来传播,2022,29(5):66-74. 被引量：2
7王树金.简帛形制对中国纸质书籍影响略述[J].印刷文化（中英文）,2022(3):82-96. 被引量：1
8刘浩鸾.广西关于复合筒基础浮拖工艺的可行性分析[J].价值工程,2022,41(36):77-79.
9兰竹青,孔令宇.新疆粮食安全状况评价与对策研究[J].黑龙江粮食,2022(11):34-36.

高原科学研究

2022年第4期

浏览历史

内容加载中请稍等...

贫语言资源条件下藏文分句数据集构建研究

参考文献6

二级参考文献55

共引文献22

相关作者

相关机构

相关主题

浏览历史