面向藏族传统节日的汉藏双语命名实体识别研究被引量：2

Chinese-Tibetan Bilingual Named Entity Recognition for Traditional Tibetan Festivals

导出

摘要【目的】研究资源稀少语言中预训练模型的表现,为构建藏语知识图谱、语义检索提供帮助。【方法】本研究采集人民网、人民网藏文版等新闻网站中藏族传统节日的汉藏双语文本数据,并比较多种预训练语言模型与词向量在汉藏双语情景下对命名实体识别任务的表现,同时分析了命名实体识别模型的两种特征处理层(BiLSTM层与CRF层)对实验结果的影响。【结果】实验结果表明:相较于词向量,汉语以及藏语的预训练语言模型在该任务上的F1性能分别提升0.0108及0.0590。特别是在实体数量较少的情景下,预训练模型相比词向量可提取更多的文本信息,并且训练时间缩短40%。【局限】藏语数据与汉语数据并非平行语料,且藏语数据中的实体数量少于汉语数据。【结论】预训练语言模型不仅在汉语文本领域有显著效果,在藏语这种资源稀少的语种也能取得很好的表现。 [Objective]This paper examines the performance of pre-trained models in resource-scarce languages and assists in building Tibetan knowledge graphs and semantic retrieval.[Methods]We collected Chinese-Tibetan bilingual text data related to traditional Tibetan festivals from websites such as People’s Daily and its Tibetan Edition.Then,we compared the performance of multiple pre-trained language models and word embeddings on named entity recognition tasks in a Chinese-Tibetan bilingual context.We also analyzed the impact of two feature processing layers(BiLSTM and CRF)in the named entity recognition model.[Results]Compared with word embeddings,the pre-trained language models of Chinese and Tibetan improved the F1 performance by 0.0108 and 0.0590,respectively.In the context of fewer entities,the pre-trained model can extract more textual information than word embeddings,reducing the training time by 40%.[Limitations]The Tibetan and Chinese language data are not parallel corpora,and the Tibetan language data has fewer entities than the Chinese data.[Conclusions]The pre-trained models demonstrate significant performance in the Chinese text domain but also perform well in Tibetan,a language with scarce resources.

作者邓宇扬吴丹 Deng Yuyang;Wu Dan(School of Information Management,Wuhan University,Wuhan 430072,China;Center for Studies of Human-Computer Interaction and User Behavior,Wuhan University,Wuhan 430072,China)

机构地区武汉大学信息管理学院武汉大学人机交互与用户行为研究中心

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第7期125-135,共11页 Data Analysis and Knowledge Discovery

基金国家社会科学基金重大项目(项目编号:19ZDA341)研究成果之一。

关键词命名实体识别藏族传统文化预训练语言模型 Named Entity Recognition Tibetan Traditional Culture Pretrained Language Model

分类号 TP391 [自动化与计算机技术—计算机应用技术] G350 [文化科学—情报学]

引文网络
相关文献

参考文献9

1道布.中国的语言政策和语言规划[J].民族研究,1998(6):42-52. 被引量：34
2周和平.中国非物质文化遗产保护的实践与探索[J].求是,2010(4):44-46. 被引量：64
3周兴维.东部藏区发展粗论[J].西南民族学院学报（哲学社会科学版）,2001,22(7):9-14. 被引量：4
4陈曙东,欧阳小叶.命名实体识别技术综述[J].无线电通信技术,2020,46(3):251-260. 被引量：58
5才让加.藏语语料库词语分类体系及标记集研究[J].中文信息学报,2009,23(4):107-112. 被引量：18
6金明,杨欢欢,单广荣.藏语命名实体识别研究[J].西北民族大学学报（自然科学版）,2010,31(3):49-52. 被引量：11
7孙媛,王丽客,郭莉莉.基于改进词向量GRU神经网络模型的藏语实体关系抽取[J].中文信息学报,2019,33(6):35-41. 被引量：5
8头旦才让,仁青东主,尼玛扎西.基于CRF的藏文地名识别技术研究[J].计算机工程与应用,2019,55(18):111-115. 被引量：11
9陆柳杏,吴丹.面向藏族传统节日的汉藏双语本体构建[J].图书馆建设,2022(1):67-74. 被引量：7

二级参考文献45

1道布.中国的语言政策和语言规划[J].民族研究,1998(6):42-52. 被引量：34
2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
3祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
4周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
5邓擘,樊孝忠,杨立公.用语义模式提取实体关系的方法[J].计算机工程,2007,33(10):212-214. 被引量：24
6董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量：55
7陈玉忠.信息处理用现代藏语词语的分类方案[C]//第十届全国少数民族语言文字处理学术研讨会论文集,2005.
8青海师范大学民族部.藏汉对照简易藏文读本[M].西宁:青海民族出版社,1996.
9扎西加,多拉,大罗桑朗杰,欧珠.(信息处理用藏语词类及标记集规范》的理论说明[C]//第十一届全国少数民族信息技术研讨会议论文集,2007:441-452.
10多拉,扎西加,欧珠,大罗桑朗杰.信息处理用藏文词类及标记集规范(征求意见稿)[C]//第十一届全国民族语言文字信息学术研讨会论文集,2007:428-440.

共引文献202

1高雪松,康铭浩.国外语言政策研究的问题和路径[J].语言文字应用,2021(1):16-27. 被引量：9
2周庆生.中国语言政策研究七十年[J].新疆师范大学学报（哲学社会科学版）,2019,0(6):60-71. 被引量：30
3李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622. 被引量：1
4刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
5张蔚磊.从宏观生态哲学视角来解读我国大学外语政策的发展[J].江苏外语教学研究,2011(1):1-4. 被引量：5
6黄淑瑶,符巧蒂.海南非物质文化遗产保护现状与分析[J].新东方,2012(6):32-37. 被引量：1
7高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
8胡文仲.我国外语教育规划的得与失[J].外语教学与研究,2001,33(4):245-251. 被引量：236
9杨丽萍,赵茉莉.我国英语教育规划中的不连续性问题[J].吉林省教育学院学报（下旬）,2010,26(11):88-89.
10周兴维.神权农奴制的起源和终结——中国传统藏区的一个宗教经济学解读以及在现代藏区发展中引入“宗教经营”的问题[J].西南民族大学学报（人文社会科学版）,2006,27(6):61-70. 被引量：1

同被引文献20

1刘新亮,张梦琪,谷情,任延昭,何东彬,高万林.基于BERT-CRF模型的生鲜蛋供应链命名实体识别[J].农业机械学报,2021,52(S01):519-525. 被引量：12
2李毓芳.汉长安城未央宫骨签述略[J].人文杂志,1990(2):99-102. 被引量：5
3金明,杨欢欢,单广荣.藏语命名实体识别研究[J].西北民族大学学报（自然科学版）,2010,31(3):49-52. 被引量：11
4朱锁玲,包平.方志类古籍地名识别及系统构建[J].中国图书馆学报,2011,37(3):118-124. 被引量：32
5华却才让,姜文斌,赵海兴,刘群.基于感知机模型藏文命名实体识别[J].计算机工程与应用,2014,50(15):172-176. 被引量：27
6李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：27
7珠杰,李天瑞,刘胜久.基于条件随机场的藏文人名识别技术研究[J].南京大学学报（自然科学版）,2016,52(2):289-299. 被引量：12
8加羊吉,李亚超,于洪志.CRF与规则相结合的藏文人名识别方法[J].西北民族大学学报（自然科学版）,2016,37(3):41-45. 被引量：1
9刘飞飞,王志娟.基于层次特征的藏文人名识别研究[J].计算机应用研究,2018,35(9):2583-2587. 被引量：10
10赵浩新,俞敬松,林杰.基于笔画中文字向量模型设计与研究[J].中文信息学报,2019,33(5):17-23. 被引量：13

引证文献2

1格勒尼玛,群诺,项秀才让,洛桑嘎登,尼玛扎西.结合分词特征的藏文命名实体识别方法[J].高原科学研究,2023,7(4):106-114.
2石雨梦,王慧琴,王展,刘瑞,王可.融合多特征的骨签释文实体识别[J].计算机系统应用,2024,33(9):38-47.

1汪洋.试论西藏传统美术中狮子形象的演变——以西藏泽贡高速沿线的遗迹为例[J].收藏与投资,2023,14(6):128-130.
2陆柳杏,吴丹.面向藏族传统节日的汉藏双语本体构建[J].图书馆建设,2022(1):67-74. 被引量：7
3洪峰,肖亮,黄丽.藏康养概念界定、内涵与理论渊源[J].攀枝花学院学报,2023,40(4):17-24.
4李建富.百折不挠的高原百灵鸟——记“则么卡日”多声部民歌传承人达妹[J].新传奇,2023(12):93-95.
5田雪丽,梁玉勇,陆红霞,何茂雪.松桃县吴茱萸种植基地发展情况调查及建议[J].南方农业,2023,17(11):143-146.
6陈奥博,章浩然,吴霖.基于双判别器的汉泰伪平行语料生成方法[J].现代电子技术,2023,46(20):81-85.
7林晨,程卓,龙春林.青海热贡唐卡的生物文化初探[J].广西植物,2023,43(8):1457-1466.
8土旦才让.藏族传统装饰图案的民俗文化功能研究[J].高原文化研究,2023,1(2):104-110. 被引量：1

数据分析与知识发现

2023年第7期

浏览历史

内容加载中请稍等...

面向藏族传统节日的汉藏双语命名实体识别研究被引量：2

参考文献9

二级参考文献45

共引文献202

同被引文献20

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向藏族传统节日的汉藏双语命名实体识别研究 被引量：2

参考文献9

二级参考文献45

共引文献202

同被引文献20

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向藏族传统节日的汉藏双语命名实体识别研究被引量：2