期刊文献+
共找到3,470篇文章
< 1 2 174 >
每页显示 20 50 100
基于LDA模型的藏文文本主题发现方法研究
1
作者 韩佳晖 白韦娟 艾金勇(指导) 《中国信息界》 2024年第2期176-179,共4页
引言。为了加快藏文信息化建设进程,自治区“十四五”相关规划中把推动藏文信息技术标准化工作列入重要推进计划[1]。藏族地区的网络普及率逐年攀升,藏文信息处理技术和藏文使用地区网络通信快速发展[2],互联网成为藏文使用地区人民传... 引言。为了加快藏文信息化建设进程,自治区“十四五”相关规划中把推动藏文信息技术标准化工作列入重要推进计划[1]。藏族地区的网络普及率逐年攀升,藏文信息处理技术和藏文使用地区网络通信快速发展[2],互联网成为藏文使用地区人民传递信息、共享资源的主要途径和传承藏族文化的重要方式。藏文文本数据和藏文网页均呈指数式爆炸增长,面对成千上万的藏文数据,快速高效地获取数据、整合数据和提取信息主题尤为重要。 展开更多
关键词 文本数据 共享资源 藏文文本 藏文信息处理技术 网络通信 藏文网页 指数式 网络普及率
下载PDF
Ti-Reader:基于注意力机制的藏文机器阅读理解端到端网络模型
2
作者 孙媛 陈超凡 +1 位作者 刘思思 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第2期61-69,共9页
机器阅读理解旨在教会机器去理解一篇文章并且回答与之相关的问题。为了解决低资源语言上机器阅读理解模型性能低的问题,该文提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型Ti-Reader。首先,为了编码更细粒度的藏文文本信息... 机器阅读理解旨在教会机器去理解一篇文章并且回答与之相关的问题。为了解决低资源语言上机器阅读理解模型性能低的问题,该文提出了一种基于注意力机制的藏文机器阅读理解端到端网络模型Ti-Reader。首先,为了编码更细粒度的藏文文本信息,将音节和词相结合进行词表示,然后采用词级注意力机制去关注文本中的关键词,利用重读机制去捕捉文章和问题之间的语义信息,自注意力机制去匹配问题与答案的隐变量本身,为答案预测提供更多的线索。最后,实验结果表明,Ti-Reader模型提升了藏文机器阅读理解的性能,同时在英文数据集SQuAD上也有较好的表现。 展开更多
关键词 机器阅读理解 注意力机制 端到端网络 藏文
下载PDF
古藏文文献中གབོག(gog)、གབོག་ཡུལི(gog yul)、ཀབོག(kog)、ཀབོག་ཡུལི(kog yul)四地名新考
3
作者 宗喀·漾正冈布 方艺文 《西藏大学学报(社会科学版)》 CSSCI 北大核心 2024年第1期80-87,94,共9页
གབོག(gog)、གབོག་ཡུལི(gog yul)、ཀབོག(kog)、ཀབོག་ཡུལི(kog yul)是敦煌古藏文写卷Or.8212(187)《大事纪年》和P.T.1287《赞普传记》中记载的四个重要地名,其中གབོག这一地名还出现在了瓦罕走廊的古藏文石刻上。自上世纪四十年代起,已有... གབོག(gog)、གབོག་ཡུལི(gog yul)、ཀབོག(kog)、ཀབོག་ཡུལི(kog yul)是敦煌古藏文写卷Or.8212(187)《大事纪年》和P.T.1287《赞普传记》中记载的四个重要地名,其中གབོག这一地名还出现在了瓦罕走廊的古藏文石刻上。自上世纪四十年代起,已有数十位东西方学者对这四个地名做过探讨,然而它们具体所指至今仍莫衷一是。通过考释གབོག、གབོག་ཡུལི、ཀབོག、ཀབོག་ཡུལི在不同语境和上下文中的具体所指,认为瓦罕走廊石刻上的gog,Or.8212(187)第4/10/20行中的གབོག、གབོག་ཡུལི、ཀབོག་ཡུལི及P.T.1287第525行单独出现的ཀབོག均指护蜜(瓦罕),属于吐蕃“堆却”(སྟོབོདོ་ཕྱོབོགསེ།,stod phyogs,上部)地区;Or.8212(187)第16行中的ཀབོག为廓州,在吐蕃地理概念中属于多思劢(མདོབོ་སྨོདོ།,mdosmad)地区。 展开更多
关键词 གབོག/གབོག་ཡུལི།/ཀབོག/ཀབོག་ཡུལི། 藏文地名 护蜜 廓州
下载PDF
藏文家谱文献补遗与史料价值刍议
4
作者 尼旦 《西藏研究》 CSSCI 北大核心 2024年第3期35-41,M0004,共8页
家谱是对同一姓氏世系、人物和事迹的记录,是家族的生命史。作为史类文献,藏语将其称作■,皆指父系继嗣谱系。藏文家谱修撰始于唐代吐蕃晚期,元明时期修撰家谱趋于成熟,清代及民国时期得到普及。通过对所搜集的130种藏文家谱文献进行分... 家谱是对同一姓氏世系、人物和事迹的记录,是家族的生命史。作为史类文献,藏语将其称作■,皆指父系继嗣谱系。藏文家谱修撰始于唐代吐蕃晚期,元明时期修撰家谱趋于成熟,清代及民国时期得到普及。通过对所搜集的130种藏文家谱文献进行分析,按家族身份属性和家谱记录对象可分为六种家谱文类,即吐蕃王室及后裔家谱、西藏地方政权建立者家谱、西藏地方区域性政权建立者家谱、佛教世家家谱、苯教世家家谱和贵族世家家谱。这些藏文家谱文献超出了藏族传统教法史、王统史的体裁范畴,是研究家族史的第一手资料,也是研究地方史、区域史的重要史料,其所记载的中华民族共同体历史信息,为我们研究中华民族共同体形成的历史规律,提供了新的材料和视角。 展开更多
关键词 藏文家谱 补遗 特点 类型 价值
下载PDF
敦煌藏文写卷《开示轮回》解读
5
作者 索南 索朗白珍 《敦煌研究》 CSSCI 北大核心 2024年第2期123-130,共8页
敦煌藏文文献P.T.24.4、P.T.24V.1、P.T.32BV.2、P.T.459、P.T.580V、P.T.757V、P.T.977.4、IOL Tib J 335.I等八个抄卷实为同一部文献。这些编号在相关目录著作和影印本中的命名多有出入,个别亦未命名。本文根据文献题名统一将其定名... 敦煌藏文文献P.T.24.4、P.T.24V.1、P.T.32BV.2、P.T.459、P.T.580V、P.T.757V、P.T.977.4、IOL Tib J 335.I等八个抄卷实为同一部文献。这些编号在相关目录著作和影印本中的命名多有出入,个别亦未命名。本文根据文献题名统一将其定名为《开示轮回》,并以P.T.24.4+P.T.24V.1为底本进行录文、翻译、解读,并指出此文为受藏译《法句经》、《入菩萨行论》等佛经文献及汉文佛经变文影响而创作的一部唐代吐蕃时期的佛经变文. 展开更多
关键词 敦煌藏文文献 《开示轮回》 变文
下载PDF
蒙古文《天地八阳神咒经》与汉藏文本比较研究
6
作者 萨仁高娃 《中国蒙古学(蒙文)》 2024年第5期132-140,214,215,共11页
汉文佛教经典中有一种称作“疑伪经”的特殊经文,《佛说天地八阳神咒经》为其代表。该经不仅有汉文本,还有西夏文、回鹃文、藏文、蒙古文译本,流传十分广泛。通过对蒙古文《天地八阳神咒经》与汉文本、藏文本进行比对,解析其经名、结构... 汉文佛教经典中有一种称作“疑伪经”的特殊经文,《佛说天地八阳神咒经》为其代表。该经不仅有汉文本,还有西夏文、回鹃文、藏文、蒙古文译本,流传十分广泛。通过对蒙古文《天地八阳神咒经》与汉文本、藏文本进行比对,解析其经名、结构、内容,则得知蒙古文本为该“疑伪经”结构最为复杂、内容最为丰富的版本。 展开更多
关键词 “疑伪经” 《天地八阳神咒经》 蒙古文本 汉文本 藏文
下载PDF
俄藏附有藏文注音西夏文残片Tang.1075/Fr.5(10)所记的法生宫
7
作者 戴忠沛 维·彼·扎伊采夫 《西夏研究》 2024年第3期26-33,共8页
俄藏附有藏文注音的西夏文残片Tang.1075/Fr.5(10),存6行,满行22至24字。聂历山(Nikolai A.Nevsky)在20世纪30年代解读这份残片,曾经因为里面的“āli”和“kāli”猜测其中的西夏文可能是一种声明学作品。罗福苌则因为里面的“muni”... 俄藏附有藏文注音的西夏文残片Tang.1075/Fr.5(10),存6行,满行22至24字。聂历山(Nikolai A.Nevsky)在20世纪30年代解读这份残片,曾经因为里面的“āli”和“kāli”猜测其中的西夏文可能是一种声明学作品。罗福苌则因为里面的“muni”猜想可能跟摩尼教有关。本文指出这份残片的西夏文内容是对法生宫(dharmodayā)的描述。在藏传佛教的脉轮系统里,法生宫位于中脉的脐轮下方,呈三角形,是拙火生起的地方,与金刚亥母的修持观想关系密切。残片的西夏文本以法生宫形状嵌入金刚亥母的根本咒,与同类型附有藏文注音西夏文残片关于拙火的描述互相呼应。了解各份残片的内容能帮助我们判别它们之间的关系,同时帮助我们追寻残片里藏文注音的写成年代和书写人背景。 展开更多
关键词 西夏文 藏文注音 法生宫 金刚亥母
下载PDF
藏学学术史视域下百年藏文传记文学汉译述论
8
作者 增宝当周 《西藏大学学报(社会科学版)》 CSSCI 北大核心 2024年第3期171-177,共7页
藏文传记文学因其文学和历史的双重特性与宝贵的文化价值,成为近百年汉藏文学翻译领域内一个重要的选材方向,备受译者青睐,产生众多翻译著作。文章试图在藏学学术史视域下梳理百年藏文传记文学汉译的发展脉络与主要译本,以此全面呈现该... 藏文传记文学因其文学和历史的双重特性与宝贵的文化价值,成为近百年汉藏文学翻译领域内一个重要的选材方向,备受译者青睐,产生众多翻译著作。文章试图在藏学学术史视域下梳理百年藏文传记文学汉译的发展脉络与主要译本,以此全面呈现该领域的翻译成就。同时,也探讨译著产生的社会语境、文本特征和各种翻译主体之间的相互作用,旨在为汉藏翻译史提供一定参照。 展开更多
关键词 藏文传记文学 藏文学翻译 藏学学术史
下载PDF
浅谈小学藏文教学中写作素材的积累策略
9
作者 旦增强巴 《故事家(下)》 2024年第6期226-228,共3页
藏文作为中国藏族文化的重要载体,在小学教育中具有不可替代的地位。写作是藏文教学中的重要组成部分,而写作素材的积累是提高学生写作能力的关键。然而,在小学藏文教学中,学生往往面临写作素材匮乏的问题,这严重影响了他们的写作质量... 藏文作为中国藏族文化的重要载体,在小学教育中具有不可替代的地位。写作是藏文教学中的重要组成部分,而写作素材的积累是提高学生写作能力的关键。然而,在小学藏文教学中,学生往往面临写作素材匮乏的问题,这严重影响了他们的写作质量和对藏文写作的兴趣。因此,探讨有效的写作素材积累策略具有重要的现实意义。 展开更多
关键词 写作素材 积累策略 写作质量 小学藏文 提高学生写作能力 不可替代 重要载体 藏文教学
下载PDF
小学藏文趣味教学探讨
10
作者 尕玛松保 《故事家(下)》 2024年第3期244-246,共3页
藏文是藏族人民的母语,也是藏族文化传承的重要工具。在小学阶段,藏文教学不仅是对语言技能的培养,更是对文化认同感的塑造。然而,传统的藏文教学方法往往过于枯燥,缺乏趣味性,难以激发学生的学习兴趣。因此,如何在小学藏文教学中融入... 藏文是藏族人民的母语,也是藏族文化传承的重要工具。在小学阶段,藏文教学不仅是对语言技能的培养,更是对文化认同感的塑造。然而,传统的藏文教学方法往往过于枯燥,缺乏趣味性,难以激发学生的学习兴趣。因此,如何在小学藏文教学中融入趣味元素,成为当前教育工作者需要思考的问题。 展开更多
关键词 教育工作者 文化认同感 小学藏文 趣味教学 激发学生的学习兴趣 藏文教学 趣味元素 小学阶段
下载PDF
研究中华文明史的一部力作:《敦煌古藏文文献释读与研究——对中古时期于眞历史的解读》
11
作者 周润年(文/图) 张誉心(文/图) 《中国西藏》 2024年第3期90-91,共2页
甘肃人民出版社2023年6月出版的《敦煌古藏文文献释读与研究——对中古时期于眞历史的解读》,是2022年国家出版基金资助项目,入选“十四五”国家重点出版物出版规划。该书是由西藏民族大学著名学者丹曲教授撰写的一部集释读、翻译与研... 甘肃人民出版社2023年6月出版的《敦煌古藏文文献释读与研究——对中古时期于眞历史的解读》,是2022年国家出版基金资助项目,入选“十四五”国家重点出版物出版规划。该书是由西藏民族大学著名学者丹曲教授撰写的一部集释读、翻译与研究于一体的学术专著,以敦煌藏经洞及周边所发现的古藏文文献作为基础资料,重点依据敦煌古藏文历史文献。 展开更多
关键词 敦煌古藏文 中华文明史 敦煌藏经洞 出版规划 甘肃人民出版社 中古时期 藏文文献 文献释读
下载PDF
基于GraphSAGE网络的藏文短文本分类研究
12
作者 敬容 杨逸民 +3 位作者 万福成 国旗 于洪志 马宁 《中文信息学报》 CSCD 北大核心 2024年第9期58-65,共8页
文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模... 文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模的基础上,融合文档特征,采用二元分类模型动态网络构建“文档-文档”边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值。其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异。最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力。在TNCC标题文本数据集上,该文模型的分类准确率达到了62.50%,与传统GCN、原始GraphSAGE和预训练语言模型CINO相比,该方法在分类准确率上分别提高了2.56%、1%和2.4%。 展开更多
关键词 图神经网络 藏文文本分类 TNCC数据集
下载PDF
基于DAN与FastText的藏文短文本分类研究
13
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
下载PDF
CINO双通道结合多头注意力机制藏文情感分类方法
14
作者 白玛洛赛 群诺 尼玛扎西 《电子设计工程》 2024年第3期1-6,共6页
为了解决藏文情感分类任务中现有的模型对文本语义信息理解和深层文本特征提取能力不足的问题,该文使用CINO(Chinese Minority PLM)预训练模型来获取动态词向量,通过TextCNN和BiGRU融合的双通道情感分类模型,分别实现获取文本局部特征... 为了解决藏文情感分类任务中现有的模型对文本语义信息理解和深层文本特征提取能力不足的问题,该文使用CINO(Chinese Minority PLM)预训练模型来获取动态词向量,通过TextCNN和BiGRU融合的双通道情感分类模型,分别实现获取文本局部特征和深层全局特征,并引入多头自注意力机制引导模型学习更重要的信息。实验结果表明,该文提出的双通道模型准确率高达92.84%,相较于该文的其他对比模型效果更佳。 展开更多
关键词 藏文情感分类 CINO 双通道 卷积神经网络 门控循环单元 多头注意力机制
下载PDF
基于组块的藏文依存句法分析及自动标注方法
15
作者 达瓦追玛 曹玺 +2 位作者 尼玛扎西 群诺 道吉扎西 《高原科学研究》 CSCD 2024年第1期102-111,共10页
依存句法分析是自然语言处理领域核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句法结构。目前,藏文依存句法分析研究面临着长句解析困难和粗粒度依存转化映射不全面等问题。为此,文章提出一种基于组块和细粒度词性匹配规... 依存句法分析是自然语言处理领域核心技术之一,旨在通过分析句子中词语之间的依存关系来确定句法结构。目前,藏文依存句法分析研究面临着长句解析困难和粗粒度依存转化映射不全面等问题。为此,文章提出一种基于组块和细粒度词性匹配规则的藏文依存句法分析及自动标注方法。该方法首先完善了藏文依存句法标注体系,并基于该标注体系人工标注数据集,提取词性匹配规则,进而通过藏文句子组块识别,提高了长句解析的准确性,最后实现了一个藏文依存句法自动标注原型系统TDParser,并构建了含7335条依存句法的藏文依存句法树库。通过实验证明了TDParser的性能及自动标注数据的有效性。 展开更多
关键词 藏文 依存句法分析 组块 自动标注
下载PDF
基于藏文字符感知的文本预训练模型方法研究
16
作者 洛桑嘎登 尼玛扎西 《计算机工程与应用》 CSCD 北大核心 2024年第21期127-133,共7页
目前藏文预训练模型主要使用音节作为藏文单词表示。采用音节嵌入构建藏文单词表示,会存在藏文单词表示不完整且鲁棒性不高的问题。为了应对这一挑战,提出了一个名为藏文字符感知的预训练模型,该模型融合藏文字符、字丁和音节三个维度... 目前藏文预训练模型主要使用音节作为藏文单词表示。采用音节嵌入构建藏文单词表示,会存在藏文单词表示不完整且鲁棒性不高的问题。为了应对这一挑战,提出了一个名为藏文字符感知的预训练模型,该模型融合藏文字符、字丁和音节三个维度的特征,从藏文更细粒度的信息表征藏文单词特征。利用原始数据集和对抗性拼写错误测试集,评估了所提出的方法在藏文自动分词和命名实体识别任务上的性能。实验结果表明,该方法可以同时提高藏文预训练语言模型的性能和鲁棒性。 展开更多
关键词 藏文 预训练模型 字符感知
下载PDF
敦煌藏文文书IOL Tib J 731中的"血亲复仇"情节分析
17
作者 魏玉镯 陆离 《敦煌学辑刊》 CSSCI 北大核心 2024年第2期110-123,共14页
IOL Tib J731号敦煌藏文文书是一份非佛教化色彩的苯教丧葬仪轨文献.为确保殡葬仪轨的有效性,在举行葬礼时需要讲述先例故事.在"rta rkyang dbye ba'i rabs la家马与野马分化的历史"的先例故事中,"血亲复仇"情... IOL Tib J731号敦煌藏文文书是一份非佛教化色彩的苯教丧葬仪轨文献.为确保殡葬仪轨的有效性,在举行葬礼时需要讲述先例故事.在"rta rkyang dbye ba'i rabs la家马与野马分化的历史"的先例故事中,"血亲复仇"情节包含有丰富的内容,是"人马盟誓"的前提,推动着故事的发展和起落."血亲复仇"虽然发生在马之间,然故事的创造者则是活生生的人,因而也是吐蕃早期历史的反映."血亲复仇"情节中并列、前后呼应等表现形式的运用,增添了仪轨故事的生动性,能够引起观众的共鸣,进而最大限度地发挥殡葬仪轨作用.IOL Tib J731号仪轨文书中所出现的"血亲复仇"与丧葬仪式中马匹驮载死者去往亡地有关.此外,也可将其置于吐蕃死后世界"不死",相信杀死仇敌或可使亲人重生的背景下理解. 展开更多
关键词 敦煌藏文 殡葬仪轨文书 血亲复仇 先例故事
下载PDF
面向文本检测的藏文古籍文档图像超分辨率重建
18
作者 郝玉胜 李健伟 +2 位作者 王维兰 王筱娟 林强 《中文信息学报》 CSCD 北大核心 2024年第10期54-63,共10页
针对藏文古籍文档图像普遍因低质、视觉效果不佳严重影响图像中文本区域的检测和识别问题,该文构建了一个藏文古籍文档图像超分辨率数据集TAMSRD,同时提出了一种基于卷积神经网络的超分辨率重建方法,为领域内藏文古籍文档图像的超分辨... 针对藏文古籍文档图像普遍因低质、视觉效果不佳严重影响图像中文本区域的检测和识别问题,该文构建了一个藏文古籍文档图像超分辨率数据集TAMSRD,同时提出了一种基于卷积神经网络的超分辨率重建方法,为领域内藏文古籍文档图像的超分辨率重建问题提供了有意义的参考。该文所提模型在ICDAR 2013/2015/2017,MSRA_TD500和TAMSRD共5个数据集上的实验结果表明:①该文所设计的超分辨率网络模型能够有效提高低质藏文古籍文档图像的视觉质量,重建图像的峰值信噪比(PSNR)、结果相似性指标(SSIM)以及自然图像质量评估指标(NIQE)都有明显的改善;②超分辨率网络模型对低质藏文古籍文档图像的重建,能够大幅改善各类场景图像文本检测模型的性能。在各个数据集上,MSER方法的召回率和F值提升区间为[16.3%,32.5%]和[13.3%,41.9%],CTPN方法的召回率和F值提升区间为[4.1%,39.8%]和[2.1%,32.7%],DB方法的召回率和F值提升区间为[8.4%,56.5%]和[7.7%,58.7%]。 展开更多
关键词 超分辨率 藏文古籍 文档图像 图像质量评价
下载PDF
一种基于八词位标签的BiLSTM_CRF藏文分词方法
19
作者 常芳玉 才智杰 《中文信息学报》 CSCD 北大核心 2024年第10期64-70,79,共8页
藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集... 藏文分词是藏语自然语言处理的一项基础性任务,其性能影响藏文自动摘要、自动分类以及搜索引擎等多个方面。基于词位标注的藏文分词方法通常使用四词位标签集,为了更全面地提取特征信息和更深层次的语义信息,该文提出了一种八词位标签集,采用BiLSTM_CRF模型得到一种基于八词位标签的BiLSTM_CRF藏文分词方法。实验结果表明,该方法取得较好的分词效果,在测试数据集上的准确率、召回率和F1值分别达95.07%、95.57%和95.32%。 展开更多
关键词 自然语言处理 藏文分词 BiLSTM_CRF 八词位标签
下载PDF
基于提示学习的低资源藏文文本分类
20
作者 安波 赵维纳 龙从军 《中文信息学报》 CSCD 北大核心 2024年第2期70-78,共9页
文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用... 文本分类是自然语言处理的基础任务之一。标注数据不足一直是限制藏文及其他少数民族语言自然语言处理技术发展的重要原因,传统的深度学习模型对标注数据的规模有较高的要求。为解决这个问题,该文在大规模预训练语言模型的基础上,利用提示学习实现低资源藏文文本分类,即使用不同的藏文预训练语言模型和提示模板开展藏文文本分类实验。实验结果表明,通过设计合理的提示模板等方式,提示学习能够在训练数据不足的情况下提升藏文文本分类的效果(48.3%),初步验证了提示学习在民族语言处理中的价值和潜力。但是,实验结果也反映出提示学习模型在处理部分类别时性能较差,且藏文预训练语言模型也有进一步提升空间。 展开更多
关键词 藏文文本分类 预训练语言模型 提示学习 小样本学习
下载PDF
上一页 1 2 174 下一页 到第
使用帮助 返回顶部