期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
结合数据增强方法的藏文预训练语言模型
1
作者
色差甲
班马宝
+1 位作者
才让加
柔特
《中文信息学报》
CSCD
北大核心
2024年第9期66-72,共7页
最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符...
最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。
展开更多
关键词
藏文预训练语言模型
文本数据增强方法
UniLM模型
下载PDF
职称材料
题名
结合数据增强方法的藏文预训练语言模型
1
作者
色差甲
班马宝
才让加
柔特
机构
省部共建藏语智能信息处理及应用国家重点实验室
青海省藏文信息处理工程技术研究中心
出处
《中文信息学报》
CSCD
北大核心
2024年第9期66-72,共7页
基金
青海省重点研发与转化计划项目(2022-GX-104)
青海师范大学青年科研基金(2024QER14)
藏语智能信息处理及应用国家重点实验室(2024-skl-006)。
文摘
最近在自然语言处理领域中,预训练加微调模式已然成为新的训练范式。在藏文自然语言处理领域中虽缺乏人工标注数据,但预训练语言模型能够缓解下游任务中数据规模不足和模型重新训练时难以收敛等问题。首先,该文收集整理含有46.55亿字符的藏文文本语料;然后在UniLM模型的基础上,利用藏文文本特征的数据增强方法和预训练技术相结合的方法预训练藏文语言模型。实验表明,该文方法在藏文La格例句分类和藏文文本分类等四个下游任务中获得显著效果。
关键词
藏文预训练语言模型
文本数据增强方法
UniLM模型
Keywords
Tibetan pre-training language model
text data enhancement method
UniLM model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
结合数据增强方法的藏文预训练语言模型
色差甲
班马宝
才让加
柔特
《中文信息学报》
CSCD
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部