期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
ChatGPT背景下低资源语言何去何从?
1
作者 姚登峰 赵源 +2 位作者 叶毓睿 饶高琦 阿布都克力木·阿布力孜 《乐山师范学院学报》 2024年第8期36-44,共9页
随着自然语言处理技术的不断发展和普及,语言处理领域中的马太效应越来越明显。这种现象主要表现为主流语言获得更多的资源和关注,而低资源语言则面临着信息孤岛和数字鸿沟等问题。由于ChatGPT的训练数据主要来自于主流语言,导致其在低... 随着自然语言处理技术的不断发展和普及,语言处理领域中的马太效应越来越明显。这种现象主要表现为主流语言获得更多的资源和关注,而低资源语言则面临着信息孤岛和数字鸿沟等问题。由于ChatGPT的训练数据主要来自于主流语言,导致其在低资源语言中表现不佳,也使得低资源语言的语言处理能力和应用受到了限制,从而进一步加剧了马太效应。拥抱ChatGPT可以帮助低资源语言更好地融入数字时代的信息交流中,促进全球语言和文化的多样性。通过群智感知的方式共同推动低资源语言处理技术的进步,促进全球语言和文化的多样性和交流;同时ChatGPT也需要注重数据和信息的质量控制,以及在低资源语言中的适应性和可扩展性。ChatGPT可以促进低资源语言的信息化和自然语言处理能力的提升,但也需要认识到ChatGPT可能会加剧马太效应,因此需要采取措施确保这种技术的发展不会削弱低资源语言的地位,以期保护和推动语言多样性发展。 展开更多
关键词 ChatGPT 低资源语言 马太效应 支配性语言问题
下载PDF
CINOSUM:面向多民族低资源语言的抽取式摘要模型
2
作者 翁彧 罗皓予 +3 位作者 超木日力格 刘轩 董俊 刘征 《计算机科学》 CSCD 北大核心 2024年第7期296-302,共7页
针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效... 针对现有的模型无法处理多民族低资源语言自动摘要生成的问题,基于CINO提出了一种面向多民族低资源语言的抽取式摘要模型CINOSUM。为扩大文本摘要的语言范围,首先构建了多种民族语言的摘要数据集MESUM。为解决以往模型在低资源语言上效果不佳的问题,构建了一个框架,采用统一的句子抽取器,以进行不同民族语言的抽取式摘要生成。此外,提出采用多语言数据集的联合训练方法,旨在弥补知识获取上的不足,进而扩展在低资源语言上的应用,显著增强模型的适应性与灵活性。最终,在MESUM数据集上开展了广泛的实验研究,实验结果表明CINOSUM模型在包括藏语和维吾尔语在内的多民族低资源语言环境中表现卓越,并且在ROUGE评价体系下取得了显著的性能提升。 展开更多
关键词 抽取式摘要 语言预训练模型 低资源语言信息处理 知识迁移
下载PDF
面向“一带一路”的低资源语言机器翻译研究
3
作者 侯钰涛 阿布都克力木·阿布力孜 +2 位作者 史亚庆 马依拉木·木斯得克 哈里旦木·阿布都克里木 《计算机工程》 CAS CSCD 北大核心 2024年第4期332-341,共10页
随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一... 随着“一带一路”倡议的深入推进,沿线国家和地区之间的跨语言沟通需求日渐增长,机器翻译技术逐渐成为各国之间深入交流的重要手段。然而,这些国家存在大量低资源语言,语料的稀缺性导致其机器翻译研究进展较为缓慢。针对该问题,提出一种基于NLLB模型改进的低资源语言机器翻译训练方法。首先基于多语言预训练模型提出一种改进的训练策略,该策略在数据增强的前提下,对损失函数进行优化,从而在机器翻译任务中有效提高低资源语言的翻译性能;然后使用ChatGPT以及ChatGLM模型分别评估老挝语-汉语以及越南语-汉语的翻译能力,大语言模型(LLM)已具备一定的翻译低资源语言的能力,而且ChatGPT模型在越南语-汉语翻译任务上已经大幅超越传统的神经机器翻译(NMT)模型,但是在老挝语上的翻译性能还有待进一步提高。实验结果表明,在4种低资源语言到汉语的翻译任务上,相比NLLB-600M基线模型,平均提升了1.33个双语替换测评(BLEU)值以及0.82个chrF++值,从而充分证明了该方法在低资源语言机器翻译任务上的有效性。此外,该方法使用ChatGPT和ChatGLM模型分别对老挝语-汉语以及越南语-汉语进行了初步研究,在越南语-汉语翻译任务中,ChatGPT模型表现出色,远超传统的NMT模型,分别提高了9.28个BLEU值和3.12个chrF++值。 展开更多
关键词 低资源语言 机器翻译 数据增强 语言预训练模型 语言模型
下载PDF
我国低资源语言大规模数据建构及语言田野实践的数据转向 被引量:3
4
作者 范俊军 沐华 《云南师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2023年第6期25-35,共11页
低资源语言是指缺乏可用于自然语言处理任务和语言学计量分析所需足够基础数据的语言。低资源语言数据稀缺,是当前语言科学和自然语言处理共同面临的问题。语言数据资源最基础的部分是单语或双语词汇、语句的语音和文本数据。我国普通... 低资源语言是指缺乏可用于自然语言处理任务和语言学计量分析所需足够基础数据的语言。低资源语言数据稀缺,是当前语言科学和自然语言处理共同面临的问题。语言数据资源最基础的部分是单语或双语词汇、语句的语音和文本数据。我国普通话、粤方言、藏语、维吾尔语、蒙古语、壮语总体属于高资源语言,其他语言都属于低资源语言,其中县乡语言和方言属零资源语言。建构我国低资源语言的大规模数据,有助于强化我们掌握自己国家语言资源的控制权,发挥我国自然语言处理领域在语言模型技术创新中的独特作用,推动语言田野工作的数据转向,创新田野语言学理论和实践,促进基于数据计量的语言学广域研究。建构我国低资源语言数据,主要有四项任务:一是建构大规模词语数据集,二是建构知识语义词网,三是建构大规模句子数据集,四是现有语言资料的数据化。 展开更多
关键词 低资源语言 少数民族语言 自然语言处理(NLP) 田野语言
下载PDF
融合多粒度特征的低资源语言词性标注和依存分析联合模型 被引量:2
5
作者 陆杉 毛存礼 +3 位作者 余正涛 高盛祥 黄于欣 王振晗 《中文信息学报》 CSCD 北大核心 2023年第7期13-22,共10页
研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表... 研究低资源语言的词性标注和依存分析对推动低资源自然语言处理任务有着重要的作用。针对低资源语言词嵌入表示,已有工作并没有充分利用字符、子词层面信息编码,导致模型无法利用不同粒度的特征。对此,该文提出融合多粒度特征的词嵌入表示,利用不同的语言模型分别获得字符、子词以及词语层面的语义信息,将三种粒度的词嵌入进行拼接,达到丰富语义信息的目的,缓解由于标注数据稀缺导致的依存分析模型性能不佳的问题。进一步将词性标注和依存分析模型进行联合训练,使模型之间能相互共享知识,降低词性标注错误在依存分析任务上的线性传递。以泰语、越南语为研究对象,在宾州树库数据集上的试验表明,该文方法相比于基线模型的UAS、LAS、POS均有明显提升。 展开更多
关键词 低资源语言 词性标注 依存分析 多粒度特征 联合模型
下载PDF
服务21世纪海上丝绸之路的低资源语言处理 被引量:2
6
作者 刘伍颖 《广东外语外贸大学学报》 2018年第3期77-82,共6页
21世纪海上丝绸之路沿线区域分布着数量众多的非通用语言。这些非通用语言的资源稀缺性严重影响了自然语言处理的性能。针对低资源语言处理这个科学问题,提出了一种总体研究架构:该架构从低资源语言的资源规范标准化、语言数据结构化和... 21世纪海上丝绸之路沿线区域分布着数量众多的非通用语言。这些非通用语言的资源稀缺性严重影响了自然语言处理的性能。针对低资源语言处理这个科学问题,提出了一种总体研究架构:该架构从低资源语言的资源规范标准化、语言数据结构化和语言计算形式化三个方面给出了系统的解决方案。在越南语、印尼语、马来语上的实验结果表明新研究架构是有效的。 展开更多
关键词 低资源语言 自然语言处理 非通用语言 21世纪海上丝绸之路
下载PDF
Lacmia:抗混淆的多民族语言生成式摘要模型
7
作者 翁彧 罗皓予 +3 位作者 刘征 超木日力格 刘轩 董俊 《中文信息学报》 CSCD 北大核心 2024年第10期80-94,共15页
该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不... 该文提出了一种针对中国多民族低资源语言生成式摘要模型Lacmia(Language-Anti-confusioned Chinese Minority Abstractive Summarization Model)。为了克服以往模型只能处理单一语言的限制,Lacmia采用了一种统一的生成式架构来执行不同民族语言的摘要生成任务。此外,为了解决以往模型在多民族低资源语言处理上的性能不足问题,该模型在框架中加入了语言信息嵌入模块。该文通过在损失函数中引入目标语言偏好性正则化项,有效减轻了多语言摘要中出现的语言混淆现象,从而提升摘要生成准确性和流畅度。广泛的实验表明,Lacmia在包括藏语和维吾尔语在内的多民族低资源语言摘要任务中,取得了卓越成绩。除了在ROUGE评价标准上实现了显著性能提升外,Lacmia在该文新提出的CINOScore和NLCR两项指标上均达到了最佳效果,验证了模型的有效性和先进性。 展开更多
关键词 生成式摘要 语言预训练模型 低资源语言信息处理 多目标学习
下载PDF
语料循环推进低资源神经机器翻译 被引量:1
8
作者 刘伍颖 王琳 《中文信息学报》 CSCD 北大核心 2023年第6期89-95,共7页
双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无... 双语句对资源稀缺导致一些基于深度学习的机器翻译算法无法在低资源机器翻译中取得更优的性能。因此该文针对低资源机器翻译中语言资源建设问题,提出语料循环推进思想,设计了多趟循环框架和半监督算法。这种框架是与具体机器翻译算法无关的元框架。而这种算法充分利用适当规模的双语种子资源和超大规模单语资源增量扩建双语句对资源,逐级训练机器翻译模型提高译文质量。多个语种的神经机器翻译实验结果证明,该文提出的语料循环推进能够利用源源不断的单语资源自我进化。其有效性不仅体现在易于实现高性能低资源机器翻译,更体现在是快速搭建精准领域机器翻译系统的实用选项。 展开更多
关键词 语料循环推进 机器翻译 低资源语言 半监督学习 增量学习
下载PDF
融合关键词概率映射的汉越低资源跨语言摘要
9
作者 李笑萌 张亚飞 +2 位作者 郭军军 高盛祥 余正涛 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期630-637,共8页
在低资源汉越跨语言摘要任务中,由于标注的汉越对齐数据稀缺,较难实现跨语言语义对齐.鉴于此,提出一种融合关键词概率映射的低资源跨语言摘要方法,首先利用源语言关键词实现关键信息的提取,然后基于概率映射对将源语言关键词映射到目标... 在低资源汉越跨语言摘要任务中,由于标注的汉越对齐数据稀缺,较难实现跨语言语义对齐.鉴于此,提出一种融合关键词概率映射的低资源跨语言摘要方法,首先利用源语言关键词实现关键信息的提取,然后基于概率映射对将源语言关键词映射到目标语言,最后基于指针网络将映射的目标语言关键词融入到摘要生成过程中.在构建的汉越跨语言摘要数据集上的实验结果表明,相比于直接的端到端的方法,融入关键词概率映射信息可以有效地提升低资源跨语言摘要的质量. 展开更多
关键词 资源语言摘要 语言语义对齐 关键词 概率映射
下载PDF
融合多策略数据增强的低资源依存句法分析方法 被引量:6
10
作者 线岩团 高凡雅 +2 位作者 相艳 余正涛 王剑 《计算机科学》 CSCD 北大核心 2022年第1期73-79,共7页
依存句法分析旨在识别句子中词与词之间的句法依赖关系。依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能。训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型... 依存句法分析旨在识别句子中词与词之间的句法依赖关系。依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能。训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型过拟合问题。文中针对低资源依存句法分析问题,提出了多种数据增强策略。所提方法通过同义词替换有效扩充了训练数据,缓解了未知词问题。通过多种Mixup的数据增强策略,有效缓解了模型过拟合问题,提高了模型的泛化能力。在(Universal Dependencies treebanks,UD treebanks)数据集上的实验结果表明,所提方法有效提升了小规模训练语料条件下泰语、越南语和英语依存句法分析的性能。 展开更多
关键词 依存句法分析 低资源语言 Mixup数据增强 同义词替换 多策略
下载PDF
低资源场景下印尼语-汉语机器翻译模型对比分析研究 被引量:8
11
作者 李霞 马骏腾 +1 位作者 肖莉娴 王连喜 《湖南工业大学学报》 2020年第3期10-16,共7页
低资源场景下神经机器翻译模型的翻译效果通常不如大规模训练数据下的模型翻译效果好。针对这个问题,选取RNN-based和Transformer-based两个主流神经机器翻译模型进行研究,探究在印尼语到汉语翻译在低资源场景下的机器翻译效果,并通过... 低资源场景下神经机器翻译模型的翻译效果通常不如大规模训练数据下的模型翻译效果好。针对这个问题,选取RNN-based和Transformer-based两个主流神经机器翻译模型进行研究,探究在印尼语到汉语翻译在低资源场景下的机器翻译效果,并通过实验分析和案例分析,给出两种模型在印尼语到汉语低资源场景下翻译的适应性分析。 展开更多
关键词 神经机器翻译 序列到序列翻译模型 低资源语言 印尼语-汉语 TRANSFORMER
下载PDF
面向低资源神经机器翻译的回译方法 被引量:2
12
作者 张文博 张新路 +2 位作者 杨雅婷 董瑞 李晓 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第4期675-679,共5页
神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据... 神经机器翻译在高资源情况下已经获得了巨大的成功,但是对低资源情况翻译效果还有待提高.目前,维吾尔语-汉语(维汉)翻译和蒙古语-汉语(蒙汉)翻译都属于低资源情况下的翻译任务.本文提出将汉语单语数据按照领域相似性划分成多份单语数据,并通过回译方法分段利用不同的单语数据训练翻译模型,然后借助模型平均和模型集成等方法进一步提升维汉和蒙汉翻译质量.使用第16届全国机器翻译大会(CCMT 2020)的评测数据进行实验,结果表明该方法可以有效地提升维汉和蒙汉翻译的翻译质量. 展开更多
关键词 神经机器翻译 低资源语言 回译 领域相似性 预训练
下载PDF
面向低资源俄汉机器翻译的领域适应方法 被引量:3
13
作者 刘欢 刘俊鹏 +1 位作者 黄锴宇 黄德根 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期654-659,共6页
基于Transformer的神经机器翻译在高资源语言对上取得了巨大的成功,但是在资源稀缺的情况下模型翻译效果较差.针对旅游口语领域的俄汉低资源机器翻译,本文通过扩充领域内数据和多种微调方法改善目标领域翻译质量.首先利用多种语料过滤... 基于Transformer的神经机器翻译在高资源语言对上取得了巨大的成功,但是在资源稀缺的情况下模型翻译效果较差.针对旅游口语领域的俄汉低资源机器翻译,本文通过扩充领域内数据和多种微调方法改善目标领域翻译质量.首先利用多种语料过滤方法得到通用领域俄汉语料,然后在不同参数配置的Transformer模型上进行预训练,探索多种领域适应性微调方法,得到最优模型,最后在译码阶段采用模型平均和后处理生成翻译结果.实验结果表明,该方法可以有效提升低资源场景下的俄汉机器翻译效果. 展开更多
关键词 神经机器翻译 低资源语言 领域适应 mRASP
下载PDF
基于元度量学习的低资源语音识别 被引量:2
14
作者 侯俊龙 潘文林 《云南民族大学学报(自然科学版)》 CAS 2021年第3期272-278,共7页
随着大数据及设备超强运算能力的出现,语音识别系统的性能得到了大幅提升.但在低资源语音识别研究中,由于缺乏足够的训练数据,模型很容易出现过拟合、识别精度低等问题.为此,提出了采用元度量学习方法来解决低资源环境下的语音难识别问... 随着大数据及设备超强运算能力的出现,语音识别系统的性能得到了大幅提升.但在低资源语音识别研究中,由于缺乏足够的训练数据,模型很容易出现过拟合、识别精度低等问题.为此,提出了采用元度量学习方法来解决低资源环境下的语音难识别问题,该方法是先将大量类似且不相交的任务用于模型训练,让模型从中学会如何比较样本相似性;最后再在新任务中通过计算样本的相似度来识别未知样本.实验表明:元度量学习方法能够有效避免模型过拟合、提升模型泛化能力,实验在低资源语言(佤语和普米语)孤立词语音识别中均取得了显著的识别效果. 展开更多
关键词 低资源语言 元度量学习 语音识别 孤立词
下载PDF
基于情感语义对抗的跨语言情感分类模型
15
作者 赵亚丽 余正涛 +2 位作者 郭军军 高盛祥 相艳 《计算机工程与科学》 CSCD 北大核心 2023年第2期338-345,共8页
传统的基于机器翻译的跨语言情感分类方法,由于受机器翻译性能影响,导致越南语等低资源语言的情感分类准确率较低。针对源语言和目标语言标记资源不平衡的问题,提出一种基于情感语义对抗的跨语言情感分类模型。首先,将句子和句子中情感... 传统的基于机器翻译的跨语言情感分类方法,由于受机器翻译性能影响,导致越南语等低资源语言的情感分类准确率较低。针对源语言和目标语言标记资源不平衡的问题,提出一种基于情感语义对抗的跨语言情感分类模型。首先,将句子和句子中情感词进行拼接,用卷积神经网络对拼接后的句子分别进行特征抽取,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标签数据的情感语义表征进行对齐;最后,将句子与情感词最显著的表征进行拼接,得到情感分类结果。基于汉英公共数据集和自主构建的汉越数据集的实验结果表明,所提模型相比跨语言情感分类主流模型,实现了双语情感语义对齐,可以有效提升越南语情感分类的准确率,且在差异性不同的语言对上也具有明显优势。 展开更多
关键词 情感语义表征 双语词嵌入 低资源语言 语言情感分类
下载PDF
融合词簇约束的汉越跨语言词嵌入
16
作者 武照渊 余正涛 黄于欣 《计算机工程》 CAS CSCD 北大核心 2023年第1期82-91,共10页
针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分... 针对传统跨语言词嵌入方法在汉越等差异较大的低资源语言上对齐效果不佳的问题,提出一种融合词簇对齐约束的汉越跨语言词嵌入方法。通过独立的单语语料训练获取汉越单语词嵌入,使用近义词、同类词和同主题词3种不同类型的关联关系,充分挖掘双语词典中的词簇对齐信息以融入到映射矩阵的训练过程中,使映射矩阵进一步学习到不同语言相近词间具有的一些共性特征及映射关系,根据跨语言映射将两种语言的单语词嵌入映射至同一共享空间中对齐,令具有相同含义的汉语与越南语词嵌入在空间中彼此接近,并利用余弦相似度为空间中每一个未经标注的汉语单词查找对应的越南语翻译构建汉越对齐词对,实现跨语言词嵌入。实验结果表明,与传统有监督及无监督的跨语言词嵌入方法Multi_w2v、Orthogonal、VecMap、Muse相比,该方法能有效提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下模型对齐效果较差的问题,其在汉越双语词典归纳任务P@1和P@5上的对齐准确率相比最好基线模型提升了2.2个百分点。 展开更多
关键词 汉越双语 低资源语言 语言词嵌入 词簇对齐 多粒度约束
下载PDF
基于词汇迁移的跨语言形态复用
17
作者 刘伍颖 王琳 《中文信息学报》 CSCD 北大核心 2023年第8期18-24,共7页
良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语... 良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语义转述应用任务中的有效性。在语言资源建设实验中,该文从马来语语料库提取印尼语多词表示,并从印尼语语料库提取马来语多词表示。在语义转述应用实验中,该文通过马来语资源增强的印尼语-汉语平行句库训练出印尼语-汉语神经机器翻译模型,并通过印尼语资源增强的马来语-汉语平行句库训练出马来语-汉语神经机器翻译模型。实验结果证明,由于同语族的形态同源性和相似性,同语族跨语言形态复用具有很强的可迁移性和可计算性。 展开更多
关键词 形态复用 形态迁移率 低资源语言 多词表示提取 神经机器翻译
下载PDF
印地语自然语言处理研究进展
18
作者 王连喜 林楠铠 +1 位作者 蒋盛益 邓致妍 《中文信息学报》 CSCD 北大核心 2023年第5期53-69,共17页
与西方语言相比,印地语是东南亚地区的一种低资源语言。由于缺少相应的语料、标注规范及计算模型,当前印地语自然语言处理工作并未得到重视,也不能较好地迁移通用语种研究中的前沿方法。该文在进行文献调研和计量分析的基础上,回顾了印... 与西方语言相比,印地语是东南亚地区的一种低资源语言。由于缺少相应的语料、标注规范及计算模型,当前印地语自然语言处理工作并未得到重视,也不能较好地迁移通用语种研究中的前沿方法。该文在进行文献调研和计量分析的基础上,回顾了印地语自然语言处理研究在基础资源建设、词性标注、命名实体识别、句法分析、词义消歧、信息检索、机器翻译、情感分析以及自动摘要等方面的研究进展,最后提出了该领域研究可能面临的问题及挑战,并展望未来发展趋势。 展开更多
关键词 印地语 自然语言处理 低资源语言
下载PDF
面向机器阅读理解的高质量藏语数据集构建 被引量:1
19
作者 孙媛 刘思思 +2 位作者 陈超凡 旦正错 赵小兵 《中文信息学报》 CSCD 北大核心 2024年第3期56-64,共9页
机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但... 机器阅读理解是通过算法让机器根据给定的上下文回答问题,从而测试机器理解自然语言的程度。其中,数据集的构建是机器阅读理解的主要任务之一。目前,相关算法模型在大多数流行的英语数据集上都取得了显著的成绩,甚至超过了人类表现。但对于低资源语言,由于缺乏相应的数据集,机器阅读理解研究尚处于起步阶段。该文以藏语为例,人工构建了藏语机器阅读理解数据集(TibetanQA),其中包含20000个问题答案对和1513篇文章。该数据集的文章均来自云藏网,涵盖了自然、文化和教育等12个领域,问题形式多样且具有一定的难度。另外,该数据集在文章收集、问题构建、答案验证、回答多样性和推理能力等方面,均采用严格的流程以确保数据的质量,同时采用基于语言特征消融输入的验证方法说明了数据集的质量。最后,该文初步探索了三种经典的英语阅读理解模型在TibetanQA数据集上的表现,其结果难以媲美人类,这表明藏语机器阅读理解任务还需要更进一步的探索。 展开更多
关键词 机器阅读理解 低资源语言 藏语 数据集
下载PDF
低资源语音识别研究进展
20
作者 余正涛 董凌 高盛祥 《昆明理工大学学报(自然科学版)》 北大核心 2024年第3期86-102,共17页
探讨低资源语音识别领域最新研究进展,旨在为未来研究和应用提供有益参考.首先,简要回顾了语音识别的发展过程,并介绍了当前主流端到端语音识别框架的基本原理.其次,针对低资源语音识别面临的问题,详细分析了在语音数据增强、自监督语... 探讨低资源语音识别领域最新研究进展,旨在为未来研究和应用提供有益参考.首先,简要回顾了语音识别的发展过程,并介绍了当前主流端到端语音识别框架的基本原理.其次,针对低资源语音识别面临的问题,详细分析了在语音数据增强、自监督语音表征学习、多语言联合学习、结合大语言模型以及语言知识增强5个方面的相关研究工作.最后,对低资源语音识别未来的研究方向进行了展望. 展开更多
关键词 语音识别 低资源语言 数据增强 语音表征学习 语言模型 语言知识
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部