期刊文献+
共找到43篇文章
< 1 2 3 >
每页显示 20 50 100
面向音素序列的黏着语词干提取研究
1
作者 古再力努尔·依明 米吉提·阿不里米提 +1 位作者 哈妮克孜·伊拉洪 艾斯卡尔·艾木都拉 《小型微型计算机系统》 CSCD 北大核心 2023年第10期2362-2368,共7页
针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向... 针对当前的黏着语词干提取任务难以处理具有上下文信息的句子级语料的问题,本文将维吾尔语作为研究对象,提出了一种句子上下文和字符特征相融合的,由BiLSTM、注意力机制(Attention)和CRF构成的词干提取模型.首先以句子级别的字符特征向量为输入,使用BiLSTM模型获取正向和反向的上下文序列特征,并在此模型上加入注意力机制进行权重学习,通过提取全局特征信息来捕获词干和词缀边界;最后添加CRF使其从序列特征中学习更多信息,从而更有效地描述上下文信息.为验证上述模型的有效性,将本文模型在两种不同的数据集上进行了实验,并且将本文模型跟传统模型进行了对比.实验结果表明,本文模型对于句子级语料的效果更好,可以更有效地提取词干.此外,本文提出的模型优于其他传统模型,能全面考虑数据特征,具有一定的优越性. 展开更多
关键词 黏着语 维吾尔语 词干提取 上下文 注意力机制 BiLSTM-Attention-CRF
下载PDF
融合剪枝和多语微调的黏着语命名实体识别
2
作者 罗凯昂 哈里旦木·阿布都克里木 +2 位作者 刘畅 阿布都克力木·阿布力孜 郭文强 《计算机工程与应用》 CSCD 北大核心 2023年第24期121-130,共10页
以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CIN... 以维吾尔语为代表的少数民族语言具有黏着性和资源匮乏等特点,为其命名实体识别任务带来了巨大挑战。与此同时,多语言模型存在参数规模和词表大、推理速度慢等问题。为此,通过对CINO进行重新剪枝,提出针对低资源黏着语命名实体识别的CINO新版本:CINO-Agglu。为了探讨最佳微调策略,缓解低资源问题,对维吾尔语、哈萨克语、柯尔克孜语、乌兹别克语、塔塔尔语等五种黏着语分别进行单语言和多语言微调。实验结果表明,CINO-Agglu相较于剪枝前,模型大小、参数量、词表大小、推理时间分别减少45%、44%、92%、38%,并且在五种语言上的平均F1值为85.9%,超过了所有基线模型。加入适当规模的同语族数据有利于提升微调效果。 展开更多
关键词 黏着语 低资源语言 命名实体识别 多语言迁移 模型剪枝
下载PDF
基于词典库的藏文黏着语规范化处理研究
3
作者 陈小莹 《西藏科技》 2016年第10期27-28,共2页
黏着语是在藏文文字发展过程中,由于发音或者语法需求而产生的。文章在了解藏语语法、黏着语产生背景和意义的基础上,依据黏着语的特点设计了基于词典库的黏着语处理算法,该算法基本能正确处理文本中的黏着语,正确率达到了98.01%。错误... 黏着语是在藏文文字发展过程中,由于发音或者语法需求而产生的。文章在了解藏语语法、黏着语产生背景和意义的基础上,依据黏着语的特点设计了基于词典库的黏着语处理算法,该算法基本能正确处理文本中的黏着语,正确率达到了98.01%。错误的部分是由于一些新词语在词典库中未收录,所以未能正确处理。 展开更多
关键词 藏语 黏着语 词典库 规范化处理
下载PDF
现代藏文中黏着语的规范化处理
4
作者 陈小莹 《电脑与信息技术》 2017年第1期17-19,共3页
藏文黏着语是在藏文文字的发展过程中,由于发音需要或者语法需求而产生的。黏着语的存在会对藏文信息处理中的文本规范化带来阻碍。文章通过对黏着语产生的背景和意义进行了解,按照黏着语不同的形成原因进行分类处理,最终实现黏着语的... 藏文黏着语是在藏文文字的发展过程中,由于发音需要或者语法需求而产生的。黏着语的存在会对藏文信息处理中的文本规范化带来阻碍。文章通过对黏着语产生的背景和意义进行了解,按照黏着语不同的形成原因进行分类处理,最终实现黏着语的规范化处理。 展开更多
关键词 藏语 黏着语 分离 还原
下载PDF
从黏着语类型特点分析维吾尔语和阿美斯语量词的特点
5
作者 倪宏鸣 《文教资料》 2013年第14期23-24,共2页
文章从黏着语的类型学特点出发,考察和分析了维吾尔语和阿美斯语的量词,从语言类型的共同特点和两种语言的独有特点两个方面进行了阐述,提出这两种语言量词使用的特点与数词的音节数和语言的类型特征有关。
关键词 量词 黏着语 阿美斯语 维吾尔语
下载PDF
重叠构词法在黏着语中的表现——以维吾尔语和阿美语为例
6
作者 倪宏鸣 《双语教育研究》 2014年第3期56-60,共5页
黏着语是一种语言类型,其突出特点是以词根为中心,依次把其余的附加成分黏合在一起完成构词、构形和表意功能。黏着语强调综合,采用语音要素的添减完成意义构建,每一个要素都可以拆分重新组合或添加其他新要素后再次成形,这使得黏着语... 黏着语是一种语言类型,其突出特点是以词根为中心,依次把其余的附加成分黏合在一起完成构词、构形和表意功能。黏着语强调综合,采用语音要素的添减完成意义构建,每一个要素都可以拆分重新组合或添加其他新要素后再次成形,这使得黏着语中重叠构词形式变化丰富、构词活跃、能力很强,在构词体系中占据重要地位。阿美语是南岛语系印度尼西亚语族语言,维吾尔语是阿尔泰语系突厥语族语言,两者之间没有亲缘关系,但是它们都是典型的黏着语,阿美语和维吾尔语均表现出很多与黏着语类型有关的特征,在使用重叠构词法方面,它们都充分发挥了重叠构词法的构词功能。 展开更多
关键词 黏着语 维吾尔语 阿美语 重叠构词法
下载PDF
基于大数据的结构化SVM的黏着语词性标注的研究
7
作者 刘婉婉 《电脑与电信》 2021年第1期23-26,共4页
传统的条件随机场(Conditional Random Fields,CRF)方法虽然可以容纳任意长度的上下文信息且特征设计灵活,但训练代价大、模型复杂度高,尤其在序列标注任务中由于需要计算整个标注序列的联合概率分布使其缺点更加突出。为此,结合一种结... 传统的条件随机场(Conditional Random Fields,CRF)方法虽然可以容纳任意长度的上下文信息且特征设计灵活,但训练代价大、模型复杂度高,尤其在序列标注任务中由于需要计算整个标注序列的联合概率分布使其缺点更加突出。为此,结合一种结构化方式的支持向量机(Structured Support Vector Machine,SSVM)方法,根据黏着语的构词特征和语料的上下文信息进行词性标注研究,本模型相比传统SVM,通过附加额外的约束条件使特征函数能够拟合分布,进而用于处理不同领域内词性标注。通过相关黏着语词性标注实验结果显示,SSVM的词性标注方法相比传统的词性标注算法,准确率有了一定的提高。 展开更多
关键词 词性标注 支持向量机 结构化 黏着语
下载PDF
融入黏着语特征的蒙古文预训练语言模型
8
作者 娜木汗 金筱霖 王炜华 《中央民族大学学报(自然科学版)》 2024年第3期32-39,共8页
预训练语言模型(PLM)在自然语言处理(NLP)任务上应用广泛且表现优异。目前预训练语言模型主要在英语和中文等资源丰富的语言上进行训练,由于缺乏大规模的数据资源及语言特征的复杂性,导致预训练语言模型尚未在低资源语言上进行深入研究... 预训练语言模型(PLM)在自然语言处理(NLP)任务上应用广泛且表现优异。目前预训练语言模型主要在英语和中文等资源丰富的语言上进行训练,由于缺乏大规模的数据资源及语言特征的复杂性,导致预训练语言模型尚未在低资源语言上进行深入研究,特别是蒙古文等黏着语。为了解决数据稀缺的问题,本研究创建了大规模的蒙古语预训练数据集并建立了三个下游任务的数据集,分别为新闻分类任务、命名实体识别任务(NER)、词性标注任务(POS),在此基础上提出了一种融入黏着语特征的蒙古文预训练语言模型IAMC⁃BERT。该模型将蒙古文黏着语特性融入tokenization阶段和预训练语言模型训练阶段。具体来说,to⁃kenization阶段旨在将蒙古文单词序列转换为包括词干和一些后缀的细粒度子词;训练阶段设计了一种基于形态学的掩蔽策略,以增强模型学习黏着语特征的能力。在三个下游任务上的实验结果表明,该方法超越了传统的BERT方法,成功地融入了蒙古文黏着语特征。 展开更多
关键词 预训练语言模型 蒙古文 黏着语特征
下载PDF
黏着语类少数民族学生学习日语方面的优势——以维吾尔族和朝鲜族为例
9
作者 柳松林 金群植 +1 位作者 阿迪拉.阿布利米提 阿依古丽.阿不都艾尼 《学周刊(上旬)》 2016年第6期119-120,共2页
我国是一个统一的多民族国家,在我国境内存在的众多少数民族语言中,有很多属于黏着语。由于历史的原因,这些使用黏着语的民族大部分属于跨界民族,即在国外存在与其相同的民族,但在国籍上分属两国。论文从同属黏着语的维吾尔语及朝鲜语... 我国是一个统一的多民族国家,在我国境内存在的众多少数民族语言中,有很多属于黏着语。由于历史的原因,这些使用黏着语的民族大部分属于跨界民族,即在国外存在与其相同的民族,但在国籍上分属两国。论文从同属黏着语的维吾尔语及朝鲜语和日语的对比研究出发,通过查阅文献资料,以针对少数民族学生发放问卷调查的方式,为维吾尔族、朝鲜族等一些民族语言为黏着语的少数民族学生在学习外语时提供一个较为合适的选择——日语,为培养更多的少数民族多语人才提供有益的启示。 展开更多
关键词 少数民族 黏着语 多语人才 有益启示
原文传递
儿化词合音新义产生的认知机制 被引量:1
10
作者 陈钊 《汉语学习》 北大核心 2023年第4期104-112,共9页
儿化是汉语常见的语言现象,本文运用认知语法的象征图式理论,探究儿化词能够改变词义产生新词的原因以及儿化合音背后的认知机制。研究表明,儿化词的结构形式为“自由语素+黏着语素”,依据词性不同儿化词可以分为“名词性成分+儿”“动... 儿化是汉语常见的语言现象,本文运用认知语法的象征图式理论,探究儿化词能够改变词义产生新词的原因以及儿化合音背后的认知机制。研究表明,儿化词的结构形式为“自由语素+黏着语素”,依据词性不同儿化词可以分为“名词性成分+儿”“动词性成分+儿”等六类,其中又可以根据是否产生新的词汇意义分为单纯儿化和非单纯儿化,单纯儿化不会改变词义,非单纯儿化分别利用隐喻和转喻机制产生新词。儿化词语义极的自由/黏着结构同时也反映在语音极层面,在音节压制的作用下,“er”发生合音,由独立的音节变为黏着成分“-r”。 展开更多
关键词 儿化词 图式化 象征关系 自由/黏着语 认知语法
下载PDF
基于多粒度特征的文本生成评价方法 被引量:3
11
作者 赖华 高玉梦 +2 位作者 黄于欣 余正涛 张勇丙 《中文信息学报》 CSCD 北大核心 2022年第3期45-53,63,共10页
近年来,基于预训练语言模型的文本生成评价方法得到了广泛关注,其通过计算两个句子间子词粒度的相似度来评价生成文本的质量。但是对于越南语、泰语等存在大量黏着语素的语言,单个音节或子词不能独立成词表达语义,仅基于子词粒度匹配的... 近年来,基于预训练语言模型的文本生成评价方法得到了广泛关注,其通过计算两个句子间子词粒度的相似度来评价生成文本的质量。但是对于越南语、泰语等存在大量黏着语素的语言,单个音节或子词不能独立成词表达语义,仅基于子词粒度匹配的方法并不能够完整表征两个句子间的语义相似关系。基于此,该文提出一种基于子词、音节、词组等多粒度特征的文本生成评价方法。首先基于MBERT模型生成文本的表示,然后引入音节、词组等粗粒度语义单元之间的相似性来增强子词粒度的相似度评价模型。在机器翻译、跨语言摘要、跨语言数据筛选等任务上的实验结果表明,该文提出的多粒度特征评价方法相比ROUGE、BLEU等基于统计的评价方法以及Bertscore等基于语义相似度的评价方法都取得了更好的性能,与人工评价结果相关性更高。 展开更多
关键词 文本生成 评价方法 黏着语 多粒度特征 MBERT
下载PDF
现代汉语“的”字语法功能类别新论 被引量:4
12
作者 钱书新 《南昌大学学报(人文社会科学版)》 北大核心 2006年第1期132-136,共5页
朱德熙先生[1]把“红红的”和“非常便宜的”中的“的”看作相同的类别,认为都是后缀;而把“非常便宜的”与“便宜的”中“的”却看作不同的类别,认为前者是后缀,后者是助词。这一分类忽视了“的”字语法分布的不同层面,具有明显的不足... 朱德熙先生[1]把“红红的”和“非常便宜的”中的“的”看作相同的类别,认为都是后缀;而把“非常便宜的”与“便宜的”中“的”却看作不同的类别,认为前者是后缀,后者是助词。这一分类忽视了“的”字语法分布的不同层面,具有明显的不足。语言事实表明,现代汉语“的”有三种主要的语法功能:作为黏着语素(后缀)、作为独用的语法单位(虚词)、作为所译外语词性的标记。 展开更多
关键词 “的” 功能 黏着语 虚词 外语词性标记
下载PDF
印尼语、马来语自然语言处理研究综述 被引量:2
13
作者 蒋盛益 李珊珊 +1 位作者 符斯慧 林楠铠 《模式识别与人工智能》 EI CSCD 北大核心 2020年第6期530-541,共12页
随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结... 随着印尼语、马来语互联网普及率的上升,对海量印尼语、马来语文本进行信息处理存在重大需求.虽然研究人员对印尼语、马来语展开较广泛的研究,但是作为低资源语言,受到的关注远不及通用语,未能较好利用前沿的深度学习方法.文中梳理总结包括词法分析、句法分析、机器翻译、拼写检查等印尼语、马来语相关的自然语言处理技术.对比分析相关的研究成果发现,大多数研究因语料规模及评测标准不同难以客观对比各种算法的差异.最后结合印尼语、马来语现有的各领域语言资源开放情况,指出印尼语、马来语的自然语言处理研究面临的问题,并展望未来发展趋势. 展开更多
关键词 印尼语 马来语 黏着语 低资源语言 自然语言处理
下载PDF
关于语素的分类——对《现代汉语》语素部分的一点思考 被引量:1
14
作者 鹿荣 张小平 《济南大学学报(社会科学版)》 2004年第5期32-34,共3页
语素的分类应该从构词能力和成句能力两个方面去区分成词语素、不成词语素以及自由语素、黏着语素。而成词语素中的一部分,即永远成词语素只能单独成词,不能与其他语素组合成词。
关键词 成词语素 不成词语素 自由语素 黏着语 永远成词语素 非永远成词语素
下载PDF
维吾尔语形容词构形词缀有限状态自动机 被引量:4
15
作者 早克热·卡德尔 吐尔根·依布拉音 《电脑知识与技术》 2009年第2期939-941,共3页
维吾尔语单词的构形词缀按照一定的规则连接到词干。维吾尔语的黏着言特点和构形词缀连接规则使得可以构造维吾尔语构形词缀的有限状态自动机。该文将详细介绍维吾尔语形容词构形词缀有限自动机的构造步骤。
关键词 维吾尔语 黏着语 构形词缀 有限自动机 语音和谐 词干提取
下载PDF
中韩语言表达差异的文化分析 被引量:1
16
作者 路冬梅 《新闻爱好者》 北大核心 2011年第12期68-69,共2页
韩国受到中国文化很深远的影响,在语言表达上两国有很多相似之处。但同中有异,本文列举了中韩某些词汇和表达方式的差异,并从文化角度分析这一现象隐含的民族心理因素。
关键词 亲属称谓 外来词 黏着语 敬语
下载PDF
从日语角度析维特根斯坦对“感觉私有论”的围剿
17
作者 徐英瑾 《上海师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2019年第6期5-16,共12页
后期维特根斯坦对"私人语言"观的批判,是建立在他对"感觉私有论"批判的基础上的。然而,不太为学界所重视的是,在撰写作为《哲学研究》之准备资料的《大打字稿》时,维特根斯坦曾经提出过一条非常新颖的用以批判"... 后期维特根斯坦对"私人语言"观的批判,是建立在他对"感觉私有论"批判的基础上的。然而,不太为学界所重视的是,在撰写作为《哲学研究》之准备资料的《大打字稿》时,维特根斯坦曾经提出过一条非常新颖的用以批判"感觉私有论"的思路。该思路的大旨是,德语中的主-谓结构在感觉表述领域中的运用,将非常容易引诱德语哲学家去认定,像疼痛这样的感觉,乃是疼痛主体的某种"私有物"。而在维氏看来,只要我们重新构造一种能够摆脱上述主-谓逻辑思维之桎梏的新感觉表达方式,"感觉私有论"的幻觉亦可随之消失。然而,维氏为设计这种新表达方式而引入的行为主义表达方式,依然会在日常语用环境中遇到种种难题,因此,其可操作性亦大为成疑。其实,如果维特根斯坦能够参考日语中的疼痛表达方式的话,上述难题就会得到纾解。具体而言,日语具有关于疼痛的"主观现象化"与"客观名词化"两个系列的表达方式,而即使在后一个系列中,日语言说者也没有明确诉诸行为主义对于疼痛的表述方式。因此,维特根斯坦的论证如果能够以日语为主要表述手段的话,那么其说服力就会大为增强。从这个角度看,维特根斯坦对以印欧语为基点的传统西哲思辨方式的批判,在客观上乃是为一种以非印欧语为基点的新哲学思维方式的展开初步扫清了障碍。 展开更多
关键词 私人语言 私人感觉 日语 黏着语 主-谓逻辑 行为主义 笛卡尔主义
下载PDF
语言文字与古代西亚文明史
18
作者 拱玉书 《语言战略研究》 2017年第3期8-9,共2页
一涉及文明史,西亚地区便显现出特殊性,即西方学者早就先人为主地主导了这个地区文明史的研究,也势不可挡地规定了相关学科的话语。以西方为出发点来观察这个地区已成为惯例,因此西亚便成了距离西方最近的'近东'(即现代国际政... 一涉及文明史,西亚地区便显现出特殊性,即西方学者早就先人为主地主导了这个地区文明史的研究,也势不可挡地规定了相关学科的话语。以西方为出发点来观察这个地区已成为惯例,因此西亚便成了距离西方最近的'近东'(即现代国际政治话语中的'中东')。我们已经没有选择。 展开更多
关键词 楔形文字 地区 古文字 苏美尔语 文明史 西亚 文化宝库 苏美尔人 古代东方 用字 人类历史 黏着语 苏美尔文明 亲缘关系 埃兰
下载PDF
藏文拉丁转写的设计与实现
19
作者 陈小莹 艾金勇 郭小丹 《科技信息》 2014年第11期13-13,7,共2页
在藏文信息处理系统中,藏文拉丁转写是需要解决的重要课题。本文从藏文文本规范化、黏着语的分离与还原、基字的确定和藏文音节转写规则四个部分设计了藏文拉丁转写方案,最终实现藏文拉丁转写。该转写方案的设计在藏文信息处理领域具有... 在藏文信息处理系统中,藏文拉丁转写是需要解决的重要课题。本文从藏文文本规范化、黏着语的分离与还原、基字的确定和藏文音节转写规则四个部分设计了藏文拉丁转写方案,最终实现藏文拉丁转写。该转写方案的设计在藏文信息处理领域具有非常重要的现实意义和应用价值。 展开更多
关键词 藏文 拉丁转写 黏着语 占位辅音
下载PDF
维吾尔语名词构形词缀有限状态自动机的构造 被引量:19
20
作者 早克热.卡德尔 艾山.吾买尔 +1 位作者 吐尔根.依布拉音 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2009年第6期116-121,共6页
该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照... 该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照一定的规则连接到词干词尾,这使得维吾尔语构形词缀的连接规则可用有限状态自动机形式化描述。该文首先介绍维吾尔语名词的形态结构,然后根据规则构造从右向左的有限状态自动机,最后对这个自动机进行方向翻转和转换确定自动机操作。 展开更多
关键词 人工智能 自然语言处理 维吾尔语 黏着语 构形词缀 有限自动机 语音和谐 词干提取
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部