期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
自然语言处理实验教学探索与总结 被引量:1
1
作者 李亚超 江静 戴玉刚 《信息与电脑》 2020年第16期228-230,共3页
自然语言处理是人工智能中的前沿研究,相关知识较为复杂,对普通本科生来说理解的难度较大.如何将这些较为复杂的前沿知识讲授给普通学生,让他们能够接受并从中获益,是值得探索的问题.基于此,本文以实验教学为手段,探索了将自然语言处理... 自然语言处理是人工智能中的前沿研究,相关知识较为复杂,对普通本科生来说理解的难度较大.如何将这些较为复杂的前沿知识讲授给普通学生,让他们能够接受并从中获益,是值得探索的问题.基于此,本文以实验教学为手段,探索了将自然语言处理中的前沿知识讲授给普通学生的方法,同时对教学过程中的探索和经验进行总结. 展开更多
关键词 实验教学 自然语言处理 人工智能
下载PDF
民族院校研究生“方言学”课程教学改革探讨 被引量:1
2
作者 吕士良 《语文学刊》 2017年第6期153-156,共4页
方言学是高等学校语言文学相关专业的基础理论课程,在研究生教学中通常作为专业必修或选修课,是语言学及应用语言学专业学生培养课程体系中的重要课程。本文结合西北民族大学语言学及应用语言学专业研究生情况,针对学生语言与专业知识背... 方言学是高等学校语言文学相关专业的基础理论课程,在研究生教学中通常作为专业必修或选修课,是语言学及应用语言学专业学生培养课程体系中的重要课程。本文结合西北民族大学语言学及应用语言学专业研究生情况,针对学生语言与专业知识背景,从教学实际出发,对教学过程中出现的问题及原因进行探讨,并提出相应的改革策略。 展开更多
关键词 民族院校 方言学 教学改革 教学方法
下载PDF
基于GraphSAGE网络的藏文短文本分类研究
3
作者 敬容 杨逸民 +3 位作者 万福成 国旗 于洪志 马宁 《中文信息学报》 CSCD 北大核心 2024年第9期58-65,共8页
文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模... 文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模的基础上,融合文档特征,采用二元分类模型动态网络构建“文档-文档”边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值。其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异。最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力。在TNCC标题文本数据集上,该文模型的分类准确率达到了62.50%,与传统GCN、原始GraphSAGE和预训练语言模型CINO相比,该方法在分类准确率上分别提高了2.56%、1%和2.4%。 展开更多
关键词 图神经网络 藏文文本分类 TNCC数据集
下载PDF
面向机器阅读理解的医学域数据集MedicalQA
4
作者 马宁 吕文蓉 郭泽晨 《中国科学数据(中英文网络版)》 CSCD 2024年第1期356-365,共10页
机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集Medica... 机器阅读理解旨在利用算法让计算机理解段落语义并回答用户提出的问题,该任务所用数据集的质量可直接影响模型的实验结果。为丰富机器阅读理解的医学领域数据集,本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集MedicalQA。本数据集以寻医问药网和39健康网两大医疗平台为主要数据来源,包含19502个段落、问题和答案,内容涉及内科、外科、妇产科等9大科室。数据集形式为excel文件,由5列组成,第一列为段落ID,第二列为段落所属科室,第三列为段落内容,第四列为问题,第五列为问题对应答案。本数据集的构建,有利于机器阅读理解模型的鲁棒性研究以及医学问答系统的构建,也能促进机器阅读理解领域的医学数据集共享。 展开更多
关键词 机器阅读理解 医学域 数据集
下载PDF
蒙古族大学生蒙汉篇章阅读的眼动特征研究 被引量:1
5
作者 刘美丽 陈国强 胡阿旭 《科技资讯》 2016年第28期124-124,126,共2页
文章以蒙古族大学生为被试对象,对比分析阅读蒙汉不同文体篇章时的眼动特点,提取阅读速度、注视次数等2个重要眼动参数,对蒙古族大学生阅读不同文体篇章时的认知加工特点和阅读心理特点进行研究。得出由于蒙古语是拼音文字,一个蒙语词... 文章以蒙古族大学生为被试对象,对比分析阅读蒙汉不同文体篇章时的眼动特点,提取阅读速度、注视次数等2个重要眼动参数,对蒙古族大学生阅读不同文体篇章时的认知加工特点和阅读心理特点进行研究。得出由于蒙古语是拼音文字,一个蒙语词由多个音节组成,而汉语是表意文字,一个汉字只代表一个音节。因此,阅读汉语篇章时阅读速度上占优势。 展开更多
关键词 蒙古族大学生 不同文体阅读 眼动特征
下载PDF
蒙古族大学生阅读蒙汉文散文的眼动研究 被引量:1
6
作者 刘美丽 陈国强 胡阿旭 《西北民族大学学报(自然科学版)》 2017年第1期60-62,82,共4页
文章采用眼动记录方法,以阅读蒙文和汉文篇章为切入点,对蒙古族双语学生进行测查,探讨母语为蒙古语的双语学习者在阅读蒙汉文散文时熟悉度的差异及其眼动特点.结果表明:蒙古族大学生阅读蒙汉文散文时的注视点持续时间、注视频率、眼跳... 文章采用眼动记录方法,以阅读蒙文和汉文篇章为切入点,对蒙古族双语学生进行测查,探讨母语为蒙古语的双语学习者在阅读蒙汉文散文时熟悉度的差异及其眼动特点.结果表明:蒙古族大学生阅读蒙汉文散文时的注视点持续时间、注视频率、眼跳幅度等指标都没有显著差异,随着教育教学的优化蒙古族大学生阅读蒙汉两种文字文章的阅读效率高,说明汉语水平在不断提高. 展开更多
关键词 蒙古族大学生 散文 眼动特点
下载PDF
基于机器学习的学术论文推荐方法研究 被引量:1
7
作者 魏斌 万福成 +2 位作者 于洪志 马宁 杨恒 《西北民族大学学报(自然科学版)》 2023年第3期72-83,共12页
目前,学术论文的数量呈指数增长,论文推荐也已成为一项有吸引力的研究.论文推荐系统具有一定的重要性和优势.文章通过调查已有的一些论文推荐方法,如基于协同过滤的、图的、混合等方法,并对已有方法进行分析和总结的基础上,指出了目前... 目前,学术论文的数量呈指数增长,论文推荐也已成为一项有吸引力的研究.论文推荐系统具有一定的重要性和优势.文章通过调查已有的一些论文推荐方法,如基于协同过滤的、图的、混合等方法,并对已有方法进行分析和总结的基础上,指出了目前学术论文推荐研究面临的挑战,以期探索出解决挑战的新思路、新方法. 展开更多
关键词 学术论文推荐 推荐算法 协同过滤 图结构
下载PDF
藏文单音节单纯词抽取方法设计与实现
8
作者 才让东知 祁坤钰 贡保杰布 《西北民族大学学报(自然科学版)》 2023年第3期16-24,共9页
针对藏文词汇资源匮乏和词汇分级模糊等问题,采用词典语料和词性标注语料相结合的方法,设计了藏文单音节单纯词抽取模型,规划了详细的技术方案,构建了比较完整的词典语料库,获得了藏文单音节单纯词的分类词表,依据相对通用度得到了分级... 针对藏文词汇资源匮乏和词汇分级模糊等问题,采用词典语料和词性标注语料相结合的方法,设计了藏文单音节单纯词抽取模型,规划了详细的技术方案,构建了比较完整的词典语料库,获得了藏文单音节单纯词的分类词表,依据相对通用度得到了分级词表,其中名词、动词、形容词、副词和数词等单音节单纯词总数1414条,词性之间存在大量的兼类现象,对汉藏语言资源库建设具有重要意义. 展开更多
关键词 藏文单纯词 抽取模型 语料库
下载PDF
一种实用的资源稀缺条件下的分词方法 被引量:4
9
作者 马宁 李亚超 +1 位作者 何向真 于洪志 《计算机应用研究》 CSCD 北大核心 2016年第1期68-70,97,共4页
在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料... 在一些使用人数较少的语言中,缺少人工标注语料,研究在资源稀缺条件下的分词方法成了亟待解决的问题。研究了无监督的VE算法,以及最大匹配间隔标注算法,在此基础上提出一种无监督分词方法与最大匹配方法相结合的分词方法,并在汉语语料上进行实验。该分词方法显著提高了最大匹配分词方法的分词效果,同时也优于当前最好的无监督分词结果。实验表明,该方法快速、有效,利用较小的资源获得了较好的分词效果。 展开更多
关键词 分词 无监督分词 最大匹配 VE算法 间隔标注 资源
下载PDF
基于藏语语义分析的机器翻译技术研究 被引量:4
10
作者 何向真 万福成 +1 位作者 于洪志 吴玺宏 《计算机工程与应用》 CSCD 北大核心 2015年第15期134-137,173,共5页
藏汉机器翻译技术跟汉英机器翻译技术有所不同,其中,很重要的一个方面,藏语更依赖于格助词等虚词在句子中的作用,格助词种类繁多,用法差异很大。针对藏语格助词进行分析,在藏语短语句法树库的基础上,加入了藏语本体特征的语义信息,形成... 藏汉机器翻译技术跟汉英机器翻译技术有所不同,其中,很重要的一个方面,藏语更依赖于格助词等虚词在句子中的作用,格助词种类繁多,用法差异很大。针对藏语格助词进行分析,在藏语短语句法树库的基础上,加入了藏语本体特征的语义信息,形成融合藏语语义信息的藏汉机器翻译方法。通过对比基于短语和句法的实验分析,该方法可以很好地应用于藏汉机器翻译系统。 展开更多
关键词 语义分析 藏语句法 藏汉机器翻译
下载PDF
融合事件特征及语义角色标注的藏文信息抽取技术 被引量:1
11
作者 万福成 马宁 何向真 《广西师范大学学报(自然科学版)》 CAS 北大核心 2018年第2期18-23,共6页
本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮... 本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作。 展开更多
关键词 功能语义 语义角色标注 藏文信息抽取
下载PDF
面向互联网的藏文实体关系模板获取技术研究 被引量:1
12
作者 马宁 李亚超 +1 位作者 于槐 加羊吉 《中央民族大学学报(自然科学版)》 2015年第1期35-39,共5页
确定实体之间的关系有助于更好的理解文本内容,通过实体关系模板可以从海量无结构的文本中获取大量的实体关系,并予以结构化.本文针对互联网藏文文本的特点,通过对藏文实体进行模板表示,采用基于word2vec的无监督词义相似度计算方法,构... 确定实体之间的关系有助于更好的理解文本内容,通过实体关系模板可以从海量无结构的文本中获取大量的实体关系,并予以结构化.本文针对互联网藏文文本的特点,通过对藏文实体进行模板表示,采用基于word2vec的无监督词义相似度计算方法,构建近义词资源,实现了藏文词义相似度计算系统,最终构建一种基于相似度计算的实体关系模板获取模型.通过网络爬虫抓取青海湖藏文网的语料进行试验,实验结果表明本文提出的藏文实体关系模板抽取方法较为有效,达到了较好的实验效果. 展开更多
关键词 藏文 实体关系 模板 互联网
下载PDF
保安语短元音声学特征研究 被引量:4
13
作者 德格吉呼 巴图格日勒 +2 位作者 金雅声 格根塔娜 郭丹丹 《西北民族大学学报(自然科学版)》 2014年第4期27-33,共7页
以《中国少数民族语言语音声学参数统一平台》的原理,用实验语音学的方法分析了保安语单音节短元音的声学特征,并将蒙古语、东乡语和保安语三种蒙古语族语进行了比较.得到以下结论:蒙古语族语言保安语单音节短元音有[а][][I][ε][o][... 以《中国少数民族语言语音声学参数统一平台》的原理,用实验语音学的方法分析了保安语单音节短元音的声学特征,并将蒙古语、东乡语和保安语三种蒙古语族语进行了比较.得到以下结论:蒙古语族语言保安语单音节短元音有[а][][I][ε][o][υ]等6个短元音音位,但是不能代表该语言音位系统就只有6个元音音位.根据三个顶点元音([i]、[u]、[α])的位置和各个语言的元音的分布区域中得知蒙古语最宽,其他语言紧密相连.其中,保安语的[i]元音比蒙古语的舌位偏高且偏后;保安语[u]元音比蒙古语的舌位偏高且偏前;保安语[α]元音比蒙古语的舌位偏低且偏后.保安语的[i]元音比东乡语的舌位偏高且偏前;保安语[u]元音比蒙古语的舌位偏高;保安语[ɑ]元音与蒙古语的舌位有重叠现象.这也验证了前人对于蒙古语族语言之间的研究是有共性的,并且存在不同差别的结论 . 展开更多
关键词 保安语 短元音 声学研究
下载PDF
一种面向藏文聚类的文本建模方法 被引量:1
14
作者 江涛 于洪志 《西北民族大学学报(自然科学版)》 2016年第3期24-28,79,共6页
现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文... 现有的藏文文本聚类算法均采用向量空间模型来进行文本建模.该模型存在向量维度过高和无法表示语义信息的问题.该文根据藏文的语法特性并借鉴主题模型的思想,提出了一种基于词向量的藏文文本建模方法.该方法首先采用最大熵模型进行藏文文本词性标注,选择名词和动词作为文本的特征,然后利用word2vec工具训练得到词语类别并计算其在各文本的概率分布,最终以词类别概率矩阵表示文本,从而实现文本建模.与基于VSM和基于LDA的文本建模方法相比,该方法文本聚类结果的F值分别提高了10.5%和2.4%,聚类效果提升明显. 展开更多
关键词 藏文文本 文本建模 文本聚类 词性标注 词向量
下载PDF
高校教师档案管理综合信息服务平台的开发与思考
15
作者 江静 王燕凤 《兰台内外》 2018年第05Z期63-64,共2页
近些年以来,信息化正在全面融入当前的高校教学,与传统模式相比,建立于信息化之上的新型档案管理将具有独特优势。很多高校已认识到高校教师档案管理综合信息平台在管理教师档案中的价值所在,也在着手改进自身现有的平台开发模式。创建... 近些年以来,信息化正在全面融入当前的高校教学,与传统模式相比,建立于信息化之上的新型档案管理将具有独特优势。很多高校已认识到高校教师档案管理综合信息平台在管理教师档案中的价值所在,也在着手改进自身现有的平台开发模式。创建档案管理综合性平台有助于优化整体上的档案管理实效性,符合管理高校教师档案的宗旨与目标。 展开更多
关键词 信息化 高校教师档案管理 综合信息平台
下载PDF
融合多层次特征的中文语义角色标注 被引量:5
16
作者 王一成 万福成 马宁 《智能系统学报》 CSCD 北大核心 2020年第1期107-113,共7页
随着人工智能和中文信息处理技术的迅猛发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术。在统计机器学习仍占主流的中文信息处理领域,传统的标注方法对句子的句法及语义的解析程... 随着人工智能和中文信息处理技术的迅猛发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术。在统计机器学习仍占主流的中文信息处理领域,传统的标注方法对句子的句法及语义的解析程度依赖较大,因而标注准确率受限较大,已无法满足当前需求。针对上述问题,对基于Bi-LSTM的中文语义角色标注基础模型进行了改进研究,在模型后处理阶段结合了Max pooling技术,训练时融入了词法和句式等多层次的语言学特征,以实现对原有标注模型的深入改进。通过多组实验论证,结合语言学辅助分析,提出针对性的改进方法从而使模型标注准确率得到了显著提升,证明了结合Max pooling技术的Bi-LSTM语义角色标注模型中融入相关语言学特征能够改进模型标注效果。 展开更多
关键词 自然语言处理 语义角色标注 深度学习 Bi-LSTM 语言学特征 后处理层 Max pooling
下载PDF
基于条件随机场的多线索中文语义角色标注 被引量:3
17
作者 王一成 万福成 马宁 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期474-480,共7页
随着人工智能和中文信息处理技术的产业化发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术.针对现有线性标注模型无法满足语义信息技术产业化发展对准确率的需求,提出了采用多层级... 随着人工智能和中文信息处理技术的产业化发展,自然语言处理相关研究已逐步深入到语义理解层次上,而中文语义角色标注则是语义理解领域的核心技术.针对现有线性标注模型无法满足语义信息技术产业化发展对准确率的需求,提出了采用多层级语言学线索组合的模型优化方法.首先,选取综合标注性能优异的条件随机场基准模型,构建相配套的语义角色标注语料库.然后,在模型中融入词法及句式等多层级语言学线索,实现了对模型的多层次优化.最后,通过对比实验各项标注指标,论证了融入的相关语言学线索可以有效增强线性序列模型的标注性能. 展开更多
关键词 自然语言处理 语义角色标注 条件随机场 语言学线索
下载PDF
结合池化技术和特征组的汉语语义角色标注 被引量:2
18
作者 朱傲 万福成 +1 位作者 马宁 车郭怡 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第5期906-912,共7页
利用基于统计机器学习方法进行汉语语义角色标注(Semantic Role Labeling,SRL)存在人工抽取特征工作繁琐低效、模型难以捕捉长句上下文语义信息等问题.对此,提出BiLSTM-MaxPool-CRF融合模型进行汉语SRL,同时进行模型性能优化研究.首先,... 利用基于统计机器学习方法进行汉语语义角色标注(Semantic Role Labeling,SRL)存在人工抽取特征工作繁琐低效、模型难以捕捉长句上下文语义信息等问题.对此,提出BiLSTM-MaxPool-CRF融合模型进行汉语SRL,同时进行模型性能优化研究.首先,在训练语料中融入词性、论元标记、短语句法等多层级语言学特征;然后,结合AvgPool技术对特征组进行采样选取;最后,通过多组实验结果表明,相比于未采样提取的多特征组,经过池化技术采样提取的多特征能够显著提高模型的性能. 展开更多
关键词 汉语语义角色标注 BiLSTM-CRF 池化技术 语言学特征 多特征
下载PDF
结合注意力机制的多策略汉语语义角色标注 被引量:1
19
作者 朱傲 万福成 +1 位作者 马宁 车郭怡 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第6期1019-1023,共5页
语义角色标注旨在标注出句子中所有与谓语相关的语义成分,是进行语义分析的基础和关键技术.使用传统的机器学习方法进行语义角色标注,需要人工设定特征,特征稀疏且工作繁琐沉重,同时传统方法对句法解析精度有较高要求,所以语义角色标注... 语义角色标注旨在标注出句子中所有与谓语相关的语义成分,是进行语义分析的基础和关键技术.使用传统的机器学习方法进行语义角色标注,需要人工设定特征,特征稀疏且工作繁琐沉重,同时传统方法对句法解析精度有较高要求,所以语义角色标注发展缓慢.针对上述情况,采取基于双向长短时记忆(BiLSTM)网络-注意力机制(attention)-条件随机场(CRF)模型进行汉语语义角色标注,同时尝试针对性引入其他资源优化模型性能.在训练阶段,将词性、依存句法特征以及短语结构句法特征组成的多线索特征组共同送入模型.经过多组对照实验论证,相比于BiLSTM-CRF模型,融合注意力机制的模型性能显著提升,并且引入的多线索特征组可以进一步提升模型性能. 展开更多
关键词 汉语语义角色标注 双向长短时记忆 条件随机场 注意力机制 依存句法分析 短语结构句法分析
下载PDF
藏语拉萨话主要元音的声学分析 被引量:2
20
作者 杨柳新 于洪志 《西北民族大学学报(自然科学版)》 2015年第2期51-55,共5页
文章从实验语音学角度对藏语拉萨话元音的声学特征进行了简略探析.主要包括拉萨话五个主要元音(a、i、u、e、o)的共振峰频率、基频时长、声学元音图的数据分析.结果显示:1相对于男生而言,女生在发音时开口度较大,舌头位置较靠后,并且圆... 文章从实验语音学角度对藏语拉萨话元音的声学特征进行了简略探析.主要包括拉萨话五个主要元音(a、i、u、e、o)的共振峰频率、基频时长、声学元音图的数据分析.结果显示:1相对于男生而言,女生在发音时开口度较大,舌头位置较靠后,并且圆唇度也比较高;2从时长平均值来看,元音i的发音时长最长,u则最短.原因跟舌头位置的前后有关;3五个主要元音的开口度与F1呈现出正相关性,表现为a的开口度最大,接着是o、e,i的开口度最小.各元音的圆唇度与F2负相关,即圆唇度随F2的降低而增大,而圆唇度也随着舌位的后移而逐渐提高,表现为a的唇形最圆,舌位最靠后,i则相反. 展开更多
关键词 藏语拉萨话元音 共振峰频率 基频时长 声学元音图
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部