期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于图神经网络的姓名消歧算法
1
作者 汤哲冲 方志坚 贾子杰 《智能计算机与应用》 2024年第3期54-60,共7页
由于语言的不同,中国作者在发表外文文献时很容易出现作者重名的问题,导致许多重名学者发表的学术文献无法很好地区分开来。针对这一问题,本文提出了一种基于图神经网络的姓名消歧算法,解决外文文献中的中国作者同名问题。首先,基于待... 由于语言的不同,中国作者在发表外文文献时很容易出现作者重名的问题,导致许多重名学者发表的学术文献无法很好地区分开来。针对这一问题,本文提出了一种基于图神经网络的姓名消歧算法,解决外文文献中的中国作者同名问题。首先,基于待消歧文献的属性特征及其关系构建异质学术关系网络,对文献进行表示学习;然后再进行聚类消歧。由于文献属性特征之间具有强关联性,本文在原有文献关系的基础上引入了消歧特征对来丰富节点关系类型。实验结果表明,本文提出算法的性能明显优于其他对比方法,有更好的消歧性能。 展开更多
关键词 姓名 异质学术关系网络 消歧特征对
下载PDF
融合k均值聚类与LSTM网络的半监督词义消歧 被引量:5
2
作者 张春祥 周雪松 +1 位作者 高雪瑶 刘欢 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2021年第6期161-171,共11页
一词多义是自然语言所固有的特性。词义消歧是根据上下文来确定歧义词汇的含义,是自然语言处理领域中的一项关键技术。目前,词义消歧被广泛地应用于机器翻译、信息检索和文本分类之中。为了提高词义消歧的准确率,提出了一种结合k均值聚... 一词多义是自然语言所固有的特性。词义消歧是根据上下文来确定歧义词汇的含义,是自然语言处理领域中的一项关键技术。目前,词义消歧被广泛地应用于机器翻译、信息检索和文本分类之中。为了提高词义消歧的准确率,提出了一种结合k均值聚类与长短期记忆网络的半监督词义消歧方法。以歧义词汇为中心,选取左右两个邻接词汇单元,形成大小为4的词窗。从词窗中选取词形和语义类作为聚类特征,利用k均值聚类方法对无标注语料进行聚类。将聚类得到的语料加入SemEval-2007:Task#5的训练语料中,以扩充训练语料的规模。从词窗中选取词形、词性、语义类、英文译文和消歧距离作为消歧特征,使用长短期记忆网络来确定歧义词汇的语义类别。利用扩充后的训练语料来优化长短期记忆网络的参数。使用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试。通过实验分析了隐藏层数和训练语料规模对词义消歧的影响。实验结果表明:相对于贝叶斯分类器和深度信念网络而言,所提出的方法能够提高词义消歧的准确率。 展开更多
关键词 词义 K均值聚类 长短期记忆网络 聚类特征 特征
下载PDF
句法信息指导的汉语词义消歧
3
作者 张春祥 栾博 +1 位作者 高雪瑶 卢志茂 《计算机工程与应用》 CSCD 北大核心 2015年第5期142-145,共4页
词义消歧要解决如何让计算机理解多义词在上下文中的具体含义,对信息检索、机器翻译、文本分类和自动文摘等自然语言处理问题有着十分重要的作用。通过引入句法信息,提出了一种新的词义消歧方法。构造歧义词汇上下文的句法树,提取句法... 词义消歧要解决如何让计算机理解多义词在上下文中的具体含义,对信息检索、机器翻译、文本分类和自动文摘等自然语言处理问题有着十分重要的作用。通过引入句法信息,提出了一种新的词义消歧方法。构造歧义词汇上下文的句法树,提取句法信息、词性信息和词形信息作为消歧特征。利用贝叶斯模型来建立词义消歧分类器,并将其应用到测试数据集上。实验结果表明:消歧的准确率有所提升,达到了65%。 展开更多
关键词 词义 句法信息 特征 贝叶斯模型
下载PDF
半监督卷积神经网络的词义消歧
4
作者 张春祥 唐利波 高雪瑶 《西南交通大学学报》 EI CSCD 北大核心 2022年第1期11-17,27,共8页
为了解决有标签语料获取困难的问题,提出了一种半监督学习的卷积神经网络(convolutional neural networks,CNN)汉语词义消歧方法.首先,提取歧义词左右各2个词汇单元的词形、词性和语义类作为消歧特征,利用词向量工具将消歧特征向量化;然... 为了解决有标签语料获取困难的问题,提出了一种半监督学习的卷积神经网络(convolutional neural networks,CNN)汉语词义消歧方法.首先,提取歧义词左右各2个词汇单元的词形、词性和语义类作为消歧特征,利用词向量工具将消歧特征向量化;然后,对有标签语料进行预处理,获取初始化聚类中心和阈值,同时,使用有标签语料对卷积神经网络消歧模型进行训练,利用优化后的卷积神经网络对无标签语料进行语义分类,选取满足阈值条件的高置信度语料添加到训练语料之中,不断重复上述过程,直到训练语料不再扩大为止;最后,使用SemEval-2007:Task#5作为有标签语料,使用哈尔滨工业大学无标注语料作为无标签语料进行实验.实验结果表明:所提出方法使CNN的消歧准确率提高了3.1%. 展开更多
关键词 半监督学习 卷积神经网络 词义 特征 词向量工具
下载PDF
一种融合ACNN和Bi-LSTM半监督缩略语消歧方法
5
作者 张春祥 逄淑阳 高雪瑶 《哈尔滨理工大学学报》 CAS 北大核心 2022年第5期30-37,共8页
为了提高生物医学缩略语的消歧准确率,提出了一种融合ACNN和Bi-LSTM半监督缩略语消歧方法。以缩略语为中心,提取左右4个邻接词汇单元的词形信息、词性信息和语义信息作为消歧特征。使用Xgboost算法和LightGBM算法扩充训练语料,将扩充完... 为了提高生物医学缩略语的消歧准确率,提出了一种融合ACNN和Bi-LSTM半监督缩略语消歧方法。以缩略语为中心,提取左右4个邻接词汇单元的词形信息、词性信息和语义信息作为消歧特征。使用Xgboost算法和LightGBM算法扩充训练语料,将扩充完的训练语料输入到这个模型中,使用非对称卷积神经网络(asymmetric convolutional neural networks,ACNN)和双向长短期记忆网络(bidirectional long short-term memory,Bi-LSTM)来提取特征,使用softmax函数进行语义分类。使用MSH语料来优化该模型并测试其消歧性能,实验结果表明:本文所提出模型只需使用少量的有标注语料,可以有效的提高缩略语消歧准确率。 展开更多
关键词 缩略语 Xgboost LightGBM 特征 非对称卷积神经网络 双向长短期记忆网络
下载PDF
结合词形词性和译文的汉语词义消歧 被引量:2
6
作者 张春祥 赵凌云 高雪瑶 《哈尔滨理工大学学报》 CAS 北大核心 2020年第3期131-136,共6页
针对汉语中存在的词汇歧义问题,根据左右邻接词汇的词形、词性和译文信息,采用卷积神经网络(convolution neural network,CNN)来确定它的真实含义。选取歧义词汇的消歧词窗,共包含两个邻接词汇单元,抽取其词形、词性和译文作为消歧特征... 针对汉语中存在的词汇歧义问题,根据左右邻接词汇的词形、词性和译文信息,采用卷积神经网络(convolution neural network,CNN)来确定它的真实含义。选取歧义词汇的消歧词窗,共包含两个邻接词汇单元,抽取其词形、词性和译文作为消歧特征。以消歧特征为基础,结合卷积神经网络来构建词义消歧分类器。利用SemEval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料来优化CNN的参数。采用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试。实验结果表明:相对于贝叶斯(Bayes)模型和BP神经网络(BP neural network)而言,本文所提出方法的消歧平均准确率分别提高了14.94%和6.9%。 展开更多
关键词 词汇 卷积神经网络 词汇单元 特征 词义
下载PDF
一种受限玻尔兹曼机的词义消歧方法 被引量:2
7
作者 张春祥 李海瑞 高雪瑶 《哈尔滨理工大学学报》 CAS 北大核心 2019年第5期116-121,共6页
针对汉语一词多义现象,根据上下文所蕴含的语言学知识,采用受限玻尔兹曼机(restricted boltzmann machine,RBM)来确定歧义词汇的真实含义。选取歧义词汇左右邻接的四个词单元中的词形、词性和语义类作为消歧特征。同时,使用RBM来构建词... 针对汉语一词多义现象,根据上下文所蕴含的语言学知识,采用受限玻尔兹曼机(restricted boltzmann machine,RBM)来确定歧义词汇的真实含义。选取歧义词汇左右邻接的四个词单元中的词形、词性和语义类作为消歧特征。同时,使用RBM来构建词义消歧模型。结合SemEval-2007:Task#5的训练语料和哈尔滨工业大学的语义标注语料来优化RBM的参数。利用SemEval-2007:Task#5的测试语料对词义消歧模型进行测试。实验结果表明:相对于贝叶斯词义消歧分类器而言,受限玻尔兹曼机词义消歧方法的消歧准确率有所提高。 展开更多
关键词 受限玻尔兹曼机 特征 词义 训练语料
下载PDF
基于半监督集成学习的词义消歧 被引量:1
8
作者 张春祥 熊经钊 高雪瑶 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2020年第8期1216-1222,共7页
为了解决自然语言中的一词多义问题,本文提出了半监督集成的词义消歧方法。以歧义词左右4个邻接词汇单元的词形、词性和语义类作为消歧特征,利用逻辑回归模型、梯度提升决策树和支持向量机来确定其含义。采用软投票策略融合3个基本分类... 为了解决自然语言中的一词多义问题,本文提出了半监督集成的词义消歧方法。以歧义词左右4个邻接词汇单元的词形、词性和语义类作为消歧特征,利用逻辑回归模型、梯度提升决策树和支持向量机来确定其含义。采用软投票策略融合3个基本分类器获得集成词义消歧模型。以少量人工语义标注语料为基础,结合大量无标注语料,使用半监督学习方法来提高集成词义消歧模型的性能。使用SemEval-2007:Task#5的测试语料来度量词义消歧的性能。实验结果表明:所提出方法的平均准确率达到了72.80%,词义消歧的性能有所提升。本文提出方法能够降低人工标注语料的规模,提高词义消歧准确率。 展开更多
关键词 词义 特征 逻辑回归 梯度提升决策树 支持向量机 软投票 基本分类器
下载PDF
一种循环神经网络的词义消歧方法 被引量:1
9
作者 张春祥 周雪松 高雪瑶 《哈尔滨理工大学学报》 CAS 北大核心 2020年第1期80-85,共6页
词义消歧是自然语言处理领域中的一个重要研究问题。针对汉语一词多义现象,结合上下文语境,采用循环神经网络(Recurrent Netural Networks,RNN)来确定歧义词汇的真实含义。以目标歧义词汇为中心,提取其左右4个邻接的词汇单元。从中抽取... 词义消歧是自然语言处理领域中的一个重要研究问题。针对汉语一词多义现象,结合上下文语境,采用循环神经网络(Recurrent Netural Networks,RNN)来确定歧义词汇的真实含义。以目标歧义词汇为中心,提取其左右4个邻接的词汇单元。从中抽取词形、词性和语义类作为消歧特征。以消歧特征为基础,结合循环神经网络来构建词义消歧分类器。利用SemEval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料来优化RNN的参数。使用SemEval-2007:Task#5的测试语料对词义消歧分类器进行测试。实验结果表明:所提出的方法能够提高词义消歧的准确率。 展开更多
关键词 词义 自然语言处理 循环神经网络 特征
下载PDF
一种消歧框架信息技术研究
10
作者 刘金辉 《数字技术与应用》 2016年第7期92-92,共1页
随着互联网上海量文本的涌现,自动文本处理已经成为一项重要的研究课题。为了正确地处理汉语文本,必须对其中的歧义词汇进行消歧。本文给出了一种基于多种语言学知识的词义消歧框架。结合《同义词词林》,抽取歧义词汇的上下文中的多种... 随着互联网上海量文本的涌现,自动文本处理已经成为一项重要的研究课题。为了正确地处理汉语文本,必须对其中的歧义词汇进行消歧。本文给出了一种基于多种语言学知识的词义消歧框架。结合《同义词词林》,抽取歧义词汇的上下文中的多种语言学知识作为消歧特征,使用贝叶斯模型来确定它的语义。同时,将自动消歧结果应用于检索引擎、机器翻译系统和文语转换系统。 展开更多
关键词 义词汇 词义 上下文 特征 贝叶斯模型
下载PDF
多特征融合的中文命名实体链接方法研究 被引量:6
11
作者 林泽斐 欧石燕 《情报学报》 CSSCI CSCD 北大核心 2019年第1期68-78,共11页
命名实体链接是利用知识库进行命名实体消歧,将文本中的实体指称映射至知识库中正确义项的一种方法。现有的命名实体链接研究与实践多利用维基百科实现西文实体的消歧,缺乏对中文命名实体消歧的研究。本文以百度百科作为基础知识库,提... 命名实体链接是利用知识库进行命名实体消歧,将文本中的实体指称映射至知识库中正确义项的一种方法。现有的命名实体链接研究与实践多利用维基百科实现西文实体的消歧,缺乏对中文命名实体消歧的研究。本文以百度百科作为基础知识库,提出了一种中文命名实体链接方法,该方法融合了单实体消歧和多实体消歧特征,并根据不同文本长度选用不同的特征组合,同时,在传统一阶段式消歧的基础上添加了第二阶段消歧以改善消歧结果。在真实中文语料上的实验表明,多特征叠加和两段式消歧可较大程度地提升消歧准确率。对比实验显示,本文提出的命名实体链接方法的总体性能优于当前主流同类系统的水平。 展开更多
关键词 命名实体链接 命名实体 特征 自然语言处理
下载PDF
结合词典释义基于BERT的汉语词义消歧
12
作者 唐忠 李勇 《电脑知识与技术》 2024年第21期15-17,35,共4页
词义消歧是自然语言处理中至关重要的任务,直接影响诸如机器翻译和文本分类等下游任务的性能,对于进一步的句法和语法研究也具有重要意义。为提高准确率,本研究提出了一种结合词典释义的消歧模型。该模型从词典词条释义中提取词性和例句... 词义消歧是自然语言处理中至关重要的任务,直接影响诸如机器翻译和文本分类等下游任务的性能,对于进一步的句法和语法研究也具有重要意义。为提高准确率,本研究提出了一种结合词典释义的消歧模型。该模型从词典词条释义中提取词性和例句,对待消歧句进行句法分析,得到待消歧词和句中其他成分的句法关系作为特征。随后利用BERT来确定歧义词的正确义项。利用SemEval-2007:Task#5语料测试模型,结果表明该方法的词义消歧平均准确率有所提升。 展开更多
关键词 词义 BERT 特征 词典释义 句法关系
下载PDF
基于卷积神经网络的词义消歧 被引量:3
13
作者 张春祥 赵凌云 高雪瑶 《北京邮电大学学报》 EI CAS CSCD 北大核心 2019年第3期114-119,共6页
为了提高词义消歧性能,提出了一种基于卷积神经网络的消歧方法.以歧义词为中心,向左右两侧连续扩展4个邻接词汇单元,选取其中的词形、词性和语义类作为消歧特征.以消歧特征为基础,使用卷积神经网络来确定歧义词的语义类别.利用Sem Eval-... 为了提高词义消歧性能,提出了一种基于卷积神经网络的消歧方法.以歧义词为中心,向左右两侧连续扩展4个邻接词汇单元,选取其中的词形、词性和语义类作为消歧特征.以消歧特征为基础,使用卷积神经网络来确定歧义词的语义类别.利用Sem Eval-2007:Task#5的训练语料和哈尔滨工业大学语义标注语料来优化卷积神经网络.使用Sem Eval-2007:Task#5的测试语料来测试词义消歧分类器的性能,所提方法的消歧平均准确率有提高.实验结果表明,该方法在词义消歧中是可行的. 展开更多
关键词 词义 卷积神经网络 特征 语义类别
原文传递
一种基于维基百科的中文短文本分类算法 被引量:16
14
作者 赵辉 刘怀亮 《图书情报工作》 CSSCI 北大核心 2013年第11期120-124,共5页
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间... 为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。 展开更多
关键词 短文本分类 维基百科词义特征扩展
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部