期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
基于多源信息融合的分布式词表示学习 被引量:4
1
作者 冶忠林 赵海兴 +1 位作者 张科 朱宇 《中文信息学报》 CSCD 北大核心 2019年第10期18-30,共13页
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)... 分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3)互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进:(1)通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联;(2)通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分;(3)通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离;(4)通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。 展开更多
关键词 词表示学习 词表示 嵌入 向量 特征学习
下载PDF
基于描述约束的词表示学习 被引量:3
2
作者 冶忠林 赵海兴 +1 位作者 张科 朱宇 《中文信息学报》 CSCD 北大核心 2019年第4期29-36,共8页
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的... 词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。 展开更多
关键词 词表示学习 语义嵌入 词表示联合模型 嵌入 语结构矩阵
下载PDF
基于词表示方法的生物医学命名实体识别 被引量:19
3
作者 李丽双 何红磊 +1 位作者 刘珊珊 黄德根 《小型微型计算机系统》 CSCD 北大核心 2016年第2期302-307,共6页
生物医学命名实体识别是生物医学信息抽取的前提.目前实体识别大多采用机器学习的方法,依靠人工根据领域知识和经验制定特征,需要反复实验进行相应的特征选择,并且这些特征很少使用深层次的语义信息.为了探究语义信息对命名实体识别的影... 生物医学命名实体识别是生物医学信息抽取的前提.目前实体识别大多采用机器学习的方法,依靠人工根据领域知识和经验制定特征,需要反复实验进行相应的特征选择,并且这些特征很少使用深层次的语义信息.为了探究语义信息对命名实体识别的影响,本文尝试在大规模未标注数据上进行训练,自动获得语义信息,得到三种词表示方法:词向量、基于词向量的聚类和布朗聚类.将其作为CRF和SVM的特征进行半监督学习,并在相同条件下进行对比实验.实验结果表明,词表示方法能有效地学习到潜在的语义信息,从而提高现有基于机器学习系统的性能.在未利用词典等任何外部资源的情况下,公共评测语料Bio Creative II GM上的实验结果为:精确率、召回率、F值分别达到91.24%、85.80%、88.44%. 展开更多
关键词 半监督 词表示 聚类 实体识别
下载PDF
利用词表示和深层神经网络抽取蛋白质关系 被引量:4
4
作者 李丽双 蒋振超 +1 位作者 万佳 黄德根 《中文信息学报》 CSCD 北大核心 2017年第1期31-40,共10页
蛋白质关系抽取是生物医学信息抽取领域的重要分支。目前研究中,基于特征和核函数方法的蛋白质关系抽取已被充分研究,并且达到了很高的F-值,通过改进特征和核函数进一步优化实例表示变得十分困难。该文结合词表示和深层神经网络,提出了... 蛋白质关系抽取是生物医学信息抽取领域的重要分支。目前研究中,基于特征和核函数方法的蛋白质关系抽取已被充分研究,并且达到了很高的F-值,通过改进特征和核函数进一步优化实例表示变得十分困难。该文结合词表示和深层神经网络,提出了一种实例表示模型。该模型能够充分利用词表示的语义表示能力和深层神经网络的表示优化能力;同时引入主成分分析和特征选择进行特征优化,并且通过比较多种传统的分类器,寻找适合蛋白质关系抽取的分类器。该方法在AIMed语料、BioInfer语料和HPRD50语料上的F-值分别取得了70.5%、82.2%和80.0%,在蛋白质关系抽取任务上达到了目前最好的抽取水平。 展开更多
关键词 蛋白质关系抽取 词表示 深层神经网络
下载PDF
基于免疫原理词表示的词相似度计算
5
作者 杨锦锋 关毅 《智能计算机与应用》 2015年第3期61-64,共4页
词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法,其基本思路是从语料中学习词的向量表示,基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度... 词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法,其基本思路是从语料中学习词的向量表示,基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度计算方法,并在Sem Eval 2012 Task 4数据上进行了验证并和其他方法进行比较,实验表明本文的方法是有效的,并且优于大多数比较系统。 展开更多
关键词 相似度 词表示 免疫原理 分布式语义假设
下载PDF
基于细粒度词表示的命名实体识别研究 被引量:15
6
作者 林广和 张绍武 林鸿飞 《中文信息学报》 CSCD 北大核心 2018年第11期62-71,78,共11页
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文... 命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。 展开更多
关键词 命名实体识别 端到端模型 字符级词表示模型 注意力机制
下载PDF
基于深层语境词表示与自注意力的生物医学事件抽取 被引量:3
7
作者 魏优 刘茂福 胡慧君 《计算机工程与科学》 CSCD 北大核心 2020年第9期1670-1679,共10页
生物医学事件抽取是生物医学文本信息抽取中最重要的、也是最富有挑战性的任务之一,近年来得到了广泛关注。生物医学事件抽取中最重要的2个子任务为触发词识别和事件要素检测。已有的大部分方法将触发词识别作为分类任务,忽略了句子级... 生物医学事件抽取是生物医学文本信息抽取中最重要的、也是最富有挑战性的任务之一,近年来得到了广泛关注。生物医学事件抽取中最重要的2个子任务为触发词识别和事件要素检测。已有的大部分方法将触发词识别作为分类任务,忽略了句子级标签信息。构建基于长短时记忆神经网络与条件随机场的序列标注模型用于触发词识别,分别将组合字符级词表示的静态预训练词向量和基于预训练语言模型的动态语境词表示作为模型输入;同时,针对事件要素检测任务,充分利用实体以及实体类型特征,提出基于自注意力的多分类模型。最终触发词识别F1值为81.65%,整体事件抽取F1值为60.04%,实验结果表明提出的方法对于生物医学事件抽取是有效的。 展开更多
关键词 生物医学事件抽取 序列标注 语境词表示 自注意力
下载PDF
基于双判别器对抗模型的半监督跨语言词向量表示方法
8
作者 张玉红 植文武 +1 位作者 李培培 胡学钢 《计算机研究与发展》 EI CSCD 北大核心 2023年第9期2127-2136,共10页
跨语言词向量表示旨在利用语言资源丰富的词向量提高语言资源缺乏的词向量表示.已有方法学习2个词向量空间的映射关系进行单词对齐,其中生成对抗网络方法能在不使用对齐字典的条件下获得良好性能.然而,在远语言对上,由于缺乏种子字典的... 跨语言词向量表示旨在利用语言资源丰富的词向量提高语言资源缺乏的词向量表示.已有方法学习2个词向量空间的映射关系进行单词对齐,其中生成对抗网络方法能在不使用对齐字典的条件下获得良好性能.然而,在远语言对上,由于缺乏种子字典的引导,映射关系的学习仅依赖向量空间的全局距离,导致求解的词对存在多种可能,难以准确对齐.为此,提出了基于双判别器对抗的半监督跨语言词向量表示方法.在已有对抗模型基础上,增加一个双向映射共享的、细粒度判别器,形成具有双判别器的对抗模型.此外,引入负样本字典补充预对齐字典,利用细粒度判别器进行半监督对抗学习,消减生成多种词对的可能,提高对齐精度.在2个跨语言数据集上的实验效果表明,提出的方法能有效提升跨语言词向量表示性能. 展开更多
关键词 跨语言 向量表示 对抗训练 双判别器 半监督
下载PDF
单词和字符表示的协同学习
9
作者 刘慧婷 凌超 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第8期122-129,共8页
当前的词嵌入模型多数基于分布假设理论,这类模型将单词作为最基本语义单元,然后利用词的外部上下文信息学习词表示.然而,在类似于汉语的语言中,单词经常由多个字符组成,这些字符包含了丰富的内部信息,同时单词的语义也和这些字符的语... 当前的词嵌入模型多数基于分布假设理论,这类模型将单词作为最基本语义单元,然后利用词的外部上下文信息学习词表示.然而,在类似于汉语的语言中,单词经常由多个字符组成,这些字符包含了丰富的内部信息,同时单词的语义也和这些字符的语义息息相关.考虑到当前常用词模型均忽略了字符信息,文中以中文为例,提出了单词与字符表示的协同学习模型.为了解决汉语中存在的单字符多语义和多字符单语义情况,文中提出了基于多原型的单词协同学习模型,并使用词相似任务和类比推理任务对该模型进行评估.结果显示,文中模型的词表示质量均优于其他词嵌入模型. 展开更多
关键词 词表示 外部上下文 内部信息 协同学习
下载PDF
一种多基元联合训练的藏文词向量表示方法 被引量:3
10
作者 才智杰 才让卓玛 孙茂松 《中文信息学报》 CSCD 北大核心 2020年第5期44-49,共6页
词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理... 词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。 展开更多
关键词 自然语言处理 藏文 神经网络 向量表示
下载PDF
基于分布式词语表示的中文阅读理解 被引量:1
11
作者 张帅 王瑞波 李济洪 《太原师范学院学报(自然科学版)》 2014年第1期32-35,40,共5页
基于山西大学自主开发的中文阅读理解语料库CRCC,根据问句和候选答案句的对应关系,在已有的最大熵模型的10个特征的基础上加入词的分布式实值向量表示的特征,其中分布式词特征分别是问题句和答案句的词对应的分布式实值的向量的最大值... 基于山西大学自主开发的中文阅读理解语料库CRCC,根据问句和候选答案句的对应关系,在已有的最大熵模型的10个特征的基础上加入词的分布式实值向量表示的特征,其中分布式词特征分别是问题句和答案句的词对应的分布式实值的向量的最大值的欧式距离、夹角余弦等特征,主要是用来刻画问题句和答案句的相似程度.实验结果表明,把词的分布式实值表示的向量作为最大熵模型的特征对于测试集上的HumSent准确率的提升是有效的. 展开更多
关键词 阅读理解 分布式词表示 分布式特征
下载PDF
基于高斯分布和汉字组件特征的中文词表示学习
12
作者 易洁 钟茂生 +1 位作者 刘根 王明文 《山东大学学报(理学版)》 CAS CSCD 北大核心 2021年第5期85-91,共7页
使用一种基于密度的分布式嵌入式表示,并给出一种学习高斯分布空间表示的方法,以更好地捕获关于表示及其关系的不确定性,比点积余弦相似度更自然地表达词语的不对称性;同时,针对中文汉字本身特点,将组成汉字的组件即子汉字的语义信息加... 使用一种基于密度的分布式嵌入式表示,并给出一种学习高斯分布空间表示的方法,以更好地捕获关于表示及其关系的不确定性,比点积余弦相似度更自然地表达词语的不对称性;同时,针对中文汉字本身特点,将组成汉字的组件即子汉字的语义信息加入词表示训练。与现有方法对比,该文的模型性能在词语相似度或下游任务等方面有更好的效果,且能更好地表达词语的不确定性。 展开更多
关键词 词表示学习 高斯分布 汉字组件 语义不确定性
原文传递
利用词的分布式表示改进作文跑题检测 被引量:6
13
作者 陈志鹏 陈文亮 朱慕华 《中文信息学报》 CSCD 北大核心 2015年第5期178-184,203,共8页
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种... 作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。 展开更多
关键词 文本相似度 分布式表示 跑题检测 文本表示
下载PDF
英语中表示词的关系的重要手段——介词——评《科林斯英语语法系列第一册:介词》 被引量:2
14
作者 魏跃衡 《外语研究》 2003年第1期76-79,共4页
关键词 英语 表示 《科林斯英语语法系列第一册:介 书评
下载PDF
基于改进词嵌入表示和卷积神经网络的银行智能派单系统的研究 被引量:2
15
作者 刘佳 《工业控制计算机》 2020年第4期101-104,共4页
银行智能派单系统的实现和功能完善,对银行提升客户满意度、提高突发事件处理效率、降低人工处理成本等非常重要。针对现有的基于Word2vec和TextCNN模型的银行智能派单系统进行了改进,针对特征词权重表达性弱,特征词类别及位置区分性弱... 银行智能派单系统的实现和功能完善,对银行提升客户满意度、提高突发事件处理效率、降低人工处理成本等非常重要。针对现有的基于Word2vec和TextCNN模型的银行智能派单系统进行了改进,针对特征词权重表达性弱,特征词类别及位置区分性弱等问题,提出基于改进TF-IDF加权的Word2vec词嵌入表示和卷积神经网络结合的银行智能派单系统:首先利用Word2vec模型得到输入事件单的词嵌入向量;再针对经典TF-IDF方法不具备类别区分性、位置区分性,也没有考虑极端频率特征词代表性的情况,提出改进型TF-IDF算法,计算每个特征词的权重,得到基于改进TF-IDF加权的Word2vec词嵌入表示;最后在卷积神经网络模型中进行训练,通过迭代训练最终得到分类器,利用分类器可对输入事件单信息自动进行系统类别的判断。实验结果表明改进词嵌入表示的银行智能派单系统分类模型的宏查准率、宏查全率、准确率以及宏F1值都得到进一步的提高。 展开更多
关键词 商业银行 运维自动化 嵌入表示 TF-IDF卷积神经网络
下载PDF
一种基于Hownet的词向量表示方法 被引量:11
16
作者 陈洋 罗智勇 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期22-28,共7页
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后... 针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后,根据Hownet中词语与义原之间的定义关系,将词语向量表示视为相关义原所张成的子空间中的投影,并提出学习词向量表示的深度神经网络模型。实验表明,基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。 展开更多
关键词 向量表示 HOWNET 语相似性计算 义消岐
下载PDF
基于词汇迁移的跨语言形态复用
17
作者 刘伍颖 王琳 《中文信息学报》 CSCD 北大核心 2023年第8期18-24,共7页
良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语... 良好结构化语言资源的稀缺导致一些自然语言处理算法无法在低资源语言上获得更高的性能。据此,针对两种语言之间的形态复用科学问题,该文提出一种形态迁移率评估指标用以评估迁移效果,并验证了形态复用在低资源语言的语言资源建设和语义转述应用任务中的有效性。在语言资源建设实验中,该文从马来语语料库提取印尼语多词表示,并从印尼语语料库提取马来语多词表示。在语义转述应用实验中,该文通过马来语资源增强的印尼语-汉语平行句库训练出印尼语-汉语神经机器翻译模型,并通过印尼语资源增强的马来语-汉语平行句库训练出马来语-汉语神经机器翻译模型。实验结果证明,由于同语族的形态同源性和相似性,同语族跨语言形态复用具有很强的可迁移性和可计算性。 展开更多
关键词 形态复用 形态迁移率 低资源语言 词表示提取 神经机器翻译
下载PDF
基于栈式降噪自编码和词嵌入表示的维吾尔语零指代消解
18
作者 秦越 禹龙 +4 位作者 田生伟 冯冠军 吐尔根.依布拉音 艾斯卡尔.艾木都拉 赵建国 《中文信息学报》 CSCD 北大核心 2018年第5期56-64,共9页
针对维吾尔语零指代现象,提出采用栈式降噪自编码的深度学习机制进行维吾尔语零指代消解。首先由大规模无标注维吾尔语语料训练得到富含语义和句法信息的词嵌入表示,将其作为候选先行语和缺省零代词的语义特征;其次根据维吾尔语语言特点... 针对维吾尔语零指代现象,提出采用栈式降噪自编码的深度学习机制进行维吾尔语零指代消解。首先由大规模无标注维吾尔语语料训练得到富含语义和句法信息的词嵌入表示,将其作为候选先行语和缺省零代词的语义特征;其次根据维吾尔语语言特点,抽取14项针对零指代消解任务的手工设计特征;然后融合word embedding特征和14项hand-crafted特征作为栈式降噪自编码的输入,最后经过无监督逐层贪婪的预训练和有监督的微调过程,使用softmax进行分类完成维吾尔语零指代消解任务。实验结果表明,与传统栈式自编码、浅层机器学习的支持向量机和人工神经网络相比,栈式降噪自编码的F值分别提高了4.450%、10.032%和8.140%,实验结果验证了该方法的有效性及栈式降噪自编码在任务中具备挖掘高层面鲁棒性语义特征的优势。 展开更多
关键词 维吾尔语 零指代消解 栈式降噪自编码 嵌入表示
下载PDF
从表示"可能"的词看习得英语词类的重要性
19
作者 罗焕 《海外英语》 2020年第7期228-229,共2页
词类也叫词性,表示英语单词的类别.学生习得英语的词类非常重要,因为词类是学习英语单词和语法的基础,也是提高英语听说读写译能力的基础.英语中表示"可能"的词有形容词、副词、情态动词等不同的类别.要表达同一意思,不同词... 词类也叫词性,表示英语单词的类别.学生习得英语的词类非常重要,因为词类是学习英语单词和语法的基础,也是提高英语听说读写译能力的基础.英语中表示"可能"的词有形容词、副词、情态动词等不同的类别.要表达同一意思,不同词类之间可以进行转换.注意词的转化的英语构词法,这也是一种词类转换的特殊形式.建议学生遵循二语习得理论的"输入假设"理论来积累英语单词的词类,争取达到理解性的输入. 展开更多
关键词 英语 表示"可能"的 重要性 类转换 理解性输入
下载PDF
基于词语关系的词向量模型 被引量:11
20
作者 蒋振超 李丽双 黄德根 《中文信息学报》 CSCD 北大核心 2017年第3期25-31,共7页
词向量能够以向量的形式表示词的意义,近来许多自然语言处理应用中已经融入词向量,将其作为额外特征或者直接输入以提升系统性能。然而,目前的词向量训练模型大多基于浅层的文本信息,没有充分挖掘深层的依存关系。词的词义体现在该词与... 词向量能够以向量的形式表示词的意义,近来许多自然语言处理应用中已经融入词向量,将其作为额外特征或者直接输入以提升系统性能。然而,目前的词向量训练模型大多基于浅层的文本信息,没有充分挖掘深层的依存关系。词的词义体现在该词与其他词产生的关系中,而词语关系包含关联单位、关系类型和关系方向三个属性,因此,该文提出了一种新的基于神经网络的词向量训练模型,它具有三个顶层,分别对应关系的三个属性,更合理地利用词语关系对词向量进行训练,借助大规模未标记文本,利用依存关系和上下文关系来训练词向量。将训练得到的词向量在类比任务和蛋白质关系抽取任务上进行评价,以验证关系模型的有效性。实验表明,与skipgram模型和CBOW模型相比,由关系模型训练得到的词向量能够更准确地表达词语的语义信息。 展开更多
关键词 词表示 嵌入 向量 神经网络 关系模型
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部