期刊文献+
共找到31篇文章
< 1 2 >
每页显示 20 50 100
Application of Word Embedding to Drug Repositioning
1
作者 Duc Luu Ngo Naoki Yamamoto +5 位作者 Vu Anh Tran Ngoc Giang Nguyen Dau Phan Favorisen Rosyking Lumbanraja Mamoru Kubo Kenji Satou 《Journal of Biomedical Science and Engineering》 2016年第1期7-16,共10页
As a key technology of rapid and low-cost drug development, drug repositioning is getting popular. In this study, a text mining approach to the discovery of unknown drug-disease relation was tested. Using a word embed... As a key technology of rapid and low-cost drug development, drug repositioning is getting popular. In this study, a text mining approach to the discovery of unknown drug-disease relation was tested. Using a word embedding algorithm, senses of over 1.7 million words were well represented in sufficiently short feature vectors. Through various analysis including clustering and classification, feasibility of our approach was tested. Finally, our trained classification model achieved 87.6% accuracy in the prediction of drug-disease relation in cancer treatment and succeeded in discovering novel drug-disease relations that were actually reported in recent studies. 展开更多
关键词 distributed representation of word Sense Discovery of Drug-Disease Relation word Analogy
下载PDF
基于神经网络的定值名称智能比对方法
2
作者 曹海欧 崔玉 +4 位作者 易新 李萍 朱鹏宇 李金铄 戴志辉 《现代电力》 北大核心 2023年第4期587-595,共9页
保护定值的正确性对充分发挥继电保护系统的作用至关重要,但目前定值比对仍采用人工方式,工作量大、时间长且结果正确性无法保证。对此,梳理了定值名称的命名特点,提出了一种基于神经网络的继电保护定值名称智能比对方法。首先进行文本... 保护定值的正确性对充分发挥继电保护系统的作用至关重要,但目前定值比对仍采用人工方式,工作量大、时间长且结果正确性无法保证。对此,梳理了定值名称的命名特点,提出了一种基于神经网络的继电保护定值名称智能比对方法。首先进行文本预处理,然后将预处理后的定值文本向量化,最后使用双向长短时记忆(bi-directional long short-term memory,Bi-LSTM)神经网络计算定值名称语义特征向量相似度。算例表明,基于神经网络的定值名称智能比对方法能有效完成定值单和运行定值名称的匹配,且神经网络比模糊匹配处理定值名称匹配问题准确率更高,速度更快。 展开更多
关键词 定值名称 文本相似度 双向长短时记忆(Bi-LSTM) 分布式表示 词向量
下载PDF
基于词分布式表征的汉语框架排歧模型 被引量:7
3
作者 张力文 王瑞波 +1 位作者 李茹 张晟 《中文信息学报》 CSCD 北大核心 2017年第6期50-57,共8页
框架排歧是根据句子中目标词的上下文语境,从框架库中为该目标词自动选择一个合适的框架。该任务在一定程度上解决了动词中一词多义的现象。该文基于词语及句子的分布式表征,提出了基于距离和基于词语相似度矩阵的框架排歧模型。与传统... 框架排歧是根据句子中目标词的上下文语境,从框架库中为该目标词自动选择一个合适的框架。该任务在一定程度上解决了动词中一词多义的现象。该文基于词语及句子的分布式表征,提出了基于距离和基于词语相似度矩阵的框架排歧模型。与传统方法相比,该模型有效避免了人工选择特征,克服了特征空间维度过高、特征之间没有关联性等缺点,使框架排歧的准确率达到65.71%。并与当前最好的模型,进行显著性和一致性检验,进一步验证了词分布式表征对框架排歧任务的有效性。 展开更多
关键词 汉语框架 框架排歧 分布式表征
下载PDF
利用词的分布式表示改进作文跑题检测 被引量:6
4
作者 陈志鹏 陈文亮 朱慕华 《中文信息学报》 CSCD 北大核心 2015年第5期178-184,203,共8页
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种... 作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型),而没有利用词项的语义信息。该文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似的词加入到文本表示中,实现文本中单词的扩展。然后对扩展后的文本计算相似度。该文将这种方法运用到英文作文的跑题检测中,构建一套跑题检测系统,并在一个真实数据中进行测试。实验结果表明该文的跑题检测系统能有效识别跑题作文,性能明显高于基准系统。 展开更多
关键词 文本相似度 词分布式表示 跑题检测 文本表示
下载PDF
不规则文本中商品名称识别的特征选择 被引量:3
5
作者 杨美妮 何涛 +1 位作者 沈静 张建军 《计算机工程与科学》 CSCD 北大核心 2016年第10期2153-2157,共5页
传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解... 传统的命名实体识别任务多见于人名、地名、机构名这些普通的命名实体,且大多采用规则文本进行研究。随着电子商务和互联网广告的不断发展,如何从用户的各种不规则的上下文信息中自动识别出商品名称这一特殊的命名实体成为了一个需要解决的问题。为了解决这一问题,建立了一个最大熵模型用于识别论坛发帖这种不规则文本中的商品名称,并探讨了多种特征对于识别效果的影响。这些特征不仅包括传统命名实体识别方法中所使用的局部特征和布朗聚类特征,还包括词的分布式表示这种比较新颖的特征。这些特征按照各种不同的方式进行组合作为模型的输入。在CPROD01评测数据集上的实验结果表明,布朗聚类特征能够有效地提高商品名称识别系统的准确性。 展开更多
关键词 商品名称 不规则文本 最大熵模型 词的分布式表示
下载PDF
词汇语义变化与社会变迁定量观测与分析 被引量:8
6
作者 刘知远 刘扬 +1 位作者 涂存超 孙茂松 《语言战略研究》 2016年第6期47-54,共8页
随着社会的发展和科技的进步,人们交流的内容与方式发生着翻天覆地的变化,交流所使用的词汇和语义也发生了显著变化。在过去的研究中,研究者主要通过词汇的使用频度变化来观测和分析词汇语义的变迁,取得了很多重要发现。但是这些词频统... 随着社会的发展和科技的进步,人们交流的内容与方式发生着翻天覆地的变化,交流所使用的词汇和语义也发生了显著变化。在过去的研究中,研究者主要通过词汇的使用频度变化来观测和分析词汇语义的变迁,取得了很多重要发现。但是这些词频统计方法无法考虑词汇的语义内涵。为了更精确地捕获词汇语义变化及其反映的社会变迁,我们利用分布式词表示方法,提出将词汇的多个词义用不同的低维向量表示。利用该方法,研究者可以根据词义使用频度的变化情况,定量观测与分析词义变化与社会变迁。这将为语言演化、社会语言学乃至语言规划研究提供重要量化工具。 展开更多
关键词 词汇语义 社会变迁 时序信息 分布式表示 词向量
下载PDF
基于双编码器的短文本自动摘要方法 被引量:4
7
作者 丁建立 李洋 王家亮 《计算机应用》 CSCD 北大核心 2019年第12期3476-3481,共6页
针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解... 针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解码器进行了优化研究;然后,在词嵌入生成技术中融合位置嵌入和词嵌入,并新增词频-逆文档频率(TF-IDF)、词性(POS)、关键性得分(Soc),优化词嵌入维度。所提方法对传统序列映射Seq2Seq和词特征表示进行优化,在增强模型对语义的理解的同时,提高了摘要的质量。实验结果表明,该方法在Rouge评价体系中的表现相比传统伴随自注意力机制的递归神经网络方法(RNN+atten)和多层双向伴随自注意力机制的递归神经网络方法(Bi-MulRNN+atten)提高10~13个百分点,其文本摘要语义理解更加准确、生成效果更好,拥有更好的应用前景。 展开更多
关键词 生成式文本摘要 序列映射(Seq2Seq) 双编码器 经验分布 词特征表示
下载PDF
基于共现的汉语词的分布表示学习与改进 被引量:1
8
作者 曹学飞 牛倩 +2 位作者 王瑞波 王钰 李济洪 《计算机科学》 CSCD 北大核心 2021年第6期222-226,共5页
词与其上下文的共现矩阵是词的分布表示学习的关键。在构造共现矩阵时,可采用不同方法来度量词与其上下文之间的关联。文中首先介绍了3种词与其上下文的关联度量方法并构造了相应的共现矩阵,使用同一个优化求解框架学习得到词的分布表示... 词与其上下文的共现矩阵是词的分布表示学习的关键。在构造共现矩阵时,可采用不同方法来度量词与其上下文之间的关联。文中首先介绍了3种词与其上下文的关联度量方法并构造了相应的共现矩阵,使用同一个优化求解框架学习得到词的分布表示,在中文词语类比任务和语义相似性任务上的评价结果显示,GloVe方法的结果最好;然后进一步对GloVe方法进行了改进,通过引入一个超参数校正词与其上下文的共现次数,以使校正后的共现次数近似服从Zip’f分布,并给出了求解该超参数估计值的方法。基于改进后的方法学习得到的词的分布表示在词语类比任务上的准确率提高了0.67%,且在McNemar检验下是显著的;在词语相似性任务上的性能提高了5.6%。此外,将改进后的方法得到的词的分布表示应用到语义角色识别任务中,作为词特征的初始向量得到的F1值相比使用改进前的词的分布得到的F1值也提高了0.15%,且经3×2交叉验证的Bayes检验其提升也较为显著。 展开更多
关键词 分布表示 共现 词语类比 词语相似性 Zip’f分布
下载PDF
基于跨语言语料的汉泰词分布表示 被引量:2
9
作者 张金鹏 周兰江 +2 位作者 线岩团 余正涛 何思兰 《计算机工程与科学》 CSCD 北大核心 2015年第12期2358-2365,共8页
词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习... 词汇的表示问题是自然语言处理的基础研究内容。目前单语词汇分布表示已经在一些自然语言处理问题上取得很好的应用效果,然而在跨语言词汇的分布表示上国内外研究很少,针对这个问题,利用两种语言名词、动词分布的相似性,通过弱监督学习扩展等方式在中文语料中嵌入泰语的互译词、同类词、上义词等,学习出泰语词在汉泰跨语言环境下的分布。实验基于学习到的跨语言词汇分布表示应用于双语文本相似度计算和汉泰混合语料集文本分类,均取得较好效果。 展开更多
关键词 弱监督学习扩展 跨语言语料 跨语言词汇分布表示 神经概率语言模型
下载PDF
分布式单词表示综述 被引量:7
10
作者 孙飞 郭嘉丰 +2 位作者 兰艳艳 徐君 程学旗 《计算机学报》 EI CSCD 北大核心 2019年第7期1605-1625,共21页
单词表示作为自然语言处理的基本问题,一直广受关注.传统的独热表示丢失了单词间的语义关联,因而在实际使用中易受数据稀疏问题困扰.而分布式表示通过将单词表示为低维稠密实数向量,捕捉单词间的关联信息.该表示方式可在低维空间中高效... 单词表示作为自然语言处理的基本问题,一直广受关注.传统的独热表示丢失了单词间的语义关联,因而在实际使用中易受数据稀疏问题困扰.而分布式表示通过将单词表示为低维稠密实数向量,捕捉单词间的关联信息.该表示方式可在低维空间中高效计算单词间的语义关联,有效解决数据稀疏问题.作为神经网络模型的基本输入,单词分布式表示伴随着深度学习被广泛应用于自然语言处理领域的方方面面.从早期的隐式语义分析,到最近的神经网络模型,研究人员提出了各种各样的模型来学习单词的分布式表示.本文梳理了单词分布式表示学习的发展脉络,并从模型利用上下文入手,将这些模型统一在分布语义假设框架下,它们的区别只在于建模了单词不同的上下文.以隐式语义分析为代表的话题模型,利用文档作为上下文,建模了单词间的横向组合关系;以神经网络语言模型为代表的工作,则利用单词周围单词作为上下文,建模了单词间的纵向聚合关系.此外,本文还总结了单词分布式表示目前面临的主要挑战,包括多义词的表示、稀缺单词表示学习、细粒度语义建模、单词表示的解释性以及单词表示的评价,并介绍了最新的已有解决方案.最后,本文展望了单词表示未来的发展方向与前景。 展开更多
关键词 单词表示 分布式表示 分布式单词表示 表示学习 深度学习
下载PDF
基于免疫原理词表示的词相似度计算
11
作者 杨锦锋 关毅 《智能计算机与应用》 2015年第3期61-64,共4页
词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法,其基本思路是从语料中学习词的向量表示,基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度... 词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法,其基本思路是从语料中学习词的向量表示,基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度计算方法,并在Sem Eval 2012 Task 4数据上进行了验证并和其他方法进行比较,实验表明本文的方法是有效的,并且优于大多数比较系统。 展开更多
关键词 词相似度 词表示 免疫原理 分布式语义假设
下载PDF
面向中文专利SAO结构抽取的文本特征比较研究 被引量:16
12
作者 饶齐 王裴岩 张桂平 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期349-356,共8页
针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验,分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明,基本的词法信息能... 针对中文专利文本中SAO结构实体关系抽取问题,使用支持向量机的机器学习方法进行关系抽取实验,分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行验证分析。实验结果表明,基本的词法信息能够明显提高关系抽取性能,而句法信息没有显著提高关系抽取效果。此外,也验证了词向量在SAO结构关系抽取中的可行性。 展开更多
关键词 SAO结构 关系抽取 特征有效性 词向量
下载PDF
基于词分布表征的汉语框架排歧研究 被引量:4
13
作者 党帅兵 李国臣 +1 位作者 王瑞波 李济洪 《中北大学学报(自然科学版)》 CAS 北大核心 2015年第3期328-332,337,共6页
框架排歧目的在于根据句子中目标词的上下文环境,从现有的框架库中为该目标词自动标注一个合适的框架.将框架排歧任务看作分类问题,首次将词的低维分布表征信息作为模型特征引入到汉语框架排歧研究中,来探讨仅从词特征出发,不同的特征... 框架排歧目的在于根据句子中目标词的上下文环境,从现有的框架库中为该目标词自动标注一个合适的框架.将框架排歧任务看作分类问题,首次将词的低维分布表征信息作为模型特征引入到汉语框架排歧研究中,来探讨仅从词特征出发,不同的特征表示对框架排歧模型的影响.实验选取了88个词元中2 077条例句为数据集,并将目标词周围的词分布表征信息加入到最大熵算法中进行建模.实验结果表明,使用词分布表征信息的框架排歧模型可以达到58.11%的精度,该结果与传统的仅使用词特征时(47.47%)的结果相比有大幅度提高.这说明词分布表征对汉语框架排歧任务是有重要作用的. 展开更多
关键词 框架排歧 最大熵模型 词分布表征 汉语框架语义知识库
下载PDF
词汇语义表示研究综述 被引量:4
14
作者 袁书寒 向阳 《中文信息学报》 CSCD 北大核心 2016年第5期1-8,27,共9页
构建能够表达语义特征的词语表示形式是自然语言处理的关键问题。该文首先介绍了基于分布假设和基于预测模型的词汇语义表示方法,并给出目前词表示方法的评价指标;进而介绍了基于词汇表示所蕴含的语义信息而产生的新应用;最后,对词汇语... 构建能够表达语义特征的词语表示形式是自然语言处理的关键问题。该文首先介绍了基于分布假设和基于预测模型的词汇语义表示方法,并给出目前词表示方法的评价指标;进而介绍了基于词汇表示所蕴含的语义信息而产生的新应用;最后,对词汇语义表示研究的方法和目前面临的问题进行了分析和展望。 展开更多
关键词 词汇表示 语义 分布假设 深度学习
下载PDF
基于深度学习的领域实体属性词聚类抽取研究 被引量:7
15
作者 苏丰龙 谢庆华 +1 位作者 邱继远 岳振军 《微型机与应用》 2016年第1期53-55,59,共4页
属性词的聚类是领域实体属性抽取中的一个重要步骤。在未知领域和大量文本中,人工标注寻找十分困难。本文将一种基于深度学习框架的词语嵌入表示方法 (Word Embedding)引入到领域实体属性词聚类研究中,在无监督条件下解决大规模语料、... 属性词的聚类是领域实体属性抽取中的一个重要步骤。在未知领域和大量文本中,人工标注寻找十分困难。本文将一种基于深度学习框架的词语嵌入表示方法 (Word Embedding)引入到领域实体属性词聚类研究中,在无监督条件下解决大规模语料、领域实体属性词表人工参与构建代价较高的问题,并进行了适当的扩展,取得了较好的效果,可以为信息抽取等后续高级任务提供较好服务。 展开更多
关键词 词向量 深度学习 词语聚类 属性抽取
下载PDF
基于词向量的微博话题发现方法 被引量:2
16
作者 李帅彬 李亚星 +2 位作者 冯旭鹏 刘利军 黄青松 《计算机应用与软件》 2017年第12期47-52,共6页
针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解... 针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解决微博短文本特征稀疏、高维度问题,同时,能够解决文本语义信息丢失问题;采用改进的Canopy算法对文本进行模糊聚类;对相同Canopy内的数据用K-means算法做精确聚类。实验结果表明,该方法与经典Single-Pass聚类算法相比,话题发现综合指标提高4%,证明了所提方法的有效性和准确性。 展开更多
关键词 话题发现 词向量 短文本 Canopy聚类
下载PDF
基于词的分布式实值表示的汉语基本块识别 被引量:4
17
作者 侯潇琪 王瑞波 李济洪 《中北大学学报(自然科学版)》 CAS 北大核心 2013年第5期582-585,共4页
基于神经语言模型生成汉语词语的实值向量表示,称为词语的分布式表示,相应地以这种分布式表示构造的词特征称为分布式词特征.将这种分布式词特征替换基本块识别任务中所常用的条件随机场模型中的词特征,在清华大学TCT语料上进行了汉语... 基于神经语言模型生成汉语词语的实值向量表示,称为词语的分布式表示,相应地以这种分布式表示构造的词特征称为分布式词特征.将这种分布式词特征替换基本块识别任务中所常用的条件随机场模型中的词特征,在清华大学TCT语料上进行了汉语基本块识别任务实验,结果表明:在仅使用词窗口[-2,2]的词特征的模型中,和使用词窗口[-2,2]+词性特征的模型中,采用分布式词特征比传统的词特征的模型的标记精度分别高38.01%,1.86%,说明词语的分布式表示对汉语基本块识别任务是有作用的. 展开更多
关键词 神经语言模型 分布式词特征 基本块分析 边界识别
下载PDF
基于语义和图的文本聚类算法研究 被引量:2
18
作者 蒋旦 周文乐 朱明 《中文信息学报》 CSCD 北大核心 2016年第5期121-128,共8页
传统的文本聚类往往采用词包模型构建文本向量,忽略了词语间丰富的语义信息。而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开,不能很好地发现人们感兴趣的话题。该文针对传统文本聚类算法的缺点,提出一种基于语义和完全子图... 传统的文本聚类往往采用词包模型构建文本向量,忽略了词语间丰富的语义信息。而基于中心划分的聚类算法,容易将概念相关的自然簇强制分开,不能很好地发现人们感兴趣的话题。该文针对传统文本聚类算法的缺点,提出一种基于语义和完全子图的短文本聚类算法,通过对目前主流的三大语义模型进行了实验和对比,选择了一种较为先进的语义模型,基于该语义模型进行了聚类实验,发现新算法能较好地挖掘句子的语义信息且较传统的K-means有更高的聚类纯度。 展开更多
关键词 文本聚类 完全子图 语义相似度 词向量
下载PDF
融合广告主行为的拍卖词实时触发 被引量:5
19
作者 解忠乾 常笑 姬东鸿 《计算机应用》 CSCD 北大核心 2014年第9期2566-2570,共5页
搜索引擎触发广告的过程中,需要实时计算拍卖词(Bidword)和用户查询(Query)的相关性,广告语境下的Term动态赋权方式和短语商业价值评估成为相关性计算必须考虑的问题。为此引入广告主行为,结合连续词袋模型(CBOW),提出了一种广告语境下... 搜索引擎触发广告的过程中,需要实时计算拍卖词(Bidword)和用户查询(Query)的相关性,广告语境下的Term动态赋权方式和短语商业价值评估成为相关性计算必须考虑的问题。为此引入广告主行为,结合连续词袋模型(CBOW),提出了一种广告语境下的短语相关计算方法 ADPCB。首先通过CBOW模型获得短语中每个Term的向量;然后分析广告主行为,构建关于短语的全局赋权树,对短语结构进行分析得到Term的动态权重;最后将Term权重和向量线性组合产生短语的向量表示,用于Bidword和Query的相关性度量。对10 000对带有标签的Query和Bidword(正负比例1∶1)利用Word2vec进行实验,ADPCB比结合CBOW模型的TF-IDF效果更好;而在准确率达到0.70时,ADPCB比潜在狄利克雷分布(LDA)、BM25和TF-IDF获得了更高的召回率。结果表明ADPCB提高了触发Bidword和Query的相关性,同时可以量化短语中Term的商业价值属性,减少低商业价值Query的广告触发数量,可应用于实时计算的场景。 展开更多
关键词 广告触发 相关性 行为分析 词向量 商业价值
下载PDF
基于长时间跨度语料的词义演变计算研究 被引量:1
20
作者 孙琦鑫 饶高琦 荀恩东 《中文信息学报》 CSCD 北大核心 2020年第8期10-22,共13页
该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及... 该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐,采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和"锚点词"二阶词向量表示三种方法,其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象,采用目标词历时自相似度和锚点词历时相似度的分析方法,并利用近邻词来明确目标词变迁前后的词义。 展开更多
关键词 词义演变 历时语料 分布式表示
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部