期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
结合LDA与Word2vec的文本语义增强方法 被引量:19
1
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:7
2
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 词向量 共现矩阵 平均上下文词向量
下载PDF
Word2vec的工作原理及应用探究 被引量:100
3
作者 周练 《科技情报开发与经济》 2015年第2期145-148,共4页
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练... 研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。 展开更多
关键词 word2vec 词向量 统计语言模型
下载PDF
基于Word2Vec的SCI地址字段数据清洗方法研究 被引量:15
4
作者 孙源 《情报杂志》 CSSCI 北大核心 2019年第2期195-200,共6页
[目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清... [目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清洗的目的。[方法/过程]首先,对SCI地址字段的数据进行预处理,按照规律将地址字段的信息构建成专有名词。然后,引入Word2Vec模型训练,利用训练好的模型结合余弦相似度找出与待清洗机构名相似的拼写形式。最后,建立"机构名称映射表"完成清洗。[结果/结论]通过实证分析发现,第一,在相同阈值下,该方法针对机构的识别准确要比传统字符匹配的方法要高。第二,在机构名变体与缩写的识别能力上有较好的表现。第三,该方法的运算速度是传统字符匹配算法的近40倍。Word2Vec词向量模型在数据清洗中有一定应用价值,能够根据SCI地址字段的上下文信息,清洗出指定机构名称的形似、变体和缩写机构名,从而达到数据规范化的目的。 展开更多
关键词 数据清洗 word2vec 词向量模型 SCI地址字段
下载PDF
DNA序列新特征的提取方法及其在重组位点识别中的应用
5
作者 程丽荣 赵熙强 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期59-64,共6页
为提升重组位点识别的预测性能,本文提出了一种新的特征提取方法来识别重组位点。分别利用Word2Vec模型编码的3-gram向量和DNA特性获得两组表示DNA序列的新特征,与已有的特征(FastText模型获取)进行组合来表示DNA序列,使用支持向量机为... 为提升重组位点识别的预测性能,本文提出了一种新的特征提取方法来识别重组位点。分别利用Word2Vec模型编码的3-gram向量和DNA特性获得两组表示DNA序列的新特征,与已有的特征(FastText模型获取)进行组合来表示DNA序列,使用支持向量机为分类算法,在基准数据集上进行5倍交叉验证。研究表明,本文提出的方法在识别重组位点方面获得了93.88%的敏感性、95.08%的特异性、94.54%的准确率和0.8902的马修斯相关系数,以上指标均优于现有的方法,本文所提出的方法为解决生物学的序列信息提取问题提供了一种新思路。 展开更多
关键词 DNA序列 重组位点 word2vec模型 词向量 3-gram 二核苷酸属性 支持向量机
下载PDF
融合Word2vec与TextRank的关键词抽取研究 被引量:66
6
作者 宁建飞 刘降珍 《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之... 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 展开更多
关键词 抽取 word2vec TextRank 图模型 词向量
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部