期刊文献+
共找到50篇文章
< 1 2 3 >
每页显示 20 50 100
基于Word2Vec的中文文本零水印算法 被引量:1
1
作者 戴夏菁 徐谊程 +1 位作者 王馨娅 佟德宇 《软件工程》 2023年第1期19-23,共5页
经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word... 经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word2Vec生成相应的特征词向量;然后采用SVD(奇异值分解)算法对其进行降维,并结合AES(高级加密标准)加密生成最终的零水印。水印检测时,通过对比SVD分解产生的特征值和特征向量判断版权归属。基于理论概述和实验结果综合分析,文章提出的零水印算法不需要对原始文本做任何修改,能够抵抗一定程度的增删、句型转换、同义词替换等攻击,具有一定的鲁棒性,切实有效地解决了文本的版权保护问题。 展开更多
关键词 word2vec SVD 零水印 中文文本 词向量
下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:20
2
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
一种基于Word2Vec的训练效果优化策略研究 被引量:20
3
作者 王飞 谭新 《计算机应用与软件》 北大核心 2018年第1期97-102,174,共7页
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word... Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。 展开更多
关键词 word2vec 词向量 语义相似度 算法
下载PDF
融入Attention机制改进Word2vec技术的水利水电工程专业词智能提取与分析方法 被引量:20
4
作者 李明超 田丹 +2 位作者 沈扬 Jonathan Shi 韩帅 《水利学报》 EI CSCD 北大核心 2020年第7期816-826,共11页
水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。... 水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。该方法通过组合Attention机制,改进Word2vec技术建立了专业词向量计算模型;根据所求词向量,计算词语间相似度,以词语间相似度为组合标准,组合提取水利水电工程专业词;进而结合已有的水利水电工程专业文本,验证所提取专业词的可信度,实现了水利水电工程专业词的自动提炼,构建了一套水利水电工程专业词智能识别提取与分析体系。该方法应用于实际某混凝土大坝长达229周的施工监理周报文本分析中,经过3轮识别计算与分析,获得了9034个水利水电工程专业词,准确率为87.58%,有效提升了水利水电工程专业文本信息提取分析的效率、准确率与智能化水平。 展开更多
关键词 水利水电工程 专业文本 自然语言处理 词向量 word2vec技术 Attention机制 智能提取
下载PDF
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:7
5
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 词向量 共现矩阵 平均上下文词向量
下载PDF
基于加权word2vec的微博情感分析 被引量:18
6
作者 李锐 张谦 刘嘉勇 《通信技术》 2017年第3期502-506,共5页
随着社交媒体的普及,微博情感分析受到了广大研究者的关注。为解决情感分析中词间语义关系缺失和词汇重要程度被忽略的问题,提出了一种基于加权词向量和支持向量机的情感分析方法,对微博的情感分析问题进行研究。首先用word2vec训练并... 随着社交媒体的普及,微博情感分析受到了广大研究者的关注。为解决情感分析中词间语义关系缺失和词汇重要程度被忽略的问题,提出了一种基于加权词向量和支持向量机的情感分析方法,对微博的情感分析问题进行研究。首先用word2vec训练并计算得到文档词向量;然后根据TFIDF算法计算文档中词汇的权重,对word2vec词向量进行加权;最后,使用SVM对情感数据进行训练和分类。在微博实验数据中,与已有方法相比,所提方法分类准确率和召回率都得到了提高。 展开更多
关键词 情感分析 word2vec 加权词向量 支持向量机
下载PDF
Word2vec的工作原理及应用探究 被引量:100
7
作者 周练 《科技情报开发与经济》 2015年第2期145-148,共4页
研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练... 研究了Word2vec的工作原理及应用,明确了统计语言模型的关键问题,分析了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本原理进行了探讨,对Word2vec词向量训练框架的工作原理进行了详细分析,推导出了训练模型的目标函数,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec应用于中文词向量的训练。 展开更多
关键词 word2vec 词向量 统计语言模型
下载PDF
基于Word2Vec的维吾尔语情感词典扩展研究 被引量:1
8
作者 刘若兰 杨建萍 《信息与电脑》 2022年第14期64-66,共3页
情感词典是情感识别的基础资源,在前期构建维吾尔语情感词典的基础上,基于Word2Vec开展情感词的自动扩展研究。首先,根据维吾尔语情感词的语言特征从搜集的维吾尔语网络语料中提取候选情感词;其次,利用Word2Vec模型训练维文语料,以获取... 情感词典是情感识别的基础资源,在前期构建维吾尔语情感词典的基础上,基于Word2Vec开展情感词的自动扩展研究。首先,根据维吾尔语情感词的语言特征从搜集的维吾尔语网络语料中提取候选情感词;其次,利用Word2Vec模型训练维文语料,以获取词语的向量表示;最后,在此基础上,利用基础情感词典资源和表征语义相似度的向量余弦值算法来判定候选情感词的情感指向。 展开更多
关键词 情感词典 维吾尔语 word2vec 词向量
下载PDF
基于自然语言处理的Word2Vec词向量应用 被引量:11
9
作者 石凤贵 《黑河学院学报》 2020年第7期173-177,共5页
计算机要理解自然语言,首先需要理解词语的语义,要考虑词的同义、近义、词的上下文关系,数字化即转化为词向量,通过计算处理词向量来处理文本。阐述词向量及Word2Vec词模型的特点,Word2Vec是被广泛使用的词向量模型,同时基于《西游记》... 计算机要理解自然语言,首先需要理解词语的语义,要考虑词的同义、近义、词的上下文关系,数字化即转化为词向量,通过计算处理词向量来处理文本。阐述词向量及Word2Vec词模型的特点,Word2Vec是被广泛使用的词向量模型,同时基于《西游记》语料进行应用实现。 展开更多
关键词 自然语言处理 词向量 共现矩阵 word2vec
下载PDF
融合单词贡献度与Word2Vec词向量的文档表示 被引量:15
10
作者 彭俊利 谷雨 +1 位作者 张震 耿小航 《计算机工程》 CAS CSCD 北大核心 2021年第4期62-67,共6页
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值... 针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。 展开更多
关键词 单词贡献度 word2vec词向量 词嵌入 文档表示 文本分类
下载PDF
基于word2vec的中文歌词关键词提取算法 被引量:3
11
作者 蒙晓燕 殷雁君 《内蒙古师范大学学报(自然科学汉文版)》 CAS 2018年第2期137-140,共4页
为了让用户根据歌词内容快速精准地检索音乐,提出一种基于word2vec的中文歌词关键词提取算法.算法运用word2vec将歌词表征为词向量,根据词向量计算词语之间的相似度,其次通过K-means聚类算法得到歌词关键词.同时与基于TFIDF、LDA模型的... 为了让用户根据歌词内容快速精准地检索音乐,提出一种基于word2vec的中文歌词关键词提取算法.算法运用word2vec将歌词表征为词向量,根据词向量计算词语之间的相似度,其次通过K-means聚类算法得到歌词关键词.同时与基于TFIDF、LDA模型的歌词关键词提取结果进行比较,发现从该算法得出的10个关键词中抽取与人工标注相同的2-5个时,准确率明显增加. 展开更多
关键词 word2vec 词向量 歌词关键词提取 K-MEANS
下载PDF
基于Word2Vec的医学知识组织系统互操作研究——以词表间语义映射为例 被引量:10
12
作者 郭思成 李纲 周华阳 《情报理论与实践》 CSSCI 北大核心 2019年第9期160-165,176,共7页
[目的/意义]随着大数据环境下医疗信息化的飞速发展,医学数据类型和规模也不断增加。面对医学信息在该过程中出现的冗余、异构等现象,通过词表间映射进行知识组织系统的互操作可以实现语义消歧和概念逻辑上的统一。[方法/过程]以《中国... [目的/意义]随着大数据环境下医疗信息化的飞速发展,医学数据类型和规模也不断增加。面对医学信息在该过程中出现的冗余、异构等现象,通过词表间映射进行知识组织系统的互操作可以实现语义消歧和概念逻辑上的统一。[方法/过程]以《中国中医药学主题词表》TC类、《中国图书馆分类法》R类向《中文医学主题词表》语义映射为例,依靠深度学习工具Word2Vec为技术手段,实现了实验对象词条的向量形式转化。在此基础上根据词向量相似度结果与目标词表类目进行自动化匹配筛选,建立映射。[结果/结论]基于Word2Vec进行的映射能够在一定程度上实现互操作,其思路可为在类似的知识组织系统间建立语义关联时提供参考,在精确性和方法的综合运用上仍存在着提升空间。 展开更多
关键词 医学知识组织系统 互操作 映射 词向量 word2vec
下载PDF
基于Word2Vec的SCI地址字段数据清洗方法研究 被引量:15
13
作者 孙源 《情报杂志》 CSSCI 北大核心 2019年第2期195-200,共6页
[目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清... [目的/意义]旨在设计一种有效针对SCI地址字段的数据清洗方案,将Word2Vec词向量模型引入到SCI地址字段的清洗过程中,利用地址字段中上下文的信息,识别SCI地址字段中机构名称的不同写法,最终建立"机构名称映射表",达到数据清洗的目的。[方法/过程]首先,对SCI地址字段的数据进行预处理,按照规律将地址字段的信息构建成专有名词。然后,引入Word2Vec模型训练,利用训练好的模型结合余弦相似度找出与待清洗机构名相似的拼写形式。最后,建立"机构名称映射表"完成清洗。[结果/结论]通过实证分析发现,第一,在相同阈值下,该方法针对机构的识别准确要比传统字符匹配的方法要高。第二,在机构名变体与缩写的识别能力上有较好的表现。第三,该方法的运算速度是传统字符匹配算法的近40倍。Word2Vec词向量模型在数据清洗中有一定应用价值,能够根据SCI地址字段的上下文信息,清洗出指定机构名称的形似、变体和缩写机构名,从而达到数据规范化的目的。 展开更多
关键词 数据清洗 word2vec 词向量模型 SCI地址字段
下载PDF
基于Word2Vec的编程领域词语拼写错误检测算法 被引量:3
14
作者 刘峻松 唐明靖 +1 位作者 薛岗 杨成荣 《计算机应用与软件》 北大核心 2022年第3期277-284,共8页
Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇... Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇进行分析,结合改进的编辑距离算法对文本进行自动检测纠错。实验结果表明,该算法能够对诸如此类专业性较强的领域主题文本进行自动检测纠错,并且能够较好地还原标准文段用词。 展开更多
关键词 词向量 编辑距离 拼写纠错 word2vec Stack Overflow
下载PDF
加权平均Word2Vec实体对齐方法 被引量:6
15
作者 罗钰敏 刘丹 +1 位作者 尹凯 赵宏森 《计算机工程与设计》 北大核心 2019年第7期1927-1933,共7页
针对已有文本相似度计算方法应用在实体对齐上准确率低的问题,提出一种加权平均Word2Vec的实体对齐方法。利用Word2Vec训练文本,得到词向量模型;使用LTP(language technology platform)工具抽取文本中的命名实体并对其进行分词、去停用... 针对已有文本相似度计算方法应用在实体对齐上准确率低的问题,提出一种加权平均Word2Vec的实体对齐方法。利用Word2Vec训练文本,得到词向量模型;使用LTP(language technology platform)工具抽取文本中的命名实体并对其进行分词、去停用词处理,由Word2Vec得到处理后的词向量;根据分词后出现相同词的情况进行加权归一,得到各实体的特征向量;利用特征向量计算余弦相似度得到对齐结果。实验结果表明,与已有的文本相似度方法及未改进的Word2Vec方法对比,所提方法降低了实体对齐的漏检率,提高了准确性。 展开更多
关键词 词嵌入 命名实体识别 中文组织机构名 实体对齐 词向量
下载PDF
基于Word2vec的电网调度词汇词向量生成方法及语音识别应用 被引量:11
16
作者 蒿峰 王小海 庞传军 《内蒙古电力技术》 2020年第5期72-76,共5页
随着电网结构不断扩大和电网运行方式日益复杂,传统的电网调度自动化系统难以满足发展需求,电网调度人员的工作强度越来越高,急需引入语音识别、自然语言处理等新一代人工智能技术以提高电网调控的智能化水平。语言模型是语音识别的重... 随着电网结构不断扩大和电网运行方式日益复杂,传统的电网调度自动化系统难以满足发展需求,电网调度人员的工作强度越来越高,急需引入语音识别、自然语言处理等新一代人工智能技术以提高电网调控的智能化水平。语言模型是语音识别的重要功能模块,针对调度领域语料库训练专有的语言模型是提高调度语音识别准确率的关键。为了使电网调度领域专业词汇具有可计算性以适用于调度专业语言模型,基于调度领域历史语料采用Word2vec技术,考虑调度语言语义关系,实现调度领域专业词汇的向量化表达,实现调度词汇的可计算性。实际算例分析结果表明,该方法生成的词汇向量可以表达调度领域词汇的语义关系,提高语音识别技术在电网调度领域应用的准确率。 展开更多
关键词 电网调度 人工智能 word2vec 词向量 语音识别
下载PDF
基于Word2Vec的神经网络协同推荐模型 被引量:2
17
作者 张华伟 《网络空间安全》 2019年第6期25-28,共4页
在信息推荐系统中,传统的方法是通过对内容、行为去预测用户的兴趣点来实现信息推送。国内外研究实验结果表明,这种模型推荐性能较为显著,说明用户行为和内容是相关的。根据相关性的对称原理,文章提出了基于用户行为的Word2Vec协同推荐... 在信息推荐系统中,传统的方法是通过对内容、行为去预测用户的兴趣点来实现信息推送。国内外研究实验结果表明,这种模型推荐性能较为显著,说明用户行为和内容是相关的。根据相关性的对称原理,文章提出了基于用户行为的Word2Vec协同推荐算法,通过神经网络模型来隐式地抽取商品和用户的相互关系并进行向量化表示,能够更好地计算商品和用户间的相似性,以达到提升模型的推荐效果和泛化能力。 展开更多
关键词 word2vec 词向量 协同推荐 卷积神经网络
下载PDF
基于增量学习优化的故障录波文件通道名称识别方法 被引量:2
18
作者 戴志辉 杨鑫 +3 位作者 刘悦 杨辉 杨雨熹 吴道钰 《电力系统保护与控制》 EI CSCD 北大核心 2023年第4期148-156,共9页
智能变电站不同建设时期各类录波厂家配置的双套录波通道名称命名习惯不同,导致故障录波文件相同通道不同设备命名不同。后期采用人工方式修改工作量大、所需时间长,且无法保证结果的正确性。针对此问题,提出一种基于增量学习优化的录... 智能变电站不同建设时期各类录波厂家配置的双套录波通道名称命名习惯不同,导致故障录波文件相同通道不同设备命名不同。后期采用人工方式修改工作量大、所需时间长,且无法保证结果的正确性。针对此问题,提出一种基于增量学习优化的录波文件通道名称识别方法。首先,从故障录波配置文件中提取通道名称并进行文本预处理。其次,使用基于增量学习优化的Word2vec模型实现通道名称中文词向量的生成与在线学习。然后,采用余弦相似度和逆文本频率相结合的文本相似度匹配算法实现录波文件通道名称识别。最后,通过录波文件中提取的通道名称构成实验数据进行实验。算例结果表明,所提方法有效地提高了录波文件通道名称识别的自适应性和准确性。 展开更多
关键词 故障录波 智能变电站 增量学习 word2vec 自然语言处理 词向量
下载PDF
DNA序列新特征的提取方法及其在重组位点识别中的应用
19
作者 程丽荣 赵熙强 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第6期59-64,共6页
为提升重组位点识别的预测性能,本文提出了一种新的特征提取方法来识别重组位点。分别利用Word2Vec模型编码的3-gram向量和DNA特性获得两组表示DNA序列的新特征,与已有的特征(FastText模型获取)进行组合来表示DNA序列,使用支持向量机为... 为提升重组位点识别的预测性能,本文提出了一种新的特征提取方法来识别重组位点。分别利用Word2Vec模型编码的3-gram向量和DNA特性获得两组表示DNA序列的新特征,与已有的特征(FastText模型获取)进行组合来表示DNA序列,使用支持向量机为分类算法,在基准数据集上进行5倍交叉验证。研究表明,本文提出的方法在识别重组位点方面获得了93.88%的敏感性、95.08%的特异性、94.54%的准确率和0.8902的马修斯相关系数,以上指标均优于现有的方法,本文所提出的方法为解决生物学的序列信息提取问题提供了一种新思路。 展开更多
关键词 DNA序列 重组位点 word2vec模型 词向量 3-gram 二核苷酸属性 支持向量机
下载PDF
嵌入式词向量的实现原理研究
20
作者 杨泉 《计算机与数字工程》 2023年第11期2602-2607,2614,共7页
文本数字化是人工智能时代自然语言处理中的关键步骤,词向量是文本数字化的主要方式之一。以嵌入式词向量Word2vec为例,研究了词语映射为词向量时所涉及的语言学原理和数学模型;分析了神经网络在生成词向量时的优势;阐释了Word2vec的性... 文本数字化是人工智能时代自然语言处理中的关键步骤,词向量是文本数字化的主要方式之一。以嵌入式词向量Word2vec为例,研究了词语映射为词向量时所涉及的语言学原理和数学模型;分析了神经网络在生成词向量时的优势;阐释了Word2vec的性质和其中蕴含的语言学信息,最终目的是促进自然语言处理中对词向量的理解和应用。 展开更多
关键词 自然语言处理 词向量 word2vec 共现频率
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部