期刊文献+
共找到115篇文章
< 1 2 6 >
每页显示 20 50 100
基于Word2Vec词嵌入和聚类模型的安全生产事故文本案例分类 被引量:7
1
作者 吴德平 华钢 《计算机系统应用》 2021年第1期141-145,共5页
安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据... 安全生产事故的分析对应急管理能力提升具有重要意义.通过对安全生产案例的语义分析,利用Word2Vec词嵌入技术和聚类模型,选用CBOW+负采样技术实现词向量,并结合安全生产事故案例分类的数据特点,通过基于半监督学习的聚类模型算法,根据事故性质的认定特点,提出了一种优化初始聚类中心的算法,并利用K-means聚类算法实现安全事故文本案例的分类.实验表明该方法较好实现安全生产的事故案例分类,并对安全生产事故的多个维度分析具有很好借鉴意义. 展开更多
关键词 word2vec词嵌入 聚类 半监督学习 安全生产事故 案例分类
下载PDF
基于Word2Vec词嵌入和双向长短时记忆网络的文本分类实现 被引量:3
2
作者 王玲 《电子技术与软件工程》 2020年第15期70-71,共2页
本文对比了常用的文本表示方法(包括离散表示方法:One-hot表达、BagofWords词袋表达、Tf-Idf权值向量表达,和神经网络表示方法中的Word2Vec模型),以及文本分类模型中的CNN、RNN,到LSTM和BiLSTM。给出基于Word2Vec词嵌入和双向长短时记... 本文对比了常用的文本表示方法(包括离散表示方法:One-hot表达、BagofWords词袋表达、Tf-Idf权值向量表达,和神经网络表示方法中的Word2Vec模型),以及文本分类模型中的CNN、RNN,到LSTM和BiLSTM。给出基于Word2Vec词嵌入和双向长短时记忆网络BiLSTM的文本分类实现。 展开更多
关键词 文本分类 嵌入 word2vec BiLSTM
下载PDF
基于Word2Vec词嵌入和双向LSTM模型对用户回答文本进行分类 被引量:4
3
作者 张良君 《电子技术与软件工程》 2021年第14期208-211,共4页
本文将利用Word2Vec+双向LSTM对用户回答的短文本进行分类,同时跟Word2Vec+单向LSTM的效果进行对比,以验证双向LSTM和单向LSTM方法的优劣。
关键词 短文本分类 word2vec 嵌入(Embedding) 双向LSTM模型(BiLSTM)
下载PDF
融合Word2Vec的半积累引用共词网络的领域主题演化研究 被引量:3
4
作者 程秀峰 邹晶晶 +1 位作者 叶光辉 夏立新 《情报学报》 CSCD 北大核心 2023年第7期801-815,共15页
发现并厘清学科及领域的发展路径和演化脉络,对科学研究和学科发展具有重要意义。针对传统共词分析法的不足和主题演化分析维度的单一性问题,本文提出了一种基于引用共词网络的主题发现与演化分析方法,并以情报学领域为例进行了实证研... 发现并厘清学科及领域的发展路径和演化脉络,对科学研究和学科发展具有重要意义。针对传统共词分析法的不足和主题演化分析维度的单一性问题,本文提出了一种基于引用共词网络的主题发现与演化分析方法,并以情报学领域为例进行了实证研究。通过引用关系定义“引用共现”关联,并融合词嵌入技术构建关键词网络;使用社区探测法识别领域主题,采用后离散分析法,从内容结构和发展趋势两个角度进行学科主题演化分析,并可视化呈现主题演化路径及发展趋势。研究结果表明,本文所构建网络比传统共词网络能呈现粒度更优的主题聚类效果,并且能较好地呈现主题动态演化趋势,是共词分析法的有效补充。 展开更多
关键词 主题演化 引用共网络 word2vec模型 时间序列 战略坐标
下载PDF
一种Word2vec构建词向量模型的实现方法 被引量:7
5
作者 席宁丽 朱丽佳 +2 位作者 王录通 陈俊 万晓容 《电脑与信息技术》 2023年第1期43-46,共4页
Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可... Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可视化输出。实验中进一步针对CBOW模型与Skip-gram模型,这两种Word2vec中的重要模型进行对比研究,输出结果表明:在通过大语料训练中文词向量时,Skip-gram模型在新词识别上具有明显优势,综合模型准确性与时间性能来说,总体可靠性更优。 展开更多
关键词 向量 word2vec CBOW Skip-gram NLP
下载PDF
基于word2vec的大中华区词对齐库的构建 被引量:6
6
作者 王明文 徐雄飞 +1 位作者 徐凡 李茂西 《中文信息学报》 CSCD 北大核心 2015年第5期76-83,共8页
该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大... 该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。 展开更多
关键词 大中华区 对齐 最长公共子序列 word2vec
下载PDF
融入Attention机制改进Word2vec技术的水利水电工程专业词智能提取与分析方法 被引量:20
7
作者 李明超 田丹 +2 位作者 沈扬 Jonathan Shi 韩帅 《水利学报》 EI CSCD 北大核心 2020年第7期816-826,共11页
水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。... 水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。该方法通过组合Attention机制,改进Word2vec技术建立了专业词向量计算模型;根据所求词向量,计算词语间相似度,以词语间相似度为组合标准,组合提取水利水电工程专业词;进而结合已有的水利水电工程专业文本,验证所提取专业词的可信度,实现了水利水电工程专业词的自动提炼,构建了一套水利水电工程专业词智能识别提取与分析体系。该方法应用于实际某混凝土大坝长达229周的施工监理周报文本分析中,经过3轮识别计算与分析,获得了9034个水利水电工程专业词,准确率为87.58%,有效提升了水利水电工程专业文本信息提取分析的效率、准确率与智能化水平。 展开更多
关键词 水利水电工程 专业文本 自然语言处理 向量 word2vec技术 Attention机制 智能提取
下载PDF
word2vec-ACV:OOV语境含义的词向量生成模型 被引量:7
8
作者 王永贵 郑泽 李玥 《计算机应用研究》 CSCD 北大核心 2019年第6期1623-1628,共6页
针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵... 针对word2vec模型生成的词向量缺乏语境的多义性以及无法创建集外词(OOV)词向量的问题,引入相似信息与word2vec模型相结合,提出word2vec-ACV模型。该模型首先基于连续词袋(CBOW)和Hierarchical softmax的word2vec模型训练出词向量矩阵即权重矩阵;然后将共现矩阵进行归一化处理得到平均上下文词向量,再将词向量组成平均上下文词向量矩阵;最后将平均上下文词向量矩阵与权重矩阵相乘得到词向量矩阵。为了能同时解决集外词及多义性问题,将平均上下文词向量分为全局平均上下文词向量(global ACV)和局部平均上下文词向量(local ACV)两种,并对两者取权值组成新的平均上下文词向量矩阵,并将word2vec-ACV模型和word2vec模型分别进行类比任务实验和命名实体识别任务实验。实验结果表明,word2vec-ACV模型同时解决了语境多义性以及创建集外词词向量的问题,降低了时间消耗,提升了词向量表达的准确性和对海量词汇的处理能力。 展开更多
关键词 word2vec模型 向量 共现矩阵 平均上下文向量
下载PDF
基于自然语言处理的Word2Vec词向量应用 被引量:11
9
作者 石凤贵 《黑河学院学报》 2020年第7期173-177,共5页
计算机要理解自然语言,首先需要理解词语的语义,要考虑词的同义、近义、词的上下文关系,数字化即转化为词向量,通过计算处理词向量来处理文本。阐述词向量及Word2Vec词模型的特点,Word2Vec是被广泛使用的词向量模型,同时基于《西游记》... 计算机要理解自然语言,首先需要理解词语的语义,要考虑词的同义、近义、词的上下文关系,数字化即转化为词向量,通过计算处理词向量来处理文本。阐述词向量及Word2Vec词模型的特点,Word2Vec是被广泛使用的词向量模型,同时基于《西游记》语料进行应用实现。 展开更多
关键词 自然语言处理 向量 共现矩阵 word2vec
下载PDF
基于Word2Vec的高效词汇语义相似度计算系统的设计实现 被引量:1
10
作者 孙洪迪 《北京工业职业技术学院学报》 2019年第4期26-31,共6页
随着计算机软硬件技术和人工智能技术的飞速发展,计算机人工智能技术在我国各领域的应用也越来越广泛,自然语言处理领域的人工智能技术也得到了前所未有的发展。在对Word2Vec开源库进行深入研究后,就其词汇语义相似度算法提出优化解决方... 随着计算机软硬件技术和人工智能技术的飞速发展,计算机人工智能技术在我国各领域的应用也越来越广泛,自然语言处理领域的人工智能技术也得到了前所未有的发展。在对Word2Vec开源库进行深入研究后,就其词汇语义相似度算法提出优化解决方案,提高了词汇语义相似度计算效率及准确率,并给出了优化后的实际测试结果。 展开更多
关键词 word2vec 向量 汇语义相似度 多线程
下载PDF
基于Word2Vec的维吾尔语情感词典扩展研究 被引量:1
11
作者 刘若兰 杨建萍 《信息与电脑》 2022年第14期64-66,共3页
情感词典是情感识别的基础资源,在前期构建维吾尔语情感词典的基础上,基于Word2Vec开展情感词的自动扩展研究。首先,根据维吾尔语情感词的语言特征从搜集的维吾尔语网络语料中提取候选情感词;其次,利用Word2Vec模型训练维文语料,以获取... 情感词典是情感识别的基础资源,在前期构建维吾尔语情感词典的基础上,基于Word2Vec开展情感词的自动扩展研究。首先,根据维吾尔语情感词的语言特征从搜集的维吾尔语网络语料中提取候选情感词;其次,利用Word2Vec模型训练维文语料,以获取词语的向量表示;最后,在此基础上,利用基础情感词典资源和表征语义相似度的向量余弦值算法来判定候选情感词的情感指向。 展开更多
关键词 情感 维吾尔语 word2vec 向量
下载PDF
基于Word2Vec的中文文本零水印算法 被引量:1
12
作者 戴夏菁 徐谊程 +1 位作者 王馨娅 佟德宇 《软件工程》 2023年第1期19-23,共5页
经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word... 经典的文本鲁棒水印会修改文本内容或格式,从而降低文本的保真性和可用性,文章提出了一种基于Word2Vec的中文文本零水印算法,能够在不修改文本信息的前提下实现水印的生成和检测。首先对文本数据进行分词,统计词频并提取特征词,运用Word2Vec生成相应的特征词向量;然后采用SVD(奇异值分解)算法对其进行降维,并结合AES(高级加密标准)加密生成最终的零水印。水印检测时,通过对比SVD分解产生的特征值和特征向量判断版权归属。基于理论概述和实验结果综合分析,文章提出的零水印算法不需要对原始文本做任何修改,能够抵抗一定程度的增删、句型转换、同义词替换等攻击,具有一定的鲁棒性,切实有效地解决了文本的版权保护问题。 展开更多
关键词 word2vec SVD 零水印 中文文本 向量
下载PDF
融合单词贡献度与Word2Vec词向量的文档表示 被引量:15
13
作者 彭俊利 谷雨 +1 位作者 张震 耿小航 《计算机工程》 CAS CSCD 北大核心 2021年第4期62-67,共6页
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值... 针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。 展开更多
关键词 贡献度 word2vec向量 嵌入 文档表示 文本分类
下载PDF
一种融入用户点击模型Word2Vec查询词聚类 被引量:4
14
作者 杨河彬 贺樑 杨静 《小型微型计算机系统》 CSCD 北大核心 2016年第4期676-681,共6页
用户查询聚类能够帮助搜索引擎了解当前热点、用户兴趣及需求,在搜索引擎性能优化及定向广告投放等起到了非常重要的作用.基于用户查询词长度非常短的特点,提出基于Word2Vec的词向量的用户查询词表示方法.并在Word2Vec的基础上提出CT-Wo... 用户查询聚类能够帮助搜索引擎了解当前热点、用户兴趣及需求,在搜索引擎性能优化及定向广告投放等起到了非常重要的作用.基于用户查询词长度非常短的特点,提出基于Word2Vec的词向量的用户查询词表示方法.并在Word2Vec的基础上提出CT-Word2Vec神经网络语言模型.CT-Word2Vec模型不仅利用词汇的上下文信息将词转化成向量,而且还将用户的搜索点击行为融入词向量的学习过程当中.聚类实验结果表明,基于Word2Vec的词向量的查询词表示方法相对于传统的词袋法在熵、纯度衡量指标上有20%到30%的提高.基于CT-Word2Vec的词向量表示方法与Word2Vec相比有2%到4%的提升. 展开更多
关键词 查询 聚类 word2vec 点击模型 CT-word2vec
下载PDF
基于word2vec模型的专业通用词提取算法及应用举例
15
作者 田艳 王天奇 《沧州师范学院学报》 2018年第3期68-72,共5页
专业通用词是某一专业领域中所使用的通用词汇,在翻译过程中往往较难把握。目前,专业通用词主要依靠人工提取,这对分析人员的语言素养及其对语料的熟悉程度提出了较高要求,同时存在提取效率问题。基于Google发布的神经网络机器学习算法... 专业通用词是某一专业领域中所使用的通用词汇,在翻译过程中往往较难把握。目前,专业通用词主要依靠人工提取,这对分析人员的语言素养及其对语料的熟悉程度提出了较高要求,同时存在提取效率问题。基于Google发布的神经网络机器学习算法模型word2vec,提出一套专业通用词的自动提取算法,并通过Python 2.7编写的脚本实现。以国际财务报告准则语料库为例,对该算法的应用加以说明。 展开更多
关键词 word2vec 专业通用提取 语料库翻译
下载PDF
基于Word2Vec的医学知识组织系统互操作研究——以词表间语义映射为例 被引量:10
16
作者 郭思成 李纲 周华阳 《情报理论与实践》 CSSCI 北大核心 2019年第9期160-165,176,共7页
[目的/意义]随着大数据环境下医疗信息化的飞速发展,医学数据类型和规模也不断增加。面对医学信息在该过程中出现的冗余、异构等现象,通过词表间映射进行知识组织系统的互操作可以实现语义消歧和概念逻辑上的统一。[方法/过程]以《中国... [目的/意义]随着大数据环境下医疗信息化的飞速发展,医学数据类型和规模也不断增加。面对医学信息在该过程中出现的冗余、异构等现象,通过词表间映射进行知识组织系统的互操作可以实现语义消歧和概念逻辑上的统一。[方法/过程]以《中国中医药学主题词表》TC类、《中国图书馆分类法》R类向《中文医学主题词表》语义映射为例,依靠深度学习工具Word2Vec为技术手段,实现了实验对象词条的向量形式转化。在此基础上根据词向量相似度结果与目标词表类目进行自动化匹配筛选,建立映射。[结果/结论]基于Word2Vec进行的映射能够在一定程度上实现互操作,其思路可为在类似的知识组织系统间建立语义关联时提供参考,在精确性和方法的综合运用上仍存在着提升空间。 展开更多
关键词 医学知识组织系统 互操作 映射 向量 word2vec
下载PDF
基于word2vec的中文歌词关键词提取算法 被引量:3
17
作者 蒙晓燕 殷雁君 《内蒙古师范大学学报(自然科学汉文版)》 CAS 2018年第2期137-140,共4页
为了让用户根据歌词内容快速精准地检索音乐,提出一种基于word2vec的中文歌词关键词提取算法.算法运用word2vec将歌词表征为词向量,根据词向量计算词语之间的相似度,其次通过K-means聚类算法得到歌词关键词.同时与基于TFIDF、LDA模型的... 为了让用户根据歌词内容快速精准地检索音乐,提出一种基于word2vec的中文歌词关键词提取算法.算法运用word2vec将歌词表征为词向量,根据词向量计算词语之间的相似度,其次通过K-means聚类算法得到歌词关键词.同时与基于TFIDF、LDA模型的歌词关键词提取结果进行比较,发现从该算法得出的10个关键词中抽取与人工标注相同的2-5个时,准确率明显增加. 展开更多
关键词 word2vec 向量 关键提取 K-MEANS
下载PDF
基于Word2Vec的编程领域词语拼写错误检测算法 被引量:3
18
作者 刘峻松 唐明靖 +1 位作者 薛岗 杨成荣 《计算机应用与软件》 北大核心 2022年第3期277-284,共8页
Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇... Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇进行分析,结合改进的编辑距离算法对文本进行自动检测纠错。实验结果表明,该算法能够对诸如此类专业性较强的领域主题文本进行自动检测纠错,并且能够较好地还原标准文段用词。 展开更多
关键词 向量 编辑距离 拼写纠错 word2vec Stack Overflow
下载PDF
基于Word2vec的程序员行为推荐模型研究
19
作者 何鹏程 姚蒙 焦珊珊 《电子技术与软件工程》 2023年第1期70-75,共6页
本文提出一种针对程序员在进行软件项目开发管理时的行为推荐模型。本模型借鉴了自然语言处理领域的Word2vec技术,利用Word2vec模型学习程序员某一项目下基于时序的行为记录信息,获得程序员行为在空间上的向量表示,从而得到程序员及其... 本文提出一种针对程序员在进行软件项目开发管理时的行为推荐模型。本模型借鉴了自然语言处理领域的Word2vec技术,利用Word2vec模型学习程序员某一项目下基于时序的行为记录信息,获得程序员行为在空间上的向量表示,从而得到程序员及其行为之间的相似度进行推荐。主要工作包括训练数据集的采集及预处理,行为词向量模型搭建和训练,并结合了Word2vec算法和基于该算法下的doc2vec推荐模型应用在推荐系统上的效用性。实验主要通过选择合适的维度和窗口值,以及检验不同稀疏度的数据集对推荐效果的影响。结果表明该模型在程序员行为推荐上具有显著效果。 展开更多
关键词 向量 word2vec doc2vec 推荐模型 程序员行为
下载PDF
基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究 被引量:13
20
作者 刘奇飞 沈炜域 《情报探索》 2018年第6期22-27,共6页
[目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构... [目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构建概率转移矩阵,提出改进的Word2Vec和TextRank算法。[结果/结论 ]运用改进的Word2Vec和TextRank算法对时政类新闻关键词进行抽取,其准确率、召回率和F值均优于传统TextRank算法及普通的融合Word2Vec和TextRank算法,抽取效果更好。 展开更多
关键词 时政新闻 关键抽取 TextRank算法 word2vec模型
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部