期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量:4
1
作者 黄春雨 胡迪 +1 位作者 邱宁佳 孙爽滋 《长春理工大学学报(自然科学版)》 2020年第1期89-96,132,共9页
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本... LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 展开更多
关键词 主题模型 词嵌入 文本表示 Huffman-LDA weight-word2vec
下载PDF
基于词性与词序的相关因子训练的word2vec改进模型 被引量:10
2
作者 潘博 于重重 +2 位作者 张青川 徐世璇 曹帅 《电子学报》 EI CAS CSCD 北大核心 2018年第8期1976-1982,共7页
词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性... 词性是自然语言处理的基本要素,词语顺序包含了所传达的语义与语法信息,它们都是自然语言中的关键信息.在word embedding模型中如何有效地将两者结合起来,是目前研究的重点.本文提出的Structured word2vec on POS联合了词语顺序与词性两种信息,不仅使模型可以感知词语位置顺序,而且利用词性关联信息来建立上下文窗口内词语之间的固有句法关系.Structured word2vec on POS将词语按其位置顺序定向嵌入,对词向量和词性相关加权矩阵进行联合优化.实验通过词语类比、词相似性任务,证明了所提出的方法的有效性. 展开更多
关键词 WORD EMBEDDING 词性 相关权重 词序 word2vec
下载PDF
基于加权word2vec的微博情感分析 被引量:18
3
作者 李锐 张谦 刘嘉勇 《通信技术》 2017年第3期502-506,共5页
随着社交媒体的普及,微博情感分析受到了广大研究者的关注。为解决情感分析中词间语义关系缺失和词汇重要程度被忽略的问题,提出了一种基于加权词向量和支持向量机的情感分析方法,对微博的情感分析问题进行研究。首先用word2vec训练并... 随着社交媒体的普及,微博情感分析受到了广大研究者的关注。为解决情感分析中词间语义关系缺失和词汇重要程度被忽略的问题,提出了一种基于加权词向量和支持向量机的情感分析方法,对微博的情感分析问题进行研究。首先用word2vec训练并计算得到文档词向量;然后根据TFIDF算法计算文档中词汇的权重,对word2vec词向量进行加权;最后,使用SVM对情感数据进行训练和分类。在微博实验数据中,与已有方法相比,所提方法分类准确率和召回率都得到了提高。 展开更多
关键词 情感分析 word2vec 加权词向量 支持向量机
下载PDF
基于TF-IDF与word2vec的台词文本分类研究 被引量:4
4
作者 但宇豪 黄继风 +1 位作者 杨琳 高海 《上海师范大学学报(自然科学版)》 2020年第1期89-95,共7页
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分... 为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法.该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%. 展开更多
关键词 词频-逆文本频率(TF-IDF) word2vec 信息熵 文本分类 机器学习 加权
下载PDF
基于加权word2vec算法的文本相似度研究 被引量:9
5
作者 崔洁 《电子测试》 2021年第21期53-55,58,共4页
针对word2vec无法体现词性和词项的权重信息问题,研究了一种词向量模型加权计算文本相似度的方法。首先选取搜狗综合语料库进行词向量训练,再通过设定的相似度阈值,对文本关键词进行分割,最后利用KNN分类算法对测试文本集分类的准确率... 针对word2vec无法体现词性和词项的权重信息问题,研究了一种词向量模型加权计算文本相似度的方法。首先选取搜狗综合语料库进行词向量训练,再通过设定的相似度阈值,对文本关键词进行分割,最后利用KNN分类算法对测试文本集分类的准确率进行测试。结果表明了所设计的基于加权的word2vec算法的准确率较高。 展开更多
关键词 文本相似度 加权word2vec 语料库 文本分类
下载PDF
基于多元特征加权改进的TextRank关键词提取方法 被引量:10
6
作者 余本功 张宏梅 曹雨蒙 《数字图书馆论坛》 CSSCI 2020年第3期41-50,共10页
现有的关键词提取方法从文档集或者单文档方面考虑词语的特征,很少考虑词语在单文档和文档集中的综合特征对关键词提取效果产生的影响,因此,本文提出多元特征加权的关键词提取方法。该方法通过Word2vec模型提取出词语在文档集中的语义... 现有的关键词提取方法从文档集或者单文档方面考虑词语的特征,很少考虑词语在单文档和文档集中的综合特征对关键词提取效果产生的影响,因此,本文提出多元特征加权的关键词提取方法。该方法通过Word2vec模型提取出词语在文档集中的语义关系特征与词语在单文档中的重要性特征,通过线性加权的方式计算出词语的综合影响力,用于改进TextRank模型中的概率转移矩阵,最后迭代计算选取排名靠前的词语作为文档的关键词。实验结果表明,从单文档和文档集两方面综合考虑词语的影响力,可以有效地改善关键词的提取效果。 展开更多
关键词 关键词提取 TextRank word2vec 多元特征加权
下载PDF
融入情感信息词向量的评论文本情感分析方法 被引量:9
7
作者 吕妹园 张永健 +1 位作者 张永强 孙胜娟 《河北科技大学学报》 CAS 北大核心 2021年第4期380-388,共9页
为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型... 为了解决分布式词表示方法因忽略词语情感信息导致情感分类准确率较低的问题,提出了一种融入情感信息加权词向量的情感分析改进方法。依据专属领域情感词典构建方法,结合词典和语义规则,将情感信息融入到TF-IDF算法中,利用Word2vec模型得到加权词向量表示方法,并运用此方法对采集到的河北省旅游景点的评论文本与对照组进行对比实验。结果表明,与基于分布式词向量表示的情感分析方法相比,采用融入情感信息加权词向量的改进方法进行情感分析,积极文本的准确率提高了6.1%,召回率提高了6.6%,F值达到了90.3%;消极评论文本的准确率提高了6.0%,召回率提高了7.2%,F值达到了89.6%。因此,融入情感信息加权词向量的情感分析改进方法可以有效提高评论文本情感分析的准确率,为用户获得更为准确的评论观点提供参考。 展开更多
关键词 自然语言处理 语义规则 情感信息 TF-IDF word2vec 加权词向量 情感分析
下载PDF
融合词性特征的中文句子相似度计算方法 被引量:6
8
作者 吴浩 艾山·吾买尔 +2 位作者 卡哈尔江·阿比的热西提 王路路 吐尔根·依布拉音 《计算机工程与设计》 北大核心 2020年第1期150-155,共6页
为解决近年来使用依存分析等语法信息计算句子相似度存在的手工标注代价较大、自动标注准确率低影响性能等问题,结合现有的句子相似度算法,提出两种方法融合词性特征计算句子相似度。在高精度的自动词性标注基础上,方法一通过词性信息... 为解决近年来使用依存分析等语法信息计算句子相似度存在的手工标注代价较大、自动标注准确率低影响性能等问题,结合现有的句子相似度算法,提出两种方法融合词性特征计算句子相似度。在高精度的自动词性标注基础上,方法一通过词性信息调整不同词性的单词对句子相似度的影响,方法二使用词性信息选择句子中较为关键的单词进行计算。对比实验中,方法一在实验任务中取得了最高的准确率,方法二具有较优的准确率和较快计算速度,实验结果表明了两种方法的有效性。 展开更多
关键词 句子相似度 词性 权重 词向量 语义
下载PDF
基于时空数据的用户社交联系强度研究 被引量:3
9
作者 陈元娟 严建峰 +1 位作者 刘晓升 杨璐 《计算机科学》 CSCD 北大核心 2016年第1期251-254,274,共5页
word2vec是Google推出的一款将词表征为实数值的高效开源工具。采用该工具将时空数据中的每位用户表征为一个实数值向量并预测用户间社交联系的强度。提出了在word2vec学习过程中动态调整学习率的算法——Location-weight算法,根据不同... word2vec是Google推出的一款将词表征为实数值的高效开源工具。采用该工具将时空数据中的每位用户表征为一个实数值向量并预测用户间社交联系的强度。提出了在word2vec学习过程中动态调整学习率的算法——Location-weight算法,根据不同位置的不同用户数目在学习过程中加入位置权重,并探索其对用户社交联系强度预测的影响。实验结果表明,加入位置权重的学习算法提高了用户社交联系强度预测的准确性。 展开更多
关键词 word2vec 位置权重 用户社交联系强度
下载PDF
一种中小学汉语作文表现手法分类方法 被引量:1
10
作者 马晓丽 刘杰 +2 位作者 周建设 骆力明 史金生 《计算机应用与软件》 北大核心 2018年第10期49-54,共6页
为提升中小学汉语作文中存在的表现手法分类性能,选取引入方差的TF×IWF×IWF算法对其进行特征选择。其优势在于引入方差可以表征特征词汇在各类别之间的分布均匀程度,从而进一步确定特征词的重要性。鉴于使用引入方差的TF×... 为提升中小学汉语作文中存在的表现手法分类性能,选取引入方差的TF×IWF×IWF算法对其进行特征选择。其优势在于引入方差可以表征特征词汇在各类别之间的分布均匀程度,从而进一步确定特征词的重要性。鉴于使用引入方差的TF×IWF×IWF算法形成的文本特征向量太稀疏,因此采用Word2vec模型对词汇进行特征扩展。由于单独使用Word2vec模型难以体现文本中词汇的重要程度,继而使用上述权重计算算法对词向量进行加权。提出合并以上两种方法来表征表现手法文本特征,并利用SVM分类器对表现手法文本进行分类。实验结果表明,两种方法的结合使分类精确率平均提高3%。 展开更多
关键词 表现手法分类 TF×IWF×IWF 方差 word2vec 加权
下载PDF
燃气客服热线的中文文本情感分析 被引量:5
11
作者 邓存彬 虞慧群 +1 位作者 范贵生 朱虎超 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第1期140-147,共8页
提出了一种基于TF-IDF的均值Word2vec模型和有监督的机器学习方法的燃气客服热线的中文文本情感分析方法。首先,采用Word2vec模型训练出文本中每个词语的词向量及TF-IDF算法计算文本中每个词语的权重,并对词语的词向量进行加权处理。其... 提出了一种基于TF-IDF的均值Word2vec模型和有监督的机器学习方法的燃气客服热线的中文文本情感分析方法。首先,采用Word2vec模型训练出文本中每个词语的词向量及TF-IDF算法计算文本中每个词语的权重,并对词语的词向量进行加权处理。其次,将加权后的词向量对应维度的值进行累加并求均值作为该文本的向量,即文本的特征。最后,对文本的特征使用有监督的机器学习方法进行训练和预测,以实现文本的情感分析。实验结果表明,该方法获得了较高的分类准确率并能有效地进行情感分析。 展开更多
关键词 word2vec TF-IDF 加权平均 机器学习 情感分析 燃气客服热线
下载PDF
基于加权主题分布表达的微博文本摘要生成研究 被引量:1
12
作者 贾晓婷 王名扬 曹宇 《东北师大学报(自然科学版)》 CAS 北大核心 2020年第1期69-74,共6页
对微博文本的向量化表达及摘要效果的评测问题进行了研究.引入Word2vec模型实现微博文本词语的向量化表达,进而对词向量聚类生成主题词类.计算微博文本到主题词类的隶属度,结合主题词类的权重,生成微博文本的加权主题分布表达.在此基础... 对微博文本的向量化表达及摘要效果的评测问题进行了研究.引入Word2vec模型实现微博文本词语的向量化表达,进而对词向量聚类生成主题词类.计算微博文本到主题词类的隶属度,结合主题词类的权重,生成微博文本的加权主题分布表达.在此基础上划分类簇实现摘要句的提取.基于类簇H指数选出高频词作为标准摘要词集,考察了生成摘要与标准摘要词集中共现词的词频分布,实现对自动摘要效果的评测.实验结果表明,本文提出的方法有助于提升微博短文本集的摘要生成效果. 展开更多
关键词 自动摘要 加权主题分布表达 word2vec H指数
下载PDF
基于扩展短文本词特征向量的分类研究 被引量:10
13
作者 孟涛 王诚 《计算机技术与发展》 2019年第4期57-62,共6页
由于短文本的文档长度较短,短文本中词语的共现信息非常匮乏,造成短文本信息稀疏性问题。信息稀疏性也成为了传统主题模型在短文本上难以取得突破性进展的瓶颈之一。针对短文本分类,充分利用短文本中的每一个词语并解决其稀疏性成为关... 由于短文本的文档长度较短,短文本中词语的共现信息非常匮乏,造成短文本信息稀疏性问题。信息稀疏性也成为了传统主题模型在短文本上难以取得突破性进展的瓶颈之一。针对短文本分类,充分利用短文本中的每一个词语并解决其稀疏性成为关键。为了解决这一问题,基于Word2vec模型对短文本进行词嵌入扩展以解决其稀疏性,并将词向量转换成概率语义分布来测量语义关联性;针对短文本扩展后的特征向量,利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量。该方法可以区分出扩展后的短文本中词的重要程度,以便获得更准确的语义相关性。短文本分类研究采用KNN算法分类,实验结果表明,通过在外部语料集上学习得到的语义相关性扩展来处理短文本特征,可以有效提高短文本的分类效果。 展开更多
关键词 短文本 word2vec模型 词嵌入 改进后的特征权重算法 语义相关度
下载PDF
面向电力审计领域的两阶段短文本分类方法研究 被引量:5
14
作者 赵雅欣 郑明洪 +3 位作者 石林鑫 向菲 江金洋 尹心 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第10期1-7,共7页
为解决电力审计领域中将审计发现问题按标准问题定义进行归类的现实需求,提出了一种两阶段短文本分类方法.该方法包括粗分类和细分类两个阶段.粗分类阶段通过对审计报告文本中的主观问题定性,对国网电力审计问题库文本中的审计问题的一... 为解决电力审计领域中将审计发现问题按标准问题定义进行归类的现实需求,提出了一种两阶段短文本分类方法.该方法包括粗分类和细分类两个阶段.粗分类阶段通过对审计报告文本中的主观问题定性,对国网电力审计问题库文本中的审计问题的一级类目等粗粒度特征进行模糊匹配,实现审计发现问题预分类.细分类阶段通过对审计报告文本中的问题进行描述,对国网电力审计问题库文本中的审计问题的二、三级类目等细粒度属性进行文本特征抽取、特征向量化,并将粗分类阶段的结果用于文本特征和向量化的权值调整和相似性度量的对象范围选择,实现基于非结构化文本的审计问题分类.国网重庆市电力公司2016年审计发现问题汇总数据的实验结果表明,该方法能够有效提升审计问题分类性能,能为电力审计行业规范审计报告、提高审计效率提供有力支持. 展开更多
关键词 电力审计 短文本 两阶段分类器 文本特征提取 加权word2vec 模糊匹配
下载PDF
基于CWMD和SP的微博话题发现算法
15
作者 孙悦 罗倩 方梁雨 《北京信息科技大学学报(自然科学版)》 2021年第2期76-81,共6页
针对传统微博话题发现算法中,计算文本距离时仅仅考虑词与词的距离和最小而产生的问题,提出了使用CWMD(cos-word mover's distance)作为聚类标准的算法。结合余弦距离和WMD计算句子之间的相似性;使用TF-IDF向量代替WMD中词频权重向... 针对传统微博话题发现算法中,计算文本距离时仅仅考虑词与词的距离和最小而产生的问题,提出了使用CWMD(cos-word mover's distance)作为聚类标准的算法。结合余弦距离和WMD计算句子之间的相似性;使用TF-IDF向量代替WMD中词频权重向量,将所有词对文档的贡献纳入考量;使用CWMD代替传统的距离作为SP(Single-Pass)聚类的标准;并且提出了构建文本待定池的SP算法,旨在避免话题发现过程中数据到达的先后顺序对结果产生的影响,从而提高话题发现的准确性。通过对中文语料数据库中的部分数据进行对比实验,证实了该话题发现模型效果更好。进一步将该模型应用到爬取的微博数据中,将提取的簇的关键词和微博热搜话题进行比对,结果显示二者具有很强的相关性。 展开更多
关键词 词向量加权 余弦距离 词移距离 增量聚类 话题发现
下载PDF
基于类别主题词集的加权相似度短文本分类 被引量:1
16
作者 王小楠 黄卫东 《计算机技术与发展》 2022年第9期95-99,共5页
由于短文本存在特征稀疏的问题,在分类问题上效果不佳,该文充分利用词向量模型,在词层面提出一种基于类别主题词集的加权相似度的短文本分类算法。首先训练词向量模型,其次使用TF-IDF选择出最能代表各类别的主题词形成类别主题词集,将... 由于短文本存在特征稀疏的问题,在分类问题上效果不佳,该文充分利用词向量模型,在词层面提出一种基于类别主题词集的加权相似度的短文本分类算法。首先训练词向量模型,其次使用TF-IDF选择出最能代表各类别的主题词形成类别主题词集,将短文本的关键词与各类别主题词分别进行相似度计算,将类别主题词对主题的贡献度表示在权重中,选择相似度最高的结果作为该短文本的类别。实验结果表明,基于类别主题词集的加权相似度短文本分类方法在精确率上相较KNN算法、Logistic回归算法、决策树分类算法分别提高了2.9%、1.8%、10.2%;在召回率上分别提升了3.0%、1.7%、10.4%。但是类别主题词对类别的贡献度量化维度简单。基于主题词集的加权相似度短文本分类算法在词的层面解决了短文本分类中的特征不足的问题,提高了短文本分类的性能。 展开更多
关键词 word2vec 短文本分类 相似度 类别主题 加权
下载PDF
基于加权Word2vec的文本分类方法研究 被引量:23
17
作者 马思丹 刘东苏 《情报科学》 CSSCI 北大核心 2019年第11期38-42,共5页
【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非重叠部分,随后分别计算两... 【目的/意义】利用词向量的优点,提出一种加权Word2vec的文本分类方法,以期在文本分类时获得较高的分类效果。【方法/过程】首先对文本进行词向量训练,通过设置词语相似度阈值,将文本关键词划分为重叠部分和非重叠部分,随后分别计算两部分加权相似度值,再采用参数化线性加权方式计算文本相似度,最后采用KNN进行分类。【结果/结论】实验结果表明文中提出的加权Word2vec方法比TF-IDF传统文本分类模型和均值Word2vec模型的分类效果有所提升,是一种有效的文本分类方法。 展开更多
关键词 文本相似度 TF-IDF 加权word2vec 文本分类
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部