期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
基于Doc2vec-LightGBM的CBTC车载信号设备故障分类诊断方法 被引量:1
1
作者 柴琳果 张景会 +2 位作者 上官伟 蔡伯根 李小雨 《铁道学报》 EI CAS CSCD 北大核心 2024年第4期108-118,共11页
车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-Ligh... 车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-LightGBM的CBTC车载设备故障自动分类诊断方法。首先对故障文本使用Jieba完成文本分词,依据TF-IDF实现分词文本数据的特征提取,并采用Doc2vec训练文本分词向量;其次针对数据不均衡的问题,采用Borderline-SMOTE算法进行少数类文本向量数据的补全泛化;最后,通过训练轻量梯度提升机LightGBM分类器完成故障文本自动分类。采用某信号厂商所记录的1 133条故障文本数据进行分类实验分析,并与支持向量机(SVM)方法对比。实验结果表明,所提方法在分类精确率、召回率上分别为98.2%、97.5%,证明了该故障文本自动分类方法的有效性和优越性。 展开更多
关键词 CBTC 车载设备 doc2vec LightGBM 故障分类诊断
下载PDF
Doc2vec在薪水预测中的应用研究 被引量:7
2
作者 潘博 张青川 +1 位作者 于重重 曹帅 《计算机应用研究》 CSCD 北大核心 2018年第1期155-157,共3页
针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec... 针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec计算文本的特征向量,能更深入地表征出文本语义特征。实验将多种组合模型进行对比,结果表明相比于目前已有方法,doc2vec提取文本特征可以使薪水预测误差率至少降低5%。 展开更多
关键词 薪水预测 doc2vec 文本特征
下载PDF
基于词向量Doc2vec的双向LSTM情感分析 被引量:8
3
作者 张俊飞 毕志升 吴小玲 《计算机与数字工程》 2018年第12期2385-2389,2399,共6页
针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec... 针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec和Doc2vec词向量生成对比实验、LSTM和双向LSTM评教评语情感分析对比实验,验证了Doc2vec词向量技术对句子的表达优于Word2vec,双向LSTM在情感分析中具有更高的精准度。 展开更多
关键词 词嵌入 Word2vec doc2vec LSTM 双向LSTM
下载PDF
利用Doc2Vec判断中文专利相似性 被引量:11
4
作者 张海超 赵良伟 《情报工程》 2018年第2期64-72,共9页
目前专利侵权纠纷案件时有发生,企业一旦卷入专利侵权纠纷,通常会面临时间考验和经济损失。本文选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec深度神经网络算法,计算权利要求书文本之间的相似度,得出与涉案专利... 目前专利侵权纠纷案件时有发生,企业一旦卷入专利侵权纠纷,通常会面临时间考验和经济损失。本文选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec深度神经网络算法,计算权利要求书文本之间的相似度,得出与涉案专利相似性较高的专利。并且将上述方法应用到专利复审案件实验中,进行实证研究,取得了较好的效果。需要进一步提高训练数据的质量,对比其他算法的效果。利用该方法能够帮助专利审查人员和企业找到相似专利。 展开更多
关键词 专利相似度 专利侵权 Word2Vec doc2vec
下载PDF
基于Doc2Vec增强特征的长文本主题聚类研究 被引量:2
5
作者 陈洁 《计算机科学》 CSCD 北大核心 2023年第S01期211-216,共6页
针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度... 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类。相比直接应用Doc2Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%。实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用。 展开更多
关键词 主题聚类 文本表征 doc2vec 词向量 HDBSCAN
下载PDF
基于LDA模型和Doc2vec的学术摘要聚类方法 被引量:21
6
作者 张卫卫 胡亚琦 +1 位作者 翟广宇 刘志鹏 《计算机工程与应用》 CSCD 北大核心 2020年第6期180-185,共6页
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型... 针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。 展开更多
关键词 短文本聚类 LDA模型 doc2vec模型 学术摘要
下载PDF
基于Doc2Vec的期刊论文热点选题识别 被引量:19
7
作者 阮光册 夏磊 《情报理论与实践》 CSSCI 北大核心 2019年第4期107-111,106,共6页
[目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集... [目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集;最后,运用聚类算法和主题词提取算法获取论文热点选题的主题描述。[结果/结论]对比词频统计和共词聚类方法,本文的实验结果在研究热点的描述上具有更好的语义特征。[局限]热点选题论文集的生成受阈值的影响。深度学习可以作为揭示学科研究热点的新方法。 展开更多
关键词 学术论文 热点主题识别 doc2vec 聚类分析 关键词提取
下载PDF
Doc2vec在政策文本分类中的应用研究 被引量:4
8
作者 李峰 柯伟扬 +3 位作者 盛磊 陈雯 陈丙赛 罗韵晴 《软件》 2019年第8期76-78,共3页
政策文本(Policy Text)是指因政策活动而产生的记录文献,当前多数的政策文本分类方法存在特征维度高、缺乏上下文信息这两个缺点。基于此,本文采用Doc2vec算法,通过词向量化解决特征维度高的问题,采用CBOW方法获取词语上下文信息。本文... 政策文本(Policy Text)是指因政策活动而产生的记录文献,当前多数的政策文本分类方法存在特征维度高、缺乏上下文信息这两个缺点。基于此,本文采用Doc2vec算法,通过词向量化解决特征维度高的问题,采用CBOW方法获取词语上下文信息。本文采用的方法经过实验测试,结果显示该方法对提高政策文本的分类准确率有着显著作用。 展开更多
关键词 政策文本 文本分类 doc2vec
下载PDF
基于Doc2vec的专利与行业类目映射研究 被引量:2
9
作者 马晓萌 徐峰 +1 位作者 刘清民 封颖 《情报探索》 2020年第6期67-74,共8页
[目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的... [目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的小类展开,通过Doc2vec文本向量化和余弦相似度的方法求取三组相似值(专利小类与行业小类、专利大组与行业小类、每组专利小类下大组与行业小类相似度的平均值),并以农业类目为例进行解释说明。[结果/结论]通过计算专利大组与行业小类相似度平均值的方法进行映射更具合理性。 展开更多
关键词 Word2vec doc2vec 类目映射 余弦相似度
下载PDF
基于Doc2Vec和深度神经网络的战场态势智能推送研究 被引量:8
10
作者 申远 黄志良 +1 位作者 胡彪 王适之 《智能计算机与应用》 2020年第1期50-55,共6页
战场态势智能推送中的推荐算法是最核心、最关键的组成部分,在很大程度上决定了战场态势推送性能的优劣。深度神经网络推荐算法对用户和态势的需求度关系进行建模学习,能够学习到两者之间隐含的、更为复杂的非线性关系,缺点在于未利用... 战场态势智能推送中的推荐算法是最核心、最关键的组成部分,在很大程度上决定了战场态势推送性能的优劣。深度神经网络推荐算法对用户和态势的需求度关系进行建模学习,能够学习到两者之间隐含的、更为复杂的非线性关系,缺点在于未利用到态势的额外信息。因此以深度神经网络推荐算法为基础,利用Doc2Vec方法提取态势文本内容信息来作为深度神经网络模型的辅助输入,设计了一种基于Doc2Vec和深度神经网络的战场态势智能推送方法。实验仿真结果表明,利用Doc2Vec算法来对态势的额外信息进行建模,能够提升算法推荐效果。 展开更多
关键词 战场态势 智能推送 推荐算法 深度神经网络 doc2vec
下载PDF
基于Doc2Vec和BiLSTM的老年患者疾病预测研究 被引量:5
11
作者 藏润强 左美云 郭鑫鑫 《计算机工程与科学》 CSCD 北大核心 2020年第12期2273-2279,共7页
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。... 基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病,可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证,结果发现模型能够有效地预测出老年人新的疾病,且在保证预测准确率的同时还具有一定的稳定性。 展开更多
关键词 上下文 doc2vec 双向长短时记忆网络BiLSTM 数据挖掘 疾病预测
下载PDF
基于Doc2Vec与SVM的聊天内容过滤 被引量:5
12
作者 岳文应 《计算机系统应用》 2018年第7期127-132,共6页
直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式... 直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型. 展开更多
关键词 文本分类 自然语言处理 doc2vec模型 支持向量机
下载PDF
融合LDA主题和Doc2vec算法的DeepFM模型的推荐算法研究 被引量:3
13
作者 刘伦珲 吴丽萍 《电视技术》 2022年第4期47-53,共7页
如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本... 如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本中的隐藏主题和隐藏特征并考虑隐藏特征的交叉情况,能够在保留评论文本表层信息的同时学习数据中的浅层和深层特征。本文将该模型与之前的模型在真实的数据上进行实验对比。实验结果表明,相较于现存模型,该模型的推荐准确率有了一定的提高。 展开更多
关键词 推荐系统 LDA主题模型 doc2vec DeepFM
下载PDF
基于融合LDA和Doc2vec算法的文本表示模型的研究 被引量:3
14
作者 宁宁 莫秀良 +1 位作者 王春东 佟寅铖 《天津理工大学学报》 2021年第2期55-60,共6页
在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量... 在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量表示和文档向量表示,再通过计算其中的余弦相似度来提取文本特征.该方法不仅能得到在特定段落的语境下词与词之间的语义关系,还能因此挖掘出更多与文档相关的主题信息.为了验证算法的有效性,对几种相关方法进行了性能比较,实验结果表明,该方法优于其它方法,生成的文档特征可以通过整合全局和局部关系来提高文本分类性能. 展开更多
关键词 LDA doc2vec 文本表示 特征选择 文本分类
下载PDF
基于Doc2vec和深度神经网络的中文文本情感倾向研究 被引量:4
15
作者 王晨超 刘洋 《电子技术与软件工程》 2018年第10期154-157,共4页
为了可以在准确地判别中文文本的情感倾向的同时,降低训练成本、提高效率,提出了基于Doc2vec和深度神经网络的方法对中文文本进行情感分类。先使用Doc2vec将清洗后的中文文本训练成文本向量,再使用这些文本向量训练基于深度神经网络的... 为了可以在准确地判别中文文本的情感倾向的同时,降低训练成本、提高效率,提出了基于Doc2vec和深度神经网络的方法对中文文本进行情感分类。先使用Doc2vec将清洗后的中文文本训练成文本向量,再使用这些文本向量训练基于深度神经网络的分类器。实验结果表明,与情感词典、传统机器学习和长短期记忆网络(LSTM)的方法相比,该方法有着较高的准确率和效率。特别是和情感词典和传统机器学习的方法相比该方法优势明显;与LSTM相比训练成本也大大降低。 展开更多
关键词 doc2vec 深度神经网络 情感分析 中文文本分类
下载PDF
基于doc2vec的主观题自动评分应用 被引量:1
16
作者 肖灵云 刘军库 李春红 《现代计算机》 2022年第1期79-82,95,共5页
针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法。利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分。将主观题试题作为实... 针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法。利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分。将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分有一定的参考意义。 展开更多
关键词 自动评分 doc2vec算法 文本相似度 主观题
下载PDF
基于Doc2vec的微博评论情感倾向研究
17
作者 李荟珍 《应用数学进展》 2022年第1期269-277,共9页
该文针对疫苗接种的相关微博评论进行情感倾向分析,首先利用基于神经网络的Doc2vec模型训练文本向量,继而使用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)三种机器学习的算法完成情感分类任务,且分别讨论了三种算法在四种不同的Doc2ve... 该文针对疫苗接种的相关微博评论进行情感倾向分析,首先利用基于神经网络的Doc2vec模型训练文本向量,继而使用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)三种机器学习的算法完成情感分类任务,且分别讨论了三种算法在四种不同的Doc2vec模型设定方案下的分类表现。其中Distributed Memory version of Paragraph Vector (PV-DM)算法训练的文本向量中,RF表现最优,在方案一与方案二上其F1分数值均为最高,分别为87.24%、87.50%。基于Distributed Bag of Words version of Paragraph Vector (PV-DBOW)算法训练的文本向量中,SVM表现最优,在方案三与方案四上其F1分数值达到最高,分别为84.11%、83.91%。 展开更多
关键词 情感倾向 doc2vec模型 文本分类 机器学习 微博评论
下载PDF
基于Doc2Vec的专利文件相似度检测方法的对比研究 被引量:16
18
作者 曹祺 赵伟 +2 位作者 张英杰 赵树君 陈亮 《图书情报工作》 CSSCI 北大核心 2018年第13期74-81,共8页
[目的/意义]专利相似度检测(Similarity Measurement)可从宏观上辅助制定国家创新战略规划。发现国内外的热点及应对其他国家的专利流氓,从微观上为专利发明人、专利审查员、专利权人提供辅助支撑。[方法/过程]提出基于深度学习的D... [目的/意义]专利相似度检测(Similarity Measurement)可从宏观上辅助制定国家创新战略规划。发现国内外的热点及应对其他国家的专利流氓,从微观上为专利发明人、专利审查员、专利权人提供辅助支撑。[方法/过程]提出基于深度学习的Doc2Vec专利相似度分析方法,基于未进行清洗的专利语料库,采用深度学习的Doc2Vec模型,随机挑选了专利,研究了专利相似度检测问题,并和传统的相似度检测模型进行对比研究。[结果/结论]实验结果表明,基于深度学习的Doe2Vee模型和TF-IDF模型对于处理不做数据清洗的专利语料的结果有相近性,该方法对分析人员的专利领域知识要求较低,不需要对专利数据进行基于专利领域知识的数据清洗,同时可为专利侵权、专利查新提供新的智能工具支撑,降低研究门槛和工作量,提升研究效率。 展开更多
关键词 专利 相似度 深度学习 doc2vec
原文传递
利用Doc2Vec及改进K-means聚类实现文本取证分析 被引量:3
19
作者 汤艳君 苏梅 +1 位作者 许彩滇 屈丽 《中国刑警学院学报》 2020年第4期115-121,共7页
为了提升文本取证过程的智能化和便利性,提出一种基于Doc2Vec和改进K-means聚类算法的文本取证方法。首先提取并转化待取证计算机中的文本文件,利用深度神经网络模型Doc2Vec将文本内容映射为文本向量,进而利用改进的K-means聚类算法对... 为了提升文本取证过程的智能化和便利性,提出一种基于Doc2Vec和改进K-means聚类算法的文本取证方法。首先提取并转化待取证计算机中的文本文件,利用深度神经网络模型Doc2Vec将文本内容映射为文本向量,进而利用改进的K-means聚类算法对文本向量进行划分,使目标证据文件与无关文件分离,最后通过文本间的相似度计算,按照相似程度输出目标证据文件。结果显示,改进的K-means算法可稳定划分文本且保证目标证据文件被检索;同时还可关联出部分未掌握线索的证据文件,为下一步检索提供方向,扩大取证检索的收获。该方法避免了传统取证软件基于字符匹配的不足,实现取证效率的提高与结果完整性的提升。 展开更多
关键词 文本取证 doc2vec K-MEANS聚类 神经网络
原文传递
结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究 被引量:20
20
作者 贾晓婷 王名扬 曹宇 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第2期86-95,共10页
【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大... 【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57%、7.62%、10.30%。【局限】提取的摘要句来源于正文,而标准摘要是对正文的高度凝练总结,二者通常难以完全匹配。【结论】实验结果表明,相对于常见的向量化表示方法,本文提出的方法能较为显著地提升自动摘要的效果,对多文档自动摘要的实现提供了一种思路。 展开更多
关键词 自动摘要 doc2vec K-MEANS 信息熵
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部