期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于LDA模型和Doc2vec的学术摘要聚类方法 被引量:21
1
作者 张卫卫 胡亚琦 +1 位作者 翟广宇 刘志鹏 《计算机工程与应用》 CSCD 北大核心 2020年第6期180-185,共6页
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型... 针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。 展开更多
关键词 短文本聚类 LDA模型 doc2vec模型 学术摘要
下载PDF
基于Doc2Vec与SVM的聊天内容过滤 被引量:5
2
作者 岳文应 《计算机系统应用》 2018年第7期127-132,共6页
直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式... 直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型. 展开更多
关键词 文本分类 自然语言处理 doc2vec模型 支持向量机
下载PDF
基于Doc2vec的微博评论情感倾向研究
3
作者 李荟珍 《应用数学进展》 2022年第1期269-277,共9页
该文针对疫苗接种的相关微博评论进行情感倾向分析,首先利用基于神经网络的Doc2vec模型训练文本向量,继而使用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)三种机器学习的算法完成情感分类任务,且分别讨论了三种算法在四种不同的Doc2ve... 该文针对疫苗接种的相关微博评论进行情感倾向分析,首先利用基于神经网络的Doc2vec模型训练文本向量,继而使用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)三种机器学习的算法完成情感分类任务,且分别讨论了三种算法在四种不同的Doc2vec模型设定方案下的分类表现。其中Distributed Memory version of Paragraph Vector (PV-DM)算法训练的文本向量中,RF表现最优,在方案一与方案二上其F1分数值均为最高,分别为87.24%、87.50%。基于Distributed Bag of Words version of Paragraph Vector (PV-DBOW)算法训练的文本向量中,SVM表现最优,在方案三与方案四上其F1分数值达到最高,分别为84.11%、83.91%。 展开更多
关键词 情感倾向 doc2vec模型 文本分类 机器学习 微博评论
下载PDF
基于文本融合特征的突发事件子话题聚类研究
4
作者 芦子涵 郑中团 《智能计算机与应用》 2023年第10期45-51,55,共8页
突发事件具有突发性、公共性、传播范围广等特点,研究同一突发事件中更细粒度的子话题聚类,对舆情管控部门实现精准化管控具有重要意义。针对以往话题聚类方法忽略了同一事件下更细粒度的子话题聚类,且为了更有效地表达微博文本的语义信... 突发事件具有突发性、公共性、传播范围广等特点,研究同一突发事件中更细粒度的子话题聚类,对舆情管控部门实现精准化管控具有重要意义。针对以往话题聚类方法忽略了同一事件下更细粒度的子话题聚类,且为了更有效地表达微博文本的语义信息,提出一种基于LDA文档-主题分布与Doc2Vec句向量融合的文本特征表示方法与文本相似度计算方法,应用Single-Pass增量聚类算法实现同一突发事件下子话题聚类,并根据F1值与单一文本特征子话题聚类实验结果进行对比。结果表明,本文方法子话题聚类效果更佳,F1值为72.4%,表明该方法能够有效地表达文本特征,进而提高子话题聚类的准确度。 展开更多
关键词 突发事件 子话题聚类 文本特征 LDA主题模型 doc2vec模型
下载PDF
情报学视角下航空工业颠覆性技术识别研究
5
作者 王晓琦 朱玉虎 +1 位作者 冯莉 王文升 《江苏科技信息》 2023年第31期35-40,共6页
文章分析了航空工业颠覆性技术形态特征,在此基础上提出航空工业颠覆性技术识别方法,以多旋翼无人机为研究对象,对该方法的有效性进行验证。通过SAO结构分析、Doc2vec模型、K-means++算法等情报学方法,识别多旋翼无人机领域具有颠覆性... 文章分析了航空工业颠覆性技术形态特征,在此基础上提出航空工业颠覆性技术识别方法,以多旋翼无人机为研究对象,对该方法的有效性进行验证。通过SAO结构分析、Doc2vec模型、K-means++算法等情报学方法,识别多旋翼无人机领域具有颠覆性潜力的技术主题。研究结果认为,航空工业颠覆性技术具有技术发起者为在位企业、技术路线为自上而下、以应用效果作为评价标准、较强的学科耦合性等特点。多旋翼无人机领域具有颠覆性潜力的技术主题有:目标跟踪、控制算法突破、故障诊断方法和容错控制技术。 展开更多
关键词 航空工业 颠覆性技术 多旋翼无人机 doc2vec模型
下载PDF
基于改进TextRank算法的中文文本摘要提取 被引量:24
6
作者 徐馨韬 柴小丽 +2 位作者 谢彬 沈晨 王敬平 《计算机工程》 CAS CSCD 北大核心 2019年第3期273-277,共5页
为提高中文文本摘要提取的准确度,融合Doc2Vec模型、K-means算法和TextRank算法,提出一种中文文本摘要自动提取算法(DK-TextRank)。使用Doc2Vec模型进行文本向量化,采用改进的K-means算法实现相似文本聚类,在每个聚类簇中应用加入权重... 为提高中文文本摘要提取的准确度,融合Doc2Vec模型、K-means算法和TextRank算法,提出一种中文文本摘要自动提取算法(DK-TextRank)。使用Doc2Vec模型进行文本向量化,采用改进的K-means算法实现相似文本聚类,在每个聚类簇中应用加入权重影响因子的TextRank算法对文本语句进行排序,并提取主题句生成摘要。实验结果表明,DK-TextRank算法在摘要语句数量为7时F值达到79.36%,相比传统TF-IDF、TextRank算法提取的摘要质量更高。 展开更多
关键词 doc2vec模型 K-MEANS算法 TextRank算法 摘要提取 权重影响因子
下载PDF
融合文本分布式表示的重复缺陷报告检测 被引量:2
7
作者 曾杰 贲可荣 +1 位作者 张献 徐永士 《计算机工程与科学》 CSCD 北大核心 2021年第4期670-680,共11页
重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本。为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法。首先,基于大规模缺陷报告数据库训练Doc2Vec模型并... 重复缺陷报告检测能够避免对描述同一缺陷的多份报告进行重复的任务分派和修复,可降低软件维护成本。为了进一步提高检测的准确率,提出一种融合文本分布式表示的重复缺陷报告检测方法。首先,基于大规模缺陷报告数据库训练Doc2Vec模型并抽取缺陷报告的分布式表示,将不同长度的缺陷报告编码为统一长度的稠密向量。接着,通过比较这些向量来计算不同缺陷报告的相似程度,将其作为一种新特征与重复缺陷报告检测过程常用的其它特征进行融合,并利用机器学习算法训练二元分类模型。在公开的Bugzilla重复缺陷报告数据集上的实验结果表明,相比于代表性方法D_TS,本文方法的F1值平均提升了2%,说明了新特征的有效性。 展开更多
关键词 重复缺陷报告 文本分布式表示 doc2vec模型 机器学习算法
下载PDF
一种融合D_BBAS方法的重复缺陷报告检测
8
作者 曾方 谢琪 崔梦天 《计算机应用研究》 CSCD 北大核心 2022年第12期3736-3742,共7页
为了更有效地获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利... 为了更有效地获得缺陷报告的非结构化信息的特征,提出一种D_BBAS(Doc2vec and BERT BiLSTM-attention similarity)方法,它基于大规模缺陷报告库训练特征提取模型,生成能反映深层次语义信息的缺陷摘要文本表示集和缺陷描述文本表示集;利用这两个分布式的表示集计算出缺陷报告对的相似度,从而得到两个新的相似度特征;这两个新特征将与基于结构化信息生成的传统特征结合后参与重复缺陷报告的检测。在著名开源项目Eclipse、NetBeans和Open Office的缺陷报告库上验证了D_BBAS方法的有效性,其中包含超过50万个缺陷报告。实验结果表明,相比于代表性方法,该方法的F1值平均提升了1.7%,证明了D_BBAS方法的有效性。 展开更多
关键词 重复缺陷报告 BERT模型 doc2vec模型 BiLSTM-attention神经网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部