期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
基于Doc2vec-LightGBM的CBTC车载信号设备故障分类诊断方法
1
作者 柴琳果 张景会 +2 位作者 上官伟 蔡伯根 李小雨 《铁道学报》 EI CAS CSCD 北大核心 2024年第4期108-118,共11页
车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-Ligh... 车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-LightGBM的CBTC车载设备故障自动分类诊断方法。首先对故障文本使用Jieba完成文本分词,依据TF-IDF实现分词文本数据的特征提取,并采用Doc2vec训练文本分词向量;其次针对数据不均衡的问题,采用Borderline-SMOTE算法进行少数类文本向量数据的补全泛化;最后,通过训练轻量梯度提升机LightGBM分类器完成故障文本自动分类。采用某信号厂商所记录的1 133条故障文本数据进行分类实验分析,并与支持向量机(SVM)方法对比。实验结果表明,所提方法在分类精确率、召回率上分别为98.2%、97.5%,证明了该故障文本自动分类方法的有效性和优越性。 展开更多
关键词 CBTC 车载设备 doc2vec LightGBM 故障分类诊断
下载PDF
基于Doc2Vec增强特征的长文本主题聚类研究 被引量:1
2
作者 陈洁 《计算机科学》 CSCD 北大核心 2023年第S01期211-216,共6页
针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度... 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类。相比直接应用Doc2Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%。实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用。 展开更多
关键词 主题聚类 文本表征 doc2vec 词向量 HDBSCAN
下载PDF
Doc2vec在薪水预测中的应用研究 被引量:7
3
作者 潘博 张青川 +1 位作者 于重重 曹帅 《计算机应用研究》 CSCD 北大核心 2018年第1期155-157,共3页
针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec... 针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec计算文本的特征向量,能更深入地表征出文本语义特征。实验将多种组合模型进行对比,结果表明相比于目前已有方法,doc2vec提取文本特征可以使薪水预测误差率至少降低5%。 展开更多
关键词 薪水预测 doc2vec 文本特征
下载PDF
基于词向量Doc2vec的双向LSTM情感分析 被引量:7
4
作者 张俊飞 毕志升 吴小玲 《计算机与数字工程》 2018年第12期2385-2389,2399,共6页
针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec... 针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec和Doc2vec词向量生成对比实验、LSTM和双向LSTM评教评语情感分析对比实验,验证了Doc2vec词向量技术对句子的表达优于Word2vec,双向LSTM在情感分析中具有更高的精准度。 展开更多
关键词 词嵌入 Word2vec doc2vec LSTM 双向LSTM
下载PDF
利用Doc2Vec判断中文专利相似性 被引量:11
5
作者 张海超 赵良伟 《情报工程》 2018年第2期64-72,共9页
目前专利侵权纠纷案件时有发生,企业一旦卷入专利侵权纠纷,通常会面临时间考验和经济损失。本文选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec深度神经网络算法,计算权利要求书文本之间的相似度,得出与涉案专利... 目前专利侵权纠纷案件时有发生,企业一旦卷入专利侵权纠纷,通常会面临时间考验和经济损失。本文选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec深度神经网络算法,计算权利要求书文本之间的相似度,得出与涉案专利相似性较高的专利。并且将上述方法应用到专利复审案件实验中,进行实证研究,取得了较好的效果。需要进一步提高训练数据的质量,对比其他算法的效果。利用该方法能够帮助专利审查人员和企业找到相似专利。 展开更多
关键词 专利相似度 专利侵权 Word2Vec doc2vec
下载PDF
基于LDA模型和Doc2vec的学术摘要聚类方法 被引量:21
6
作者 张卫卫 胡亚琦 +1 位作者 翟广宇 刘志鹏 《计算机工程与应用》 CSCD 北大核心 2020年第6期180-185,共6页
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型... 针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。 展开更多
关键词 短文本聚类 LDA模型 doc2vec模型 学术摘要
下载PDF
基于Doc2Vec的期刊论文热点选题识别 被引量:19
7
作者 阮光册 夏磊 《情报理论与实践》 CSSCI 北大核心 2019年第4期107-111,106,共6页
[目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集... [目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集;最后,运用聚类算法和主题词提取算法获取论文热点选题的主题描述。[结果/结论]对比词频统计和共词聚类方法,本文的实验结果在研究热点的描述上具有更好的语义特征。[局限]热点选题论文集的生成受阈值的影响。深度学习可以作为揭示学科研究热点的新方法。 展开更多
关键词 学术论文 热点主题识别 doc2vec 聚类分析 关键词提取
下载PDF
Doc2vec在政策文本分类中的应用研究 被引量:4
8
作者 李峰 柯伟扬 +3 位作者 盛磊 陈雯 陈丙赛 罗韵晴 《软件》 2019年第8期76-78,共3页
政策文本(Policy Text)是指因政策活动而产生的记录文献,当前多数的政策文本分类方法存在特征维度高、缺乏上下文信息这两个缺点。基于此,本文采用Doc2vec算法,通过词向量化解决特征维度高的问题,采用CBOW方法获取词语上下文信息。本文... 政策文本(Policy Text)是指因政策活动而产生的记录文献,当前多数的政策文本分类方法存在特征维度高、缺乏上下文信息这两个缺点。基于此,本文采用Doc2vec算法,通过词向量化解决特征维度高的问题,采用CBOW方法获取词语上下文信息。本文采用的方法经过实验测试,结果显示该方法对提高政策文本的分类准确率有着显著作用。 展开更多
关键词 政策文本 文本分类 doc2vec
下载PDF
基于Doc2vec的专利与行业类目映射研究 被引量:2
9
作者 马晓萌 徐峰 +1 位作者 刘清民 封颖 《情报探索》 2020年第6期67-74,共8页
[目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的... [目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的小类展开,通过Doc2vec文本向量化和余弦相似度的方法求取三组相似值(专利小类与行业小类、专利大组与行业小类、每组专利小类下大组与行业小类相似度的平均值),并以农业类目为例进行解释说明。[结果/结论]通过计算专利大组与行业小类相似度平均值的方法进行映射更具合理性。 展开更多
关键词 Word2vec doc2vec 类目映射 余弦相似度
下载PDF
基于Doc2Vec和深度神经网络的战场态势智能推送研究 被引量:8
10
作者 申远 黄志良 +1 位作者 胡彪 王适之 《智能计算机与应用》 2020年第1期50-55,共6页
战场态势智能推送中的推荐算法是最核心、最关键的组成部分,在很大程度上决定了战场态势推送性能的优劣。深度神经网络推荐算法对用户和态势的需求度关系进行建模学习,能够学习到两者之间隐含的、更为复杂的非线性关系,缺点在于未利用... 战场态势智能推送中的推荐算法是最核心、最关键的组成部分,在很大程度上决定了战场态势推送性能的优劣。深度神经网络推荐算法对用户和态势的需求度关系进行建模学习,能够学习到两者之间隐含的、更为复杂的非线性关系,缺点在于未利用到态势的额外信息。因此以深度神经网络推荐算法为基础,利用Doc2Vec方法提取态势文本内容信息来作为深度神经网络模型的辅助输入,设计了一种基于Doc2Vec和深度神经网络的战场态势智能推送方法。实验仿真结果表明,利用Doc2Vec算法来对态势的额外信息进行建模,能够提升算法推荐效果。 展开更多
关键词 战场态势 智能推送 推荐算法 深度神经网络 doc2vec
下载PDF
基于Doc2Vec和BiLSTM的老年患者疾病预测研究 被引量:5
11
作者 藏润强 左美云 郭鑫鑫 《计算机工程与科学》 CSCD 北大核心 2020年第12期2273-2279,共7页
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。... 基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病,可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证,结果发现模型能够有效地预测出老年人新的疾病,且在保证预测准确率的同时还具有一定的稳定性。 展开更多
关键词 上下文 doc2vec 双向长短时记忆网络BiLSTM 数据挖掘 疾病预测
下载PDF
基于Doc2Vec与SVM的聊天内容过滤 被引量:5
12
作者 岳文应 《计算机系统应用》 2018年第7期127-132,共6页
直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式... 直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型. 展开更多
关键词 文本分类 自然语言处理 doc2vec模型 支持向量机
下载PDF
融合LDA主题和Doc2vec算法的DeepFM模型的推荐算法研究 被引量:3
13
作者 刘伦珲 吴丽萍 《电视技术》 2022年第4期47-53,共7页
如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本... 如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本中的隐藏主题和隐藏特征并考虑隐藏特征的交叉情况,能够在保留评论文本表层信息的同时学习数据中的浅层和深层特征。本文将该模型与之前的模型在真实的数据上进行实验对比。实验结果表明,相较于现存模型,该模型的推荐准确率有了一定的提高。 展开更多
关键词 推荐系统 LDA主题模型 doc2vec DeepFM
下载PDF
基于融合LDA和Doc2vec算法的文本表示模型的研究 被引量:3
14
作者 宁宁 莫秀良 +1 位作者 王春东 佟寅铖 《天津理工大学学报》 2021年第2期55-60,共6页
在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量... 在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量表示和文档向量表示,再通过计算其中的余弦相似度来提取文本特征.该方法不仅能得到在特定段落的语境下词与词之间的语义关系,还能因此挖掘出更多与文档相关的主题信息.为了验证算法的有效性,对几种相关方法进行了性能比较,实验结果表明,该方法优于其它方法,生成的文档特征可以通过整合全局和局部关系来提高文本分类性能. 展开更多
关键词 LDA doc2vec 文本表示 特征选择 文本分类
下载PDF
基于Doc2vec和深度神经网络的中文文本情感倾向研究 被引量:4
15
作者 王晨超 刘洋 《电子技术与软件工程》 2018年第10期154-157,共4页
为了可以在准确地判别中文文本的情感倾向的同时,降低训练成本、提高效率,提出了基于Doc2vec和深度神经网络的方法对中文文本进行情感分类。先使用Doc2vec将清洗后的中文文本训练成文本向量,再使用这些文本向量训练基于深度神经网络的... 为了可以在准确地判别中文文本的情感倾向的同时,降低训练成本、提高效率,提出了基于Doc2vec和深度神经网络的方法对中文文本进行情感分类。先使用Doc2vec将清洗后的中文文本训练成文本向量,再使用这些文本向量训练基于深度神经网络的分类器。实验结果表明,与情感词典、传统机器学习和长短期记忆网络(LSTM)的方法相比,该方法有着较高的准确率和效率。特别是和情感词典和传统机器学习的方法相比该方法优势明显;与LSTM相比训练成本也大大降低。 展开更多
关键词 doc2vec 深度神经网络 情感分析 中文文本分类
下载PDF
基于doc2vec的主观题自动评分应用 被引量:1
16
作者 肖灵云 刘军库 李春红 《现代计算机》 2022年第1期79-82,95,共5页
针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法。利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分。将主观题试题作为实... 针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法。利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分。将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分有一定的参考意义。 展开更多
关键词 自动评分 doc2vec算法 文本相似度 主观题
下载PDF
基于Doc2vec的微博评论情感倾向研究
17
作者 李荟珍 《应用数学进展》 2022年第1期269-277,共9页
该文针对疫苗接种的相关微博评论进行情感倾向分析,首先利用基于神经网络的Doc2vec模型训练文本向量,继而使用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)三种机器学习的算法完成情感分类任务,且分别讨论了三种算法在四种不同的Doc2ve... 该文针对疫苗接种的相关微博评论进行情感倾向分析,首先利用基于神经网络的Doc2vec模型训练文本向量,继而使用支持向量机(SVM)、随机森林(RF)、逻辑回归(LR)三种机器学习的算法完成情感分类任务,且分别讨论了三种算法在四种不同的Doc2vec模型设定方案下的分类表现。其中Distributed Memory version of Paragraph Vector (PV-DM)算法训练的文本向量中,RF表现最优,在方案一与方案二上其F1分数值均为最高,分别为87.24%、87.50%。基于Distributed Bag of Words version of Paragraph Vector (PV-DBOW)算法训练的文本向量中,SVM表现最优,在方案三与方案四上其F1分数值达到最高,分别为84.11%、83.91%。 展开更多
关键词 情感倾向 doc2vec模型 文本分类 机器学习 微博评论
下载PDF
基于图神经网络的专利文本分类研究
18
作者 魏雯婕 张更平 《竞争情报》 2024年第2期24-34,共11页
传统专利分类由专家逐件审阅,随着大数据、人工智能和自然语言处理技术的快速发展,专利文本自动分类正在成为学界、业界的重要研究方向之一。文本分类技术可以用于判断专利申请是否获得授权,帮助审查员自动化处理和分析专利申请文件,从... 传统专利分类由专家逐件审阅,随着大数据、人工智能和自然语言处理技术的快速发展,专利文本自动分类正在成为学界、业界的重要研究方向之一。文本分类技术可以用于判断专利申请是否获得授权,帮助审查员自动化处理和分析专利申请文件,从而提高工作效率。针对海量专利的英文文本,提出一种基于图神经网络模型的专利文本自动分类方法,用于测度专利申请是否可获得授权。使用深度学习算法TextGCN对专利摘要语料进行学习和训练,利用图结构数据的邻居信息和节点特征,通过神经网络产生专利文本的表示向量,进而实现专利授权与否的预测。实验结果表明,本文采用的深度学习算法能够得到较好的分类效果,并且与Doc2vec和TFIDF表示方法相比,该模型在精确度、召回率、准确率及F1方面均有所提高,可为专利授权与否的自动预测提供可靠的研究依据。 展开更多
关键词 专利分类 图卷积神经网络 doc2vec TFIDF 表示学习
下载PDF
“互联网+”双创大赛信息推荐集成模型研究
19
作者 罗骏 庞建华 《科技创业月刊》 2024年第2期69-73,共5页
“互联网+”双创大赛是推动大学生创新创业的重要途径,然而随着大赛的蓬勃发展,参赛者很难在海量数据中高效获取所需信息。为此,提出构建一种信息推荐模型,以完善“互联网+”双创大赛的信息服务研究,为选手提供有用的大赛信息,帮助他们... “互联网+”双创大赛是推动大学生创新创业的重要途径,然而随着大赛的蓬勃发展,参赛者很难在海量数据中高效获取所需信息。为此,提出构建一种信息推荐模型,以完善“互联网+”双创大赛的信息服务研究,为选手提供有用的大赛信息,帮助他们了解竞争对手、理解市场和行业,提高项目的竞争力。在调研四川大学“互联网+”双创大赛信息服务现状与用户需求的基础上,构建了集成Doc2Vec和LDA算法的“互联网+”双创大赛信息推荐模型。经检验,该模型能够较好地进行“互联网+”双创大赛信息推荐服务。最后提出了下一步研究构想。 展开更多
关键词 “互联网+” 大学生创新创业大赛 信息推荐 信息服务 doc2vec LDA
下载PDF
基于机器学习分类算法的高质量专利成果筛选研究 被引量:1
20
作者 周一夫 谭春辉 +3 位作者 江婷 李玥澎 毕慧婷 汪红信 《现代情报》 北大核心 2024年第2期81-91,共11页
[目的/意义]基于客观数据形成一套自动筛选方法,对专利成果质量进行快速识别,为推动专利成果转化工作提供决策支持。[方法/过程]首先,以专利成果的发明人数量、IPC号数量等形式特征结合语义向量匹配度特征、专利成果质量标注结果,构建... [目的/意义]基于客观数据形成一套自动筛选方法,对专利成果质量进行快速识别,为推动专利成果转化工作提供决策支持。[方法/过程]首先,以专利成果的发明人数量、IPC号数量等形式特征结合语义向量匹配度特征、专利成果质量标注结果,构建高质量专利成果筛选指标体系;其次,以“先进制造与自动化”领域为例,在专利之星平台检索该领域的发明专利作为专利文本数据来源,并以湖北省需求为例,将其相关的产业发展规划(宏观)和市场技术需求(微观)作为需求文本数据来源;随后,采用分词、去停、文本向量化等步骤对专利文本和需求文本进行处理,并整理形成训练集和测试集;最后,调用8种机器学习分类算法模型进行训练与评估,并对训练效果最优的算法展开应用测试,以验证筛选方法的可行性。[结果/结论]结果显示,随机森林算法模型在选取的8类算法模型中整体表现最优,被用为高质量专利成果筛选方法中的内核分类算法。此外,本文提出的筛选方法对专利成果质量识别具备较强的可行性,能够结合不同省(市)的特定专利需求,快速地进行大批量专利成果的筛选,在一定程度上可有效降低人力、物力和财力成本的消耗。 展开更多
关键词 专利成果筛选 高质量专利成果 机器学习 doc2vec
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部