期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于大数据挖掘的科技项目查重模型研究 被引量:27
1
作者 李善青 赵辉 宋立荣 《图书馆论坛》 CSSCI 北大核心 2014年第2期78-83,共6页
科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研... 科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用Hadoop框架实现海量数据的快速挖掘。文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。 展开更多
关键词 大数据挖掘 多源信息整合 科技项目查重 Hadoop架构
下载PDF
科技项目查重系统构建研究 被引量:4
2
作者 张新民 张爱霞 郑彦宁 《情报学报》 CSSCI 北大核心 2016年第9期917-922,共6页
通过梳理科技项目查重系统的研究现状,结合国家科技信息管理平台的特征,分析基于该平台的查重系统是基于项目信息、科技报告等历史项目成果信息等多源数据基础上深度查重系统,既需要实现元数据查重,也要能实现基于项目信息的查重,还要... 通过梳理科技项目查重系统的研究现状,结合国家科技信息管理平台的特征,分析基于该平台的查重系统是基于项目信息、科技报告等历史项目成果信息等多源数据基础上深度查重系统,既需要实现元数据查重,也要能实现基于项目信息的查重,还要能实现基于研究成果产出信息的查新查重,避免重复立项和重复研究,提出该查重系统的功能需求、体系结构和工作流程。 展开更多
关键词 重复立项 项目查重 重复研究 相似度计算
下载PDF
科技项目查重方法研究综述 被引量:8
3
作者 李善青 邢晓昭 杜圣梅 《科技管理研究》 CSSCI 北大核心 2018年第6期197-201,共5页
对已有的科技项目查重方法进行系统性的综述,为其他研究者快速了解相关的背景和方法提供有用的知识和线索。首先给出科技项目查重的定义及其实现的一般过程,然后从文本预处理、特征提取、模型构建和相似度判别等维度对常用的方法进行分... 对已有的科技项目查重方法进行系统性的综述,为其他研究者快速了解相关的背景和方法提供有用的知识和线索。首先给出科技项目查重的定义及其实现的一般过程,然后从文本预处理、特征提取、模型构建和相似度判别等维度对常用的方法进行分析和总结,讨论其优点和不足,最后阐述科技项目查重方法的未来发展趋势。 展开更多
关键词 科技项目查重 文本预处理 特征提取 模型构建 相似度判别
下载PDF
科技项目查重中特征词TF-IDF值计算方法的改进 被引量:15
4
作者 方延风 《情报探索》 2012年第1期1-3,共3页
针对科技项目查重的需要,利用分词的结果,将科技项目文档转换为文本向量空间模型,抽取特征词,并将特征词的位置和词的长度2个因素考虑进来,提出一种TF-IDF值的改进计算方法,并实例验证该方法有一定的改善效果。
关键词 文本特征 特征词权值 TF—IDF 算法改进 项目查重 科技项目
下载PDF
科技项目查重研究现状与发展对策 被引量:3
5
作者 刘如 秦潇 +1 位作者 董晓晴 吴琼 《天津科技》 2017年第2期21-24,共4页
大数据时代的到来和人工智能的崛起,为科技项目管理工作提供了新的技术和方法。通过对我国科技项目查重研究现状以及国内外查重相关技术发展的分析,提出我国科技项目查重研究的发展对策,为解决重复立项等问题探索了新的思路和技术手段... 大数据时代的到来和人工智能的崛起,为科技项目管理工作提供了新的技术和方法。通过对我国科技项目查重研究现状以及国内外查重相关技术发展的分析,提出我国科技项目查重研究的发展对策,为解决重复立项等问题探索了新的思路和技术手段。建议建立融合国内外科技项目的大型数据库,并重点研究基于深度学习技术的项目查重方法。在大数据时代的思维模式下,以监理大型科技项目库为基础,对科技项目进行智能查重服务是未来科技项目查重研究发展的必然趋势。 展开更多
关键词 科技项目查重 文本相似度 深度学习
下载PDF
一种用于科技项目查重的数据整合及描述模型 被引量:1
6
作者 李善青 《情报工程》 2017年第5期53-59,共7页
整合科技项目所产出成果的信息能间接反映项目的研究内容,可以弥补项目查重过程中申报书难以获取的不足,具有重要的研究意义。本文提出一种整合科技项目相关产出信息的数据模型。该模型通过整合项目产出的科技报告、学术论文和科技成果... 整合科技项目所产出成果的信息能间接反映项目的研究内容,可以弥补项目查重过程中申报书难以获取的不足,具有重要的研究意义。本文提出一种整合科技项目相关产出信息的数据模型。该模型通过整合项目产出的科技报告、学术论文和科技成果等信息,抽取其中的关键词、标题和摘要等对项目的研究内容进行准确的描述,并强化了项目负责人和承担机构等辅助信息对项目查重的重要性,从而为解决项目查重问题提供客观的数据支撑。 展开更多
关键词 数据整合 描述模型 科技项目查重 Hadoop架构
下载PDF
一种基于关联数据的科技项目查重系统
7
作者 李善青 安淑荻 邢晓昭 《计算机与数字工程》 2022年第5期959-963,共5页
论文提出了一种基于关联数据的科技项目查重系统,通过整合与科技项目密切相关的项目任务书、科技论文、科技报告和科技成果等信息,建立科技项目的描述模型。采用改进的TextRank算法从摘要和标题等短文本中抽取关键词构建特征向量,并提... 论文提出了一种基于关联数据的科技项目查重系统,通过整合与科技项目密切相关的项目任务书、科技论文、科技报告和科技成果等信息,建立科技项目的描述模型。采用改进的TextRank算法从摘要和标题等短文本中抽取关键词构建特征向量,并提出了项目相似度的判别方法。利用Hadoop和Spark的分布式计算框架,实现了项目查重系统并进行了相关的实验。结果证明了该方法的有效性和可行性,在给定的实验条件下取得了较高的准确率和召回率。 展开更多
关键词 关联数据 科技项目查重 数据挖掘 多源信息整合 Hadoop架构
下载PDF
浅析科技项目查重方法的研究与现状 被引量:1
8
作者 史科蕾 曹军杰 《中国科教创新导刊》 2013年第13期182-183,共2页
随着我国现代化的快速发展,科研课题重复立项、判定科技成果新颖性与先进性等现象引起了相关部门的重视,如何为科研立项、科研成果鉴定、科技奖励评审等提供可靠的情报评估,科技查新成为国家与各地市科技部门的一项重要工作而突显出来。
关键词 科技项目查重 专家遴选 非分词 TF-IDF
下载PDF
科技项目查重系统在企业中的实践应用 被引量:2
9
作者 周育忠 陶秀杰 +2 位作者 张自锋 韦嵘晖 杨宇亮 《河南科技》 2019年第28期32-35,共4页
本文阐述了通过建设科技项目查重系统,有效整合科研项目成果数据,减少企业科研项目重复建设,提高企业科研经费利用效率,进一步提升企业科研管理水平。科技项目查重系统通过提供统一的历史科研数据检索及项目文档自查重,系统化地辅助科... 本文阐述了通过建设科技项目查重系统,有效整合科研项目成果数据,减少企业科研项目重复建设,提高企业科研经费利用效率,进一步提升企业科研管理水平。科技项目查重系统通过提供统一的历史科研数据检索及项目文档自查重,系统化地辅助科研人员筛查研究方向和课题。同时,通过提供批量科研文档查重,输出查重结果,辅助科研项目评审专家进行科研项目评审工作,有效提高企业科研项目评审效率等。此外,本文也阐述了后续系统搭建过程中元数据规范、相似性检测算法和模型等在企业后续的应用方向。 展开更多
关键词 科技项目查重 相似性检测 历史库 碎片化 学术关联
下载PDF
基于向量空间模型的项目申报书查重系统设计 被引量:5
10
作者 胡伟伟 孙逊 王婷婷 《天津科技》 2015年第8期33-34,共2页
随着国家及地方科研财政经费的增加,企事业单位对科技项目日益重视,项目申报数量也逐年递增。为避免对类似项目的重复支持,造成科研经费的浪费,项目查重就显得尤为必要。提出了基于向量空间模型的项目申报书查重系统设计方法,并介绍设... 随着国家及地方科研财政经费的增加,企事业单位对科技项目日益重视,项目申报数量也逐年递增。为避免对类似项目的重复支持,造成科研经费的浪费,项目查重就显得尤为必要。提出了基于向量空间模型的项目申报书查重系统设计方法,并介绍设计流程。 展开更多
关键词 项目查重 向量空间模型 分词
下载PDF
基于分层深度语义的科研项目文本相似度度量方法 被引量:1
11
作者 杨政 方正云 +1 位作者 李天骄 李丽敏 《计算机与数字工程》 2024年第3期795-801,851,共8页
科研项目查重自动化是科研项目管理中的重要问题,文本相似度度量是查重的关键环节。目前的科研项目文本相似度度量方法主要基于字符串比较或者TF-IDF方法,这些方法忽略了文本在语义上的相似性。论文针对结构化的科研项目文本,基于预训... 科研项目查重自动化是科研项目管理中的重要问题,文本相似度度量是查重的关键环节。目前的科研项目文本相似度度量方法主要基于字符串比较或者TF-IDF方法,这些方法忽略了文本在语义上的相似性。论文针对结构化的科研项目文本,基于预训练模型RoBERTa-WWM提取语句的语义特征,提出Whitening的标准化方法,并建立项目文本的分层深度语义相似度度量方法。我们提出的项目文本分层语义相似度包含三层:语句之间的相似度,章节之间的相似度,以及项目文本之间的相似度。论文在蚂蚁金融语义相似度AFQMC数据集和电力行业科研项目文本上进行了对比实验,验证了该基于分层深度语义的相似度度量方法明显优于基于字符串距离和TF-IDF的相似度度量方法。 展开更多
关键词 文本相似度 自然语言处理 科研项目查重
下载PDF
多源异构数据融合技术的研究 被引量:6
12
作者 王彦婕 《山西电子技术》 2022年第3期71-73,共3页
多源数据融合是时代发展的必然要求。多源异构数据融合技术涉及数据采集、数据清洗、数据融合分析三个阶段,本文通过对多源异构数据融合技术的研究,将其典型应用于晋中市科技计划管理信息平台,实现对关系型数据库中数据、上传的PDF数据... 多源数据融合是时代发展的必然要求。多源异构数据融合技术涉及数据采集、数据清洗、数据融合分析三个阶段,本文通过对多源异构数据融合技术的研究,将其典型应用于晋中市科技计划管理信息平台,实现对关系型数据库中数据、上传的PDF数据、图片数据、日志数据、网页爬虫数据等进行融合分析,消除数据之间的不精确、不一致,提高数据可靠性,从多维度、全方位为决策提供支持;运用到项目查重模块,实现项目在进行查重时,从原有基于项目名称、项目负责人等结构化查重的基础上,增加了基于项目全文、网络爬虫数据的非结构化查重分析,更精确、更科学地对申报项目作出客观评价。 展开更多
关键词 多源数据 多源异构数据融合技术 决策支持 项目查重
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部