-
题名基于大数据挖掘的科技项目查重模型研究
被引量:27
- 1
-
-
作者
李善青
赵辉
宋立荣
-
机构
中国科学技术信息研究所
-
出处
《图书馆论坛》
CSSCI
北大核心
2014年第2期78-83,共6页
-
基金
中国科学技术信息研究所科研项目预研基金"面向重复立项检测的多源信息整合机制研究"(项目编号:YY201214)
国家自然科学基金项目"大数据挖掘在科技项目查重中的应用研究"(项目编号:71303223)
国家社会科学基金项目"网络环境下科技信息资源建设中的质量元数据及评估应用研究"(项目编号:12BTQ016)研究成果之一
-
文摘
科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用Hadoop框架实现海量数据的快速挖掘。文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。
-
关键词
大数据挖掘
多源信息整合
科技项目查重
Hadoop架构
-
Keywords
big data mining
muhi-source information integration
similarity detection for scientificprojects
Hadoop architecture
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名科技项目查重系统构建研究
被引量:4
- 2
-
-
作者
张新民
张爱霞
郑彦宁
-
机构
中国科学技术信息研究所
-
出处
《情报学报》
CSSCI
北大核心
2016年第9期917-922,共6页
-
基金
国家科技报告制度试点专项工作经费项目研究成果之一
-
文摘
通过梳理科技项目查重系统的研究现状,结合国家科技信息管理平台的特征,分析基于该平台的查重系统是基于项目信息、科技报告等历史项目成果信息等多源数据基础上深度查重系统,既需要实现元数据查重,也要能实现基于项目信息的查重,还要能实现基于研究成果产出信息的查新查重,避免重复立项和重复研究,提出该查重系统的功能需求、体系结构和工作流程。
-
关键词
重复立项
项目查重
重复研究
相似度计算
-
Keywords
duplicate project, duplicate project detection, duplicate research, similarity calculation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
G311
[文化科学]
-
-
题名科技项目查重方法研究综述
被引量:8
- 3
-
-
作者
李善青
邢晓昭
杜圣梅
-
机构
中国科学技术信息研究所
-
出处
《科技管理研究》
CSSCI
北大核心
2018年第6期197-201,共5页
-
基金
国家自然科学基金项目"大数据挖掘在科技项目查重中的应用研究"(71303223)
-
文摘
对已有的科技项目查重方法进行系统性的综述,为其他研究者快速了解相关的背景和方法提供有用的知识和线索。首先给出科技项目查重的定义及其实现的一般过程,然后从文本预处理、特征提取、模型构建和相似度判别等维度对常用的方法进行分析和总结,讨论其优点和不足,最后阐述科技项目查重方法的未来发展趋势。
-
关键词
科技项目查重
文本预处理
特征提取
模型构建
相似度判别
-
Keywords
identification of highly similar scientific projects
text pre -processing
feature extraction
model construction
similarity discrimination
-
分类号
G311
[文化科学]
-
-
题名科技项目查重中特征词TF-IDF值计算方法的改进
被引量:15
- 4
-
-
作者
方延风
-
机构
福建省科学技术信息研究所
-
出处
《情报探索》
2012年第1期1-3,共3页
-
基金
福建省公益类科研院所科研专项"基于相似性计算的科技项目查重技术研究"(项目编号:2010R1009-4)的成果之一
-
文摘
针对科技项目查重的需要,利用分词的结果,将科技项目文档转换为文本向量空间模型,抽取特征词,并将特征词的位置和词的长度2个因素考虑进来,提出一种TF-IDF值的改进计算方法,并实例验证该方法有一定的改善效果。
-
关键词
文本特征
特征词权值
TF—IDF
算法改进
项目查重
科技项目
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名科技项目查重研究现状与发展对策
被引量:3
- 5
-
-
作者
刘如
秦潇
董晓晴
吴琼
-
机构
北京市科学技术情报研究所
-
出处
《天津科技》
2017年第2期21-24,共4页
-
文摘
大数据时代的到来和人工智能的崛起,为科技项目管理工作提供了新的技术和方法。通过对我国科技项目查重研究现状以及国内外查重相关技术发展的分析,提出我国科技项目查重研究的发展对策,为解决重复立项等问题探索了新的思路和技术手段。建议建立融合国内外科技项目的大型数据库,并重点研究基于深度学习技术的项目查重方法。在大数据时代的思维模式下,以监理大型科技项目库为基础,对科技项目进行智能查重服务是未来科技项目查重研究发展的必然趋势。
-
关键词
科技项目查重
文本相似度
深度学习
-
Keywords
duplicate checking for science project
text similarity
deep learning
-
分类号
G350
[文化科学—情报学]
-
-
题名一种用于科技项目查重的数据整合及描述模型
被引量:1
- 6
-
-
作者
李善青
-
机构
中国科学技术信息研究所
-
出处
《情报工程》
2017年第5期53-59,共7页
-
基金
国家自然科学基金"大数据挖掘在科技项目查重中的应用研究"(编号:71303223)的资助
-
文摘
整合科技项目所产出成果的信息能间接反映项目的研究内容,可以弥补项目查重过程中申报书难以获取的不足,具有重要的研究意义。本文提出一种整合科技项目相关产出信息的数据模型。该模型通过整合项目产出的科技报告、学术论文和科技成果等信息,抽取其中的关键词、标题和摘要等对项目的研究内容进行准确的描述,并强化了项目负责人和承担机构等辅助信息对项目查重的重要性,从而为解决项目查重问题提供客观的数据支撑。
-
关键词
数据整合
描述模型
科技项目查重
Hadoop架构
-
Keywords
Data integration, project representation model, similar scientific project detection, Hadooparchitecture
-
分类号
G311
[文化科学]
-
-
题名一种基于关联数据的科技项目查重系统
- 7
-
-
作者
李善青
安淑荻
邢晓昭
-
机构
中国科学技术信息研究所
-
出处
《计算机与数字工程》
2022年第5期959-963,共5页
-
基金
国家自然科学基金项目“大数据挖掘在科技项目查重中的应用研究”(编号:71303223)
中国科学技术信息研究所创新研究基金项目“基于大数据的区域科技创新态势识别研究”(编号:QN2020-01)资助。
-
文摘
论文提出了一种基于关联数据的科技项目查重系统,通过整合与科技项目密切相关的项目任务书、科技论文、科技报告和科技成果等信息,建立科技项目的描述模型。采用改进的TextRank算法从摘要和标题等短文本中抽取关键词构建特征向量,并提出了项目相似度的判别方法。利用Hadoop和Spark的分布式计算框架,实现了项目查重系统并进行了相关的实验。结果证明了该方法的有效性和可行性,在给定的实验条件下取得了较高的准确率和召回率。
-
关键词
关联数据
科技项目查重
数据挖掘
多源信息整合
Hadoop架构
-
Keywords
linked data
similar scientific project detection
data mining
multi-source information integration
Hadoop framework
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名浅析科技项目查重方法的研究与现状
被引量:1
- 8
-
-
作者
史科蕾
曹军杰
-
机构
山东女子学院
-
出处
《中国科教创新导刊》
2013年第13期182-183,共2页
-
文摘
随着我国现代化的快速发展,科研课题重复立项、判定科技成果新颖性与先进性等现象引起了相关部门的重视,如何为科研立项、科研成果鉴定、科技奖励评审等提供可靠的情报评估,科技查新成为国家与各地市科技部门的一项重要工作而突显出来。
-
关键词
科技项目查重
专家遴选
非分词
TF-IDF
-
Keywords
Science and Technology Project Check,Expert Selection=Non Participle TF-IDF
-
分类号
G642
[文化科学—高等教育学]
-
-
题名科技项目查重系统在企业中的实践应用
被引量:2
- 9
-
-
作者
周育忠
陶秀杰
张自锋
韦嵘晖
杨宇亮
-
机构
南方电网科学研究院有限责任公司
-
出处
《河南科技》
2019年第28期32-35,共4页
-
文摘
本文阐述了通过建设科技项目查重系统,有效整合科研项目成果数据,减少企业科研项目重复建设,提高企业科研经费利用效率,进一步提升企业科研管理水平。科技项目查重系统通过提供统一的历史科研数据检索及项目文档自查重,系统化地辅助科研人员筛查研究方向和课题。同时,通过提供批量科研文档查重,输出查重结果,辅助科研项目评审专家进行科研项目评审工作,有效提高企业科研项目评审效率等。此外,本文也阐述了后续系统搭建过程中元数据规范、相似性检测算法和模型等在企业后续的应用方向。
-
关键词
科技项目查重
相似性检测
历史库
碎片化
学术关联
-
Keywords
science and technology project check
similarity test
history library
fragmentation
academic association
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于向量空间模型的项目申报书查重系统设计
被引量:5
- 10
-
-
作者
胡伟伟
孙逊
王婷婷
-
机构
江苏省生产力促进中心
-
出处
《天津科技》
2015年第8期33-34,共2页
-
文摘
随着国家及地方科研财政经费的增加,企事业单位对科技项目日益重视,项目申报数量也逐年递增。为避免对类似项目的重复支持,造成科研经费的浪费,项目查重就显得尤为必要。提出了基于向量空间模型的项目申报书查重系统设计方法,并介绍设计流程。
-
关键词
项目查重
向量空间模型
分词
-
Keywords
project duplication checking
Vector Space Model (VSM)
word segmentation
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于分层深度语义的科研项目文本相似度度量方法
被引量:1
- 11
-
-
作者
杨政
方正云
李天骄
李丽敏
-
机构
云南电网有限责任公司电力科学研究院信息情报研究所
云南电网有限责任公司
西安交通大学数学与统计学院
-
出处
《计算机与数字工程》
2024年第3期795-801,851,共8页
-
基金
国家自然科学基金面上项目(编号:61976173)资助。
-
文摘
科研项目查重自动化是科研项目管理中的重要问题,文本相似度度量是查重的关键环节。目前的科研项目文本相似度度量方法主要基于字符串比较或者TF-IDF方法,这些方法忽略了文本在语义上的相似性。论文针对结构化的科研项目文本,基于预训练模型RoBERTa-WWM提取语句的语义特征,提出Whitening的标准化方法,并建立项目文本的分层深度语义相似度度量方法。我们提出的项目文本分层语义相似度包含三层:语句之间的相似度,章节之间的相似度,以及项目文本之间的相似度。论文在蚂蚁金融语义相似度AFQMC数据集和电力行业科研项目文本上进行了对比实验,验证了该基于分层深度语义的相似度度量方法明显优于基于字符串距离和TF-IDF的相似度度量方法。
-
关键词
文本相似度
自然语言处理
科研项目查重
-
Keywords
text similarity
natural language processing
scientific research projects
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名多源异构数据融合技术的研究
被引量:6
- 12
-
-
作者
王彦婕
-
机构
山西省信息产业技术研究院有限公司
-
出处
《山西电子技术》
2022年第3期71-73,共3页
-
基金
山西省重点研发计划(国际科技合作方面)项目(201803D421004)。
-
文摘
多源数据融合是时代发展的必然要求。多源异构数据融合技术涉及数据采集、数据清洗、数据融合分析三个阶段,本文通过对多源异构数据融合技术的研究,将其典型应用于晋中市科技计划管理信息平台,实现对关系型数据库中数据、上传的PDF数据、图片数据、日志数据、网页爬虫数据等进行融合分析,消除数据之间的不精确、不一致,提高数据可靠性,从多维度、全方位为决策提供支持;运用到项目查重模块,实现项目在进行查重时,从原有基于项目名称、项目负责人等结构化查重的基础上,增加了基于项目全文、网络爬虫数据的非结构化查重分析,更精确、更科学地对申报项目作出客观评价。
-
关键词
多源数据
多源异构数据融合技术
决策支持
项目查重
-
Keywords
multi-source data
multi-source heterogeneous data fusion technology
decision support
project duplication
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-