-
题名基于大数据挖掘的科技项目查重模型研究
被引量:27
- 1
-
-
作者
李善青
赵辉
宋立荣
-
机构
中国科学技术信息研究所
-
出处
《图书馆论坛》
CSSCI
北大核心
2014年第2期78-83,共6页
-
基金
中国科学技术信息研究所科研项目预研基金"面向重复立项检测的多源信息整合机制研究"(项目编号:YY201214)
国家自然科学基金项目"大数据挖掘在科技项目查重中的应用研究"(项目编号:71303223)
国家社会科学基金项目"网络环境下科技信息资源建设中的质量元数据及评估应用研究"(项目编号:12BTQ016)研究成果之一
-
文摘
科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用Hadoop框架实现海量数据的快速挖掘。文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。
-
关键词
大数据挖掘
多源信息整合
科技项目查重
Hadoop架构
-
Keywords
big data mining
muhi-source information integration
similarity detection for scientificprojects
Hadoop architecture
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于关联数据的科技项目查重系统
- 2
-
-
作者
李善青
安淑荻
邢晓昭
-
机构
中国科学技术信息研究所
-
出处
《计算机与数字工程》
2022年第5期959-963,共5页
-
基金
国家自然科学基金项目“大数据挖掘在科技项目查重中的应用研究”(编号:71303223)
中国科学技术信息研究所创新研究基金项目“基于大数据的区域科技创新态势识别研究”(编号:QN2020-01)资助。
-
文摘
论文提出了一种基于关联数据的科技项目查重系统,通过整合与科技项目密切相关的项目任务书、科技论文、科技报告和科技成果等信息,建立科技项目的描述模型。采用改进的TextRank算法从摘要和标题等短文本中抽取关键词构建特征向量,并提出了项目相似度的判别方法。利用Hadoop和Spark的分布式计算框架,实现了项目查重系统并进行了相关的实验。结果证明了该方法的有效性和可行性,在给定的实验条件下取得了较高的准确率和召回率。
-
关键词
关联数据
科技项目查重
数据挖掘
多源信息整合
Hadoop架构
-
Keywords
linked data
similar scientific project detection
data mining
multi-source information integration
Hadoop framework
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-