期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于大数据挖掘的科技项目查重模型研究 被引量:27
1
作者 李善青 赵辉 宋立荣 《图书馆论坛》 CSSCI 北大核心 2014年第2期78-83,共6页
科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研... 科技项目查重是避免重复立项、重复建设的重要措施之一,目前缺乏行之有效的方法。文章提出基于大数据挖掘和多源信息整合的项目查重方法,以科技项目的基本信息、发表论文信息、关键词、负责人信息和承担机构等要素构建的大数据网络为研究对象,利用多源信息整合方法构建科技项目的相似度判别模型,并采用Hadoop框架实现海量数据的快速挖掘。文章介绍项目查重模型,重点讨论需要解决的关键问题,为解决项目查重问题提供一种全新的思路和方法。 展开更多
关键词 大数据挖掘 多源信息整合 科技项目查重 Hadoop架构
下载PDF
一种基于关联数据的科技项目查重系统
2
作者 李善青 安淑荻 邢晓昭 《计算机与数字工程》 2022年第5期959-963,共5页
论文提出了一种基于关联数据的科技项目查重系统,通过整合与科技项目密切相关的项目任务书、科技论文、科技报告和科技成果等信息,建立科技项目的描述模型。采用改进的TextRank算法从摘要和标题等短文本中抽取关键词构建特征向量,并提... 论文提出了一种基于关联数据的科技项目查重系统,通过整合与科技项目密切相关的项目任务书、科技论文、科技报告和科技成果等信息,建立科技项目的描述模型。采用改进的TextRank算法从摘要和标题等短文本中抽取关键词构建特征向量,并提出了项目相似度的判别方法。利用Hadoop和Spark的分布式计算框架,实现了项目查重系统并进行了相关的实验。结果证明了该方法的有效性和可行性,在给定的实验条件下取得了较高的准确率和召回率。 展开更多
关键词 关联数据 科技项目查重 数据挖掘 多源信息整合 Hadoop架构
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部