-
题名海量文献数据库查重系统的设计与实现
- 1
-
-
作者
肖绣锦
-
机构
山东省城市服务技师学院
-
出处
《中国战略新兴产业(理论版)》
2019年第24期0221-0221,共1页
-
文摘
海量电子文献数据库中的文献往往是百万以上数量级的,对其全部进行比较需要很长的时间。查重算法的设计是 依据大数定律确定出抽样比例,再在抽样理论的基础上对文献数据按比例进行抽样,然后对抽样样本进行查重比较,得到重 复文献所占的比例。在对样本进行查重比较时,综合分析了目前主要的几种比较算法,并结合数据库进行比较查询,从而得 到一种比较速度和效率都比较高的算法。并通过对海量数据处理方法进行研究,结合图书馆采购人员购买电子文献数据库时 的实际需求,开发出实用性强的海量文献数据库查重系统。
-
关键词
海量文献数据库
算法
抽样
查重
-
分类号
F
[经济管理]
-