-
题名基于分词矩阵模型的模糊匹配查重算法研究
被引量:4
- 1
-
-
作者
李成龙
杨冬菊
韩燕波
-
机构
大规模流数据集成与分析技术北京市重点实验室
北方工业大学云计算研究中心
-
出处
《计算机科学》
CSCD
北大核心
2017年第B11期55-60,83,共7页
-
基金
国家自然科学基金面上项目(61672042)
支持流式大数据实时联动的数据服务模型及方法研究资助
-
文摘
针对中文文本查重的需求,利用分词的结果,将待查重的目标文本和查重样本文本转换为分词矩阵模型,然后扫描和分析矩阵,得到查重结果。由此提出了一种查重算法,并通过实例验证了该算法具有一定的实用效果。
-
关键词
相似度
分词矩阵模型
模糊匹配
查重算法
-
Keywords
Similarity, Matrix model of word segmentation, Fuzzy matching,Duplicate checking algorithm
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名云计算环境下的海量图像查重算法设计
被引量:2
- 2
-
-
作者
高兴
-
机构
沈阳音乐学院公共基础部
-
出处
《绥化学院学报》
2021年第9期153-156,共4页
-
文摘
海量图像查重算法采用云计算技术在云平台上实现图像上传、处理、分类。通过图像分类器实现图像分类;利用Zernike矩阵对分类后的图像实行图像比对,确定图像的四周的伪边块,根据图像像素值采用二值化方式处理图像,并在处理后进行边缘检测和直线检测,确定真实图像大小;通过归一化相似度准则计算两幅真实图像的相似度,据此判断图像重复情况。结果表明:该算法图像分类精度高于99%,查重精度高于对比算法,且在相似度阈值为0.8~0.9时,查重精度最高。
-
关键词
云计算
海量图像
查重算法
多节点
图像特征
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名科技项目申报书查重方法研究
- 3
-
-
作者
王东
王飘
江俊鹏
李青
徐晨阳
-
机构
中国科学技术信息研究所
-
出处
《中国科技资源导刊》
2022年第5期30-40,共11页
-
文摘
开展面向科技项目申报书的查重方法研究,对于推进学术诚信建设、营造风清气正的科研环境具有重要意义。目前,关于科技项目申报书的查重研究仍处于起步阶段,针对存在的查重系统架构不明确、查重算法准确率较低等问题,构建一套涵盖科技项目申报书数据处理、分布式任务、查重算法模块与查重报告生成的系统模型,并在查重算法方面提出基于DSSM架构的相似度检测算法模型。实验结果表明,该查重系统能够实现较高的查重准确率和查重效率,能够在科技项目申报书查重方面发挥积极的作用。
-
关键词
科技项目申报书
DSSM架构
文本相似度
查重算法
查重系统
-
Keywords
Declaration of Scientific and Technical Projects
DSSM architecture
text similarity
duplicate algorithm
duplicate checking
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于源码查重比对的计算机专业教学评价系统开发研究
- 4
-
-
作者
秦国锋
王睿晗
任成琨
郝泳涛
王力生
-
机构
同济大学计算机科学与技术系计算机系统结构教研室
同济大学计算机科学与技术系
-
出处
《中国教育技术装备》
2022年第3期32-35,共4页
-
基金
2017与2019教育部—美国DIGILENT公司产学合作协同育人项目(项目编号:201702015017,201902097011)
2017—2019年同济大学实验实践教学改革项目(项目编号:0800104251、0800104500/008)
同济大学—华为“智能基座”产教融合协同育人基地项目(项目编号:0800166023/001)。
-
文摘
为解决学生递交的计算机课程代码管理和审核问题,构建本地哈希指纹算法和Spring Cloud框架的查重比对模型,开发计算机专业课程教学评价系统,其中包含按照课程和小节分类的文件管理和代码重复率计算。哈希指纹算法是通过哈希函数和滑动窗口计算出文件一系列的哈希值,通过比较哈希值来计算出文件之间的重复率,从而为教师对学生代码的评价提供参考。
-
关键词
在线课程管理
查重比对算法
网络教学平台
k-gram算法
-
分类号
G434
[文化科学—教育技术学]
-
-
题名网页资源的消重研究
- 5
-
-
作者
陈志刚
张伟
-
机构
天津商业大学现代教育技术中心
-
出处
《电子技术与软件工程》
2015年第8期39-39,共1页
-
文摘
多媒体网页资源中存在着很多的重复网页,而网页消重可以消除重复的网页,降低存储的成本,提高搜索引擎的性能。
-
关键词
主题搜索
多媒体网页
查重算法
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-