期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
文本指纹在旋律相似性检测中的应用研究
1
作者 李阳 程昔恩 《福建电脑》 2024年第2期63-66,共4页
旋律抄袭是一个严重的问题,实现音乐旋律的相似性检测对于整治音乐抄袭具有极其重要的作用。为有效识别旋律抄袭,本文提出一种基于文本指纹的旋律相似性检测方案。该方法通过将音乐旋律转换为文本,使用N-gram算法对长旋律片段进行分片... 旋律抄袭是一个严重的问题,实现音乐旋律的相似性检测对于整治音乐抄袭具有极其重要的作用。为有效识别旋律抄袭,本文提出一种基于文本指纹的旋律相似性检测方案。该方法通过将音乐旋律转换为文本,使用N-gram算法对长旋律片段进行分片并进行哈希编码,通过MinHash算法生成文本指纹,最后使用LSH算法进行快速相似性检索,实现旋律之间的高效匹配。实验结果表明,该方案的相似性识别的平均准确率达到90%以上,能够有效识别存在剽窃行为的音乐旋律。 展开更多
关键词 旋律相似性 相似性检测 文本指纹 LSH算法
下载PDF
基于语义匹配的抄袭检测方法(英文) 被引量:3
2
作者 邹杜 陈育青 张凌 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第7期131-136,共6页
现有的抄袭检测方法大多根据相似度来判定文档间是否存在抄袭.与常见的复制检测不同,在抄袭检测中,占文档很小比例且未加引用的复制文本也将被认定为抄袭.受文档尺寸、复制篇幅和干扰信息的影响,现有方法的检测效果均不理想.针对这种局... 现有的抄袭检测方法大多根据相似度来判定文档间是否存在抄袭.与常见的复制检测不同,在抄袭检测中,占文档很小比例且未加引用的复制文本也将被认定为抄袭.受文档尺寸、复制篇幅和干扰信息的影响,现有方法的检测效果均不理想.针对这种局限性,文中分析了文本语义与指纹排列顺序的关系,提出了语义匹配方法,将指纹向量投影到一个二进制向量,在降低维数的同时保留了指纹的位置信息.在PAN公用语料集上将该方法与Jaccard和Hamming距离法进行了对比测试,发现文中方法的召回率和准确度均更优. 展开更多
关键词 语义匹配 抄袭检测 指纹 文本语义
下载PDF
基于网页文本结构的网页去重 被引量:13
3
作者 魏丽霞 郑家恒 《计算机应用》 CSCD 北大核心 2007年第11期2854-2856,共3页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 展开更多
关键词 层次指纹 文本结构 网页去重
下载PDF
基于斜率密度聚类的相似文本标定 被引量:1
4
作者 邹杜 唐文军 +1 位作者 龙卫江 张凌 《通信学报》 EI CSCD 北大核心 2013年第S2期157-162,共6页
相似文本标定是抄袭检测的一个重要环节,现有标定方法大多采用直接对文本或指纹进行合并的方式,标定精度受干扰信息影响较大。针对这种局限性,分析了匹配指纹对的语义特征,提出基于斜率密度的相似文本聚类方法,将文本匹配合并问题转化... 相似文本标定是抄袭检测的一个重要环节,现有标定方法大多采用直接对文本或指纹进行合并的方式,标定精度受干扰信息影响较大。针对这种局限性,分析了匹配指纹对的语义特征,提出基于斜率密度的相似文本聚类方法,将文本匹配合并问题转化成稠密样本点聚类问题,并在PAN公用语料库上对该方法进行了测试,得到的主要指标优于PAN10前3名。目前已将该方法用于华南理工大学特色专业教学平台的作业查抄,取得了较好的效果。 展开更多
关键词 抄袭检测 相似文本标定 聚类 指纹
下载PDF
利用计算机指纹实现软件加密原理与方法 被引量:4
5
作者 鞠斌山 邱晓凤 张文东 《青岛大学学报(自然科学版)》 CAS 2005年第3期63-66,共4页
为了实现软件加密,首先描述了利用计算机指纹信息(硬盘序列号和网卡物理地址)进行软件加密的原理;其次论述了VB、VC++和Power Builder三种编程语言实现获取硬盘序列号和网卡物理地址的原理与方法,并给出了获取计算机指纹信息的VC++源程... 为了实现软件加密,首先描述了利用计算机指纹信息(硬盘序列号和网卡物理地址)进行软件加密的原理;其次论述了VB、VC++和Power Builder三种编程语言实现获取硬盘序列号和网卡物理地址的原理与方法,并给出了获取计算机指纹信息的VC++源程序。最后综合利用硬盘序列号和网卡物理地址作为明文,设计了一种新的软件加密的算法,并概述了软件保护过程。实际应用证明该加密方法安全可靠。 展开更多
关键词 加密软件 计算机指纹 明文 密文
下载PDF
基于正文结构和长句提取的网页去重算法 被引量:13
6
作者 黄仁 冯胜 +2 位作者 杨吉云 刘宇 敖民 《计算机应用研究》 CSCD 北大核心 2010年第7期2489-2491,2497,共4页
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证... 针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。 展开更多
关键词 网页去重 正文结构树 长句提取 层次指纹
下载PDF
利用Pure Experts Portal展示科研成果与拓展合作
7
作者 亓靖涛 夏玉华 赵雷 《科技情报开发与经济》 2014年第17期118-120,共3页
Pure Experts Portal是一个基于网页的集成化科研信息系统,是一个全新的展示与发现科研信息的工具。用户可以在其中拥有完善的科研信息档案,也可以在全球范围内方便地查找领域内的专家。结合山东大学PureExpertsPortal的实例,详细阐述... Pure Experts Portal是一个基于网页的集成化科研信息系统,是一个全新的展示与发现科研信息的工具。用户可以在其中拥有完善的科研信息档案,也可以在全球范围内方便地查找领域内的专家。结合山东大学PureExpertsPortal的实例,详细阐述了该系统的功能、核心技术及数据基础,介绍了该系统的实施过程和运行维护的相关工作。 展开更多
关键词 PURE Experts PORTAL 科研档案 文本指纹
下载PDF
基于潜在语义分析的文本指纹提取方法 被引量:7
8
作者 崔彤彤 崔荣一 《中文信息学报》 CSCD 北大核心 2018年第5期74-79,共6页
网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战。该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息... 网络化大数据时代的到来丰富了网络空间中的信息资源,然而由于数据资源类型的多样性及其增长的快速性,给网络空间的存储和信息资源的有效利用带来了压力和挑战。该文提出了一种基于潜在语义分析的文本指纹提取方法,该方法是对数据信息的一种压缩表示,是针对目前指纹提取方法语义缺失的一种改进。该方法主要通过奇异值分解获取原始文档的潜在语义特征,然后将原文档向量空间转换到与其对应的潜在语义空间,再根据随机超平面原理将该空间的文档转换成二进制数字指纹,最终用汉明距离来衡量指纹间的差异程度。实验以中国知网上的学术论文作为数据对象,通过对论文文本进行相似度实验和聚类实验对该文提出的方法进行实验验证。实验结果表明该方法能够较好地表征文档语义信息,进而验证了文本语义压缩表示的准确性和有效性。 展开更多
关键词 文本指纹 奇异值分解 潜在语义分析 随机超平面原理
下载PDF
自然语言文本复制检测算法
9
作者 杨达 《电脑与信息技术》 2014年第4期11-14,共4页
复制检测就是检测文档之间是否存在雷同现象,并将检测结果报告给用户。文章算法将复制检测技术指纹比对法和词频统计法结合起来,首先对文本进行预处理如滤除介词、冠词等,采用指纹比对法判断自然段落之间的相似性;然后将一个自然段视为... 复制检测就是检测文档之间是否存在雷同现象,并将检测结果报告给用户。文章算法将复制检测技术指纹比对法和词频统计法结合起来,首先对文本进行预处理如滤除介词、冠词等,采用指纹比对法判断自然段落之间的相似性;然后将一个自然段视为一个小的整体来构成整个文档,采用基于词频的加权统计法判断全文的相似性。 展开更多
关键词 复制检测 文本指纹 词频
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部