期刊文献+
共找到849篇文章
< 1 2 43 >
每页显示 20 50 100
A content aware chunking scheme for data de-duplication in archival storage systems
1
作者 Nie Xuejun Qin Leihua Zhou Jingli 《High Technology Letters》 EI CAS 2012年第1期45-50,共6页
Based on variable sized chunking, this paper proposes a content aware chunking scheme, called CAC, that does not assume fully random file contents, but tonsiders the characteristics of the file types. CAC uses a candi... Based on variable sized chunking, this paper proposes a content aware chunking scheme, called CAC, that does not assume fully random file contents, but tonsiders the characteristics of the file types. CAC uses a candidate anchor histogram and the file-type specific knowledge to refine how anchors are determined when performing de- duplication of file data and enforces the selected average chunk size. CAC yields more chunks being found which in turn produces smaller average chtmks and a better reduction in data. We present a detailed evaluation of CAC and the experimental results show that this scheme can improve the compression ratio chunking for file types whose bytes are not randomly distributed (from 11.3% to 16.7% according to different datasets), and improve the write throughput on average by 9.7%. 展开更多
关键词 data de-duplicate content aware chunking (CAC) candidate anchor histogram (CAH)
下载PDF
Hash Table Assisted Efficient File Level De-Duplication Scheme in SD-IoV Assisted Sensing Devices
2
作者 Ghawar Said Ata Ullah +4 位作者 Anwar Ghani Muhammad Azeem Khalid Yahya Muhammad Bilal Sayed Chhattan Shah 《Intelligent Automation & Soft Computing》 2023年第10期83-99,共17页
The Internet of Things(IoT)and cloud technologies have encouraged massive data storage at central repositories.Software-defined networks(SDN)support the processing of data and restrict the transmission of duplicate va... The Internet of Things(IoT)and cloud technologies have encouraged massive data storage at central repositories.Software-defined networks(SDN)support the processing of data and restrict the transmission of duplicate values.It is necessary to use a data de-duplication mechanism to reduce communication costs and storage overhead.Existing State of the art schemes suffer from computational overhead due to deterministic or random tree-based tags generation which further increases as the file size grows.This paper presents an efficient file-level de-duplication scheme(EFDS)where the cost of creating tags is reduced by employing a hash table with key-value pair for each block of the file.Further,an algorithm for hash table-based duplicate block identification and storage(HDBIS)is presented based on fingerprints that maintain a linked list of similar duplicate blocks on the same index.Hash tables normally have a consistent time complexity for lookup,generating,and deleting stored data regardless of the input size.The experiential results show that the proposed EFDS scheme performs better compared to its counterparts. 展开更多
关键词 Hash table de-duplication linked list IoT sensing devices
下载PDF
基于混合嵌入和胶囊网络的恶意URL分类模型
3
作者 于晓琪 金彦亮 《工业控制计算机》 2024年第2期114-116,共3页
作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了... 作为最常见的网络安全威胁之一,恶意URL攻击每年都会造成巨大的经济损失,尽管研究人员已经提出了许多方法来检测恶意URL,但现有方法存在不能充分利用URL提供的有用信息和对URL中的区分性特征提取不充分的问题,导致分类性能不佳。提出了一种基于混合嵌入和胶囊网络的恶意URL分类模型,引入高速网络和胶囊网络从URL的混合嵌入表示中提取区分性特征,提高了模型的分类性能。在公开数据集ISCX-URL2016上的实验结果表明,该文模型与其他基线方法相比,实现了更好的分类性能,能够有效应对混淆技术的多样性。 展开更多
关键词 恶意url分类 胶囊网络 高速网络 深度学习
下载PDF
Evidence-based literature review:De-duplication a cornerstone for quality
4
作者 Barbara Hammer Elettra Virgili Federico Bilotta 《World Journal of Methodology》 2023年第5期390-398,共9页
Evidence-based literature reviews play a vital role in contemporary research,facilitating the synthesis of knowledge from multiple sources to inform decisionmaking and scientific advancements.Within this framework,de-... Evidence-based literature reviews play a vital role in contemporary research,facilitating the synthesis of knowledge from multiple sources to inform decisionmaking and scientific advancements.Within this framework,de-duplication emerges as a part of the process for ensuring the integrity and reliability of evidence extraction.This opinion review delves into the evolution of de-duplication,highlights its importance in evidence synthesis,explores various de-duplication methods,discusses evolving technologies,and proposes best practices.By addressing ethical considerations this paper emphasizes the significance of deduplication as a cornerstone for quality in evidence-based literature reviews. 展开更多
关键词 Duplicate publications as topic Databases BIBLIOGRAPHIC Artificial intelligence Systematic reviews as topic Review literature as topic de-duplication Duplicate references Reference management software
下载PDF
网络信息资源归档挑战与对策——基于URL无序性和时效性差异的视角
5
作者 刘冰 《兰台内外》 2024年第16期31-33,共3页
根据西方网络信息资源归档最新理论与实践成果及将异常现象作为示踪剂的研究方法,本研究尝试将网络信息资源归档系统的后台异常现象引导至前台讨论,从URL无序性和时效性差异的研究视角阐释解构、规范URL的必要性以及通过自动代码或搜索... 根据西方网络信息资源归档最新理论与实践成果及将异常现象作为示踪剂的研究方法,本研究尝试将网络信息资源归档系统的后台异常现象引导至前台讨论,从URL无序性和时效性差异的研究视角阐释解构、规范URL的必要性以及通过自动代码或搜索工具对时间戳展开简单聚合或排序的弊端,提出超越以算法为中心的归档逻辑并广泛关注网络基础设施动态与关系互动或对我国网络信息资源归档研究具有一定启示。 展开更多
关键词 网络档案 异常现象 算法 url 时效性
下载PDF
基于URL主题的查询分类方法 被引量:14
6
作者 张宇 宋巍 +1 位作者 刘挺 李生 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1298-1305,共8页
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为... 互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性. 展开更多
关键词 查询分类 url分类 查询日志 伪相关反馈 统计学习
下载PDF
高效的基于段模式的恶意URL检测方法 被引量:9
7
作者 林海伦 李焱 +2 位作者 王伟平 岳银亮 林政 《通信学报》 EI CSCD 北大核心 2015年第S1期141-148,共8页
提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的... 提出一种高效的基于段模式的检测恶意URL的方法,该方法首先解析已标注的恶意URL中的域名、路径名和文件名3个语义段,然后通过建立以三元组为词项的倒排索引快速计算恶意URL每个语义段的模式,最后基于倒排索引查找到的段模式来判定给定的URL是否是恶意URL。不仅如此,该方法还支持基于Jaccard的随机域名识别技术来判定包含随机域名的恶意URL。实验结果表明,与当前先进的基准方法相比,该方法具有较好的性能和可扩展性。 展开更多
关键词 恶意url 段模式 三元组 倒排索引 随机域名
下载PDF
中国大学网站URL引用网络结构特征与相关因素研究 被引量:8
8
作者 唐川 刘春江 +3 位作者 徐婧 张娟 张勐 房俊民 《情报杂志》 CSSCI 北大核心 2014年第4期46-51,共6页
以100所中国大学网站所构成的URL引用网络为对象,借助社会网络分析方法揭示了其主要网络特征,并结合大学的科研能力、师资力量、国家支持力度、区域政治经济水平等,探索了可能影响网络结构的相关因素。研究发现:中国大学网站URL引用网... 以100所中国大学网站所构成的URL引用网络为对象,借助社会网络分析方法揭示了其主要网络特征,并结合大学的科研能力、师资力量、国家支持力度、区域政治经济水平等,探索了可能影响网络结构的相关因素。研究发现:中国大学网站URL引用网络具有明显的核心-边缘结构特征,此结构受大学科研能力、师资力量和国家支持力度等因素影响;存在若干信息交流能力较强的网站,且大学网站的信息交流能力与大学科研能力、师资力量、国家支持力度与所在区域政治经济水平等因素紧密相关。 展开更多
关键词 大学网站 url引用网络 网络结构 社会网络 相关因素
下载PDF
一种面向大规模URL过滤的多模式串匹配算法 被引量:13
9
作者 刘燕兵 邵妍 +2 位作者 王勇 刘庆云 郭莉 《计算机学报》 EI CSCD 北大核心 2014年第5期1159-1169,共11页
对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该... 对大量有害的URL进行过滤,是目前网络安全应用系统中所亟需的关键技术.使用经典的串匹配算法检测庞大的URL规则集,需要消耗大量的计算资源和存储资源,性能十分低下.该文设计了一种适合于大规模URL过滤的多模式串匹配算法——SOGOPT.该算法在经典的SOG算法基础上,针对URL规则的特点,提出了最优窗口选择、模式串分组规约这两种优化技术,大幅度提高了SOG算法的匹配速度,在大规模URL规则集上效果尤其显著.该文设计的算法非常适合于大规模(100万级)URL实时在线匹配的应用环境. 展开更多
关键词 多模式串匹配 url过滤 最优窗口选择 模式串分组规约 信息安全 网络安全
下载PDF
基于异常特征的钓鱼网站URL检测技术 被引量:44
10
作者 黄华军 钱亮 王耀钧 《信息网络安全》 2012年第1期23-25,67,共4页
典型的网络钓鱼是采用群发垃圾邮件,欺骗用户点击钓鱼网站URL地址,登录并输入个人机密信息的一种攻击手段。文章通过分析钓鱼网站URL地址的结构和词汇特征,提出一种基于异常特征的钓鱼网站URL检测方法。抽取钓鱼网站URL地址中4个结构特... 典型的网络钓鱼是采用群发垃圾邮件,欺骗用户点击钓鱼网站URL地址,登录并输入个人机密信息的一种攻击手段。文章通过分析钓鱼网站URL地址的结构和词汇特征,提出一种基于异常特征的钓鱼网站URL检测方法。抽取钓鱼网站URL地址中4个结构特征、8个词汇特征,组成12个特征的特征向量,用SVM进行训练和分类。对PhishTank上7291条钓鱼网站URL分类实验,检测出7134条钓鱼网站URL,准确率达到97.85%。 展开更多
关键词 网络钓鱼 钓鱼网站url 支持向量机 特征向量
下载PDF
一种快速的基于URL的垃圾邮件过滤系统 被引量:3
11
作者 詹川 卢显良 +1 位作者 侯孟书 邢茜 《计算机科学》 CSCD 北大核心 2005年第8期55-56,66,共3页
垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查... 垃圾邮件是当前Internet上关注一个焦点问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮件过滤技术面临着新的挑战。针对目前垃圾邮件大都含有要宣传网站的URL地址的特点,我们构建了一个基于URL的垃圾邮件过滤系统,通过查询邮件中是否含有URL黑名单中的URL地址,来识别垃圾邮件。在URL地址查询过程中,采用Hplf散列函数来加速查询。通过试验测试,该系统能有效地减少垃圾邮件的数量。 展开更多
关键词 url 垃圾邮件 邮件过滤 散列函数 邮件过滤系统 url地址 Internet 焦点问题 伪装技术 过滤技术
下载PDF
基于域名信息的钓鱼URL探测 被引量:9
12
作者 郑礼雄 李青山 +1 位作者 李素科 袁春阳 《计算机工程》 CAS CSCD 2012年第10期108-110,共3页
提出一种基于域名信息的钓鱼URL探测方法。使用编辑距离寻找与已知正常域名相似的域名,根据域名信息提取域名单词最大匹配特征、域名分割特征和URL分割特征,利用上述特征训练分类器,由此判断其他URL是否为钓鱼URL。在真实数据集上的实... 提出一种基于域名信息的钓鱼URL探测方法。使用编辑距离寻找与已知正常域名相似的域名,根据域名信息提取域名单词最大匹配特征、域名分割特征和URL分割特征,利用上述特征训练分类器,由此判断其他URL是否为钓鱼URL。在真实数据集上的实验结果表明,该方法钓鱼URL正确检测率达94%。 展开更多
关键词 钓鱼攻击 钓鱼url探测 域名 支持向量机 编辑距离
下载PDF
一种基于并行Bloom Filter的高速URL查找算法 被引量:6
13
作者 周舟 付文亮 +1 位作者 嵩天 刘庆云 《电子学报》 EI CAS CSCD 北大核心 2015年第9期1833-1840,共8页
URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该... URL查找是众多网络系统中重要的组成部分,如URL过滤系统、Web缓存等.随着互联网的迅速发展,URL查找面临的主要挑战是实现大规模URL集合下的高速查找,同时保证低存储和低功耗.本文提出了一种基于并行Bloom Filter的URL查找算法,CaBF.该算法高度并行化,提供大规模URL集合下的高速最长前缀匹配,并很好地适应集合中不同数量的URL组件.理论分析和真实网络数据集上的实验表明,该算法相比现有算法可以降低假阳性概率达一个数量级(或者在满足相同假阳性概率的前提下降低存储和硬件逻辑资源消耗).此外,该方法的体系结构很容易映射到FPGA等硬件器件上,提供每秒超过150M次的URL查找速度. 展开更多
关键词 url查找 布鲁姆过滤器 最长前缀匹配 现场可编程门阵列
下载PDF
基于哈希表的高性能URL过滤器研究 被引量:3
14
作者 郑卫斌 张德运 +2 位作者 丁会宁 李继华 高磊 《小型微型计算机系统》 CSCD 北大核心 2005年第2期178-180,共3页
防火墙通过 URL 过滤控制对因特网信息资源的访问 .为了在高速防火墙上实现 URL 过滤 ,本文提出了位图法以改进URL过滤器的哈希表数据结构 ,提高哈希表查找速度 ;提出了快速压缩法 ,降低过滤器的空间占用 .经过位图法和快速压缩法改进 ... 防火墙通过 URL 过滤控制对因特网信息资源的访问 .为了在高速防火墙上实现 URL 过滤 ,本文提出了位图法以改进URL过滤器的哈希表数据结构 ,提高哈希表查找速度 ;提出了快速压缩法 ,降低过滤器的空间占用 .经过位图法和快速压缩法改进 ,并应用高速缓存优化后 ,采用实验对 U RL 过滤器进行性能评价 ,发现 URL 过滤的平均时间下降了 2 5 3.7% ,空间下降了2 5 .7% . 展开更多
关键词 url过滤 哈希表 数据结构 防火墙
下载PDF
URL重写技术及在国内外授权访问系统中的应用研究 被引量:6
15
作者 高旻 金玉玲 刘凡儒 《现代情报》 北大核心 2008年第7期126-128,共3页
本文针对专为图书馆电子资源远程访问而开发并在国外获得广泛应用的EZproxy的技术及发展进行了研究,重点包括其URL重写策略、用户认证及授权访问机制,同时论述了URL技术在国内相关软件中的应用,以期通过研究,对URL重写技术的了解,促进... 本文针对专为图书馆电子资源远程访问而开发并在国外获得广泛应用的EZproxy的技术及发展进行了研究,重点包括其URL重写策略、用户认证及授权访问机制,同时论述了URL技术在国内相关软件中的应用,以期通过研究,对URL重写技术的了解,促进其在远程授权访问等相关系统中的应用,有效解决图书馆电子资源远程访问的需求。 展开更多
关键词 远程访问 EZPROXY url重写 IRAS 应用研究
下载PDF
一种去除重复URL的算法 被引量:4
16
作者 苏国荣 杨岳湘 邓劲生 《广西师范大学学报(自然科学版)》 CAS 北大核心 2010年第1期122-126,共5页
通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进... 通过对Bloom Filter算法及其改进型在Web信息采集时的去重策略进行分析,结合Dynamic Bloom Filter算法,采用动态数组对集合元素进行表示,提出了一种去重应用策略,实现了对集合中重复URL的频度查询和删除操作支持,最后使用该去重策略进行了实验并和其他策略进行了比较,实验证明该应用策略能够在误判率较低的情况下取得较好的去重效果。 展开更多
关键词 布隆过滤器 散列函数 url 网页去重
下载PDF
一个实用的针对URL的哈希函数 被引量:3
17
作者 肖明忠 闵博楠 +1 位作者 王佳聪 代亚非 《小型微型计算机系统》 CSCD 北大核心 2006年第3期538-541,共4页
在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列(hashing)操作.本文提出了一个针对URL数据集合的均匀哈希函数,它是ELFhash函数的变型.通过对天网搜索引擎采集的1亿多个URL集合的抽样实验表明它能有效使得URL集在哈希表... 在Web信息处理的研究中,不少情况下需要对很大的URL序列进行散列(hashing)操作.本文提出了一个针对URL数据集合的均匀哈希函数,它是ELFhash函数的变型.通过对天网搜索引擎采集的1亿多个URL集合的抽样实验表明它能有效使得URL集在哈希表中均匀散布.并通过与MD5和SHA-1的对比,认为它是实用的.最后,指出了进一步的研究方向. 展开更多
关键词 url 哈希函数 ELFhash 均匀分布 MD5 SHA-1
下载PDF
利用URL-Key进行查询分类 被引量:2
18
作者 李雪伟 吕学强 +1 位作者 董志安 刘克会 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期220-226,共7页
针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反... 针对查询分类问题,借助互联网中人工组织的分类网站领域URL,利用URL-key在各个类别中使用的频度,提出基于方差的领域URL-key识别方法,利用机器翻译、拼音翻译和搜索结果反馈等技术对URL-key进行过滤,构建领域URL-key。然后结合伪相关反馈技术,选取URL-key为特征,构建URL-key向量,利用SVM对查询串进行分类。实验结果表明,该方法不仅F值比对比方法提高7%,而且资源的使用也远远小于对比方法,提高了系统的时效性。 展开更多
关键词 查询分类 url url-key 伪相关反馈
下载PDF
基于URL智能白名单的Web应用未知威胁阻断技术研究 被引量:7
19
作者 黄长慧 胡光俊 李海威 《信息网络安全》 CSCD 北大核心 2021年第3期1-6,共6页
在网络空间对抗不断加剧的情况下,我国各重要行业单位信息化深度发展过程中建设的大量Web应用系统的安全面临严峻考验,各行业单位防护技术及措施存在不足,急需建立有效技术防护体系。文章提出一种基于URL智能白名单的Web应用未知威胁阻... 在网络空间对抗不断加剧的情况下,我国各重要行业单位信息化深度发展过程中建设的大量Web应用系统的安全面临严峻考验,各行业单位防护技术及措施存在不足,急需建立有效技术防护体系。文章提出一种基于URL智能白名单的Web应用未知威胁阻断防护方案,从合规行为角度入手,以访问控制白名单和非合规行为阻断为核心,通过建立业务白名单动态模型、URL访问控制白名单,实现应对Web应用未知威胁的主动防御体系,提升我国重要行业单位Web应用系统安全防护水平。 展开更多
关键词 url白名单 未知威胁阻断 动态建模
下载PDF
基于Rabin指纹方法的URL去重算法 被引量:8
20
作者 梁正友 张林才 《计算机应用》 CSCD 北大核心 2008年第S2期185-186,203,共3页
针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位... 针对现有URL检索算法占用存储空间较大,对重复率高的URL集合检索速度较慢,使Web Spider的效率降低的问题,提出了一种改进的URL去重算法。此算法基于Rabin指纹方法,以URL的指纹为地址,仅用一位数据标识一条URL,每次检索仅需对相应的一位数据的值做一次判断。实验表明,该算法能有效去除URL集合中重复的URL,提高检索速度。 展开更多
关键词 url去重 Rabin指纹方法 WEB SPIDER
下载PDF
上一页 1 2 43 下一页 到第
使用帮助 返回顶部