期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种针对天猫购物平台的网页URL去重策略研究
1
作者 舒远仲 梁涛 王娟 《网络安全技术与应用》 2018年第6期48-50,共3页
本文在分析了Bloom Filter缺点的基础上,结合天猫购物平台网页URL的特征,对网页URL去重策略进行了改进,以此来提高网页URL去重效果及减小Bloom Filter误判率。实验结果表明,改进后的去重策略在针对天猫购物平台网页URL去重时,准确度上... 本文在分析了Bloom Filter缺点的基础上,结合天猫购物平台网页URL的特征,对网页URL去重策略进行了改进,以此来提高网页URL去重效果及减小Bloom Filter误判率。实验结果表明,改进后的去重策略在针对天猫购物平台网页URL去重时,准确度上要优于传统的Bloom Filter。 展开更多
关键词 布隆过滤器 网页url去重 哈希处理 误判率 天猫
原文传递
基于改进的n-gram模型的URL分类算法研究 被引量:2
2
作者 骆聪 周城 《计算机技术与发展》 2018年第9期38-41,共4页
在大数据时代,网络上的信息量获得了爆炸性增长,准确的网页分类技术有助于用户从海量网页中迅速定位到自己感兴趣的信息。网页分类技术在诸多应用中发挥着至关重要的作用,其大体可以分为基于网页内容分析和基于URL分析的网页分类。针对... 在大数据时代,网络上的信息量获得了爆炸性增长,准确的网页分类技术有助于用户从海量网页中迅速定位到自己感兴趣的信息。网页分类技术在诸多应用中发挥着至关重要的作用,其大体可以分为基于网页内容分析和基于URL分析的网页分类。针对基于内容分析的网页分类技术在部分场景下的不足,提出仅根据网页URL信息进行网页分类。借鉴n-gram模型的思想,并将字符作为基本单位,进行URL特征的提取。考虑到URL各字段对于网页分类的区分能力不同,在剔除部分字段的同时,也为重要的path字段赋予更高的权重,在此基础上改进了n-gram模型。实验结果表明,将改进后的n-gram模型用于URL分类不仅提高了算法效率,而且网页分类的准确性也有所提升,其中训练时间减少了9.34%,网页分类结果的F1值提高了12.63%。 展开更多
关键词 大数据 网页分类 网页url N-GRAM模型 url分类
下载PDF
大规模网络流量下的恶意地址检测技术研究 被引量:1
3
作者 李洁 陈博 赵昱红 《吉林电力》 2016年第4期1-4,共4页
针对网络流量增长迅速,传统的检测方法很难解决恶意地址检测的问题,在介绍传统的恶意地址检测方法以及这些方法遇到的问题的基础上,提出了一种新的恶意地址检测思路,依靠恶意地址本身的语义特性和词汇特性建立地址分类模型,并给出模型... 针对网络流量增长迅速,传统的检测方法很难解决恶意地址检测的问题,在介绍传统的恶意地址检测方法以及这些方法遇到的问题的基础上,提出了一种新的恶意地址检测思路,依靠恶意地址本身的语义特性和词汇特性建立地址分类模型,并给出模型的实现方法。通过实验测试4 389 763个地址,检测出地址3 292 322个,恶意地址834个,漏报率25%,检测时间3.21 min。由于不需要加载外部资源,处理速度相对传统检测方法有质的提高,能够适应大规模网络流量下的恶意地址检测。 展开更多
关键词 网页地址(url) 网络流量 恶意地址检测 检测模型
下载PDF
A sampling method based on URL clustering for fast web accessibility evaluation 被引量:2
4
作者 Meng-ni ZHANG Can WANG Jia-jun BU Zhi YU Yu ZHOU Chun CHEN 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第6期449-456,共8页
When evaluating the accessibility of a large website, we rely on sampling methods to reduce the cost of evaluation. This may lead to a biased evaluation when the distribution of checkpoint violations in a website is s... When evaluating the accessibility of a large website, we rely on sampling methods to reduce the cost of evaluation. This may lead to a biased evaluation when the distribution of checkpoint violations in a website is skewed and the selected samples do not provide a good representation of the entire website. To improve sampling quality, stratified sampling methods first cluster web pages in a site and then draw samples from each cluster. In existing stratified sampling methods, however, all the pages in a website need to be analyzed for clustering, causing huge I/O and computation costs. To address this issue, we propose a novel page sampling method based on URL clustering for web accessibility evaluation, namely URLSamp. Using only the URL information for stratified page sampling, URLSamp can efficiently scale to large websites. Meanwhile, by exploiting similarities in URL patterns, URLSamp cluster pages by their generating scripts and can thus effectively detect accessibility problems from web page templates. We use a data set of 45 web sites to validate our method. Experimental results show that our URLSamp method is both effective and efficient for web accessibility evaluation. 展开更多
关键词 Page sampling url clustering Web accessibility evaluation
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部