期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于网络爬虫技术的网页SQL注入漏洞检测方法 被引量:1
1
作者 程亚维 王东霞 《信息与电脑》 2023年第4期236-238,共3页
为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页... 为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页SQL注入漏洞扩展过程建模;利用网络爬虫技术,检测SQL可注入点,并深度挖掘漏洞。通过对比实验证明,设计的检测方法正确检测数量较多,检测耗时较短,具备极高的应用价值。 展开更多
关键词 网络爬虫技术 结构化查询语言(SQL) 漏洞检测 注入漏洞 页面相似度
下载PDF
基于正文结构和长句提取的网页去重算法 被引量:13
2
作者 黄仁 冯胜 +2 位作者 杨吉云 刘宇 敖民 《计算机应用研究》 CSCD 北大核心 2010年第7期2489-2491,2497,共4页
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证... 针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。 展开更多
关键词 网页去重 正文结构树 长句提取 层次指纹
下载PDF
基于网页正文结构和特征串的相似网页去重算法 被引量:11
3
作者 熊忠阳 牙漫 张玉芳 《计算机应用》 CSCD 北大核心 2013年第2期554-557,共4页
为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Fi... 为了减少重复网页对用户的干扰,提高去重效率,提出一种新的大规模网页去重算法。首先利用预定义网页标签值建立网页正文结构树,实现了层次计算指纹相似度;其次,提取网页中高频标点字符所在句子中的首尾汉字作为特征码;最后,利用Bloom Filter算法对获取的特征指纹进行网页相似度判别。实验表明,该算法将召回率提高到了90%以上,时间复杂度降低到了O(n)。 展开更多
关键词 网页去重 网页标签值 高频标点 特征码 网页指纹相似度
下载PDF
基于网页文本结构的网页去重 被引量:13
4
作者 魏丽霞 郑家恒 《计算机应用》 CSCD 北大核心 2007年第11期2854-2856,共3页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 展开更多
关键词 层次指纹 文本结构 网页去重
下载PDF
基于图像感知哈希技术的钓鱼网页检测 被引量:4
5
作者 周国强 田先桃 +1 位作者 张卫丰 张迎周 《南京邮电大学学报(自然科学版)》 北大核心 2012年第4期59-63,69,共6页
文中提出一种基于图像感知哈希技术的钓鱼检测方法,简称Phash———将网页以图像格式保存,提取图像的主要可视信息的像素点,由这些像素点组成感知哈希序列,再进行哈希序列的相似度匹配。该方法既克服了钓鱼网页存活时间短的问题,又能快... 文中提出一种基于图像感知哈希技术的钓鱼检测方法,简称Phash———将网页以图像格式保存,提取图像的主要可视信息的像素点,由这些像素点组成感知哈希序列,再进行哈希序列的相似度匹配。该方法既克服了钓鱼网页存活时间短的问题,又能快速地与特征库进行匹配。实验表明,该方法是有效的,在保证一定误判率和召回率的情况下大大提高了匹配速度。 展开更多
关键词 图像哈希 钓鱼检测 网页相似性 分类器
下载PDF
网页去重方法研究 被引量:7
6
作者 樊勇 郑家恒 《计算机工程与应用》 CSCD 北大核心 2009年第12期141-143,183,共4页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度,提取出网页正文的主题句向量,然后对主题句向量进行语义相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行较准确的检测。 展开更多
关键词 组块 主题句向量 网页去重
下载PDF
基于文本相似度的网页消重策略 被引量:6
7
作者 刘书一 《计算机应用与软件》 CSCD 2011年第11期228-229,278,共3页
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基... 针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。 展开更多
关键词 网页消重 网页特征码 文本相似度 编辑距离
下载PDF
一种采用SpotSigs算法的中文新闻网页相似性检测方法 被引量:1
8
作者 李岩 徐硕 +1 位作者 吴广印 干生洪 《情报工程》 2017年第3期116-124,共9页
互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难。本文以SpotSigs算法为基础提出了一种中文新闻网页相似性检测方... 互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难。本文以SpotSigs算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响。以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能。 展开更多
关键词 SpotSigs算法 新闻网页 相似性检测 先行词选取
下载PDF
基于主题的网页去重 被引量:2
9
作者 樊勇 郑家恒 《电脑开发与应用》 2008年第4期4-6,25,共4页
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于主题的去重方法。该方法通过组块的思想提取出网页正文的主题,然后进行主题的相似度计算,把重复的网页去除。实验证明,该方法... 搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于主题的去重方法。该方法通过组块的思想提取出网页正文的主题,然后进行主题的相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。 展开更多
关键词 组块 向量空间 网页去重 主题
下载PDF
基于网页正文逻辑段落和长句提取的网页去重算法 被引量:1
10
作者 张小娣 宋余庆 《图书情报研究》 2012年第2期41-45,共5页
网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻... 网页去重是提高网络检索效果的有效途径。针对现有网页去重算法的不足和网页正文的结构特征,提出一个基于网页正文逻辑段落和长句提取的网页去重算法。该方法通过用户检索关键词将网页正文物理段落结构表示成逻辑段落,在此基础上提取逻辑段落中的长句作为网页特征码实现相似网页判断。实验证明,该方法提高了篇幅短小的镜像网页和近似镜像网页的去重效果。 展开更多
关键词 网页去重 逻辑段落 长句提取 句子相似度
下载PDF
一种欺骗网页检测判定算法
11
作者 余小燕 陆全华 《成都大学学报(自然科学版)》 2009年第4期332-335,共4页
欺骗网页与正常网页有着极其相似的特征,诱导并欺骗用户输入个人机密信息,严重威胁着电子商务正常运行.基于此,提出了一个欺骗网页检测算法.算法首先对网页进行分割,然后提取各个块的特征及其相对位置关系,得到网页特征关系图,并以此计... 欺骗网页与正常网页有着极其相似的特征,诱导并欺骗用户输入个人机密信息,严重威胁着电子商务正常运行.基于此,提出了一个欺骗网页检测算法.算法首先对网页进行分割,然后提取各个块的特征及其相对位置关系,得到网页特征关系图,并以此计算出两个网页之间的相似度.如果发现可疑网页与某个受保护网页之间的相似度小于预设值,判定该可疑网页为针对受保护网页的欺骗网页.实验结果表明,本算法可以有效检测欺骗网页,具有一定的实用性. 展开更多
关键词 欺骗网页检测 网页分割 相似度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部