期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
16
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种Deep Web爬虫爬行策略
被引量:
4
1
作者
刘徽
黄宽娜
余建桥
《计算机工程》
CAS
CSCD
2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提...
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。
展开更多
关键词
deep
web
页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
下载PDF
职称材料
基于结果模式的Deep Web数据抽取
被引量:
15
2
作者
马安香
张斌
+2 位作者
高克宁
齐鹏
张引
《计算机研究与发展》
EI
CSCD
北大核心
2009年第2期280-288,共9页
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式...
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.
展开更多
关键词
deep
web
数据集成
数据抽取
结果模式
语义标注
网页数据特征矩阵
下载PDF
职称材料
基于启发式信息的Deep Web结果模式获取方法
3
作者
李明
李秀兰
《计算机应用研究》
CSCD
北大核心
2011年第8期3026-3029,共4页
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得...
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。
展开更多
关键词
deep
web
结果模式
网页数据特征矩阵
启发式信息
下载PDF
职称材料
基于最优查询的多领域deep Web爬虫
被引量:
3
4
作者
冯明远
林怀忠
《计算机应用研究》
CSCD
北大核心
2009年第9期3375-3377,共3页
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明...
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。
展开更多
关键词
deep
web
deep
web
爬虫
最优查询
页面聚类
下载PDF
职称材料
一种Deep Web聚焦爬虫
5
作者
黄昊晶
《电脑与电信》
2011年第3期30-31,37,共3页
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep ...
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率。
展开更多
关键词
聚焦爬虫
deep
web
page
RANK
网站结构图剪枝
页面判断
下载PDF
职称材料
基于深度学习与特征融合的恶意网页识别方法研究
6
作者
杨胜杰
陈朝阳
+1 位作者
徐逸
刘建刚
《信息安全学报》
CSCD
2024年第3期176-190,共15页
互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性,网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就,但随着对恶意网页识别需求的不断提高,在识别效率上仍然表现出...
互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性,网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就,但随着对恶意网页识别需求的不断提高,在识别效率上仍然表现出较大的局限性。本文提出一种基于深度学习与特征融合的识别方法,将图卷积神经网络(Generalized connection network,GCN)与一维卷积神经网络(Convolution neural network,CNN)、支持向量机(Support vector machine,SVM)相结合。首先,考虑到传统神经网络只适用于处理结构化数据以及无法很好的捕获单词间非连续和长距离依赖关系,从而影响网页识别准确率的缺点,通过GCN丰富的关系结构有效捕获并保持网页文本的全局信息;其次,CNN可以弥补GCN在局部特征信息提取方面的不足,通过一维CNN对网页URL(Uniform resource locator,URL)进行局部信息提取,并进一步将捕获到的URL局部特征与网页文本全局特征进行融合,从而选择出兼顾CNN模型和GCN模型特点的更具代表性的网页特征;最终,将融合后的特征输入到SVM分类器中进行网页判别。本文首次将GCN应用于恶意网页识别领域,通过组合模型有效兼顾了深度学习与机器学习的优点,将深度学习网络模型作为特征提取器,而将机器学习分类算法作为分类器,通过实验证明,测试准确率达到92.5%,高于已有的浅层的机器学习检测方法以及单一的神经网络模型。本文提出的方法具有更高的稳定性,以及在精确率、召回率、F1值等多项检测指标上展现出更加优越的性能。
展开更多
关键词
恶意网页
机器学习
深度学习
特征融合
下载PDF
职称材料
基于BERT的黑灰产网页分类方法研究
7
作者
李春霞
崔艳海
+1 位作者
彭艳兵
周天河
《中国科技纵横》
2024年第11期18-20,共3页
本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表...
本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表明,该方法在分类准确度方面明显优于传统机器学习算法和独立的BERT模型。
展开更多
关键词
网页分类
BERT
数据不平衡
深度学习
下载PDF
职称材料
基于深度学习的Web网页信息标注方法研究
8
作者
董亚男
《现代信息科技》
2021年第22期89-91,共3页
为了提升网页信息标注的整体效果,同时降低标注失误的概率,通过三元组构造标注预处理,在深度学习技术下标注描述目标设定,设计深度重叠标注模型,在深度学习下通过逻辑回归实现Web网页信息的标注。相较于传统的特征提取标注测试组和传统...
为了提升网页信息标注的整体效果,同时降低标注失误的概率,通过三元组构造标注预处理,在深度学习技术下标注描述目标设定,设计深度重叠标注模型,在深度学习下通过逻辑回归实现Web网页信息的标注。相较于传统的特征提取标注测试组和传统的自定义标注测试组,文章设计的深度学习标注测试组最终得出的标注完成率相对较高,标注失误率相对较低,具有实际应用意义。
展开更多
关键词
深度学习
web
网页
标注方法
深度控制
下载PDF
职称材料
基于代价敏感学习的恶意URL检测研究
被引量:
2
9
作者
蔡勍萌
王健
李鹏博
《信息安全学报》
CSCD
2023年第2期54-65,共12页
随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页...
随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页检测领域的性能,本文提出将URL数据结合HTTP请求信息作为原始数据样本进行特征提取,解决了单纯URL数据过于简单而造成特征提取困难的问题,通过实验对比了三种编码处理方式,根据实验结果选取了最佳字符编码的处理方式,保证了后续检测模型的效果。同时本文针对URL字符输入的特点,设计了适合URL检测的卷积神经网络模型,为了提取数据深层特征,使用了两层卷积层进行特征提取,其次本文在池化层选择使用BiLSTM算法提取数据的时序特征,同时将该网络的最后一个单元输出达到池化效果,避免了大量的模型计算,保证了模型的检测效率。同时为解决数据样本不均衡问题,在迭代过程中为其分配不同惩罚因子,改进了数据样本初始化权重的分配规则并进行了归一化处理,增加恶意样本在整体误差函数中的比重。实验结果表明本文模型在准确率、召回率以及检测效率上较优于其他主流检测模型,并对于不均衡数据集具有较好的抵抗能力。
展开更多
关键词
深度学习
恶意网页
URL检测
代价敏感学习
神经网络
下载PDF
职称材料
主题爬虫技术研究综述
被引量:
5
10
作者
陈方
谭爱平
+1 位作者
成亚玲
文益民
《湖南工业职业技术学院学报》
2008年第5期13-16,共4页
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改...
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改进)作了介绍与对比,并在此基础上提出了主题爬虫今后的一些研究方向。
展开更多
关键词
普通爬虫
主题爬虫
链接分析
主题相关度
页面概念
主题概念
下载PDF
职称材料
深度搜索中下一页链接获取策略的研究
被引量:
2
11
作者
李哲
陈鹏
李涛
《微计算机信息》
北大核心
2007年第33期183-184,176,共3页
高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。...
高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。最近的研究主要针对以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源。一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题。本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果。
展开更多
关键词
下一页
深度搜索
下载PDF
职称材料
基于深度学习的网页篡改远程检测研究
被引量:
5
12
作者
印杰
蒋宇翔
+2 位作者
牛博威
严梓宸
郭延文
《南京理工大学学报》
EI
CAS
CSCD
北大核心
2020年第1期49-54,共6页
为了更为精确和全面地对网页篡改攻击进行远程检测,基于语料库建设和深度学习方法改进了检测过程。大规模获取了可能被篡改攻击的网页,并基于语料库建设方法,人工建立了网页篡改数据库。基于深度神经网络,提出了融合文本特征、结构特征...
为了更为精确和全面地对网页篡改攻击进行远程检测,基于语料库建设和深度学习方法改进了检测过程。大规模获取了可能被篡改攻击的网页,并基于语料库建设方法,人工建立了网页篡改数据库。基于深度神经网络,提出了融合文本特征、结构特征和网络特征的自动检测算法。该文提出的方法可以判断网页是否被篡改和被篡改的类型。经过实验,该文提出的方法在测试数据集上的精确率、召回率和F值分别为为95.6%、96.7%和96.1%,显著超过基准方法。
展开更多
关键词
网页篡改
暗链检测
深度学习
神经网络
网络表示学习
下载PDF
职称材料
基于文档分层表示的恶意网页快速检测方法
被引量:
1
13
作者
袁梁
林金芳
《计算机系统应用》
2019年第12期226-231,共6页
近年来,恶意网页检测主要依赖于语义分析或代码模拟执行来提取特征,但是这类方法实现复杂,需要高额的计算开销,并且增加了攻击面.为此,提出了一种基于深度学习的恶意网页检测方法,首先使用简单的正则表达式直接从静态HTML文档中提取与...
近年来,恶意网页检测主要依赖于语义分析或代码模拟执行来提取特征,但是这类方法实现复杂,需要高额的计算开销,并且增加了攻击面.为此,提出了一种基于深度学习的恶意网页检测方法,首先使用简单的正则表达式直接从静态HTML文档中提取与语义无关的标记,然后采用神经网络模型捕获文档在多个分层空间尺度上的局部性表示,实现了能够从任意长度的网页中快速找到微小恶意代码片段的能力.将该方法与多种基线模型和简化模型进行对比实验,结果表明该方法在0.1%的误报率下实现了96.4%的检测率,获得了更好的分类准确率.本方法的速度和准确性使其适合部署到端点、防火墙和Web代理中.
展开更多
关键词
深度学习
恶意
web
内容
网页分类
恶意网页识别
下载PDF
职称材料
补充反馈模块的深度标注框架研究
14
作者
陶皖
廖述梅
《计算机技术与发展》
2007年第1期18-20,23,共4页
由数据库生成的动态Web页是静态页面的数百倍,直接针对Web页产生过程的深度标注可以提高动态Web页的标注效率。针对动态Web页以查询生成居多的特点,提出标注与反馈相结合的深度标注框架,即第一步通过标注模块进行初步标注,并记录Web页...
由数据库生成的动态Web页是静态页面的数百倍,直接针对Web页产生过程的深度标注可以提高动态Web页的标注效率。针对动态Web页以查询生成居多的特点,提出标注与反馈相结合的深度标注框架,即第一步通过标注模块进行初步标注,并记录Web页面的查询要求;第二步分析查询信息,找出不同Web页的关系,通过反馈模块进一步补充标注内容,从而提高标注的质量。
展开更多
关键词
动态
web
页
深度标注
本体
反馈模块
下载PDF
职称材料
FORM表单反馈网页信息抽取的研究与实现
15
作者
火善栋
《电脑知识与技术》
2009年第3X期2207-2208,共2页
实现了以table标记为信息存贮特点的多记录网页信息的自动抽取工作,该抽取方法从网页信息的存贮特点入手,将有用信息定位于表格中,该抽取方法能够在一个网页中自动查找结构相同或相似的记录模式,并自动分析该记录模式的结构特点从而调...
实现了以table标记为信息存贮特点的多记录网页信息的自动抽取工作,该抽取方法从网页信息的存贮特点入手,将有用信息定位于表格中,该抽取方法能够在一个网页中自动查找结构相同或相似的记录模式,并自动分析该记录模式的结构特点从而调用相应的抽取模式(XSLT文档)实现对信息的自动抽取。
展开更多
关键词
信息抽取
隐蔽网
网页
下载PDF
职称材料
结合深度学习与词性标注的网页分类算法研究
被引量:
2
16
作者
骆聪
王帅
《计算机技术与发展》
2018年第8期71-74,95,共5页
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(sup...
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。通过考虑网页HTML标签权重提取网页的内容,然后利用词性标注技术在剔除部分对网页分类贡献较小的词语的同时,也为区分能力高的名词赋予更高的权重,最后结合深度信念网络(deep belief network)进行特征提取和特征分类。实验结果表明,提出的网页分类算法具有和采用支持向量机相当的准确性,并且在使用词性标注技术后,网页分类结果的F1值又提升了3.35%。
展开更多
关键词
网页分类
深度学习
HTML标签权重
词性标注
深度信念网络
下载PDF
职称材料
题名
一种Deep Web爬虫爬行策略
被引量:
4
1
作者
刘徽
黄宽娜
余建桥
机构
乐山师范学院数学与信息科学学院
西南大学计算机与信息科学学院
出处
《计算机工程》
CAS
CSCD
2012年第11期284-286,共3页
基金
四川省教育厅科研基金资助项目(10ZB023)
文摘
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。
关键词
deep
web
页面
反馈机制
爬行策略
聚焦爬虫
网络数据库
分类器
Keywords
deep web page
feedback mechanism
crawling strategy
focused crawler
network database
classifier
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于结果模式的Deep Web数据抽取
被引量:
15
2
作者
马安香
张斌
高克宁
齐鹏
张引
机构
东北大学信息科学与工程学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2009年第2期280-288,共9页
基金
国家自然科学基金项目(60773218)
辽宁省科学技术基金项目(20072031)~~
文摘
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础.
关键词
deep
web
数据集成
数据抽取
结果模式
语义标注
网页数据特征矩阵
Keywords
deep
web
data integration
deep
web
data extraction result pattern semantic annotation feature matrix of
web
page
data
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于启发式信息的Deep Web结果模式获取方法
3
作者
李明
李秀兰
机构
兰州理工大学计算机与通信学院
出处
《计算机应用研究》
CSCD
北大核心
2011年第8期3026-3029,共4页
基金
甘肃省自然科学基金资助项目(0809RJZA018)
文摘
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。
关键词
deep
web
结果模式
网页数据特征矩阵
启发式信息
Keywords
deep
web
result schema
feature matrix of
web
page
data
heuristic information
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于最优查询的多领域deep Web爬虫
被引量:
3
4
作者
冯明远
林怀忠
机构
浙江大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2009年第9期3375-3377,共3页
基金
浙江省科技计划基金资助项目(2007C23086)
文摘
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。
关键词
deep
web
deep
web
爬虫
最优查询
页面聚类
Keywords
deep
web
deep
web
crawler
most efficient queries
page
cluster
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种Deep Web聚焦爬虫
5
作者
黄昊晶
机构
广东水利电力职业技术学院
苏州大学智能信息处理及应用研究所
出处
《电脑与电信》
2011年第3期30-31,37,共3页
基金
广东水利电力职业技术学院中青年科研项目:"Deep Web数据源发现与聚焦爬虫研究"
项目编号:09002
文摘
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率。
关键词
聚焦爬虫
deep
web
page
RANK
网站结构图剪枝
页面判断
Keywords
focused crawler
deep
web
page
Rank
site structure pruning
determine
page
s
分类号
TN241 [电子电信—物理电子学]
下载PDF
职称材料
题名
基于深度学习与特征融合的恶意网页识别方法研究
6
作者
杨胜杰
陈朝阳
徐逸
刘建刚
机构
湖南工商大学计算机学院
湖南工商大学理学院
出处
《信息安全学报》
CSCD
2024年第3期176-190,共15页
基金
湖南教育厅科学研究项目(No.21A0385,No.22B0612)
湖南省自然科学基金面上项目(No.2022JJ30214)资助。
文摘
互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性,网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就,但随着对恶意网页识别需求的不断提高,在识别效率上仍然表现出较大的局限性。本文提出一种基于深度学习与特征融合的识别方法,将图卷积神经网络(Generalized connection network,GCN)与一维卷积神经网络(Convolution neural network,CNN)、支持向量机(Support vector machine,SVM)相结合。首先,考虑到传统神经网络只适用于处理结构化数据以及无法很好的捕获单词间非连续和长距离依赖关系,从而影响网页识别准确率的缺点,通过GCN丰富的关系结构有效捕获并保持网页文本的全局信息;其次,CNN可以弥补GCN在局部特征信息提取方面的不足,通过一维CNN对网页URL(Uniform resource locator,URL)进行局部信息提取,并进一步将捕获到的URL局部特征与网页文本全局特征进行融合,从而选择出兼顾CNN模型和GCN模型特点的更具代表性的网页特征;最终,将融合后的特征输入到SVM分类器中进行网页判别。本文首次将GCN应用于恶意网页识别领域,通过组合模型有效兼顾了深度学习与机器学习的优点,将深度学习网络模型作为特征提取器,而将机器学习分类算法作为分类器,通过实验证明,测试准确率达到92.5%,高于已有的浅层的机器学习检测方法以及单一的神经网络模型。本文提出的方法具有更高的稳定性,以及在精确率、召回率、F1值等多项检测指标上展现出更加优越的性能。
关键词
恶意网页
机器学习
深度学习
特征融合
Keywords
malicious
web
page
machine learning
deep
learning
feature fusion
分类号
TP309.5 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于BERT的黑灰产网页分类方法研究
7
作者
李春霞
崔艳海
彭艳兵
周天河
机构
南京烽火天地通信发展有限公司
武汉邮电科学研究院有限公司
南京掌控通信科技有限公司司法鉴定所
出处
《中国科技纵横》
2024年第11期18-20,共3页
文摘
本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表明,该方法在分类准确度方面明显优于传统机器学习算法和独立的BERT模型。
关键词
网页分类
BERT
数据不平衡
深度学习
Keywords
web
page
classification
BERT
data imbalance
deep
learning
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于深度学习的Web网页信息标注方法研究
8
作者
董亚男
机构
吉林水利电力职业学院
出处
《现代信息科技》
2021年第22期89-91,共3页
文摘
为了提升网页信息标注的整体效果,同时降低标注失误的概率,通过三元组构造标注预处理,在深度学习技术下标注描述目标设定,设计深度重叠标注模型,在深度学习下通过逻辑回归实现Web网页信息的标注。相较于传统的特征提取标注测试组和传统的自定义标注测试组,文章设计的深度学习标注测试组最终得出的标注完成率相对较高,标注失误率相对较低,具有实际应用意义。
关键词
深度学习
web
网页
标注方法
深度控制
Keywords
deep
learning
web
page
tagging method
depth control
分类号
G202 [文化科学—传播学]
下载PDF
职称材料
题名
基于代价敏感学习的恶意URL检测研究
被引量:
2
9
作者
蔡勍萌
王健
李鹏博
机构
北京交通大学计算机与信息技术学院
中电科网络空间安全研究院
出处
《信息安全学报》
CSCD
2023年第2期54-65,共12页
基金
中国国家铁路集团有限公司科技研究开发计划重点课题(No.N2020W005)
国家保密技术测评中心项目(No.K20GY500010)的支持资助。
文摘
随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页检测领域的性能,本文提出将URL数据结合HTTP请求信息作为原始数据样本进行特征提取,解决了单纯URL数据过于简单而造成特征提取困难的问题,通过实验对比了三种编码处理方式,根据实验结果选取了最佳字符编码的处理方式,保证了后续检测模型的效果。同时本文针对URL字符输入的特点,设计了适合URL检测的卷积神经网络模型,为了提取数据深层特征,使用了两层卷积层进行特征提取,其次本文在池化层选择使用BiLSTM算法提取数据的时序特征,同时将该网络的最后一个单元输出达到池化效果,避免了大量的模型计算,保证了模型的检测效率。同时为解决数据样本不均衡问题,在迭代过程中为其分配不同惩罚因子,改进了数据样本初始化权重的分配规则并进行了归一化处理,增加恶意样本在整体误差函数中的比重。实验结果表明本文模型在准确率、召回率以及检测效率上较优于其他主流检测模型,并对于不均衡数据集具有较好的抵抗能力。
关键词
深度学习
恶意网页
URL检测
代价敏感学习
神经网络
Keywords
deep
Learning
malicious
web
page
URL detection
cost-sensitive learning
neural networks
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
主题爬虫技术研究综述
被引量:
5
10
作者
陈方
谭爱平
成亚玲
文益民
机构
湖南工业职业技术学院
出处
《湖南工业职业技术学院学报》
2008年第5期13-16,共4页
文摘
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改进)作了介绍与对比,并在此基础上提出了主题爬虫今后的一些研究方向。
关键词
普通爬虫
主题爬虫
链接分析
主题相关度
页面概念
主题概念
Keywords
average crawler
subject crawler
interlinkage is analyzed
deep
web
subject relevance degree
page
of face concept
subject concept.
分类号
TP316.8 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
深度搜索中下一页链接获取策略的研究
被引量:
2
11
作者
李哲
陈鹏
李涛
机构
北京航空航天大学计算机学院
出处
《微计算机信息》
北大核心
2007年第33期183-184,176,共3页
基金
国家科技基础条件平台科技部(2003DKA5G015)
文摘
高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。最近的研究主要针对以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源。一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题。本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果。
关键词
下一页
深度搜索
Keywords
next
page
,
deep
web
, hidden
web
, invisible
web
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于深度学习的网页篡改远程检测研究
被引量:
5
12
作者
印杰
蒋宇翔
牛博威
严梓宸
郭延文
机构
江苏警官学院计算机信息与网络安全系
江苏省公安厅网络安全保卫总队
南京大学计算机科学与技术系
南京大学计算机软件新技术国家重点实验室
出处
《南京理工大学学报》
EI
CAS
CSCD
北大核心
2020年第1期49-54,共6页
基金
国家自然科学基金(61802155)
江苏省高等学校大学生创新创业训练计划项目(201710329049X)
文摘
为了更为精确和全面地对网页篡改攻击进行远程检测,基于语料库建设和深度学习方法改进了检测过程。大规模获取了可能被篡改攻击的网页,并基于语料库建设方法,人工建立了网页篡改数据库。基于深度神经网络,提出了融合文本特征、结构特征和网络特征的自动检测算法。该文提出的方法可以判断网页是否被篡改和被篡改的类型。经过实验,该文提出的方法在测试数据集上的精确率、召回率和F值分别为为95.6%、96.7%和96.1%,显著超过基准方法。
关键词
网页篡改
暗链检测
深度学习
神经网络
网络表示学习
Keywords
web
page
tampering
hidden hyperlink detection
neural network
deep
learning
network representation learning
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于文档分层表示的恶意网页快速检测方法
被引量:
1
13
作者
袁梁
林金芳
机构
无锡城市职业技术学院师范学院
国防科技大学系统工程学院
出处
《计算机系统应用》
2019年第12期226-231,共6页
基金
国家自然科学基金(91430214)~~
文摘
近年来,恶意网页检测主要依赖于语义分析或代码模拟执行来提取特征,但是这类方法实现复杂,需要高额的计算开销,并且增加了攻击面.为此,提出了一种基于深度学习的恶意网页检测方法,首先使用简单的正则表达式直接从静态HTML文档中提取与语义无关的标记,然后采用神经网络模型捕获文档在多个分层空间尺度上的局部性表示,实现了能够从任意长度的网页中快速找到微小恶意代码片段的能力.将该方法与多种基线模型和简化模型进行对比实验,结果表明该方法在0.1%的误报率下实现了96.4%的检测率,获得了更好的分类准确率.本方法的速度和准确性使其适合部署到端点、防火墙和Web代理中.
关键词
深度学习
恶意
web
内容
网页分类
恶意网页识别
Keywords
deep
learning
malicious
web
content
web
page
classification
malicious
web
page
detection
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
补充反馈模块的深度标注框架研究
14
作者
陶皖
廖述梅
机构
安徽工程科技学院计算机科学与工程系
江西财经大学信息管理学院
出处
《计算机技术与发展》
2007年第1期18-20,23,共4页
基金
安徽省高校省级自然科学研究项目(2005KJ065)
安徽省高校青年教师科研基金资助项目(2005jql069)
文摘
由数据库生成的动态Web页是静态页面的数百倍,直接针对Web页产生过程的深度标注可以提高动态Web页的标注效率。针对动态Web页以查询生成居多的特点,提出标注与反馈相结合的深度标注框架,即第一步通过标注模块进行初步标注,并记录Web页面的查询要求;第二步分析查询信息,找出不同Web页的关系,通过反馈模块进一步补充标注内容,从而提高标注的质量。
关键词
动态
web
页
深度标注
本体
反馈模块
Keywords
dynamic
web
page
s
deep
annotation
ontology
feedback module
分类号
TP301.2 [自动化与计算机技术—计算机系统结构]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
FORM表单反馈网页信息抽取的研究与实现
15
作者
火善栋
机构
重庆三峡学院
出处
《电脑知识与技术》
2009年第3X期2207-2208,共2页
文摘
实现了以table标记为信息存贮特点的多记录网页信息的自动抽取工作,该抽取方法从网页信息的存贮特点入手,将有用信息定位于表格中,该抽取方法能够在一个网页中自动查找结构相同或相似的记录模式,并自动分析该记录模式的结构特点从而调用相应的抽取模式(XSLT文档)实现对信息的自动抽取。
关键词
信息抽取
隐蔽网
网页
Keywords
information extraction
deep
web
web
page
分类号
TP311.52 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
结合深度学习与词性标注的网页分类算法研究
被引量:
2
16
作者
骆聪
王帅
机构
江南计算技术研究所
出处
《计算机技术与发展》
2018年第8期71-74,95,共5页
基金
国家核高基重大专项(2015ZX01040-201)
文摘
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。通过考虑网页HTML标签权重提取网页的内容,然后利用词性标注技术在剔除部分对网页分类贡献较小的词语的同时,也为区分能力高的名词赋予更高的权重,最后结合深度信念网络(deep belief network)进行特征提取和特征分类。实验结果表明,提出的网页分类算法具有和采用支持向量机相当的准确性,并且在使用词性标注技术后,网页分类结果的F1值又提升了3.35%。
关键词
网页分类
深度学习
HTML标签权重
词性标注
深度信念网络
Keywords
web
page
classification
deep
learning
weight of HTML tags
part of speech tagging
deep
belief network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种Deep Web爬虫爬行策略
刘徽
黄宽娜
余建桥
《计算机工程》
CAS
CSCD
2012
4
下载PDF
职称材料
2
基于结果模式的Deep Web数据抽取
马安香
张斌
高克宁
齐鹏
张引
《计算机研究与发展》
EI
CSCD
北大核心
2009
15
下载PDF
职称材料
3
基于启发式信息的Deep Web结果模式获取方法
李明
李秀兰
《计算机应用研究》
CSCD
北大核心
2011
0
下载PDF
职称材料
4
基于最优查询的多领域deep Web爬虫
冯明远
林怀忠
《计算机应用研究》
CSCD
北大核心
2009
3
下载PDF
职称材料
5
一种Deep Web聚焦爬虫
黄昊晶
《电脑与电信》
2011
0
下载PDF
职称材料
6
基于深度学习与特征融合的恶意网页识别方法研究
杨胜杰
陈朝阳
徐逸
刘建刚
《信息安全学报》
CSCD
2024
0
下载PDF
职称材料
7
基于BERT的黑灰产网页分类方法研究
李春霞
崔艳海
彭艳兵
周天河
《中国科技纵横》
2024
0
下载PDF
职称材料
8
基于深度学习的Web网页信息标注方法研究
董亚男
《现代信息科技》
2021
0
下载PDF
职称材料
9
基于代价敏感学习的恶意URL检测研究
蔡勍萌
王健
李鹏博
《信息安全学报》
CSCD
2023
2
下载PDF
职称材料
10
主题爬虫技术研究综述
陈方
谭爱平
成亚玲
文益民
《湖南工业职业技术学院学报》
2008
5
下载PDF
职称材料
11
深度搜索中下一页链接获取策略的研究
李哲
陈鹏
李涛
《微计算机信息》
北大核心
2007
2
下载PDF
职称材料
12
基于深度学习的网页篡改远程检测研究
印杰
蒋宇翔
牛博威
严梓宸
郭延文
《南京理工大学学报》
EI
CAS
CSCD
北大核心
2020
5
下载PDF
职称材料
13
基于文档分层表示的恶意网页快速检测方法
袁梁
林金芳
《计算机系统应用》
2019
1
下载PDF
职称材料
14
补充反馈模块的深度标注框架研究
陶皖
廖述梅
《计算机技术与发展》
2007
0
下载PDF
职称材料
15
FORM表单反馈网页信息抽取的研究与实现
火善栋
《电脑知识与技术》
2009
0
下载PDF
职称材料
16
结合深度学习与词性标注的网页分类算法研究
骆聪
王帅
《计算机技术与发展》
2018
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部