期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
一种Deep Web爬虫爬行策略 被引量:4
1
作者 刘徽 黄宽娜 余建桥 《计算机工程》 CAS CSCD 2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提... Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。 展开更多
关键词 deep web页面 反馈机制 爬行策略 聚焦爬虫 网络数据库 分类器
下载PDF
基于结果模式的Deep Web数据抽取 被引量:15
2
作者 马安香 张斌 +2 位作者 高克宁 齐鹏 张引 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期280-288,共9页
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式... 高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础. 展开更多
关键词 deep web 数据集成 数据抽取 结果模式 语义标注 网页数据特征矩阵
下载PDF
基于启发式信息的Deep Web结果模式获取方法
3
作者 李明 李秀兰 《计算机应用研究》 CSCD 北大核心 2011年第8期3026-3029,共4页
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得... 获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。 展开更多
关键词 deepweb 结果模式 网页数据特征矩阵 启发式信息
下载PDF
基于最优查询的多领域deep Web爬虫 被引量:3
4
作者 冯明远 林怀忠 《计算机应用研究》 CSCD 北大核心 2009年第9期3375-3377,共3页
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明... Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。 展开更多
关键词 deep web deep web爬虫 最优查询 页面聚类
下载PDF
一种Deep Web聚焦爬虫
5
作者 黄昊晶 《电脑与电信》 2011年第3期30-31,37,共3页
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep ... 聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率。 展开更多
关键词 聚焦爬虫 deep web pageRANK 网站结构图剪枝 页面判断
下载PDF
基于深度学习与特征融合的恶意网页识别方法研究
6
作者 杨胜杰 陈朝阳 +1 位作者 徐逸 刘建刚 《信息安全学报》 CSCD 2024年第3期176-190,共15页
互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性,网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就,但随着对恶意网页识别需求的不断提高,在识别效率上仍然表现出... 互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性,网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就,但随着对恶意网页识别需求的不断提高,在识别效率上仍然表现出较大的局限性。本文提出一种基于深度学习与特征融合的识别方法,将图卷积神经网络(Generalized connection network,GCN)与一维卷积神经网络(Convolution neural network,CNN)、支持向量机(Support vector machine,SVM)相结合。首先,考虑到传统神经网络只适用于处理结构化数据以及无法很好的捕获单词间非连续和长距离依赖关系,从而影响网页识别准确率的缺点,通过GCN丰富的关系结构有效捕获并保持网页文本的全局信息;其次,CNN可以弥补GCN在局部特征信息提取方面的不足,通过一维CNN对网页URL(Uniform resource locator,URL)进行局部信息提取,并进一步将捕获到的URL局部特征与网页文本全局特征进行融合,从而选择出兼顾CNN模型和GCN模型特点的更具代表性的网页特征;最终,将融合后的特征输入到SVM分类器中进行网页判别。本文首次将GCN应用于恶意网页识别领域,通过组合模型有效兼顾了深度学习与机器学习的优点,将深度学习网络模型作为特征提取器,而将机器学习分类算法作为分类器,通过实验证明,测试准确率达到92.5%,高于已有的浅层的机器学习检测方法以及单一的神经网络模型。本文提出的方法具有更高的稳定性,以及在精确率、召回率、F1值等多项检测指标上展现出更加优越的性能。 展开更多
关键词 恶意网页 机器学习 深度学习 特征融合
下载PDF
基于BERT的黑灰产网页分类方法研究
7
作者 李春霞 崔艳海 +1 位作者 彭艳兵 周天河 《中国科技纵横》 2024年第11期18-20,共3页
本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表... 本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表明,该方法在分类准确度方面明显优于传统机器学习算法和独立的BERT模型。 展开更多
关键词 网页分类 BERT 数据不平衡 深度学习
下载PDF
基于深度学习的Web网页信息标注方法研究
8
作者 董亚男 《现代信息科技》 2021年第22期89-91,共3页
为了提升网页信息标注的整体效果,同时降低标注失误的概率,通过三元组构造标注预处理,在深度学习技术下标注描述目标设定,设计深度重叠标注模型,在深度学习下通过逻辑回归实现Web网页信息的标注。相较于传统的特征提取标注测试组和传统... 为了提升网页信息标注的整体效果,同时降低标注失误的概率,通过三元组构造标注预处理,在深度学习技术下标注描述目标设定,设计深度重叠标注模型,在深度学习下通过逻辑回归实现Web网页信息的标注。相较于传统的特征提取标注测试组和传统的自定义标注测试组,文章设计的深度学习标注测试组最终得出的标注完成率相对较高,标注失误率相对较低,具有实际应用意义。 展开更多
关键词 深度学习 web网页 标注方法 深度控制
下载PDF
基于代价敏感学习的恶意URL检测研究 被引量:2
9
作者 蔡勍萌 王健 李鹏博 《信息安全学报》 CSCD 2023年第2期54-65,共12页
随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页... 随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页检测领域的性能,本文提出将URL数据结合HTTP请求信息作为原始数据样本进行特征提取,解决了单纯URL数据过于简单而造成特征提取困难的问题,通过实验对比了三种编码处理方式,根据实验结果选取了最佳字符编码的处理方式,保证了后续检测模型的效果。同时本文针对URL字符输入的特点,设计了适合URL检测的卷积神经网络模型,为了提取数据深层特征,使用了两层卷积层进行特征提取,其次本文在池化层选择使用BiLSTM算法提取数据的时序特征,同时将该网络的最后一个单元输出达到池化效果,避免了大量的模型计算,保证了模型的检测效率。同时为解决数据样本不均衡问题,在迭代过程中为其分配不同惩罚因子,改进了数据样本初始化权重的分配规则并进行了归一化处理,增加恶意样本在整体误差函数中的比重。实验结果表明本文模型在准确率、召回率以及检测效率上较优于其他主流检测模型,并对于不均衡数据集具有较好的抵抗能力。 展开更多
关键词 深度学习 恶意网页 URL检测 代价敏感学习 神经网络
下载PDF
主题爬虫技术研究综述 被引量:5
10
作者 陈方 谭爱平 +1 位作者 成亚玲 文益民 《湖南工业职业技术学院学报》 2008年第5期13-16,共4页
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改... 万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改进)作了介绍与对比,并在此基础上提出了主题爬虫今后的一些研究方向。 展开更多
关键词 普通爬虫 主题爬虫 链接分析 主题相关度 页面概念 主题概念
下载PDF
深度搜索中下一页链接获取策略的研究 被引量:2
11
作者 李哲 陈鹏 李涛 《微计算机信息》 北大核心 2007年第33期183-184,176,共3页
高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。... 高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。最近的研究主要针对以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源。一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题。本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果。 展开更多
关键词 下一页 深度搜索
下载PDF
基于深度学习的网页篡改远程检测研究 被引量:5
12
作者 印杰 蒋宇翔 +2 位作者 牛博威 严梓宸 郭延文 《南京理工大学学报》 EI CAS CSCD 北大核心 2020年第1期49-54,共6页
为了更为精确和全面地对网页篡改攻击进行远程检测,基于语料库建设和深度学习方法改进了检测过程。大规模获取了可能被篡改攻击的网页,并基于语料库建设方法,人工建立了网页篡改数据库。基于深度神经网络,提出了融合文本特征、结构特征... 为了更为精确和全面地对网页篡改攻击进行远程检测,基于语料库建设和深度学习方法改进了检测过程。大规模获取了可能被篡改攻击的网页,并基于语料库建设方法,人工建立了网页篡改数据库。基于深度神经网络,提出了融合文本特征、结构特征和网络特征的自动检测算法。该文提出的方法可以判断网页是否被篡改和被篡改的类型。经过实验,该文提出的方法在测试数据集上的精确率、召回率和F值分别为为95.6%、96.7%和96.1%,显著超过基准方法。 展开更多
关键词 网页篡改 暗链检测 深度学习 神经网络 网络表示学习
下载PDF
基于文档分层表示的恶意网页快速检测方法 被引量:1
13
作者 袁梁 林金芳 《计算机系统应用》 2019年第12期226-231,共6页
近年来,恶意网页检测主要依赖于语义分析或代码模拟执行来提取特征,但是这类方法实现复杂,需要高额的计算开销,并且增加了攻击面.为此,提出了一种基于深度学习的恶意网页检测方法,首先使用简单的正则表达式直接从静态HTML文档中提取与... 近年来,恶意网页检测主要依赖于语义分析或代码模拟执行来提取特征,但是这类方法实现复杂,需要高额的计算开销,并且增加了攻击面.为此,提出了一种基于深度学习的恶意网页检测方法,首先使用简单的正则表达式直接从静态HTML文档中提取与语义无关的标记,然后采用神经网络模型捕获文档在多个分层空间尺度上的局部性表示,实现了能够从任意长度的网页中快速找到微小恶意代码片段的能力.将该方法与多种基线模型和简化模型进行对比实验,结果表明该方法在0.1%的误报率下实现了96.4%的检测率,获得了更好的分类准确率.本方法的速度和准确性使其适合部署到端点、防火墙和Web代理中. 展开更多
关键词 深度学习 恶意web内容 网页分类 恶意网页识别
下载PDF
补充反馈模块的深度标注框架研究
14
作者 陶皖 廖述梅 《计算机技术与发展》 2007年第1期18-20,23,共4页
由数据库生成的动态Web页是静态页面的数百倍,直接针对Web页产生过程的深度标注可以提高动态Web页的标注效率。针对动态Web页以查询生成居多的特点,提出标注与反馈相结合的深度标注框架,即第一步通过标注模块进行初步标注,并记录Web页... 由数据库生成的动态Web页是静态页面的数百倍,直接针对Web页产生过程的深度标注可以提高动态Web页的标注效率。针对动态Web页以查询生成居多的特点,提出标注与反馈相结合的深度标注框架,即第一步通过标注模块进行初步标注,并记录Web页面的查询要求;第二步分析查询信息,找出不同Web页的关系,通过反馈模块进一步补充标注内容,从而提高标注的质量。 展开更多
关键词 动态web 深度标注 本体 反馈模块
下载PDF
FORM表单反馈网页信息抽取的研究与实现
15
作者 火善栋 《电脑知识与技术》 2009年第3X期2207-2208,共2页
实现了以table标记为信息存贮特点的多记录网页信息的自动抽取工作,该抽取方法从网页信息的存贮特点入手,将有用信息定位于表格中,该抽取方法能够在一个网页中自动查找结构相同或相似的记录模式,并自动分析该记录模式的结构特点从而调... 实现了以table标记为信息存贮特点的多记录网页信息的自动抽取工作,该抽取方法从网页信息的存贮特点入手,将有用信息定位于表格中,该抽取方法能够在一个网页中自动查找结构相同或相似的记录模式,并自动分析该记录模式的结构特点从而调用相应的抽取模式(XSLT文档)实现对信息的自动抽取。 展开更多
关键词 信息抽取 隐蔽网 网页
下载PDF
结合深度学习与词性标注的网页分类算法研究 被引量:2
16
作者 骆聪 王帅 《计算机技术与发展》 2018年第8期71-74,95,共5页
为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(sup... 为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用k NN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。通过考虑网页HTML标签权重提取网页的内容,然后利用词性标注技术在剔除部分对网页分类贡献较小的词语的同时,也为区分能力高的名词赋予更高的权重,最后结合深度信念网络(deep belief network)进行特征提取和特征分类。实验结果表明,提出的网页分类算法具有和采用支持向量机相当的准确性,并且在使用词性标注技术后,网页分类结果的F1值又提升了3.35%。 展开更多
关键词 网页分类 深度学习 HTML标签权重 词性标注 深度信念网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部