期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于网页上下文的Deep Web数据库分类 被引量:31
1
作者 马军 宋玲 +1 位作者 韩晓晖 闫泼 《软件学报》 EI CSCD 北大核心 2008年第2期267-274,共8页
讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属... 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较. 展开更多
关键词 deep web 隐式web 数据库分类 内容文本抽取 语义分类
下载PDF
基于结果模式的Deep Web数据抽取 被引量:15
2
作者 马安香 张斌 +2 位作者 高克宁 齐鹏 张引 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期280-288,共9页
高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式... 高效、准确地获取Deep Web数据是实现Deep Web数据集成系统的关键问题,然而重复语义标注、嵌套属性的存在是Deep Web数据抽取效率和准确率难以提升的瓶颈问题.因此提出基于结果模式的Deep Web数据抽取机制,将数据抽取工作分为结果模式生成和数据抽取两个阶段,属性语义标注放在结果模式生成阶段来完成,有效解决了重复语义标注问题;同时针对嵌套属性问题,提出一种有效的解决方法.与同类成果相比,基于结果模式的数据抽取方法提高了数据抽取的准确率及效率,并且为Deep Web数据集成奠定了良好的基础. 展开更多
关键词 deep web 数据集成 数据抽取 结果模式 语义标注 网页数据特征矩阵
下载PDF
Invisible Web研究综述 被引量:19
3
作者 黄晓冬 《情报科学》 CSSCI 北大核心 2004年第9期1144-1148,共5页
本文对有关 Invisible Web的内容进行了全面、详细地介绍。首先论述了什么是 Invisible Web以及为什么要研究 Invisible Web,同时介绍了两个相关概念 ;其次对 Invisible Web不可见的原因加以分析 ;对 Invisible Web的类型进行了划分 ;... 本文对有关 Invisible Web的内容进行了全面、详细地介绍。首先论述了什么是 Invisible Web以及为什么要研究 Invisible Web,同时介绍了两个相关概念 ;其次对 Invisible Web不可见的原因加以分析 ;对 Invisible Web的类型进行了划分 ;介绍了 Invisible Web的检索工具 ;最后总结了 Invisible Web研究的方向。 展开更多
关键词 invisible web deep web 信息检索 搜索引擎
下载PDF
一种Deep Web爬虫爬行策略 被引量:4
4
作者 刘徽 黄宽娜 余建桥 《计算机工程》 CAS CSCD 2012年第11期284-286,共3页
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提... Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。 展开更多
关键词 deep web页面 反馈机制 爬行策略 聚焦爬虫 网络数据库 分类器
下载PDF
基于启发式信息的Deep Web结果模式获取方法
5
作者 李明 李秀兰 《计算机应用研究》 CSCD 北大核心 2011年第8期3026-3029,共4页
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得... 获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。 展开更多
关键词 deepweb 结果模式 网页数据特征矩阵 启发式信息
下载PDF
基于最优查询的多领域deep Web爬虫 被引量:3
6
作者 冯明远 林怀忠 《计算机应用研究》 CSCD 北大核心 2009年第9期3375-3377,共3页
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明... Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种基于最优查询的deep Web爬虫,通过从聚类网页中生成最优查询,自动提交查询,最后索引查询结果。实验表明系统能自动、高效地完成多领域deep Web数据爬取。 展开更多
关键词 deep web deep web爬虫 最优查询 页面聚类
下载PDF
一种Deep Web聚焦爬虫
7
作者 黄昊晶 《电脑与电信》 2011年第3期30-31,37,共3页
聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep ... 聚焦爬虫是搜索引擎的网页自动获取程序,是搜索引擎发现和索引深层网(Deep Web)数据的关键一步。介绍了一种聚焦爬虫,该爬虫使用PageRank算法分析网页的重要性,通过网站结构图剪枝技术及页面判断算法过滤与主题无关的URL,有效提高deep web数据集成的质量和效率。 展开更多
关键词 聚焦爬虫 deep web pageRANK 网站结构图剪枝 页面判断
下载PDF
基于模拟退火算法和二阶HMM的Web信息抽取 被引量:7
8
作者 李伟男 李书琴 +2 位作者 景旭 魏露 李新乐 《计算机工程与设计》 CSCD 北大核心 2014年第4期1264-1268,共5页
针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-... 针对传统隐马尔科夫模型对初值敏感和未考虑历史状态的问题,提出了使用模拟退火算法训练二阶隐马尔科夫模型参数的SA-HMM2。在基于SA-HMM2的Web信息抽取方法中,采用基于视觉的网页分割算法VIPS对网页分块得到状态转移序列,利用提出的SA-HMM2训练算法获取HMM2全局最优模型参数,用改进的Viterbi算法实现了Web信息的抽取。实验结果表明,该方法在平均综合值方面比HMM、GA-HMM分别提高约21%和7%。 展开更多
关键词 web信息抽取 隐马尔科夫模型 二阶隐马尔科夫模型 模拟退火算法 基于视觉的网页分割算法
下载PDF
埋藏的web财宝——隐形网络的搜索利用 被引量:12
9
作者 陈红勤 《现代情报》 北大核心 2005年第7期157-159,共3页
隐形网络蕴藏着丰富的、高质量的信息资源,但却难以获得。本文介绍了隐形网络的概念、类型和形成原因,分析了隐形网络的内容,指出了查找隐形网络的途径和工具。
关键词 隐形网络 隐蔽网络 深网 看不见的网络
下载PDF
基于客户端的Web窗体轶态管理分析
10
作者 汪志圣 《电脑知识与技术》 2006年第6期182-182,234,共2页
Web窗体页、该页上与控件状态相关的所有信息以及特定于窗体所在的应用程序的一些信息是需要维护和管理的,管理这些状态的方法可以分为基于客户端的和服务器端的。本文把ASP.NET页框架基于客户端所提供的方案作了整理,并分析了它们... Web窗体页、该页上与控件状态相关的所有信息以及特定于窗体所在的应用程序的一些信息是需要维护和管理的,管理这些状态的方法可以分为基于客户端的和服务器端的。本文把ASP.NET页框架基于客户端所提供的方案作了整理,并分析了它们的实现机制及在管理方面的优缺点和使用场合。 展开更多
关键词 web窗体页 状态管理 视图状态 隐藏域 COOKIE 查询字符串
下载PDF
基于深度学习的Web网页信息标注方法研究
11
作者 董亚男 《现代信息科技》 2021年第22期89-91,共3页
为了提升网页信息标注的整体效果,同时降低标注失误的概率,通过三元组构造标注预处理,在深度学习技术下标注描述目标设定,设计深度重叠标注模型,在深度学习下通过逻辑回归实现Web网页信息的标注。相较于传统的特征提取标注测试组和传统... 为了提升网页信息标注的整体效果,同时降低标注失误的概率,通过三元组构造标注预处理,在深度学习技术下标注描述目标设定,设计深度重叠标注模型,在深度学习下通过逻辑回归实现Web网页信息的标注。相较于传统的特征提取标注测试组和传统的自定义标注测试组,文章设计的深度学习标注测试组最终得出的标注完成率相对较高,标注失误率相对较低,具有实际应用意义。 展开更多
关键词 深度学习 web网页 标注方法 深度控制
下载PDF
基于深度学习与特征融合的恶意网页识别方法研究
12
作者 杨胜杰 陈朝阳 +1 位作者 徐逸 刘建刚 《信息安全学报》 CSCD 2024年第3期176-190,共15页
互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性,网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就,但随着对恶意网页识别需求的不断提高,在识别效率上仍然表现出... 互联网环境的高度开放性和无序性导致了网络安全问题的普遍性和不可预知性,网络安全问题已成为当前国际社会关注的热点问题。基于机器学习的恶意网页识别方法虽然卓有成就,但随着对恶意网页识别需求的不断提高,在识别效率上仍然表现出较大的局限性。本文提出一种基于深度学习与特征融合的识别方法,将图卷积神经网络(Generalized connection network,GCN)与一维卷积神经网络(Convolution neural network,CNN)、支持向量机(Support vector machine,SVM)相结合。首先,考虑到传统神经网络只适用于处理结构化数据以及无法很好的捕获单词间非连续和长距离依赖关系,从而影响网页识别准确率的缺点,通过GCN丰富的关系结构有效捕获并保持网页文本的全局信息;其次,CNN可以弥补GCN在局部特征信息提取方面的不足,通过一维CNN对网页URL(Uniform resource locator,URL)进行局部信息提取,并进一步将捕获到的URL局部特征与网页文本全局特征进行融合,从而选择出兼顾CNN模型和GCN模型特点的更具代表性的网页特征;最终,将融合后的特征输入到SVM分类器中进行网页判别。本文首次将GCN应用于恶意网页识别领域,通过组合模型有效兼顾了深度学习与机器学习的优点,将深度学习网络模型作为特征提取器,而将机器学习分类算法作为分类器,通过实验证明,测试准确率达到92.5%,高于已有的浅层的机器学习检测方法以及单一的神经网络模型。本文提出的方法具有更高的稳定性,以及在精确率、召回率、F1值等多项检测指标上展现出更加优越的性能。 展开更多
关键词 恶意网页 机器学习 深度学习 特征融合
下载PDF
基于代价敏感学习的恶意URL检测研究
13
作者 蔡勍萌 王健 李鹏博 《信息安全学报》 CSCD 2023年第2期54-65,共12页
随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页... 随着大数据时代的到来,恶意URL作为Web攻击的媒介渐渐威胁着用户的信息安全。传统的恶意URL检测手段如黑名单检测、签名匹配方法正逐步暴露缺陷,为此本文提出一种基于代价敏感学习策略的恶意URL检测模型。为提高卷积神经网络在恶意网页检测领域的性能,本文提出将URL数据结合HTTP请求信息作为原始数据样本进行特征提取,解决了单纯URL数据过于简单而造成特征提取困难的问题,通过实验对比了三种编码处理方式,根据实验结果选取了最佳字符编码的处理方式,保证了后续检测模型的效果。同时本文针对URL字符输入的特点,设计了适合URL检测的卷积神经网络模型,为了提取数据深层特征,使用了两层卷积层进行特征提取,其次本文在池化层选择使用BiLSTM算法提取数据的时序特征,同时将该网络的最后一个单元输出达到池化效果,避免了大量的模型计算,保证了模型的检测效率。同时为解决数据样本不均衡问题,在迭代过程中为其分配不同惩罚因子,改进了数据样本初始化权重的分配规则并进行了归一化处理,增加恶意样本在整体误差函数中的比重。实验结果表明本文模型在准确率、召回率以及检测效率上较优于其他主流检测模型,并对于不均衡数据集具有较好的抵抗能力。 展开更多
关键词 深度学习 恶意网页 URL检测 代价敏感学习 神经网络
下载PDF
使用分类器自动发现特定领域的深度网入口(英文) 被引量:14
14
作者 王辉 刘艳威 左万利 《软件学报》 EI CSCD 北大核心 2008年第2期246-256,共11页
在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提... 在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口. 展开更多
关键词 深度网 深度网 表层网 深度网入口 搜索表单
下载PDF
基于深度学习的网页篡改远程检测研究 被引量:5
15
作者 印杰 蒋宇翔 +2 位作者 牛博威 严梓宸 郭延文 《南京理工大学学报》 EI CAS CSCD 北大核心 2020年第1期49-54,共6页
为了更为精确和全面地对网页篡改攻击进行远程检测,基于语料库建设和深度学习方法改进了检测过程。大规模获取了可能被篡改攻击的网页,并基于语料库建设方法,人工建立了网页篡改数据库。基于深度神经网络,提出了融合文本特征、结构特征... 为了更为精确和全面地对网页篡改攻击进行远程检测,基于语料库建设和深度学习方法改进了检测过程。大规模获取了可能被篡改攻击的网页,并基于语料库建设方法,人工建立了网页篡改数据库。基于深度神经网络,提出了融合文本特征、结构特征和网络特征的自动检测算法。该文提出的方法可以判断网页是否被篡改和被篡改的类型。经过实验,该文提出的方法在测试数据集上的精确率、召回率和F值分别为为95.6%、96.7%和96.1%,显著超过基准方法。 展开更多
关键词 网页篡改 暗链检测 深度学习 神经网络 网络表示学习
下载PDF
基于广义隐马尔可夫模型的网页信息抽取方法 被引量:3
16
作者 王静 姚勇 刘志镜 《山东大学学报(理学版)》 CAS CSCD 北大核心 2007年第11期49-52,共4页
针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广... 针对网页所特有的基于版面结构的特点,利用基于视觉的网页分割算法VIPS对网页分块,得到一种新的状态转移序列,取代了传统的状态转移序列。通过二阶Markov链改进广义隐马尔可夫模型(GHMM)的状态转移和输出观测值假设条件,提出了二阶的广义隐马尔可夫模型。最后通过实验说明改进的GHMM对于网页信息抽取有很高的精确率。 展开更多
关键词 基于视觉的网页分割 广义隐马尔可夫模型 二阶Markov链 web信息抽取
下载PDF
学术隐蔽网络和学术搜索引擎 被引量:10
17
作者 陈红勤 《现代情报》 北大核心 2008年第7期117-119,共3页
本文分析了隐蔽网络的规模和形成原因,探讨了学术隐蔽网络的定义和内容类型,介绍了查找隐蔽网络资源的3种方法,并阐述了索引学术隐蔽网络的4种学术搜索引擎。
关键词 学术隐蔽网络 看不见的网络 深层网络 深网 隐形网络 学术搜索引擎
下载PDF
主题爬虫技术研究综述 被引量:5
18
作者 陈方 谭爱平 +1 位作者 成亚玲 文益民 《湖南工业职业技术学院学报》 2008年第5期13-16,共4页
万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改... 万维网信息的"海量"增长,传统的通用搜索引擎不能提供用户理想的结果页面,与用户关心的主题或领域相关的主题爬虫应运而生。根据研究的发展现状,对普通爬虫技术、主题爬虫技术(基于关键词、概念分析、链接分析对主题爬虫的改进)作了介绍与对比,并在此基础上提出了主题爬虫今后的一些研究方向。 展开更多
关键词 普通爬虫 主题爬虫 链接分析 主题相关度 页面概念 主题概念
下载PDF
基础教育黄页网站自动生成系统的设计与实现 被引量:2
19
作者 罗立群 张慰 陈金鑫 《现代图书情报技术》 CSSCI 北大核心 2007年第8期80-83,共4页
为了较好地解决基础教育用户搜索教育资源难、不能直接链入基础教育网站等问题,主要研究解决基础教育资源及网站的自动发现和分类等核心技术。提出发现Deep Web的启发式规则及多重特征选择方法。通过该系统将实现基础教育相关资源及网... 为了较好地解决基础教育用户搜索教育资源难、不能直接链入基础教育网站等问题,主要研究解决基础教育资源及网站的自动发现和分类等核心技术。提出发现Deep Web的启发式规则及多重特征选择方法。通过该系统将实现基础教育相关资源及网站的自动发现与分类,并以多种分类方式供教育用户检索。 展开更多
关键词 黄页网站 自动生成系统 自动分类 垂直搜索 deep web
下载PDF
深度搜索中下一页链接获取策略的研究 被引量:2
20
作者 李哲 陈鹏 李涛 《微计算机信息》 北大核心 2007年第33期183-184,176,共3页
高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。... 高质量、结构化的数据对很多应用来说其价值是无穷的。然而这些数据往往都隐藏在查询表单背后的深度Web数据库中。深度Web数据库中的内容不能够直接被爬虫通过超链接直接获取,只有通过主动对查询表单提交查询才能有效地获取这些数据。最近的研究主要针对以下两个方面:一是如何有效的理解和获取网络上的查询表单,二是如何不断的对查询表单进行查询并下载表单背后的资源。一个必要的但还没很好的解决的一个问题是:如何将一次查询所获得的所有结果页全部有效的获得?这个问题从本质上看就是如何获取结果页面中"下一页"超链接的问题。本文针对这一问题提出了一种通过分析"下一页"超链接的结构特征来识别"下一页"超链接的策略,并在多种情况下进行了试验,取得了良好的效果。 展开更多
关键词 下一页 深度搜索
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部