期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于相似页面的Web信息抽取系统的实现 被引量:3
1
作者 贡正仙 朱巧明 李培峰 《计算机应用》 CSCD 北大核心 2006年第8期1983-1986,共4页
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则... 分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。 展开更多
关键词 WEB页面 RoadRunner 相似页面 信息抽取
下载PDF
基于URL结构和访问时间的Web页面访问相似性度量 被引量:4
2
作者 李超锋 卢炎生 《计算机科学》 CSCD 北大核心 2007年第4期207-209,286,共4页
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,... Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。 展开更多
关键词 Web页面相似 聚类 URL结构 访问时间
下载PDF
基于最大流及页面相似度的Web结构挖掘 被引量:1
3
作者 李莹 吴晓军 《计算机技术与发展》 2011年第10期112-115,共4页
针对Web结构挖掘算法容易出现"主题漂移"以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结... 针对Web结构挖掘算法容易出现"主题漂移"以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结合基于最大流的Web社区发现技术来构建特征向量空间模型,通过迭代计算最终获得价值最高的权威结果集和中心结果集。实验结果证明该方法有较好的查准率与查全率,并有效抑制了"主题漂移"现象,具有一定的实用价值。 展开更多
关键词 WEB结构挖掘 主题漂移 页面相似度值
下载PDF
基于页面聚类的Web应用测试方法研究 被引量:7
4
作者 尤枫 张雅峰 +1 位作者 赵瑞莲 马金慧 《计算机工程与应用》 CSCD 北大核心 2018年第5期51-56,137,共7页
现有的Web测试是由前端出发,通过分析页面DOM结构来获取状态与状态跳转的条件。但现有技术是将任何DOM节点的改变都认定为产生了新的DOM树,如果对于任何改变DOM结构的操作都认为是新操作来重新生成测试用例会浪费相当的时间和人力。提... 现有的Web测试是由前端出发,通过分析页面DOM结构来获取状态与状态跳转的条件。但现有技术是将任何DOM节点的改变都认定为产生了新的DOM树,如果对于任何改变DOM结构的操作都认为是新操作来重新生成测试用例会浪费相当的时间和人力。提出一种基于页面DOM相似度的Web应用单元测试方法。利用爬虫程序获取页面状态与相应的DOM结构;利用DOM相似度对DOM进行评价,并对DOM状态进行分类,利用分类簇的中心作为相应功能的操作结果,返回应用中寻找相应的代码块并且进行测试。实验结果表明:该方法可以有效地降低"单一DOM对应单一状态"模式中的冗余状态跳转,可以达到合理的功能发现率,同时有效降低冗余的待测试状态。 展开更多
关键词 页面相似 页面聚类 WEB应用测试
下载PDF
基于页面聚类的Web概念化模型研究 被引量:5
5
作者 姚瑶 王战红 石磊 《科学技术与工程》 北大核心 2014年第25期272-276,281,共6页
针对Web对象激增导致网站层次结构复杂难辨的问题,提出一种基于页面聚类的Web概念化建模方法。首先基于用户访问路径建立Web层次结构模型(WHM),然后依据页面相似度对位于同一层次的页面进行聚类,得到Web概念化模型(WCM),最后将该模型应... 针对Web对象激增导致网站层次结构复杂难辨的问题,提出一种基于页面聚类的Web概念化建模方法。首先基于用户访问路径建立Web层次结构模型(WHM),然后依据页面相似度对位于同一层次的页面进行聚类,得到Web概念化模型(WCM),最后将该模型应用于Web预取系统。实验结果表明,WCM模型在保持较高预取效率的前提下具有较好的聚类效果和适用性。 展开更多
关键词 MARKOV模型 Web概念化模型(WCM) 页面相似 聚类
下载PDF
一种基于页面聚类的Web概念化建模新方法 被引量:2
6
作者 姚瑶 王战红 石磊 《微电子学与计算机》 CSCD 北大核心 2015年第1期156-160,共5页
Web结构优化技术在降低访问延迟、提高访问效率上具有重要作用.由此提出根据用户访问路径建立Web层次模型(WHM),利用页面相似度合并同层相似页面,从而构建Web概念化模型(WCM).实验及分析表明,WCM模型能够在适度聚类的情况下清晰地展现We... Web结构优化技术在降低访问延迟、提高访问效率上具有重要作用.由此提出根据用户访问路径建立Web层次模型(WHM),利用页面相似度合并同层相似页面,从而构建Web概念化模型(WCM).实验及分析表明,WCM模型能够在适度聚类的情况下清晰地展现Web结构.此外,将WCM模型应用于预取系统,该模型所采用的聚类算法在预取效率方面明显优于传统方法,具有可行性和高效性. 展开更多
关键词 MARKOV Tree模型 Web概念化模型(WCM) 页面相似 聚类
下载PDF
基于树比较的Web页面主题信息抽取
7
作者 朱梦麟 李光耀 周毅敏 《微型机与应用》 2011年第19期67-69,共3页
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内... 为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。 展开更多
关键词 信息抽取 相似页面 树比较 抽取规则
下载PDF
基于超链接的镜像页面比较策略研究 被引量:2
8
作者 杨楠 《计算机科学》 CSCD 北大核心 2007年第7期116-119,共4页
Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题。对基于纯链接的镜像页面去除方法[1,2]进行了分析,并证明了只需出度邻... Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题。对基于纯链接的镜像页面去除方法[1,2]进行了分析,并证明了只需出度邻近的页面进行比较,并提出了页面邻近区域的比较方法,按照Web页面的分布理论,设计了比较策略的方法。实验结果证明,大大减少了比较的次数,提高了效率。 展开更多
关键词 链接分析 镜像页面 页面相似
下载PDF
一种基于URL路径的页面用户聚类方法
9
作者 雷筱珍 赖万钦 《长春工程学院学报(自然科学版)》 2009年第2期89-92,95,共5页
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似... 结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。 展开更多
关键词 WEB日志挖掘 用户浏览路径 页面相似 用户聚类
下载PDF
一种面向WEB页面的标记聚类方法
10
作者 焦永强 王维扬 尚颖 《计算机与数字工程》 2020年第5期1148-1153,1200,共7页
针对Web测试中现有Web页面聚类方法无法准确描述复杂页面结构、页面聚类准确度低、时间复杂度高的问题,分析了Web页面的DOM结构和节点属性,给出改进的树匹配算法衡量Web页面间相似度,并提出一种新的标记聚类方法实现Web页面聚类。通过... 针对Web测试中现有Web页面聚类方法无法准确描述复杂页面结构、页面聚类准确度低、时间复杂度高的问题,分析了Web页面的DOM结构和节点属性,给出改进的树匹配算法衡量Web页面间相似度,并提出一种新的标记聚类方法实现Web页面聚类。通过实验对比验证所提出的方法能够有效处理复杂Web页面结构,且聚类准确度高,时间复杂度低,是一种高质量的Web页面聚类方法。 展开更多
关键词 WEB测试 Web页面相似 聚类
下载PDF
基于网络爬虫技术的网页SQL注入漏洞检测方法
11
作者 程亚维 王东霞 《信息与电脑》 2023年第4期236-238,共3页
为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页... 为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页SQL注入漏洞扩展过程建模;利用网络爬虫技术,检测SQL可注入点,并深度挖掘漏洞。通过对比实验证明,设计的检测方法正确检测数量较多,检测耗时较短,具备极高的应用价值。 展开更多
关键词 网络爬虫技术 结构化查询语言(SQL) 漏洞检测 注入漏洞 页面相似
下载PDF
基于DOM的Web信息抽取方法 被引量:1
12
作者 邓箴 《计算机光盘软件与应用》 2010年第10期18-18,共1页
传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该... 传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该方法可以有效地抽取出网页中的数据。 展开更多
关键词 DOM 信息抽取:相似页面
下载PDF
规避网络钓鱼给证券行业带来的安全风险 被引量:1
13
作者 朱红 刘宝成 张开 《信息安全与技术》 2011年第5期67-69,共3页
网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,钓鱼网站攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好对钓鱼网站的防范,对于证券行... 网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,钓鱼网站攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好对钓鱼网站的防范,对于证券行业具有很大现实意义。本文从钓鱼网站的实施过程、社会危害、防范方法等几个角度,对网络钓鱼进行全面地阐述。详细的描述了恶意份子如何引导用户去访问恶意网站。详细的描述了网络钓鱼的主要防范技术,如黑白名单检测技术、页面相似度检查技术。从技术角度和用户的上网行为角度,提出了相关的方法,尽量规避网络钓鱼技术给证券行业带来的安全风险。 展开更多
关键词 网络钓鱼 证券行业 页面相似
下载PDF
Web结构挖掘在搜索引擎中的应用
14
作者 庞敏 周海英 《软件导刊》 2008年第12期129-130,共2页
介绍了搜索引擎和Web结构挖掘的相关知识,重点研究Web结构挖掘的PageRank算法以及它在搜索引擎中的应用。在基于Web页面相似度的基础上提出了改进的PageRank算法,通过实验证明,改进后的算法可以使搜索引擎的性能得到极大的提高。
关键词 搜索引擎 WEB结构挖掘 PAGERANK算法 页面相似
下载PDF
规避网络钓鱼给证券行业带来的安全风险 被引量:2
15
作者 朱红 刘保成 张开 《信息安全与通信保密》 2011年第7期79-81,共3页
网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,网络钓鱼攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好网络钓鱼的防范,对于证券行业... 网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,网络钓鱼攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好网络钓鱼的防范,对于证券行业具有很大的现实意义。这里从网络钓鱼的实施过程、社会危害及防范方法等几个角度,对网络钓鱼进行全面的阐述,详细描述了恶意分子如何引导用户去访问恶意网站,以及网络钓鱼的主要防范技术,如黑白名单检测技术、页面相似度检查技术,从技术角度和用户的上网行为角度,提出了相关的方法,尽量规避网络钓鱼技术给证券行业带来的安全风险。 展开更多
关键词 网络钓鱼 证券行业 页面相似
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部