期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
15
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于相似页面的Web信息抽取系统的实现
被引量:
3
1
作者
贡正仙
朱巧明
李培峰
《计算机应用》
CSCD
北大核心
2006年第8期1983-1986,共4页
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则...
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。
展开更多
关键词
WEB
页面
RoadRunner
相似页面
信息抽取
下载PDF
职称材料
基于URL结构和访问时间的Web页面访问相似性度量
被引量:
4
2
作者
李超锋
卢炎生
《计算机科学》
CSCD
北大核心
2007年第4期207-209,286,共4页
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,...
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。
展开更多
关键词
Web
页面
相似
性
聚类
URL结构
访问时间
下载PDF
职称材料
基于最大流及页面相似度的Web结构挖掘
被引量:
1
3
作者
李莹
吴晓军
《计算机技术与发展》
2011年第10期112-115,共4页
针对Web结构挖掘算法容易出现"主题漂移"以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结...
针对Web结构挖掘算法容易出现"主题漂移"以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结合基于最大流的Web社区发现技术来构建特征向量空间模型,通过迭代计算最终获得价值最高的权威结果集和中心结果集。实验结果证明该方法有较好的查准率与查全率,并有效抑制了"主题漂移"现象,具有一定的实用价值。
展开更多
关键词
WEB结构挖掘
主题漂移
页面
相似
度值
下载PDF
职称材料
基于页面聚类的Web应用测试方法研究
被引量:
7
4
作者
尤枫
张雅峰
+1 位作者
赵瑞莲
马金慧
《计算机工程与应用》
CSCD
北大核心
2018年第5期51-56,137,共7页
现有的Web测试是由前端出发,通过分析页面DOM结构来获取状态与状态跳转的条件。但现有技术是将任何DOM节点的改变都认定为产生了新的DOM树,如果对于任何改变DOM结构的操作都认为是新操作来重新生成测试用例会浪费相当的时间和人力。提...
现有的Web测试是由前端出发,通过分析页面DOM结构来获取状态与状态跳转的条件。但现有技术是将任何DOM节点的改变都认定为产生了新的DOM树,如果对于任何改变DOM结构的操作都认为是新操作来重新生成测试用例会浪费相当的时间和人力。提出一种基于页面DOM相似度的Web应用单元测试方法。利用爬虫程序获取页面状态与相应的DOM结构;利用DOM相似度对DOM进行评价,并对DOM状态进行分类,利用分类簇的中心作为相应功能的操作结果,返回应用中寻找相应的代码块并且进行测试。实验结果表明:该方法可以有效地降低"单一DOM对应单一状态"模式中的冗余状态跳转,可以达到合理的功能发现率,同时有效降低冗余的待测试状态。
展开更多
关键词
页面
相似
度
页面
聚类
WEB应用测试
下载PDF
职称材料
基于页面聚类的Web概念化模型研究
被引量:
5
5
作者
姚瑶
王战红
石磊
《科学技术与工程》
北大核心
2014年第25期272-276,281,共6页
针对Web对象激增导致网站层次结构复杂难辨的问题,提出一种基于页面聚类的Web概念化建模方法。首先基于用户访问路径建立Web层次结构模型(WHM),然后依据页面相似度对位于同一层次的页面进行聚类,得到Web概念化模型(WCM),最后将该模型应...
针对Web对象激增导致网站层次结构复杂难辨的问题,提出一种基于页面聚类的Web概念化建模方法。首先基于用户访问路径建立Web层次结构模型(WHM),然后依据页面相似度对位于同一层次的页面进行聚类,得到Web概念化模型(WCM),最后将该模型应用于Web预取系统。实验结果表明,WCM模型在保持较高预取效率的前提下具有较好的聚类效果和适用性。
展开更多
关键词
MARKOV模型
Web概念化模型(WCM)
页面
相似
度
聚类
下载PDF
职称材料
一种基于页面聚类的Web概念化建模新方法
被引量:
2
6
作者
姚瑶
王战红
石磊
《微电子学与计算机》
CSCD
北大核心
2015年第1期156-160,共5页
Web结构优化技术在降低访问延迟、提高访问效率上具有重要作用.由此提出根据用户访问路径建立Web层次模型(WHM),利用页面相似度合并同层相似页面,从而构建Web概念化模型(WCM).实验及分析表明,WCM模型能够在适度聚类的情况下清晰地展现We...
Web结构优化技术在降低访问延迟、提高访问效率上具有重要作用.由此提出根据用户访问路径建立Web层次模型(WHM),利用页面相似度合并同层相似页面,从而构建Web概念化模型(WCM).实验及分析表明,WCM模型能够在适度聚类的情况下清晰地展现Web结构.此外,将WCM模型应用于预取系统,该模型所采用的聚类算法在预取效率方面明显优于传统方法,具有可行性和高效性.
展开更多
关键词
MARKOV
Tree模型
Web概念化模型(WCM)
页面
相似
度
聚类
下载PDF
职称材料
基于树比较的Web页面主题信息抽取
7
作者
朱梦麟
李光耀
周毅敏
《微型机与应用》
2011年第19期67-69,共3页
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内...
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。
展开更多
关键词
信息抽取
相似页面
树比较
抽取规则
下载PDF
职称材料
基于超链接的镜像页面比较策略研究
被引量:
2
8
作者
杨楠
《计算机科学》
CSCD
北大核心
2007年第7期116-119,共4页
Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题。对基于纯链接的镜像页面去除方法[1,2]进行了分析,并证明了只需出度邻...
Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题。对基于纯链接的镜像页面去除方法[1,2]进行了分析,并证明了只需出度邻近的页面进行比较,并提出了页面邻近区域的比较方法,按照Web页面的分布理论,设计了比较策略的方法。实验结果证明,大大减少了比较的次数,提高了效率。
展开更多
关键词
链接分析
镜像
页面
页面
相似
度
下载PDF
职称材料
一种基于URL路径的页面用户聚类方法
9
作者
雷筱珍
赖万钦
《长春工程学院学报(自然科学版)》
2009年第2期89-92,95,共5页
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似...
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。
展开更多
关键词
WEB日志挖掘
用户浏览路径
页面
相似
度
用户聚类
下载PDF
职称材料
一种面向WEB页面的标记聚类方法
10
作者
焦永强
王维扬
尚颖
《计算机与数字工程》
2020年第5期1148-1153,1200,共7页
针对Web测试中现有Web页面聚类方法无法准确描述复杂页面结构、页面聚类准确度低、时间复杂度高的问题,分析了Web页面的DOM结构和节点属性,给出改进的树匹配算法衡量Web页面间相似度,并提出一种新的标记聚类方法实现Web页面聚类。通过...
针对Web测试中现有Web页面聚类方法无法准确描述复杂页面结构、页面聚类准确度低、时间复杂度高的问题,分析了Web页面的DOM结构和节点属性,给出改进的树匹配算法衡量Web页面间相似度,并提出一种新的标记聚类方法实现Web页面聚类。通过实验对比验证所提出的方法能够有效处理复杂Web页面结构,且聚类准确度高,时间复杂度低,是一种高质量的Web页面聚类方法。
展开更多
关键词
WEB测试
Web
页面
相似
度
聚类
下载PDF
职称材料
基于网络爬虫技术的网页SQL注入漏洞检测方法
11
作者
程亚维
王东霞
《信息与电脑》
2023年第4期236-238,共3页
为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页...
为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页SQL注入漏洞扩展过程建模;利用网络爬虫技术,检测SQL可注入点,并深度挖掘漏洞。通过对比实验证明,设计的检测方法正确检测数量较多,检测耗时较短,具备极高的应用价值。
展开更多
关键词
网络爬虫技术
结构化查询语言(SQL)
漏洞检测
注入漏洞
页面
相似
度
下载PDF
职称材料
基于DOM的Web信息抽取方法
被引量:
1
12
作者
邓箴
《计算机光盘软件与应用》
2010年第10期18-18,共1页
传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该...
传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该方法可以有效地抽取出网页中的数据。
展开更多
关键词
DOM
信息抽取:
相似页面
下载PDF
职称材料
规避网络钓鱼给证券行业带来的安全风险
被引量:
1
13
作者
朱红
刘宝成
张开
《信息安全与技术》
2011年第5期67-69,共3页
网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,钓鱼网站攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好对钓鱼网站的防范,对于证券行...
网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,钓鱼网站攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好对钓鱼网站的防范,对于证券行业具有很大现实意义。本文从钓鱼网站的实施过程、社会危害、防范方法等几个角度,对网络钓鱼进行全面地阐述。详细的描述了恶意份子如何引导用户去访问恶意网站。详细的描述了网络钓鱼的主要防范技术,如黑白名单检测技术、页面相似度检查技术。从技术角度和用户的上网行为角度,提出了相关的方法,尽量规避网络钓鱼技术给证券行业带来的安全风险。
展开更多
关键词
网络钓鱼
证券行业
页面
相似
度
下载PDF
职称材料
Web结构挖掘在搜索引擎中的应用
14
作者
庞敏
周海英
《软件导刊》
2008年第12期129-130,共2页
介绍了搜索引擎和Web结构挖掘的相关知识,重点研究Web结构挖掘的PageRank算法以及它在搜索引擎中的应用。在基于Web页面相似度的基础上提出了改进的PageRank算法,通过实验证明,改进后的算法可以使搜索引擎的性能得到极大的提高。
关键词
搜索引擎
WEB结构挖掘
PAGERANK算法
页面
相似
度
下载PDF
职称材料
规避网络钓鱼给证券行业带来的安全风险
被引量:
2
15
作者
朱红
刘保成
张开
《信息安全与通信保密》
2011年第7期79-81,共3页
网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,网络钓鱼攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好网络钓鱼的防范,对于证券行业...
网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,网络钓鱼攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好网络钓鱼的防范,对于证券行业具有很大的现实意义。这里从网络钓鱼的实施过程、社会危害及防范方法等几个角度,对网络钓鱼进行全面的阐述,详细描述了恶意分子如何引导用户去访问恶意网站,以及网络钓鱼的主要防范技术,如黑白名单检测技术、页面相似度检查技术,从技术角度和用户的上网行为角度,提出了相关的方法,尽量规避网络钓鱼技术给证券行业带来的安全风险。
展开更多
关键词
网络钓鱼
证券行业
页面
相似
度
原文传递
题名
基于相似页面的Web信息抽取系统的实现
被引量:
3
1
作者
贡正仙
朱巧明
李培峰
机构
苏州大学计算机科学与技术学院
出处
《计算机应用》
CSCD
北大核心
2006年第8期1983-1986,共4页
基金
江苏省高技术研究资助项目(BG2005020)
江苏省教育厅自然基金资助项目(04KKB320134)
文摘
分析了RoadRunner的核心算法,针对RoadRunner的不足,综合自动和半自动抽取阶段的各项研究成果,设计并实现了基于相似页面的W eb信息抽取系统。介绍了系统结构和实现的关键技术,包括如何获取相似页面,可靠的噪声处理和自动归纳抽取规则的算法。
关键词
WEB
页面
RoadRunner
相似页面
信息抽取
Keywords
Web pages
RoadRunner
similar pages
information extraction
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于URL结构和访问时间的Web页面访问相似性度量
被引量:
4
2
作者
李超锋
卢炎生
机构
华中科技大学计算机学院
出处
《计算机科学》
CSCD
北大核心
2007年第4期207-209,286,共4页
基金
湖北省科技攻关项目(2005AA101C18)
中南民族大学自然科学基金项目(YZY06009)
文摘
Web页面相似性是Web页面聚类和Web会话聚类的基础,其准确性直接影响聚类的质量。本文在分析基于URL结构的静态Web页面相似性度量的基础上,提出了将URL结构和页面访问时间结合起来度量Web页面对之间的相似性并给出了度量标准。实验证明,采用我们提出的度量标准得到的结果准确性更高,更接近于用户浏览兴趣。
关键词
Web
页面
相似
性
聚类
URL结构
访问时间
Keywords
Web page similarity, Clustering, URL structure, Access time
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于最大流及页面相似度的Web结构挖掘
被引量:
1
3
作者
李莹
吴晓军
机构
陕西师范大学计算机科学学院
出处
《计算机技术与发展》
2011年第10期112-115,共4页
基金
中央高校基本科研业务费专项资金资助(GK201002005)
陕西省工业攻关计划(2009K09-21)
文摘
针对Web结构挖掘算法容易出现"主题漂移"以及主机间的多重互相加强关系的问题,提出了一种基于最大流与页面相似度值的超链接结构挖掘方法。该方法在传统的超链接结构挖掘算法HITS的基础上引入页面相似度值构造邻接矩阵,并结合基于最大流的Web社区发现技术来构建特征向量空间模型,通过迭代计算最终获得价值最高的权威结果集和中心结果集。实验结果证明该方法有较好的查准率与查全率,并有效抑制了"主题漂移"现象,具有一定的实用价值。
关键词
WEB结构挖掘
主题漂移
页面
相似
度值
Keywords
:Web structure mining
topic drift
page similar value
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于页面聚类的Web应用测试方法研究
被引量:
7
4
作者
尤枫
张雅峰
赵瑞莲
马金慧
机构
北京化工大学信息科学与技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2018年第5期51-56,137,共7页
基金
国家自然科学基金(No.61472025)
文摘
现有的Web测试是由前端出发,通过分析页面DOM结构来获取状态与状态跳转的条件。但现有技术是将任何DOM节点的改变都认定为产生了新的DOM树,如果对于任何改变DOM结构的操作都认为是新操作来重新生成测试用例会浪费相当的时间和人力。提出一种基于页面DOM相似度的Web应用单元测试方法。利用爬虫程序获取页面状态与相应的DOM结构;利用DOM相似度对DOM进行评价,并对DOM状态进行分类,利用分类簇的中心作为相应功能的操作结果,返回应用中寻找相应的代码块并且进行测试。实验结果表明:该方法可以有效地降低"单一DOM对应单一状态"模式中的冗余状态跳转,可以达到合理的功能发现率,同时有效降低冗余的待测试状态。
关键词
页面
相似
度
页面
聚类
WEB应用测试
Keywords
page similarity
page cluster
Web application testing
分类号
TP311.5 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于页面聚类的Web概念化模型研究
被引量:
5
5
作者
姚瑶
王战红
石磊
机构
中州大学信息工程学院
铁道警察学院公安技术系
郑州大学信息工程学院
出处
《科学技术与工程》
北大核心
2014年第25期272-276,281,共6页
基金
国家自然科学基金项目(U1304603)
河南省教育厅科学技术研究重点项目(13A520651)资助
文摘
针对Web对象激增导致网站层次结构复杂难辨的问题,提出一种基于页面聚类的Web概念化建模方法。首先基于用户访问路径建立Web层次结构模型(WHM),然后依据页面相似度对位于同一层次的页面进行聚类,得到Web概念化模型(WCM),最后将该模型应用于Web预取系统。实验结果表明,WCM模型在保持较高预取效率的前提下具有较好的聚类效果和适用性。
关键词
MARKOV模型
Web概念化模型(WCM)
页面
相似
度
聚类
Keywords
Markov model Web Conceptual Model page similarity cluster
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于页面聚类的Web概念化建模新方法
被引量:
2
6
作者
姚瑶
王战红
石磊
机构
中州大学信息工程学院
铁道警察学院公安技术系
郑州大学信息工程学院
出处
《微电子学与计算机》
CSCD
北大核心
2015年第1期156-160,共5页
基金
国家自然科学基金项目(U1304603)
河南省教育厅科学技术研究重点项目(13A520651)
文摘
Web结构优化技术在降低访问延迟、提高访问效率上具有重要作用.由此提出根据用户访问路径建立Web层次模型(WHM),利用页面相似度合并同层相似页面,从而构建Web概念化模型(WCM).实验及分析表明,WCM模型能够在适度聚类的情况下清晰地展现Web结构.此外,将WCM模型应用于预取系统,该模型所采用的聚类算法在预取效率方面明显优于传统方法,具有可行性和高效性.
关键词
MARKOV
Tree模型
Web概念化模型(WCM)
页面
相似
度
聚类
Keywords
Markov Tree model
Web Conceptual Model
page similarity
cluster
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于树比较的Web页面主题信息抽取
7
作者
朱梦麟
李光耀
周毅敏
机构
同济大学电子与信息工程学院
出处
《微型机与应用》
2011年第19期67-69,共3页
基金
上海市科委国际合作项目(10510712500)
文摘
为了从具有海量信息的Internet上自动抽取Web页面的信息,提出了一种基于树比较的Web页面主题信息抽取方法。通过目标页面与其相似页面所构建的树之间的比较,简化了目标页面,并在此基础上生成抽取规则,完成了页面主题信息的抽取。对国内主要的一些网站页面进行的抽取检测表明,该方法可以准确、有效地抽取Web页面的主题信息。
关键词
信息抽取
相似页面
树比较
抽取规则
Keywords
information extraction
similar pages
tree comparison
extraction rules
分类号
TP391.9 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于超链接的镜像页面比较策略研究
被引量:
2
8
作者
杨楠
机构
中国人民大学信息学院
出处
《计算机科学》
CSCD
北大核心
2007年第7期116-119,共4页
基金
教育部211项目子课题
的资助
文摘
Web中存在大量的镜像页面,这会严重影响分析的结果,并且占据大量的空间和资源,严重影响了计算的效率,因此,如何去除这些镜像页面是社区发现技术中的一个重要的问题。对基于纯链接的镜像页面去除方法[1,2]进行了分析,并证明了只需出度邻近的页面进行比较,并提出了页面邻近区域的比较方法,按照Web页面的分布理论,设计了比较策略的方法。实验结果证明,大大减少了比较的次数,提高了效率。
关键词
链接分析
镜像
页面
页面
相似
度
Keywords
Link analysis, Duplicated pages, Page resemblance
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于URL路径的页面用户聚类方法
9
作者
雷筱珍
赖万钦
机构
福建交通职业技术学院
出处
《长春工程学院学报(自然科学版)》
2009年第2期89-92,95,共5页
文摘
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。
关键词
WEB日志挖掘
用户浏览路径
页面
相似
度
用户聚类
Keywords
Web usage mining
user browsing path
page similarity
user clustering
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
一种面向WEB页面的标记聚类方法
10
作者
焦永强
王维扬
尚颖
机构
中国航空综合技术研究所
北京化工大学
出处
《计算机与数字工程》
2020年第5期1148-1153,1200,共7页
基金
国家自然科学基金项目(编号:61672085)资助。
文摘
针对Web测试中现有Web页面聚类方法无法准确描述复杂页面结构、页面聚类准确度低、时间复杂度高的问题,分析了Web页面的DOM结构和节点属性,给出改进的树匹配算法衡量Web页面间相似度,并提出一种新的标记聚类方法实现Web页面聚类。通过实验对比验证所提出的方法能够有效处理复杂Web页面结构,且聚类准确度高,时间复杂度低,是一种高质量的Web页面聚类方法。
关键词
WEB测试
Web
页面
相似
度
聚类
Keywords
Web testing
Web page similarity
clustering
分类号
G354 [文化科学—情报学]
下载PDF
职称材料
题名
基于网络爬虫技术的网页SQL注入漏洞检测方法
11
作者
程亚维
王东霞
机构
济源职业技术学院
出处
《信息与电脑》
2023年第4期236-238,共3页
文摘
为提高网页结构化查询语言(Structured Query Language,SQL)注入漏洞检测精度和检测效率,引入网络爬出技术,开展对其检测方法的设计研究。引入了一种SQL注入漏洞扫描程序,可抓取网页,并计算页面相似度;检测时模拟SQL注入漏洞攻击,对网页SQL注入漏洞扩展过程建模;利用网络爬虫技术,检测SQL可注入点,并深度挖掘漏洞。通过对比实验证明,设计的检测方法正确检测数量较多,检测耗时较短,具备极高的应用价值。
关键词
网络爬虫技术
结构化查询语言(SQL)
漏洞检测
注入漏洞
页面
相似
度
Keywords
Web crawler technology
Structured Query Language(SQL)
vulnerability detection
injection vulnerability
page similarity
分类号
TP309.1 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于DOM的Web信息抽取方法
被引量:
1
12
作者
邓箴
机构
宁夏大学
出处
《计算机光盘软件与应用》
2010年第10期18-18,共1页
文摘
传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该方法可以有效地抽取出网页中的数据。
关键词
DOM
信息抽取:
相似页面
Keywords
DOM
Information extraction
Similar pages
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
规避网络钓鱼给证券行业带来的安全风险
被引量:
1
13
作者
朱红
刘宝成
张开
机构
银河证券
总参
北京启明星辰信息安全技术有限公司
出处
《信息安全与技术》
2011年第5期67-69,共3页
文摘
网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,钓鱼网站攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好对钓鱼网站的防范,对于证券行业具有很大现实意义。本文从钓鱼网站的实施过程、社会危害、防范方法等几个角度,对网络钓鱼进行全面地阐述。详细的描述了恶意份子如何引导用户去访问恶意网站。详细的描述了网络钓鱼的主要防范技术,如黑白名单检测技术、页面相似度检查技术。从技术角度和用户的上网行为角度,提出了相关的方法,尽量规避网络钓鱼技术给证券行业带来的安全风险。
关键词
网络钓鱼
证券行业
页面
相似
度
Keywords
phishing
securities industy
page similarity
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web结构挖掘在搜索引擎中的应用
14
作者
庞敏
周海英
机构
中北大学电子与计算机科学技术学院
出处
《软件导刊》
2008年第12期129-130,共2页
文摘
介绍了搜索引擎和Web结构挖掘的相关知识,重点研究Web结构挖掘的PageRank算法以及它在搜索引擎中的应用。在基于Web页面相似度的基础上提出了改进的PageRank算法,通过实验证明,改进后的算法可以使搜索引擎的性能得到极大的提高。
关键词
搜索引擎
WEB结构挖掘
PAGERANK算法
页面
相似
度
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
规避网络钓鱼给证券行业带来的安全风险
被引量:
2
15
作者
朱红
刘保成
张开
机构
银河证券
总参
北京启明星辰信息安全技术有限公司
出处
《信息安全与通信保密》
2011年第7期79-81,共3页
文摘
网上交易作为证券行业进行业务开展的主要手段之后,网上交易的安全性就成了人们日益关注的话题。在网上交易过程中,网络钓鱼攻击是一种重要的攻击方式。由于此方式的特殊性,导致被害用户损失严重。所以做好网络钓鱼的防范,对于证券行业具有很大的现实意义。这里从网络钓鱼的实施过程、社会危害及防范方法等几个角度,对网络钓鱼进行全面的阐述,详细描述了恶意分子如何引导用户去访问恶意网站,以及网络钓鱼的主要防范技术,如黑白名单检测技术、页面相似度检查技术,从技术角度和用户的上网行为角度,提出了相关的方法,尽量规避网络钓鱼技术给证券行业带来的安全风险。
关键词
网络钓鱼
证券行业
页面
相似
度
Keywords
phishing
securities industry
page similarity
分类号
TP393.08 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于相似页面的Web信息抽取系统的实现
贡正仙
朱巧明
李培峰
《计算机应用》
CSCD
北大核心
2006
3
下载PDF
职称材料
2
基于URL结构和访问时间的Web页面访问相似性度量
李超锋
卢炎生
《计算机科学》
CSCD
北大核心
2007
4
下载PDF
职称材料
3
基于最大流及页面相似度的Web结构挖掘
李莹
吴晓军
《计算机技术与发展》
2011
1
下载PDF
职称材料
4
基于页面聚类的Web应用测试方法研究
尤枫
张雅峰
赵瑞莲
马金慧
《计算机工程与应用》
CSCD
北大核心
2018
7
下载PDF
职称材料
5
基于页面聚类的Web概念化模型研究
姚瑶
王战红
石磊
《科学技术与工程》
北大核心
2014
5
下载PDF
职称材料
6
一种基于页面聚类的Web概念化建模新方法
姚瑶
王战红
石磊
《微电子学与计算机》
CSCD
北大核心
2015
2
下载PDF
职称材料
7
基于树比较的Web页面主题信息抽取
朱梦麟
李光耀
周毅敏
《微型机与应用》
2011
0
下载PDF
职称材料
8
基于超链接的镜像页面比较策略研究
杨楠
《计算机科学》
CSCD
北大核心
2007
2
下载PDF
职称材料
9
一种基于URL路径的页面用户聚类方法
雷筱珍
赖万钦
《长春工程学院学报(自然科学版)》
2009
0
下载PDF
职称材料
10
一种面向WEB页面的标记聚类方法
焦永强
王维扬
尚颖
《计算机与数字工程》
2020
0
下载PDF
职称材料
11
基于网络爬虫技术的网页SQL注入漏洞检测方法
程亚维
王东霞
《信息与电脑》
2023
0
下载PDF
职称材料
12
基于DOM的Web信息抽取方法
邓箴
《计算机光盘软件与应用》
2010
1
下载PDF
职称材料
13
规避网络钓鱼给证券行业带来的安全风险
朱红
刘宝成
张开
《信息安全与技术》
2011
1
下载PDF
职称材料
14
Web结构挖掘在搜索引擎中的应用
庞敏
周海英
《软件导刊》
2008
0
下载PDF
职称材料
15
规避网络钓鱼给证券行业带来的安全风险
朱红
刘保成
张开
《信息安全与通信保密》
2011
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部