-
题名主题网页标签树邻接矩阵识别算法研究
被引量:2
- 1
-
-
作者
宋军
杨晓夫
李益才
王家伟
-
机构
重庆交通大学信息科学与工程学院
-
出处
《计算机科学》
CSCD
北大核心
2016年第6期316-320,共5页
-
基金
国家自然科学基金(61573076)资助
-
文摘
随着Web编程技术的发展,同类主题网页可以采用不同的Html标签展示出视觉特征相同的网页信息,导致需要匹配Html标签名称的现有网页结构相似性算法无法准确识别同类主题网页。因此,提出一种主题网页标签树邻接矩阵识别算法,通过构造主题网页标签树邻接矩阵,并利用邻接矩阵的结构特征来计算网页之间的结构相似度以实现同类主题网页识别。实验结果表明,该算法的最佳性能达到查全率100%、查准率96%,平均性能达到查全率97%、查准率89%。
-
关键词
网页结构
HTML标签
标签树邻接矩阵
-
Keywords
Web page structure, Html tag,Tag tree adjacency matrix
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-