-
题名基于页面聚类的Web概念化模型研究
被引量:5
- 1
-
-
作者
姚瑶
王战红
石磊
-
机构
中州大学信息工程学院
铁道警察学院公安技术系
郑州大学信息工程学院
-
出处
《科学技术与工程》
北大核心
2014年第25期272-276,281,共6页
-
基金
国家自然科学基金项目(U1304603)
河南省教育厅科学技术研究重点项目(13A520651)资助
-
文摘
针对Web对象激增导致网站层次结构复杂难辨的问题,提出一种基于页面聚类的Web概念化建模方法。首先基于用户访问路径建立Web层次结构模型(WHM),然后依据页面相似度对位于同一层次的页面进行聚类,得到Web概念化模型(WCM),最后将该模型应用于Web预取系统。实验结果表明,WCM模型在保持较高预取效率的前提下具有较好的聚类效果和适用性。
-
关键词
markov模型
web概念化模型(WCM)
页面相似度
聚类
-
Keywords
markov model web conceptual model page similarity cluster
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于页面聚类的Web概念化建模新方法
被引量:2
- 2
-
-
作者
姚瑶
王战红
石磊
-
机构
中州大学信息工程学院
铁道警察学院公安技术系
郑州大学信息工程学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2015年第1期156-160,共5页
-
基金
国家自然科学基金项目(U1304603)
河南省教育厅科学技术研究重点项目(13A520651)
-
文摘
Web结构优化技术在降低访问延迟、提高访问效率上具有重要作用.由此提出根据用户访问路径建立Web层次模型(WHM),利用页面相似度合并同层相似页面,从而构建Web概念化模型(WCM).实验及分析表明,WCM模型能够在适度聚类的情况下清晰地展现Web结构.此外,将WCM模型应用于预取系统,该模型所采用的聚类算法在预取效率方面明显优于传统方法,具有可行性和高效性.
-
关键词
markov
Tree模型
web概念化模型(WCM)
页面相似度
聚类
-
Keywords
markov Tree model
web conceptual model
page similarity
cluster
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的树路径模型在网页聚类中的研究
被引量:1
- 3
-
-
作者
王亚普
王志坚
叶枫
-
机构
河海大学计算机与信息学院
南京航空航天大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第5期109-113,共5页
-
基金
江苏水利科技项目:"智慧河流"研究及其在六合滁河管理中的应用(2013025)
河海大学中央高校基本科研业务费项目(2009B21614)资助
-
文摘
相似度计算是文本挖掘的基础,也是信息提取过程的关键步骤。对于结构复杂的网页,当前基于传统树路径模型的相似度计算方法在准确性上尚不完善。传统树路径模型未考虑路径出现的先后顺序,并且比较路径相似度时用的是完全匹配,难以在不完全匹配时更精确地描述路径之间的相似度。因此,从网页结构相似度入手,提出了一种改进的树路径模型。该模型充分考虑了兄弟节点之间的关系、路径位置以及路径权重,弥补了传统树路径模型无法表达文档结构和层次信息的缺陷。实验结果表明,该模型提高了识别网页结构相似性的能力,既能对结构差别较大的网页进行良好的区分,又能较好地反映来自同一模板的网页之间的差异性,同时在网页聚类中具有更优的效果。
-
关键词
信息提取
网页结构
相似度
树路径模型
聚类
-
Keywords
Information extraction, web page structure, similarity, Tree path model, clustering
-
分类号
TP311.5
[自动化与计算机技术—计算机软件与理论]
-