期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于缩进轮廓的HTML文档重复模式挖掘方法
1
作者 朱沿旭 王怀民 +3 位作者 史殿习 尹刚 袁霖 李翔 《计算机科学》 CSCD 北大核心 2011年第8期165-168,共4页
HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能... HTML文档重复模式挖掘是找到Web页面编码模版的关键,是Web数据自动抽取和Web内容挖掘的基础。传统的基于字符串匹配和树匹配的重复模式挖掘方法虽然具有较高的精确度,但是其性能对于处理海量的Web页面来说仍然是一个挑战。为了提高性能,提出了一种基于缩进轮廓的HTML文档重复模式挖掘方法。该方法首先定义了缩进轮廓模型,是一种由HTML文档每行代码的缩进值及行首的HTML标签构成的数据结构,它是HTML文档的一种简化抽象;该方法通过检测缩进轮廓中的串联重复波段,间接地挖掘HTML文档中的重复模式。实验表明,该方法不但具有较高的精确度,而且较明显地提升了性能。 展开更多
关键词 重复模式挖掘 WEB数据抽取 WEB内容挖掘 缩进轮廓 串联重复波段
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部