期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于扩展标记树的网页正文抽取 被引量:2
1
作者 夏天 《广西师范大学学报(自然科学版)》 CAS 北大核心 2011年第1期133-137,共5页
本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,... 本文给出了一种基于扩展标记树的网页正文抽取方法,通过构建网页扩展标记树,实现对网页的清理和抽取辅助信息的完善,并设置节点坐标定位节点位置;以构成正文内容的文本节点作为正文区域标志,挑选具有最大文本覆盖范围的近邻文本节点集,并进行修正形成正文区域;通过近邻优先遍历算法,实现标题节点的定位和附加属性的抽取。实验结果表明:该方法可以实现常规文章类网页的高精度抽取,并具有良好的适应性。 展开更多
关键词 网页正文抽取 扩展标记树 近邻优先遍历
下载PDF
中心网页中主题网页链接的自动抽取 被引量:4
2
作者 夏天 《山东大学学报(理学版)》 CAS CSCD 北大核心 2012年第5期25-31,共7页
基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之... 基于扩展标记树,提出了一种从中心网页中自动抽取主题网页链接的方法。首先构建链接有序表,利用链接前缀树发现主题网页链接拒绝规则,实现对网页链接类型的预判定;其次,通过分组分割和相似分组重新合并,把页面中的链接归入到不同分组之中,进而识别分组的类型和核心区域所在的分组,最终把链接归入三类链接集合之中。实验结果表明该方法无需训练即可实现中心网页中主题网页链接的高精度抽取。 展开更多
关键词 链接抽取 扩展标记树 链接前缀
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部