期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Web页面自顶向下的正文信息定位算法 被引量:2
1
作者 缪霖 邱会中 《计算机工程》 CAS CSCD 北大核心 2010年第13期76-78,共3页
正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从... 正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。 展开更多
关键词 正文信息定位 文字链接率 最佳正文子树 标签树
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部