期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于网页格式信息量的博客文章和评论抽取模型 被引量:15
1
作者 曹冬林 廖祥文 +1 位作者 许洪波 白硕 《软件学报》 EI CSCD 北大核心 2009年第5期1282-1291,共10页
从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算... 从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率. 展开更多
关键词 博客信息抽取 最小正文子树 有效信息率 网页格式信息 视觉信息 切分位置信息量
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部