期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于标记窗的网页正文信息提取方法 被引量:33
1
作者 赵欣欣 索红光 刘玉树 《计算机应用研究》 CSCD 北大核心 2007年第3期144-145,180,共3页
提出了基于标记窗的网页正文信息提取方法。该方法不仅适合于处理一个网页中所有正文信息均放在一个td中的情况,也适合于处理网页正文放在多个td中的情况,还可以处理网页正文文字短到与网页其余部分文字(如广告、导航条、版权)长度相当... 提出了基于标记窗的网页正文信息提取方法。该方法不仅适合于处理一个网页中所有正文信息均放在一个td中的情况,也适合于处理网页正文放在多个td中的情况,还可以处理网页正文文字短到与网页其余部分文字(如广告、导航条、版权)长度相当的情况。尤其重要的是,它能够解决非Table结构的网页正文提取问题。实验表明,该方法可以提高网页正文提取的准确率,适用性强。 展开更多
关键词 标记窗 提取 文档对象模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部