期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于分块的新闻网页信息抽取算法 被引量:6
1
作者 姬鑫 钟诚 《计算机应用与软件》 CSCD 2015年第4期317-322,共6页
为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的... 为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的新闻内容抽取方法。实验结果表明,与已有的算法相比,提出的方法抽取准确率更高,能够同时适应正文内容存放在单块和多块的情形,并且有效地解决了正文内容较短时的抽取问题。 展开更多
关键词 网页信息抽取 模板页 相同噪音 同类噪音块 特殊噪音
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部