摘要
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSSfeed中的少量entry信息训练得到主题内容模板,通过模板可以对RSSfeed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。
This paper proposes a RSS level web page main content extraction method and system. This method uses small amount of entry RSS meta informations in the RSS feed to train main content template, and based on this template, extract main content for all of web page in the RSS feed. This method also supports extracting title, body and category information separately. Furthermore, this method has self adaptation mechanism, it can real-time detect template change. From experiment results, this method and system has high recall and precision.
出处
《图书情报工作》
CSSCI
北大核心
2010年第14期107-110,130,共5页
Library and Information Service
基金
南京信息工程大学科研基金资助项目"基于语义Web的数字图书馆研究与实现"(项目编号:SK20080153)研究成果之一
关键词
网页主题内容抽取
RSS
模板
自适应机制
web page main content extraction RSS template self adaptation mechanism