期刊文献+

基于自然标注的网页信息抽取研究 被引量:4

Web Information Extraction Study Based On Natural Annotation
下载PDF
导出
摘要 随着Web网页数量的爆炸式增长和网页噪声不断增多,网上获取重要信息变得越来越困难。本文从一个新的角度,提出了一种基于自然标注的网页信息抽取方法。依据这种方法,首先对网页进行聚类,提取具有相似结构的网页并进行相同的标注,然后采用SVM对抽取项进行训练,最后提取到需要抽取的数据。文章的主要贡献在于对网页中的自然标注进行分析和发现,给出了九大类自然标注的例子,并结合聚类和支持向量机,给出了训练方法。从实验结果上看,本方法优于其他方法。 With the explosive growth of webpage and webpage noise increasing, people access to get important information becomes more and more difficult. This paper, from a new point of view, proposed an idea of information extraction method based on the natural annotation of webpage. According to this method, firstly we cluster the webpage, extract similar structure pages and annotate the webpage, and then use SVM on the extraction of training, finally extract the data we needed. This article~ main contribution is finding a new idea of naturally annotated and analysis, giving the natural annotation examples, combining with clustering and supporting vector machine, and gives the method of training. From the experimental results, this method is superior to other methods.
出处 《情报学报》 CSSCI 北大核心 2013年第8期853-859,共7页 Journal of the China Society for Scientific and Technical Information
基金 广东省哲学社会科学基金项目“基于网络日志的用户行为分析与网站信息组织优化研究”(编号:GD11CTS02)
关键词 自然标注 信息抽取 聚类 支持向量机 语义 naturally annotated, information extraction, cluster, SVM, semantics
  • 相关文献

参考文献20

二级参考文献150

共引文献227

同被引文献35

引证文献4

二级引证文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部