-
题名基于网页聚类的正文信息提取方法
被引量:6
- 1
-
-
作者
王一洲
陈星
戴远飞
-
机构
福州大学数学与计算机科学学院
福建省网络计算与智能信息处理重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2018年第1期111-115,共5页
-
基金
国家自然基金项目(61402111)资助
福建省科技平台建设项目(2014m005)资助.
-
文摘
精准地抽取Web页面中正文内容,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用网页分割和密度统计的方法.但现有的方法在网页中正文内容字符数较少时可能失去作用.经实例分析发现,网站内部的网页大多都是由一套相同内容模板生成的.因此本文提出一种基于网页聚类的正文信息提取的方法,该方法主要有2个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文位置特征生成.采用该方法可以从多种类型的网页中抽取正文信息.我们针对5个网站进行了实验,实验结果表明该方法的可行性和有效性.
-
关键词
网页聚类
正文内容块
节点密度
-
Keywords
webpage clustering
text block
node density
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于正文特征和网页结构的网页正文抽取方法
被引量:2
- 2
-
-
作者
胡露露
刘小勤
孙凯
-
机构
中国科学院安徽光学精密机械研究所中国科学院大气成分与光学重点实验室
中国科学技术大学自动化系
-
出处
《大气与环境光学学报》
CAS
CSCD
2017年第3期230-235,共6页
-
基金
中国科学院战略性先导科技专项
XDB05040300~~
-
文摘
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。
-
关键词
信息抽取
正文特征
网页结构
正文内容块
正则表达式
-
Keywords
information extraction
text features
page structure
text content block
regular expressions
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-