期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于网页聚类的正文信息提取方法 被引量:6
1
作者 王一洲 陈星 戴远飞 《小型微型计算机系统》 CSCD 北大核心 2018年第1期111-115,共5页
精准地抽取Web页面中正文内容,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用网页分割和密度统计的方法.但现有的方法在网页中正文内容字符数较少时可能失去作用.经实例分析发现,网站内部的网页大多都是由一套相同... 精准地抽取Web页面中正文内容,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用网页分割和密度统计的方法.但现有的方法在网页中正文内容字符数较少时可能失去作用.经实例分析发现,网站内部的网页大多都是由一套相同内容模板生成的.因此本文提出一种基于网页聚类的正文信息提取的方法,该方法主要有2个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文位置特征生成.采用该方法可以从多种类型的网页中抽取正文信息.我们针对5个网站进行了实验,实验结果表明该方法的可行性和有效性. 展开更多
关键词 网页聚类 正文内容块 节点密度
下载PDF
基于正文特征和网页结构的网页正文抽取方法 被引量:2
2
作者 胡露露 刘小勤 孙凯 《大气与环境光学学报》 CAS CSCD 2017年第3期230-235,共6页
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后... Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。 展开更多
关键词 信息抽取 正文特征 网页结构 正文内容块 正则表达式
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部