-
题名基于结构一致和特征学习的网页信息标签提取
被引量:2
- 1
-
-
作者
杜博远
王美清
陈长福
陈飞
-
机构
福州大学数学与计算机科学学院
福建库易信息科技有限责任公司
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第7期74-78,120,共6页
-
基金
国家自然科学基金(No.61401098)
福州大学科研启动基金(No.022575)
福州大学科技发展基金(No.2014-XY-21)
-
文摘
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1 620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。
-
关键词
网页标签
信息提取
特征学习
结构一致
-
Keywords
Website tags
information extraction
feature learning
structure consistency
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网页DOM树节点路径相似度的正文抽取
被引量:4
- 2
-
-
作者
潘心宇
陈长福
刘蓉
王美清
-
机构
福州大学数学与计算机科学学院
福建库易信息科技有限责任公司
-
出处
《微型机与应用》
2016年第19期74-77,共4页
-
文摘
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。
-
关键词
DOM树
信息抽取
HTML标签
网页去噪
正文抽取
-
Keywords
DOM tree
information extraction
HTML tag
Web denoising
content extraction
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-