期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于结构一致和特征学习的网页信息标签提取 被引量:2
1
作者 杜博远 王美清 +1 位作者 陈长福 陈飞 《计算机工程与应用》 CSCD 北大核心 2017年第7期74-78,120,共6页
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息... 网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1 620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。 展开更多
关键词 网页标签 信息提取 特征学习 结构一致
下载PDF
基于网页DOM树节点路径相似度的正文抽取 被引量:4
2
作者 潘心宇 陈长福 +1 位作者 刘蓉 王美清 《微型机与应用》 2016年第19期74-77,共4页
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路... 由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。 展开更多
关键词 DOM树 信息抽取 HTML标签 网页去噪 正文抽取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部