期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于节点类型标注的网页主题信息抽取方法 被引量:4
1
作者 谢方立 周国民 王健 《计算机科学》 CSCD 北大核心 2016年第S2期31-34,49,共5页
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶... 提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。 展开更多
关键词 DOM 节点类型标注 主题信息抽取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部