-
题名基于DIV标签树的网页主题信息抽取方法
被引量:1
- 1
-
-
作者
欧阳柳波
杨柱
易显
-
机构
湖南大学软件学院
-
出处
《计算机系统应用》
2010年第7期193-196,139,共5页
-
基金
国家自然科学基金(60970098
60803024)
-
文摘
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。
-
关键词
主题信息抽取
DIV标签树
STU-DIV模型树
主题相关度
剪枝算法
-
Keywords
extraction of topic information
DIV tag-tree
STU-DIV model-tree
topic corelation
Cut-Tree algorithm
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于节点类型标注的网页主题信息抽取方法
被引量:4
- 2
-
-
作者
谢方立
周国民
王健
-
机构
中国农业科学院农业信息研究所
-
出处
《计算机科学》
CSCD
北大核心
2016年第S2期31-34,49,共5页
-
基金
国家高技术研究发展计划(2013AA102405)资助
-
文摘
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示该方法在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。
-
关键词
DOM
节点类型标注
主题信息抽取
-
Keywords
DOM
Node type annotation
Informational content extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于新型主题信息量化方法的Web主题信息提取研究
被引量:1
- 3
-
-
作者
吕聚旺
都云程
王弘蔚
施水才
-
机构
北京信息科技大学中文信息处理研究中心
北京拓尔思信息技术股份有限公司
-
出处
《现代图书情报技术》
CSSCI
北大核心
2008年第12期48-53,共6页
-
基金
国家863计划重点项目“跨媒体搜索关键技术研究及服务产品开发”(项目编号:2006AA010105)
国家自然科学基金项目“基于语义的中文文本聚类研究”(项目编号:60772081)
北京市属市管高校人才强教计划项目“创新团队-智能搜索引擎和文本挖掘”(项目编号:PXM2007_014224_044677)的研究成果之一
-
文摘
针对网页主题信息抽取不够精确的问题,提出一种新型的定义和量化主题信息的方法,即把主题信息分为三种信息形式并对不同形式的信息采用不同的方法进行量化计算。基于上述思想,结合DOM规范和分块思想,在DOM树的基础上提出IB-DOM树,并采用分治思想,先定位到包含主题信息的区域,后过滤噪音信息。实验证明本文提出的方法能够较好地解决主题信息自动提取存在的信息完整性和准确性的矛盾。
-
关键词
网页主题信息信息抽取信息块语义信息IB—DOM树
-
Keywords
Topic information of Web page
Information extraction
Information block
Semantic information
IB -DOM tree
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-