-
题名Web网页中动态数据区域的识别与抽取
被引量:8
- 1
-
-
作者
黄健斌
姬红兵
孙鹤立
-
机构
西安电子科技大学电子工程学院
西安交通大学计算机科学与技术系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第11期53-55,58,共4页
-
基金
西安电子科技大学博士生创新基金资助项目(A06047)
-
文摘
采用基于HTML标记树的数据块查找方法挖掘Web网页中的数据区域,在此基础上结合网页聚类和跨网页数据区域匹配自动识别一个网页中的动态数据区域。实验结果表明,该方法能够提高Web网页中动态数据区域识别的召回率和准确率。
-
关键词
web数据区域抽取
动态数据区域识别
跨网页分析
-
Keywords
web data regions extraction
Dynamical data regions identification
Cross-page analysis
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于数据区域发现的信息抽取规则生成方法
被引量:4
- 2
-
-
作者
曲著伟
李敏强
-
机构
天津大学管理学院
浙江财经学院信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第22期59-61,共3页
-
文摘
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。
-
关键词
信息抽取
抽取规则生成
web数据区域
树匹配
-
Keywords
information extraction
extraction rule generation
web data area
tree matching
-
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
-