-
题名基于DOM的Deep Web查询接口属性抽取方法
- 1
-
-
作者
石龙
强保华
何倩
吴春明
谌超
-
机构
桂林电子科技大学计算机科学与工程学院
西南大学计算机与信息科学学院
-
出处
《桂林电子科技大学学报》
2012年第6期468-472,共5页
-
基金
国家自然科学基金(61163057)
-
文摘
属性抽取主要基于单元素属性抽取,而多元素属性抽取的研究较少。针对多元素组成属性情况进行研究,提出一种基于查询接口DOM结构的属性抽取方法,该方法将查询接口解析成DOM,基于DOM节点提取查询接口上对应的表单元素,对从查询接口上提取获得的元素集合进行二次聚类,挖掘元素之间的组合关系,最终将元素组合形成属性。这种方法能很好地抽取接口上的单元素属性和多元素属性,实验结果表明了方法的有效性。
-
关键词
属性抽取
DEEP
Web
查询接口
dom节点
表单元素
-
Keywords
attributes extraction
Deep Web
query interface
dom node
form element
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名网页Pagelet的自动抽取方法
- 2
-
-
作者
朱明
李伟
-
机构
中国科学技术大学自动化系
-
出处
《计算机应用》
CSCD
北大核心
2005年第11期2612-2614,共3页
-
文摘
W eb页面中除了所包含的数据外,往往还包含很多导航信息、广告等。针对W eb页面的特点,提出了DOM树比较算法,通过对多个页面进行比较,识别出主体内容。实验结果证明该方法是有效可行的。
-
关键词
WEB挖掘
信息获取
dom相似度
dom节点聚类
-
Keywords
Web mining
information retrieval
dom similarity
dom node clustering
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-