-
题名基于逆向匹配的电子商务网站实体模板半自动构建方法
- 1
-
-
作者
傅彦
徐昭邦
夏虎
周俊临
-
机构
电子科技大学计算机科学与工程学院互联网科学中心
-
出处
《中文信息学报》
CSCD
北大核心
2015年第2期157-162,178,共7页
-
基金
国家自然科学基金(61103109
11105024
+9 种基金
61003231)
中央高校基本科研业务费(ZYGX2011J057
ZYGX2012J071
ZYGX2012J085)
四川省科技项目(2010HH0002
2011GZ0106
20112Z0001
2012RZ0002
2012RZ0003)
高等学校博士学科点专项科研基金(20120185120017)
-
文摘
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。
-
关键词
逆向匹配
DOM树
模板构建
信息提取
-
Keywords
reverse matching
DOM trees template extraction
information extraction
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-