-
题名一种基于特征树的Web碎片信息抽取算法
被引量:3
- 1
-
-
作者
向程冠
熊世桓
-
机构
贵州师范学院数学与计算机科学学院
-
出处
《兰州理工大学学报》
CAS
北大核心
2014年第1期104-107,共4页
-
基金
贵州省优秀科技教育人才省长专项资金项目(黔省专合字(2012)82号)
-
文摘
为进一步解决Web碎片信息所特有的随意性给信息抽取带来的困难,通过对Web碎片信息DOM树的结构特征和Web碎片信息的文本特征(如时间、作者、信息等)进行研究,发现将两者相结合能有效地进行Web碎片信息抽取,提出一种基于特征树的Web碎片信息抽取算法.以新浪微博、腾讯微博、搜狐微博等在内的100个信息分享平台作为实验对象,实验结果表明,该算法具有良好的性能,可以达到较高的召回率与查准率.
-
关键词
web
web碎片信息
DOM树
信息抽取
召回率
-
Keywords
web
DOM tree
web fragment information
information extraction
recalling rate
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于CSS视觉分块的Web碎片信息抽取算法
- 2
-
-
作者
向程冠
熊世桓
-
机构
贵州师范学院 数学与计算机科学学院
-
出处
《计算机光盘软件与应用》
2013年第16期63-65,共3页
-
基金
贵州省优秀科技教育人才省长专项资金项目(黔省专合字(2012)82号)
-
文摘
为进一步解决在半结构化的Web页面中抽取Web碎片信息的困难,针对Web页面设计的目的是给用户显示相关的信息,浏览器只是呈现的中间手段,在抽取Web碎片信息时应该"以人为本",从"人"的视觉效果出发,将Web页面按照CSS视觉效果进行分块,提出一种基于CSS视觉分块的Web碎片信息抽取算法。以随机输入的1000个Web碎片信息站点作为实验对象,实验结果表明,算法具有良好的性能,达到了较高的召回率与查准率。
-
关键词
web
web碎片信息
CSS
信息抽取
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-