摘要
获取模式信息是深入研究Deep Web数据的必要步骤,针对Deep Web结果模式结构信息的丢失问题,提出了一种基于启发式信息的Deep Web结果模式获取方法。通过解析Deep Web结果页面数据,利用启发式信息为结果页面数据添加正确的属性名,进而得到对应Deep Web的结果模式,并对其进行规范化处理,解决不同数据源结果模式的结构不一致问题。实验验证该方法可以有效地获取Deep Web的结果模式信息。
Extracting schema information is the necessary step in the Deep Web data research,to address the loss problem of Deep Web result schema information,this paper proposed a novel approach Deep Web result pattern extracting based on heuristic information.Through analyzing Deep Web result page data and adding correct attribute names to result pages data by heuristic information,it obtained the corresponding of Deep Web result pattern.Moreover,it solved the structure conflict by standardized treatment.Experimental results show that the method can effectively extract result pattern.
出处
《计算机应用研究》
CSCD
北大核心
2011年第8期3026-3029,共4页
Application Research of Computers
基金
甘肃省自然科学基金资助项目(0809RJZA018)