-
题名全局模式下的深网数据抽取与挖掘
被引量:1
- 1
-
-
作者
姚晓鹏
高圣兴
薛君志
陆敏超
-
机构
上海申腾信息技术有限公司
上海市计算技术研究所
浙江工商大学统计与数学学院
-
出处
《计算机应用与软件》
北大核心
2018年第2期91-95,共5页
-
基金
上海市临港地区智能制造产业专项(ZN2016020103)
-
文摘
随着现代信息量的快速增长,深网作为网络数据载体包含了大量数据,因此,对深网数据抽取的研究十分重要。提出一种全局模式下的数据抽取和挖掘的方法。该方法分析实际例子的属性,运用改进的贝叶斯信念网络算法,确定相应的标签,构建一个动态的全局模式,接着抽取并识别结果页面中的数据;根据基于密度的离群点来检测并剔除其中的无用信息;运用挖掘布尔关联规则频繁项集的算法进行关联挖掘,整合数据项。实验结果表明,该方法相对于其他几种数据抽取方法,能准确、快速、有效地抽取数据,并且通过数据挖掘后得到数据项间的关联性较大,无效信息更少。
-
关键词
深网全局模式
数据抽取
数据挖掘
-
Keywords
Deep web
Global schema
Data extraction
Data mining
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-