期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
支持Web深层数据库网格的部分关键技术的研究 被引量:1
1
作者 申德荣 聂铁铮 +2 位作者 余恩运 寇月 于戈 《计算机科学》 CSCD 北大核心 2007年第8期123-125,154,共4页
当前,深层Web数据库数量急剧增加,然而其知识并没有得到有效的利用。本文提出将特定的深层Web数据库应用于网格环境中的思想,并针对支持深层Web数据库网格的部分关键技术进行研究,主要包括:(1)深层Web数据库元信息定义模型与模式抽取模... 当前,深层Web数据库数量急剧增加,然而其知识并没有得到有效的利用。本文提出将特定的深层Web数据库应用于网格环境中的思想,并针对支持深层Web数据库网格的部分关键技术进行研究,主要包括:(1)深层Web数据库元信息定义模型与模式抽取模型的研究;(2)多层次的模式匹配模型和自协调模型研究;(3)基于属性松弛的Web数据库查询与集成模型研究;(4)多目标函数代价模型和面向局部性的自适应优化调度模型研究。研发成果将为构建深层Web数据库网格提供良好的支持,就像网格的概念所定义的一样,为用户提供统一的接口,可按需为消费者提供集成的深层Web数据知识。其具有广阔的应用前景。 展开更多
关键词 数据库网格 深层web 模式匹配 近似查询 数据集成优化
下载PDF
一种面向Deep Web数据源的重复记录识别模型 被引量:3
2
作者 申德荣 刘丽楠 +2 位作者 寇月 聂铁铮 于戈 《电子学报》 EI CAS CSCD 北大核心 2010年第2期275-281,共7页
重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各Deep Web数据源查询接口... 重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的. 展开更多
关键词 重复记录 深层web 数据清洗
下载PDF
一种应用于Deep Web结果页面中分页标签的识别方法
3
作者 孙高尚 申德荣 +2 位作者 于戈 聂铁铮 寇月 《小型微型计算机系统》 CSCD 北大核心 2010年第4期635-640,共6页
针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Baseon Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特... 针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Baseon Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查准率高于GL模型,并且在探测次数上比GL模型降低了一个数量级,所以CSL是一种高效的分页标签抽取模型. 展开更多
关键词 分页标签 结果抽取 深层web
下载PDF
自动提取布局结构相似网页的结构化信息 被引量:1
4
作者 赵靖 王侨文 +1 位作者 管马周 单传佳 《安徽科技学院学报》 2010年第6期37-42,共6页
数据库驱动的Web站点根据查询产生的Web页结构布局都是极其相似的;现有的Web提取方法忽视或者忽略了这种相似性,因而在提取效率性能和通用性上都有较大的限制。本文提出一种基于标签树相似度的模板自动学习方法;进而根据模板来提取这类... 数据库驱动的Web站点根据查询产生的Web页结构布局都是极其相似的;现有的Web提取方法忽视或者忽略了这种相似性,因而在提取效率性能和通用性上都有较大的限制。本文提出一种基于标签树相似度的模板自动学习方法;进而根据模板来提取这类网页的数据;并利用Eclipse和开源HTML Parser对算法进行了实现;实验结果表明该算法具有较快的提取速度和较好的准确率。 展开更多
关键词 深层web 标签树-相似度模型 结构化信息提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部