期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:17
1
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 DOM树 DEEPWEB 数据区域定位 实体区域定位
下载PDF
一种基于领域本体的Deep Web实体信息提取的后处理方法
2
作者 余伟 陶皖 《安徽工程大学学报》 CAS 2016年第5期88-94,共7页
目前大多数的Deep Web信息抽取方法依赖Web页面结构,忽略了页面中包含的语义信息及关系,导致抽取结果不理想.针对此问题,提出一种基于领域本体的Deep Web实体信息后处理方法.首先,根据DOM树节点相似性原理和VSM(Vector Space Model)... 目前大多数的Deep Web信息抽取方法依赖Web页面结构,忽略了页面中包含的语义信息及关系,导致抽取结果不理想.针对此问题,提出一种基于领域本体的Deep Web实体信息后处理方法.首先,根据DOM树节点相似性原理和VSM(Vector Space Model)的余弦值方法确定数据区域和实体区域;然后,依据数据区域和实体区域的概念和实例构建领域本体,在领域本体的指导下对实体进行语义标注,将量化的标注结果添加到实体与本体的相似度计算中;最后,提出基于领域本体的实体信息抽取算法,获得实体中与本体相似度最大的子树.选取天气、图书、购物网站数据进行测试,实验结果表明,与已有方法相比,所提方法的F值提高了3.6%~4.9%.该方法不仅能减少抽取信息时对Web页面结构的依赖,而且能充分利用页面中的语义信息和关系,使得抽取结果更精确. 展开更多
关键词 DEEP Web 信息抽取 实体区域定位 领域本体 后处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部