期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于XML的电力营销数据智能抽取方法研究 被引量:2
1
作者 余向前 《自动化仪表》 CAS 2023年第1期92-95,100,共5页
电力信息化的发展使得电力营销系统中的数据量不断增加,导致在数据抽取过程中的数据转换能力较差,从而造成抽取结果召回率偏高的情况。针对这一情况,利用可扩展标记语言(XML)的转换能力,设计了新的电力营销数据智能抽取方法。将电力营... 电力信息化的发展使得电力营销系统中的数据量不断增加,导致在数据抽取过程中的数据转换能力较差,从而造成抽取结果召回率偏高的情况。针对这一情况,利用可扩展标记语言(XML)的转换能力,设计了新的电力营销数据智能抽取方法。将电力营销数据规范为小范围数据链形式,并应用超文本敏感标题搜索(HITS)算法获取数据源。设定XML数据转换工具,利用XML定位描述符实现数据区域定位。在设定数据抽取规则与抽取内容的基础上,结合数据映射技术实现对电力营销数据的抽取。在性能测试过程中,将测试环境设定为平稳运行与数据入侵2种。通过对比结果可知,基于XML的抽取方法的召回率保持在7%以下,抽取耗时保持在800 ms以下,其值优于传统方法,充分证明了该方法的有效性。 展开更多
关键词 可扩展标记语言 电力营销数据 信息安全 数据抽取 数据转换 数据区域定位 抽取规则 数据映射 召回率
下载PDF
D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:16
2
作者 寇月 李冬 +2 位作者 申德荣 于戈 聂铁铮 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期858-865,共8页
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DO... 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 展开更多
关键词 实体抽取 DOM树 DEEPWEB 数据区域定位 实体区域定位
下载PDF
基于DOM树与领域本体的Web抽取方法 被引量:5
3
作者 郭建兵 崔志明 +1 位作者 陈明 赵朋朋 《计算机工程》 CAS CSCD 2012年第5期56-58,共3页
为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区... 为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。 展开更多
关键词 自动抽取 DOM树 领域本体 数据区域定位 简单树匹配
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部