基于模板的Deep Web实体识别信息抽取方法研究

Research on the Method of Entities Identification Information Extraction in Deep Web Based on Template

下载PDF

导出

摘要 Web技术的发展导致Web数据激增,其中Deep Web数据占主要部分.实体识别是开展模式识别、数据集成等Deep Web关键技术研究的首要前提.为提高实体识别的效率和准确性,提出了基于模板的Deep Web实体识别信息抽取方法.该方法拥有三个不同的处理阶段:其中基于DOM树抽取规则的模板训练阶段最为关键,抽取规则通过结构分析和语义分析两个阶段完成,此外该方法还包含着数据准备和实体信息抽取两个辅助阶段.最后经实验验证所提方法在提升实体识别准确性的同时具有较好的信息抽取效率. The development of Web technology led to a surge of Web data,of whichI）eep Web data accounted for a high proportion. Entitiesidentifyis the most important prerequisite for the research of Deep Web such as pattern recognition, data integration and so on. In order to improve the efficiency and accuracy of entity recognition, a method of entities identification information extraction in deep web based on templatewas proposed. Tiffs method has 3 stages：the key stage istemplate training stage to extract rules based on DOM tree. The extraction rules are obtainedby structure analysis and semantic analysis. The method also includes 2 auxiliary stages：data preparation and entity information extraction. Finally, the experimental results show that the proposed method can improve the recognition accuracy of the entity ,and has better information extraction efficiency.

作者王嵘冰党小婉徐红艳冯勇

机构地区辽宁大学信息学院

出处《辽宁大学学报（自然科学版）》 CAS 2017年第2期97-104,共8页 Journal of Liaoning University：Natural Sciences Edition

基金辽宁省博士科研启动基金(201601099) 辽宁省社科规划项目(L14DGL049) 2016年省级本科教改立项一般项目辽宁省档案科技项目(L-2016-8-7)

关键词 DEEP WEB 实体识别模板语义分析 DOM树 Deep Web entities identify template semantic analysis DOM tree

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5):858-865. 被引量：16
2范举,周立柱.基于关键词的深度万维网数据库选择[J].计算机学报,2011,34(10):1797-1804. 被引量：11
3方巍,崔志明.面向Deep Web不确定知识表示的动态模糊描述逻辑[J].计算机科学,2010,37(9):229-233. 被引量：5
4强保华,李巍,邹显春,汪天天,吴春明.基于潜在语义分析的Deep Web查询接口聚类研究[J].计算机科学,2013,40(11):228-230. 被引量：3
5田建伟,李石君.基于层次树模型的Deep Web数据提取方法[J].计算机研究与发展,2011,48(1):94-102. 被引量：14
6顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：15
7陆姗姗,时玉杰,赵朋朋,崔志明.基于数据源依赖性的Deep Web数据融合方法[J].小型微型计算机系统,2014,35(2):210-216. 被引量：2
8徐红艳,党晓婉,冯勇,李军平.基于BP神经网络的Deep Web实体识别方法[J].计算机应用,2013,33(3):776-779. 被引量：5
9姚天顺,张俐,高竹.WordNet综述[J].语言文字应用,2001(1):27-32. 被引量：33
10程文涛,师雪霖.以本体为指导的Web网页信息抽取方法[J].北京化工大学学报（自然科学版）,2011,38(4):134-139. 被引量：2

二级参考文献108

1凌妍妍,刘伟,王仲远,艾静,孟小峰.Deep Web数据集成中的实体识别方法[J].计算机研究与发展,2006,43(z3):46-53. 被引量：4
2陈群秀.一个在线义类词库:词网 WordNet[J].语言文字应用,1998(2):95-101. 被引量：31
3周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
4王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
5胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
6史忠植,董明楷,蒋运承,张海俊.语义Web的逻辑基础[J].中国科学（E辑）,2004,34(10):1123-1138. 被引量：71
7梅婧,林作铨.从ALC到SHOQ(D):描述逻辑及其Tableau算法[J].计算机科学,2005,32(3):1-11. 被引量：34
8王驹,蒋运承,唐素勤.一种模糊动态描述逻辑[J].计算机科学与探索,2007,1(2):216-227. 被引量：11
9强保华,陈凌,余建桥,吴开贵,吴中福.基于BP神经网络的属性匹配方法研究[J].计算机科学,2006,33(1):249-251. 被引量：4
10蒋运承,史忠植,汤庸,王驹.面向语义Web语义表示的模糊描述逻辑[J].软件学报,2007,18(6):1257-1269. 被引量：36

共引文献89

1卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
2郭晓宇,彭浩.基于本体的网页数据抽取技术的探讨[J].中国多媒体与网络教学学报（电子版）,2020(19):4-5.
3路强,唐靓,马坤乐,梁翀.面向跨语言词云可视化的拓扑保持布局算法研究[J].图学学报,2014,35(2):307-312. 被引量：2
4李斌,宋小华.本体的中文语义网查询优化[J].电脑编程技巧与维护,2009(S1):112-115.
5徐时仪.网络语义词典编纂的设想[J].苏州教育学院学报,2002,19(2):5-11. 被引量：1
6乔鸿,余锦凤.分类目录思想在信息检索中的应用——“先控”智能信息检索系统[J].现代图书情报技术,2004(11):24-26.
7王卉.基于学科领域知识库的远程教学服务系统[J].电脑知识与技术,2005(10):85-87. 被引量：1
8黎亚雄.基于Jena的WordNet检索技术研究[J].福建电脑,2007,23(1):46-46. 被引量：1
9张会平,吕学强,施水才,李渝勤.基于WordNet的语义分布词典建设[J].现代图书情报技术,2007(3):55-59.
10周文,徐国梁.翻译记忆中语句相似度计算方法的研究[J].计算机应用,2007,27(5):1210-1213. 被引量：6

1岳国伟,吕楠,申玉三.基于领域本体的Web信息抽取模型研究[J].情报探索,2012(1):105-107. 被引量：4
2刘超,刘妍.基于Deep Web数据查询接口的抽取与集成[J].硅谷,2008,1(23):40-40.
3袁靓,王小玲,潘泽波.基于移动Agent的Deep Web数据集成研究[J].微计算机信息,2008,24(18):191-192.
4刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
5计算机软件：Deep Web数据集成研究综述[J].中国学术期刊文摘,2008,14(2):9-9.
6王莉,郑婷一,李明.网络媒体大数据中的异构网络对齐关键技术和应用研究[J].太原理工大学学报,2017,48(3):453-457. 被引量：6
7徐志刚,李文文,朱红蕾,朱旭锋.一种基于L_(1/2)正则约束的超分辨率重建算法[J].华中科技大学学报（自然科学版）,2017,45(6):38-42. 被引量：7

辽宁大学学报（自然科学版）

2017年第2期

浏览历史

内容加载中请稍等...

基于模板的Deep Web实体识别信息抽取方法研究

参考文献10

二级参考文献108

共引文献89

相关作者

相关机构

相关主题

浏览历史