一种Deep Web查询结果的实体抽取方法被引量：4

Research on entity extraction method of Deep Web data integration

下载PDF

导出

摘要 Deep Web中蕴含着丰富的高质量的信息,通过Deep Web集成查询接口可以获取到包含这些信息的结果页面,因此,Deep Web查询结果页面的数据抽取成为Deep Web数据集成的关键。提出了将索引方法和编辑相似度相结合的方法,来完成Deep Web查询结果页面的数据抽取工作。大量实验结果表明:该方法是可行的,并且能够提高Deep Web数据实体抽取的准确性和召回率。 Based on the realization of Deep Web integrated query mechanism, Deep Web information can be obtained from the resulting pages, so how to extract the entity information of Deep Web from the results pages effectively becomes the key of Deep Web data integration. A method that combines the index with the edit similarity methods is proposed, which resolves the problem of data extraction of Deep Web result page. Large experimental results show that this approach is feasible, and can improve the precision and recall of Deep Web data extraction.

作者赵海霞李道申刘勇赵嘉诚

机构地区河南科技大学电子信息工程学院长春理工大学软件学院

出处《计算机工程与应用》 CSCD 2012年第36期160-163,共4页 Computer Engineering and Applications

基金国家自然科学基金(No.70671035)

关键词深度网数据抽取文件对象模型(DOM)树索引相似度 Deep Web data extraction Document Object Model（DOM） tree index similarity

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1杨晓琴,鞠时光,曹庆皇,王秀红.基于包装器的Deep Web自动语义标注[J].计算机工程,2010,36(12):52-54. 被引量：4
2田建伟,李石君.基于层次树模型的Deep Web数据提取方法[J].计算机研究与发展,2011,48(1):94-102. 被引量：14
3谢莹,左万利.Deep Web查询结果抽取及注释[D].长春:吉林大学,2010:18-27.
4潘高源,左万利.Deep Web查询结果抽取技术的研究[D].长春:吉林大学,2011:32-35.
5高亚,袁方.Deep Web数据集成系统中数据抽取与语义标注研究[D].保定:河北大学,2010:15-19.
6寇月,李冬,申德荣,于戈,聂铁铮.D-EEM:一种基于DOM树的Deep Web实体抽取机制[J].计算机研究与发展,2010,47(5):858-865. 被引量：16

二级参考文献33

1王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
2胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
3Chang KCC,He B,Li C,et al.Structured databases on the Web:Observations and implications[J].SIGMOD Record,2004,33(3):61-70.
4Calife M,Mooney R.Relational learning of pattern match rules for information extraction[C] //Proc of the 16th National Conf on Artificial Intelligence and 11th Conf on Innovative Applications of Artificial Intelligence.Menlo Park,CA:AAAI,1999:328-334.
5Soderlan S.Learning information extraction rules for semi-structured and free text[J].International Journal of Machine Learning,1999,34(1-3):233-272.
6Muslea I,Minton S,Knoblock G.A hierarchical approach to wrapper induction[C] //Proc of the 3rd Conf on Autonomous Agents.New York:ACM,1999:190-197.
7Liu Wei,Meng Xiaofeng,Meng Weiyi.Vision-based Web data records extraction[C] //Proc of the 9th SIGMOD Int Workshop on Web and Database.New York:ACM,2006:20-25.
8Zhao Hongkun,Meng Weiyi.Fully automatic wrapper generation for search engines[C] //Proc of WWW'05.New York:ACM,2005:66-75.
9Liu L,Pu C,Han W.XWRAP:An XML-enable wrapper construction system Web information sources[C] //Proc of the 16th IEEE Int Conf on Data Engineering.Washington:IEEE,2000:611-621.
10Valter C,Giansalvatore M,Paolo M.RoadRunner:Towards automatic data extraction from large Web sites[C] //Proc of the 27th VLDB.San Francisco:Morgan Kaufmann,2001:109-118.

共引文献26

1高明,黄哲学.Deep Web研究现状与展望[J].集成技术,2012,1(3):47-54. 被引量：1
2张琴燕,高洪皓,李莹.基于进程代数的构件语义标注技术研究[J].计算机工程,2011,37(11):69-73.
3杨舟,岳亮,卓林,赵朋朋,崔志明.一种基于领域本体的Deep Web数据自动标注方法[J].苏州大学学报（工科版）,2011,31(4):11-15.
4原福永,韩丽,赵英梅.社交网络中模块关系树的相似性算法的研究[J].计算机应用研究,2012,29(2):698-700.
5王文焕,赵卓峰.关系数据库的关键词查询性能优化[J].计算机与数字工程,2012,40(11):18-20. 被引量：1
6郭建兵,崔志明,陈明,赵朋朋.一种基于范围型属性的Deep Web数据提取方法[J].计算机应用与软件,2013,30(2):54-57. 被引量：2
7马友忠,孟小峰,姜大昕.移动应用集成:框架、技术与挑战[J].计算机学报,2013,36(7):1375-1387. 被引量：16
8顾韵华,高原,高宝,杜杰.基于模板和领域本体的Deep Web信息抽取研究[J].计算机工程与设计,2014,35(1):327-332. 被引量：15
9王旭仁,杨硕,何发镁,王彦丽,张为群.Web页面细粒度数据抽取方法研究[J].计算机工程与设计,2014,35(2):700-704.
10高集荣,田艳,江晓妍.基于树结构的Web页面适配方法的研究[J].微型机与应用,2014,33(1):77-80. 被引量：2

同被引文献24

1顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：11
2齐振宇,赵军,杨帆.一种开放式中文命名实体识别的新方法[c]∥第五届全国信息检索学术会议论文集,2009:60-69.
3WebHarvest [EB/OL]. [2009-12-25]. http//web-harvest source-forge.net.
4NLPCN. Ansj [EB/OL]. [2014-07-01]. http://www.nlpcn.org/resource/list/4.
5GATTANI A, LAMBA D S, GARERA N, et al. Entity extraction, linking, classification, and tagging for social media: a Wikipedia-based approach [J]. Proceedings of the VLDB endowment, 2013, 6(11): 1126-1137.
6WANG H, QI Z, HAO H, et al. A hybrid method for Chinese entity relation extraction [M]// Natural Language Processing and Chinese Computing. Berlin: Springer, 2014: 357-367.
7WANG C, FAN J. Medical relation extraction with manifold models [C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2014: 828-838.
8徐健,张智雄,吴振新.实体关系抽取的技术方法综述[J].现代图书情报技术,2008(8):18-23. 被引量：54
9李昊旻,李莹,段会龙,吕旭东.中文病历文档术语提取和否定检出方法[J].中国生物医学工程学报,2008,27(5):716-721. 被引量：9
10齐玉东,闫晓斌,谢晓方.基于LISA理论的概念模型相似度计算[J].计算机工程与应用,2012,48(3):40-42. 被引量：2

引证文献4

1杨杰.软件工程开发市场调查与分析[J].信息通信,2013,26(2):292-292.
2刘平丽.基于软件开发中软件需求的研究[J].电子技术与软件工程,2014(2):98-98.
3刘杰.一种基于自动特征权值的实体相似度计算方法[J].重庆科技学院学报（自然科学版）,2014,16(3):157-160. 被引量：2
4李汝君,张俊,张晓民,桂小庆.健康领域Web信息抽取[J].计算机应用,2016,36(1):163-170. 被引量：6

二级引证文献8

1李阳,高大启.知识图谱中实体相似度计算研究[J].中文信息学报,2017,31(1):140-146. 被引量：15
2刘鹏程,胡骏,吴共庆.基于文本块密度和标签路径覆盖率的网页正文抽取[J].计算机应用研究,2018,35(6):1645-1650. 被引量：5
3张佳俊,王一洲,陈星,张颖.基于DOM树抽象的包装器自动生成技术[J].计算机应用,2018,38(A01):150-154.
4张晓孪,王西锋.基于语义的Web招聘信息抽取关键技术的研究[J].微型电脑应用,2019,35(6):69-70. 被引量：2
5王明达,陈泼,陈子新,韦永健,徐宗辉.基于文本挖掘的物探作业事故分析方法[J].西安石油大学学报（自然科学版）,2019,34(4):119-126. 被引量：4
6李家全,李宝安,游新冬,吕学强.基于专利知识图谱的专利术语相似度计算研究[J].数据分析与知识发现,2020,4(10):104-112. 被引量：4
7相颖,冯钧,夏珮珮,陆佳民.基于Bootstrapping的水利空间关系词提取[J].计算机科学,2020,47(12):131-138. 被引量：3
8段梦诗,肖乐.知识图谱技术综述及在粮虫领域的应用[J].软件导刊,2021,20(8):241-246. 被引量：2

1项力.ASP环境下XML的实现[J].浙江纺织服装职业技术学院学报,2007,6(1):69-71.
2龚颖.XML的数据存储实例分析[J].江苏广播电视大学学报,2002,13(3):41-44. 被引量：2
3张庆生.小议如何实现XML与VB之间的数据交换[J].今日科苑,2008(10):197-197.
4蒋秀才,穆斌.基于双配置文件的深度网搜索[J].计算机应用研究,2008,25(12):3621-3623.
5杨府学,余建桥.深度网查询接口的模式匹配[J].微计算机信息,2010,26(33):102-103.
6刘宏.基于DOM读取XML文件方法研究[J].辽宁师范大学学报（自然科学版）,2003,26(4):375-377.
7江鹏.浅析XML与高级语言之间的数据交换措施[J].民营科技,2010(7):70-70. 被引量：1
8韩勇.以VB为例简述XML与高级语言之间的数据交换[J].今日科苑,2009(18):151-151.
9郑淑丽,韩江洪,程文娟,吴永忠.Deep Web查询接口自动识别方法[J].郑州大学学报（理学版）,2009,41(1):56-58. 被引量：1
10李军怀,周明全,耿国华.异构环境下的CSCW模型研究与实现[J].计算机科学,2002,29(10):104-106. 被引量：7

计算机工程与应用

2012年第36期

浏览历史

内容加载中请稍等...

一种Deep Web查询结果的实体抽取方法被引量：4

参考文献6

二级参考文献33

共引文献26

同被引文献24

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种Deep Web查询结果的实体抽取方法 被引量：4

参考文献6

二级参考文献33

共引文献26

同被引文献24

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种Deep Web查询结果的实体抽取方法被引量：4