基于蚂蚁算法的Deep Web页面信息抽取方法研究被引量：3

Study on Deep Web Information Extraction Technology Based on Ant Algorithm

下载PDF

导出

摘要针对煤炭监测数据的复杂多变性及Deep Web数据查询结果网页描述信息的特点,提出了一种基于蚂蚁算法和本体指导网页信息抽取的方法。首先构建基于简单本体的数据抽取系统,通过对结果页面中包含本体语义信息的数据的映像定位,结合蚂蚁算法分析信息素浓度在DOM树上的分布比较,实现数据块路径抽取规则算法及数据分割特征码的生成。以煤炭行业获取的数据进行抽取性能测试,数据实验表明,抽取算法结果具有较高的准确率。 Due to the complex of the coal monitoring data, a novel approach of web page information extraction guided by ant colony algorithm is proposed.The method first builded a simple ontology-based data extraction system. By positioning the image data on the result pages, and combined with ant algorithm, it creates extraction rules . The extraction performance test data obtained by the coal industry,and the experimental results indicate that the method gives a better accuracy according to the extraction.

作者陈巧施佺

机构地区南通大学现代教育技术中心南通大学计算机科学与技术学院

出处《煤炭技术》 CAS 北大核心 2013年第2期176-178,共3页 Coal Technology

基金南通大学2011年自然科学课题(11Z065) 国家自然科学基金项目(61171132)

关键词信息抽取本体语义蚂蚁算法 information extraction ontology semantic ant algorithm

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：15
2李朝,彭宏,叶苏南,张欢,杨亲遥.基于DOM树的可适应性Web信息抽取[J].计算机科学,2009,36(7):202-203. 被引量：16
3周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34

二级参考文献49

1车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
2王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
3邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8
4BERNERS-LEE T,HENDLER J,LASSILA O.The semantic Web[J].Scientific American,2001,284(5):34-43.
5BENJAMINS V R,CONTRERAS J,CORCHO O,et al.Six challenges for the semantic Web[C]//Proc of Semantic Web Workshop.Berlin:Springer,2002.
6STUDER R,BENJAMINS V R,FENSEL D.Knowledge enginee-ring:principles and methods[J].Data and Knowledge Enginee-ring,1998,25(1-2):161-197.
7MANOLA F,MILLER E.RDF primer[BE/OL].(2004-02-10)[2008-09-20].http://www.w3.org/TR/rdf-primer/.
8MILLER G A,BECKWITH R,FELLBAUM C,et al.Introduction to WordNet:an on-line lexical database[J].Journal of Lexicography,1990,3(4):235-312.
9DONG Zhen-dong,DONG Qiang.HowNet[EB/OL].(2000)[2008-10-06].http://www.keenage.com/zhiwang/e_zhiwang.html.
10COHEN W,HURST M,JENSEN L.A flexible learning system for wrapping tables and lists in HTML documents[C]//Proc of the 11th International World Wide Web Conference.New York:ACM Press,2002:232-241.

共引文献57

1路威,赵丽君.兵要知识图谱的构建与应用研究[J].测绘地理信息,2022,47(4):119-123. 被引量：4
2岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
3宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
4宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
5楼玉萍,王丽侠.基于本体的智能答疑系统的模型研究[J].浙江工业大学学报,2005,33(1):71-73. 被引量：8
6刘颖,詹萌.Ontology在数字图书馆领域中的应用与研究综述[J].图书馆杂志,2005,24(6):53-58. 被引量：5
7翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
8翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
9严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
10彭莉,韩景生.玩具行业应对TBT风险预警系统的研究[J].玩具世界,2006(11):55-59.

同被引文献63

1王波,姚敏.基于信息抽取的匿名用户兴趣描述[J].华南理工大学学报（自然科学版）,2004,32(z1):117-120. 被引量：1
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
4翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
5梁晓涛,谢荣传.基于OWL描述本体的语义信息抽取[J].计算机技术与发展,2006,16(1):62-65. 被引量：2
6谢红薇,周慧,李娟莉.基于应急案例本体的信息抽取的模型及应用[J].电脑开发与应用,2006,19(2):46-48. 被引量：3
7郭志鑫.基于本体的文档引文元数据信息抽取[J].微计算机信息,2006,22(06X):304-306. 被引量：18
8韩颖,陈墨,李铎.纪传中基于本体的信息抽取和分析[J].数字图书馆论坛,2007(5):12-17. 被引量：1
9柳佳刚,刘高嵩,贺令亚,陈山.基于Web的信息抽取技术现状与发展[J].福建电脑,2007,23(7):48-49. 被引量：6
10何召卫,陈俊亮.基于本体关系匹配的信息抽取[J].计算机工程,2007,33(21):207-209. 被引量：13

引证文献3

1郭晓宇,彭浩.基于本体的网页数据抽取技术的探讨[J].中国多媒体与网络教学学报（电子版）,2020(19):4-5.
2阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1
3陈巧,丁卫泽,施佺.基于云计算面向网络舆情的Deep Web数据抽取关键技术研究[J].电脑知识与技术,2016,12(5X):23-25. 被引量：1

二级引证文献2

1张志强,王伟钧,张修军,施达.一种新闻类WORD格式文件数据抽取算法研究[J].成都大学学报（自然科学版）,2022,41(2):151-156.
2阎思宇,李绪辉,陈沐坤,朱海锋,谭杰骏,高旷,王永博,黄桥,任相颖,靳英辉,王行环.面向真实世界的知识挖掘与知识图谱补全研究(二):非结构化电子病历信息抽取方法及进展[J].医学新知,2023,33(5):358-365. 被引量：3

1王建丽,丁振国.一种基于XML的Web数据挖掘技术[J].西安科技学院学报,2002,22(3):337-340. 被引量：8
2肖泽勇.一种新的算法集成模型的分析[J].湘潮（理论版）,2010(12):138-138.
3杨晓宇.Web的半结构化数据抽取的方法及其实现[J].太原师范学院学报（自然科学版）,2003,2(3):36-39.
4董一华.基于ASP.NET缓存与分页策略优化Web数据查询性能[J].计算机时代,2006(9):8-10. 被引量：2
5徐兵,方苏春.农业信息化多媒体Web数据库构建——以三峡库区为例[J].安徽农业科学,2012,40(1):575-576. 被引量：2
6韩景倜,覃正,徐颖凯.应急物流体可靠性指标仿真[J].计算机应用研究,2006,23(11):134-136. 被引量：6
7李绍华.Web查询的关系数据库模型[J].计算机应用,1999,19(8):16-18. 被引量：1
8徐飞,张素芹,姚红革.面向结构的Web表格数据抽取系统[J].西安工业大学学报,2009,29(6):574-578. 被引量：3
9赵宇飞,丘德翔.利用ASP进行动态WEB数据库查询[J].现代计算机,1998(8):57-59.
10洪新建,张阳,洪新华.对WEB数据查询分页显示的设计与实现[J].电脑开发与应用,2007,20(6):44-45. 被引量：1

煤炭技术

2013年第2期

浏览历史

内容加载中请稍等...

基于蚂蚁算法的Deep Web页面信息抽取方法研究被引量：3

参考文献3

二级参考文献49

共引文献57

同被引文献63

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于蚂蚁算法的Deep Web页面信息抽取方法研究 被引量：3

参考文献3

二级参考文献49

共引文献57

同被引文献63

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于蚂蚁算法的Deep Web页面信息抽取方法研究被引量：3