一种改进的基于本体的Web信息抽取被引量：7

Improved Ontology-based Web Information Extraction

下载PDF

导出

摘要以Web页面信息项本体定义为基础,对单个样本页面信息项路径进行启发式学习,对所有样本页面集中信息块路径进行归纳学习,识别结构相似的信息块子树位置,以准确划定信息抽取区域,降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体,通过归纳学习算法生成抽取规则,提高Web信息的抽准率。 On basis of definition of information item ontology for Web page, the heuristic learning is conducted for information items in sole sample Web page, and inductive learning is conducted for the path of information blocks in whole sample Web collection. A method for researching the path of Document Object Model（DOM） tree is proposed. Using this method, the location of the structured-like information block subtrees can be got, the areas of information extraction can be partition accurately. The construction ontology by automatic parsing the Web page filtering the noise is created. Compared the information item ontology with the construction ontology, the information extraction rules by using reconstructing inductive learning arithmetic are generated. The precision of information extraction is improved.

作者柳佳刚陈山黄樱

机构地区湖南工学院计算机科学系

出处《计算机工程》 CAS CSCD 北大核心 2010年第4期39-41,44,共4页 Computer Engineering

基金湖南省教育厅科研基金资助项目(09C297 07C032)

关键词信息抽取本体归纳学习文档对象模型 information extraction ontology inductive learning Document Object Model（DOM）

分类号 N945 [自然科学总论—系统科学]

引文网络
相关文献

参考文献4

1Bemers L T. The Semantic Web[J]. Scientific Amedcan, 2001, 284(5): 34-43.
2刘耀,穗志方.领域Ontology概念描述体系构建方法探析[J].大学图书馆学报,2006,24(5):28-33. 被引量：15
3周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
4于琨,蔡智,糜仲春,蔡庆生.基于路径学习的信息自动抽取方法[J].小型微型计算机系统,2003,24(12):2147-2149. 被引量：7

二级参考文献31

1高凡,李景.Ontology及其与分类法、主题法的关系[J].图书馆理论与实践,2005(2):44-46. 被引量：20
2[1]Doorenbos R B, Etzioni O and Weld W S. A scalable comparisonshopping agent for the world_wide web [C]. Proceedings of the first international conference on Autonomous Agents, 1997:39～48.
3[2]Embley D W, Jiang Y and Ng Y K. Record boundary discovery in web documents[C]. Proc. SIGMOD'99 , 1999: 467～478.
4[3]David Buttler, Ling Liu and Calton Pu. A fully automated object extraction system for the world wide web[C]. International Conference on Distributed Computing Systems, 2001.
5[4]Kushmerick N, Weld D, Doorenbos R. Wrapper induction for Information extraction[C]. Proc. IJCAI 97, 1997.
6[5]Muslea I, Minton S and Knoblock C. A hierarchical approach to Wrapper induction[C]. Proc. 3rd International Conference Autonomous Agents, 1999.
7[6]Arnaud Sahuguet, Fabien Azavant. Taming Web sources with "minute_made" wrappers[M]. Unpublished, 1999.
8[7]Craven M, DiPasquo D, Freitag D, McCallum A, Mitchell T,Nigam N, Lattery S S. Learning to extract symbolic knowledge from the World Wide Web[C]. Proc. AAAI-98, 1998.
9[8]Ashish N, Knoblock C. Semi_automatic wrapper generation for Internet information sources[C]. Proc. Cooperative Information Systems, 1997.
10[9]McCallum A, Nigam K, Rennie J and Seymore K. A machine learning approach to building domain_specific search engines[C].Proc. IJCAI99, 1999: 662～667.

共引文献47

1岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
2宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.
3楼玉萍,王丽侠.基于本体的智能答疑系统的模型研究[J].浙江工业大学学报,2005,33(1):71-73. 被引量：8
4刘颖,詹萌.Ontology在数字图书馆领域中的应用与研究综述[J].图书馆杂志,2005,24(6):53-58. 被引量：5
5翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
6翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
7严玥,李华.基于本体论的课件资源检索系统设计[J].计算机工程与设计,2006,27(5):879-881. 被引量：2
8彭莉,韩景生.玩具行业应对TBT风险预警系统的研究[J].玩具世界,2006(11):55-59.
9刘佳宾,胡国平,陈超,邵正荣.基于决策树和马尔可夫链的问答对自动提取[J].中文信息学报,2007,21(2):46-51. 被引量：5
10吴慰慈,谷秀洁.2006年图书馆学学术进展[J].图书馆论坛,2007,27(6):13-17. 被引量：2

同被引文献90

1王波,姚敏.基于信息抽取的匿名用户兴趣描述[J].华南理工大学学报（自然科学版）,2004,32(z1):117-120. 被引量：1
2周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
3黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
4陈兰,左志宏,熊毅,孟令谦.一种新的基于Ontology的信息抽取方法[J].计算机应用研究,2004,21(8):155-157. 被引量：18
5李向阳,陆建江,张亚非.基于竞争分类的Web信息抽取[J].电子学报,2004,32(11):1915-1917. 被引量：2
6车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：117
7许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
8车海燕,孙吉贵,荆涛,白曦.一个基于本体主题的中文知识获取方法[J].计算机科学与探索,2007,1(2):206-215. 被引量：5
9翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
10王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31

引证文献7

1柳佳刚,龙军,李泽军.一种用于Web信息抽取的页面信息本体自动学习方法[J].计算技术与自动化,2011,30(1):119-123. 被引量：2
2李庆诚,张安站,宫晓利,张金.类纸阅读器在线读物系统的研究与实现[J].计算机工程,2012,38(3):261-264. 被引量：1
3王志华,魏斌,李占波,赵伟.基于本体的Web信息抽取系统[J].计算机工程与设计,2012,33(7):2634-2639. 被引量：14
4金燕.基于本体的Web信息抽取研究综述[J].图书馆学研究,2012(16):2-6. 被引量：2
5陈雪,梁永全,赵相彬.改进的基于本体的Web信息抽取[J].计算机应用与软件,2013,30(7):14-16. 被引量：6
6余伟,陶皖,徐京,刘成满.基于领域本体的微博用户信息抽取方法[J].长江大学学报（自科版）（上旬）,2015,12(4):36-40. 被引量：1
7阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1

二级引证文献23

1柯晓略.Web信息提取技术的研究及其在CSCW中的应用[J].现代计算机,2012,18(16):78-80.
2陈建彪.面向领域的Web信息自动抽取技术研究[J].计算机光盘软件与应用,2012,15(24):59-60.
3李俊州,茹秀娟.采用Ontology和树的语义冲突消除法[J].湖南师范大学自然科学学报,2013,36(3):18-23. 被引量：1
4朱恒民,贾丹华,黄震奇,王春晖.互联网用户偏好本体实例的学习方法研究[J].现代图书情报技术,2013(7):43-48. 被引量：2
5阮伟,徐飞.面向艺术领域的数字图书馆知识组织语义互联模型研究[J].图书馆学研究,2014(2):48-53. 被引量：1
6陈佳丽,庄金莲.基于本体的SQL注入攻击检测方法研究[J].九江学院学报（自然科学版）,2014,29(2):37-40.
7张素智,孙嘉彬,王威.大数据下的Web数据集成与挖掘研究[J].现代计算机（中旬刊）,2014(10):37-42.
8李禾.微信息环境下高校馆藏资源微聚合服务的研究[J].图书馆学研究,2015(4):66-70. 被引量：4
9毛浪,赵传钢.基于聚类的林业病虫害实体抽取研究[J].计算机应用与软件,2015,32(3):37-40. 被引量：2
10余伟,陶皖,徐京,刘成满.基于领域本体的微博用户信息抽取方法[J].长江大学学报（自科版）（上旬）,2015,12(4):36-40. 被引量：1

1史旗凯,郭菊娥.基于管理问题信息抽取的主题识别研究[J].情报科学,2008,26(10):1558-1562.
2史旗凯,郭菊娥.基于SMA信息抽取的主题诊断研究[J].管理工程学报,2010,24(1):90-94.
3李凯,曹学会.专题追踪技术在新华社多媒体数据库的应用[J].中国传媒科技,2004(9):56-58. 被引量：3
4高敏芬.数学网络资源库的建设[J].实验室科学,2004,7(1):65-67.
5崔永红.一个基于正方形的分形图形及其算法[J].西北大学学报（自然科学版）,2008,38(3):363-365. 被引量：1
6李粤,李立希,吴学谋.泛系方法论与幻方算法构造[J].计算机与数字工程,1999,27(1):11-17. 被引量：4
7杜阳.浅析Ajax技术在Web开发中的应用[J].中国新技术新产品,2010(23). 被引量：1
8刘鹏.高职计算机教学改革简析[J].科技信息,2008(25). 被引量：2
9张铃.管道清污问题初探[J].安庆师范学院学报（自然科学版）,1991,0(1):31-35.
10袁娲,刘杰.基于Web的新型WAP网关服务器研究[J].北京工商大学学报（自然科学版）,2005,23(2):63-65. 被引量：4

计算机工程

2010年第4期

浏览历史

内容加载中请稍等...

一种改进的基于本体的Web信息抽取被引量：7

参考文献4

二级参考文献31

共引文献47

同被引文献90

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

一种改进的基于本体的Web信息抽取 被引量：7

参考文献4

二级参考文献31

共引文献47

同被引文献90

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

一种改进的基于本体的Web信息抽取被引量：7