基于规则归纳的信息抽取系统实现被引量：19

Implementation of rule induction-based information extraction system

下载PDF

导出

摘要面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。 With the rapid increase of Web information,Information Extraction （IE） techniques are good for automatically extracting data of interest from a mass of Web documents.In this paper,the design and the implementation of a rule induction based IE system is presented for automating Web information retrieval by DOM parsing and rules for retrieval,extraction and mapping. In this framework for rule induction,the authors particularly focus on the experiments with the WHISK algorithm for generating patterns.Experimental results show that the system performs well on both single-slot and multi-slot extraction tasks.

作者石倩陈荣鲁明羽

机构地区大连海事大学信息科学技术学院

出处《计算机工程与应用》 CSCD 北大核心 2008年第21期166-170,共5页 Computer Engineering and Applications

基金国家自然科学基金( the National Natural Science Foundation of China under Grant No.60775028) 大连市科技局重大项目( No.2007A14GX042) 吉林大学符号计算与知识工程教育部重点实验室开放课题( No.93K-17-2006-04)

关键词信息抽取抽取规则 DOM 学习算法 information extraction extraction rule DOM leaming algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1Laender A H F,Ribeiro-Neto B A,da Silva A S,et al.A brief survey of web data extraction Tools[J],SIGMOD Records,2002,31(2).
2Arocena G O,Mendelzon A O.WebOQL:restructuring documents, databases,and Webs[C]//Proceedings of the 14th IEEE International Conference on Data Engineering Orlando, Florida, 1998 : 24-33.
3Sahuguet A,Azavant F.Building intelligent web application using lightweight wrappers[J].Data and Knowledge Engineering,2001,36 (3):283-316.
4Crescenzi V,Mecca G,Merialdo P.RoadRunner:towards automatic data extraction from large Web sites[C]//Proceedings of the 26th International Conference on Very Large Database Systems,Rome, Italy, 2001 : 109-118.
5Soderlan S.Learnlng information extraction rules for semi-structured and free text[J].Machine Learning, 1999,34(1-3):233-272.
6Califf M E,Mooney R J.Relational learning of patteru-match rules for information extraction[C]//Proceeding of the 16th National Conference on Artificlal Intelligence and 1th Conference on Innovative Applications of Artificial Intelligence, Orlando, Florida, 1999 : 328-334.
7Kushmerick N,Weld D S,Doorenbos R.Wrapper induction for information extraction[C]//15th International Joint Conference on Artificial Intelligence(IJCAI-97),Nagoya,August 1997.
8Hsu C-N,Dung M-T.Generating finite-state transducers for semistructured data extraction from the Web[J].Information Systems,1998, 23(8) :521-538.
9李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
10Liu L,Pu C,Han W.XWRAP:an XML-enable wrapper construction system for Web information sources[C]//Proceedings of the 16th IEEE International Conference on Data Engineering,San Diego, California, 2000 : 611-621.

二级参考文献30

1S Lawrence,L Giles,K Bollacker.Digital libraries and autonomous citation indexing[J].IEEE Computer,1999,32(6):67-71.
2E Riloff,R Jones.Learning dictionaries for information extraction by multi-level bootstrapping[A].Proceedings of the Sixteenth National Conference on Artificial Intelligence[C].Orlando:AAAI Press,1999.811-816.
3Kushmerick N.Wrapper induction:Efficiency and expressiveness[J].Artificial Intelligence,2000,118(12):15-68.
4Kristie Seymore,Andrew McCallum,Ronal Rosenfel.Learning hidden Markov model structure for information extraction[A].Proceedings of the AAAI'99 Workshop on Machine Learning for Information Extraction[C].Orlando:AAAI Press,1999.37-42.
5Dayne Frietag,Andrew McCallum.Information extraction with HMMs and shrinkage[A].Proceedings of the AAAI'99 Workshop on Machine Learning for Information Extraction[C].Orlando:AAAI Press,1999.31-36.
6Freitag D,McCallum A.Information extraction with HMM structures learned by stochastic optimization[A].Proceedings of the Eighteenth Conference on Artificial Intelligence[C].Edmonton:AAAI Press,2002.584-589.
7Souyma Ray,Mark Craven.Representing sentence structure in hidden Markov models for information extraction[A].Proceedings of the Seventeenth International Joint Conference On Artificial Intelligence[C].Washington:Morgan Kaufmann,2001.1273-1279.
8T Scheffer,C Decomain,S Wrobel.Active hidden Markov models for information extraction[A].Proceedings of the Fourth International Symposium on Intelligent Data Analysis[C].Lisbon:Springer,2001.301-109.
9Freitag D,McCallum A,Pereira F.Maximum entropy Markov models for information extraction and segmentation[A].Proceedings of The Seventeenth International Conference on Machine Learning[C].San Francisco:Morgan Kaufmann,2000.591-598.
10Lawrence E Rabiner.A tutorial on hidden Markov models and selected application in speech recognition[J].Proceedings of the IEEE,1989,77(2):257-286.

共引文献161

1孔静静,于琦,李敬华,于彤,张竹绿,田野,祖雅琪.实体抽取综述及其在中医药领域的应用[J].世界科学技术-中医药现代化,2022,24(8):2957-2963. 被引量：6
2张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：8
3贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.
4王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
5杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
6欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
7陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
8孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
9李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量：2
10王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8

同被引文献129

1朱丹华.信息化背景下海洋管理档案信息资源的整合与共享[J].中文科技期刊数据库（文摘版）社会科学,2016(10):131-131. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6王海峰,段友祥,刘仁宁.基于行为分析的病毒检测引擎的改良研究[J].计算机应用,2004,24(B12):109-110. 被引量：12
7林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
8谢方军,唐常杰,元昌安,左劼,陈安龙.基于基因表达式的演化硬件进化和优化算法[J].计算机辅助设计与图形学学报,2005,17(7):1415-1420. 被引量：11
9范彦斌,杨彭基.有限元分析计算结果的计算机图形可视化显示[J].计算机辅助设计与图形学学报,1995,7(1):11-16. 被引量：20
10王海起,王劲峰.空间数据挖掘技术研究进展[J].地理与地理信息科学,2005,21(4):6-10. 被引量：36

引证文献19

1黄茂生,杨春晖.基于词法分析的超链接自动测试技术与实现[J].现代电子技术,2009,32(22):42-45. 被引量：1
2胡金柱,周星,舒江波,熊春秀.基于启发式规则的网页主题信息精确定位方法[J].计算机应用研究,2010,27(2):494-497. 被引量：6
3胡明,刘嘉勇,刘亮.一种基于代码特征的网页木马改良模型研究[J].通信技术,2010,43(8):155-157. 被引量：3
4郭银蕊,陈荣.基于遗传算法的Web信息抽取[J].模式识别与人工智能,2011,24(3):385-390. 被引量：2
5龙珑,宁德鹏,宁葵.启发式规则网页主题定位方法绿网系统的应用[J].计算机技术与发展,2011,21(10):226-228.
6冯硕,李书琴,杨会君.基于Web挖掘的化学物质信息提取应用研究[J].计算机工程与设计,2012,33(8):3040-3046. 被引量：3
7向程冠,熊世桓.基于CSS视觉分块的Web碎片信息抽取算法[J].计算机光盘软件与应用,2013,16(16):63-65.
8孙亚琳,赵林林,杨小平.基于主题词表和FCA的网页语义概念树构建研究[J].计算机应用研究,2014,31(11):3308-3315. 被引量：2
9张军丽,何保锋,马建红.基于语义主题树的搜索覆盖度层状拓展方法[J].科技通报,2015,31(4):169-171.
10王恬,李书琴,王志伟.农业信息搜索可视化平台研究[J].计算机应用与软件,2016,33(3):271-274. 被引量：6

二级引证文献48

1龙珑,宁德鹏,宁葵.启发式规则网页主题定位方法绿网系统的应用[J].计算机技术与发展,2011,21(10):226-228.
2宋健豪,赵刚.基于启发式规则优化的网页元素提取方法[J].信息安全与技术,2012,3(6):66-69. 被引量：2
3孙飞帆,施勇,薛质.基于权重分析的网页木马检测模型[J].信息安全与通信保密,2012,10(12):109-111. 被引量：1
4高鹏,骆源.推荐系统中基于无监督策略托攻击检测[J].通信技术,2013,46(4):5-8.
5吴俊昌,蒋凡,程绍银.基于程序分析的Android应用恶意行为检测[J].通信技术,2013,46(7):69-72. 被引量：2
6王峰,张浩军,阎娟,侯惠芳.编译原理课程教学中的词法分析及其应用[J].计算机教育,2013(17):19-23. 被引量：3
7张兴旺,黄晓斌.图书情报学视角下Web挖掘研究述评[J].图书情报工作,2014,58(4):117-126. 被引量：2
8张琛.机器英语翻译中的模糊语义最优解选取方法[J].英语广场（学术研究）,2018,0(12):43-44.
9王吉林,舒江波,李勇,杨森.分布式Web主题信息抽取的框架探析[J].情报理论与实践,2014,37(12):117-122. 被引量：2
10李文.Web信息提取技术研究与应用分析[J].电子技术与软件工程,2015(3):15-15. 被引量：1

1蔡虹,叶水生,张永.一种基于粗糙-模糊集理论的分类规则挖掘方法[J].计算机工程与应用,2006,42(2):186-187. 被引量：4
2张杰,任毅.基于熵、能量函数的BP网改进算法[J].武汉工业大学学报,1997,19(1):65-67.
3郑盼丽,戴牡红.自动数据挖掘算法[J].计算机系统应用,2012,21(11):218-221. 被引量：3
4李婷,崔杜武.基于规则归纳的遗传算法选择和参数设置[J].计算机工程,2010,36(3):218-220. 被引量：5
5李婷,崔杜武.规则归纳在遗传算法设计中的应用与研究[J].计算机工程与设计,2009,30(20):4697-4700.
6为手机而生宇瞻AS121迷你MicroSD单槽读卡器[J].微型计算机,2008,28(21):107-107.
7礼品丰厚七彩虹iGame4850[J].数码先锋,2008,0(8):83-83.
8计算机及外设[J].今日电子,2008(1):123-123.
9肖新攀,余嘉元,姜远,周志华.从心理学数据中发现可理解的模式[J].计算机科学与探索,2011,5(3):247-255. 被引量：1
10潘定,沈钧毅.时态规则的形式化与度量值估计[J].模式识别与人工智能,2007,20(2):198-204.

计算机工程与应用

2008年第21期

浏览历史

内容加载中请稍等...

基于规则归纳的信息抽取系统实现被引量：19

参考文献16

二级参考文献30

共引文献161

同被引文献129

引证文献19

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于规则归纳的信息抽取系统实现 被引量：19

参考文献16

二级参考文献30

共引文献161

同被引文献129

引证文献19

二级引证文献48

相关作者

相关机构

相关主题

浏览历史

基于规则归纳的信息抽取系统实现被引量：19