基于多知识的Web网页信息抽取方法被引量：10

INFORMATION EXTRACTION FROM Web PAGES BASED ON MULTI KNOWLEDGE

下载PDF

导出

摘要从 Web网页中自动抽取所需要的信息内容 ,是互联网信息智能搜取的一个重要研究课题 .为有效解决网页信息抽取所需的信息描述知识获取问题 ,这里提出了一种基于多知识的 Web网页信息抽取方法 (简称 MKIE方法 ) .该方法将网页信息抽取所需的知识分为二类 .一类是描绘网页内容本身表示特点 ,以及识别各网页信息对象的确定模式知识 ;另一类则描述网页信息记录块 ,以及各网页信息对象的非确定模式知识 .MKIE方法根据前一类知识 ,动态分析获得后一类知识 ;并利用这两类知识 ,最终完成从信息内容类似但其表现形式各异的网页中 ,抽取出所需要的信息 .美大学教员论文网页信息抽取实验结果表明。 Web page information extraction is an important study field in the AI research on the WWW. To tackle the problem of knowledge acquisition in the web page information extraction, a new approach based on multi knowledge for web information extraction is put forward. Two knowledge are used in this method (called MKIE). One is composed of the knowledge that characterizes the web page content and the definite patterns for the information objects in the web pages. The other one consists of the knowledge that describes the web page content displaying patterns and the non definite patterns for the information objects in the web pages. The latter knowledge can be acquired through learning based the former type knowledge and those two knowledge are used together to extract information from the same sort of web pages with different displaying styles successfully. The experiment made on the U.S. university faculty's paper web page information extraction show that the MKIE has a powerful ability to recognize the information displaying patterns and to extract them effectively.

作者朱明黄云蔡庆生

机构地区中国科技大学自动化系

出处《小型微型计算机系统》 CSCD 北大核心 2001年第9期1058-1061,共4页 Journal of Chinese Computer Systems

基金安徽省自然科学基金资助 (项目编号 :98312 82 0 )

关键词 WEB 网页信息抽取知识互联网 Semi-structured data Information extraction Pattern recognition

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1Hammer J，Proceedings of the Workshop on Management of Semistructured Tucson，1997年，18～25页

同被引文献47

1王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
2林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
3曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
4朱明.互联网信息智能搜索与获取方法研究[M].合肥:中国科技大学,2001..
5SEYMORE K, MCCALI.UM A, ROSENFEL R. Learning hidden Markov model structure for information extraction[C] //Pro-ceedings of the AAAI--99 Workshop on Machine Learning for Information Extraction. Orlando, 1999:37--42.
6BERGER A, PIETRA S, PIETRA V. A maximum entropy approach to natural language proeessing[J]. Computational Languis-ties, 1996,22(1) :39--71.
7.[EB/OL].http: ∥www. flud. com,.
8Hsinchun Chen, Ann M. Lally, Bin Zhu, and Michael Chau, HelpfulMed: Intelligent Searching for Medical Information over the Internet, JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 54(7): 683- 694, 2003
9Bing Liu,Robert Grossman and Yanhong Zhai,Mining Data Records in Web Pages,The Proceedings of SIGKDD.03,August 24-27,2003,Washington,DC,USA.
10Liu Ling, Pu Calton., Han Wei. An XML- enabled data extraction toolkit for web sources[ J ]. Information Systems, 2001,26(2) :563 - 583.

引证文献10

1周霜菊,孙济庆.基于Agent的Web知识过滤器设计[J].计算机与数字工程,2005,33(3):85-89.
2许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
3胡美燕,谢磊.软件代理模式在网络信息检索中的应用[J].山东科技大学学报（自然科学版）,2007,26(2):72-74.
4林鸿飞,杨志豪,赵晶.中文文本的信息自动抽取和相似检索机制[J].小型微型计算机系统,2007,28(11):2074-2079. 被引量：3
5侯锟,罗海龙.Web页面列表信息的自主抽取[J].科技广场,2007(3):117-118.
6火善栋.基于网页结构特征的网页主要文本信息抽取策略[J].现代计算机,2008,14(4):73-75. 被引量：4
7卢中宁,刘放美,严宇辉.基于XML的密集型Web信息抽取与集成研究[J].郑州轻工业学院学报（自然科学版）,2008,23(3):31-35. 被引量：2
8程显林,王敬山,韩冬,姜建国.互联网络科技信息自动抽取系统的开发[J].大庆石油学院学报,2008,32(6):103-105.
9朱明,严捷丰,蔡庆生.基于主题的Web信息个性化服务[J].计算机应用,2002,22(12):4-6.
10朱明,王胜,周津.基于Web企业竞争对手情报自动搜集平台[J].微计算机应用,2004,25(1):1-7. 被引量：12

二级引证文献36

1刘鲁红.信息抽取技术及其在数字图书馆中的应用[J].中国信息导报,2005(2):49-52. 被引量：1
2刘鲁红,刘力强,胡亚军.信息抽取技术在数字图书馆中的应用研究[J].情报理论与实践,2005,28(3):321-324. 被引量：12
3王宁.基于客户关系管理的潜在信息需求显化[J].情报杂志,2005,24(7):100-101. 被引量：5
4谷秀岩 ,姜林枫 ,张子怡 .基于用户浏览行为度量浏览兴趣的研究[J].信息技术与信息化,2005(4):43-45. 被引量：3
5胡昌平,王宁.基于客户关系管理的潜在信息需求的显化与互动式信息服务的推进[J].图书情报工作,2005,49(12):93-96. 被引量：11
6夏敏捷,张慧档.基于Web日志挖掘的个性化服务站点[J].微计算机应用,2006,27(1):35-38. 被引量：4
7申利民,王敏.基于柔性的个性化服务系统的开发过程[J].计算机工程与设计,2006,27(6):1086-1089. 被引量：1
8李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8
9龙波,邓健爽,陈琼.基于网页布局及关键词组的垂直搜索技术[J].现代计算机,2006,12(9):46-49. 被引量：3
10韩志扬,孟晓景.Web2．0 RIA基础类研究[J].福建电脑,2006,22(10):34-35.

1朱明,王军,王俊普.基于多层模式的多记录网页信息抽取方法[J].计算机工程,2001,27(9):40-42. 被引量：5
2洪国彬.专家系统中的知识获取问题[J].华侨大学学报（自然科学版）,1995,16(4):451-454. 被引量：3
3钟秉林,颜廷虎.启发性故障诊断知识自动获取机制[J].东南大学学报（自然科学版）,1995,25(4):40-46.
4张细政,邢立宁,伍栖.基于遗传算法的数据挖掘方法及应用[J].哈尔滨工程大学学报,2006,27(B07):384-388. 被引量：3
5张建明,荣冈.基于关联规则的故障诊断方法及研究[J].化工自动化及仪表,2003,30(5):11-14. 被引量：15
6程显林,王敬山,韩冬,姜建国.互联网络科技信息自动抽取系统的开发[J].大庆石油学院学报,2008,32(6):103-105.
7侯一凡,马登伟,张有为,刘小春.基于.net论文管理平台的研究与实现[J].电脑知识与技术,2012,8(5):3109-3110.
8刘志均.基于关系数据库的关键词查询[J].电子世界,2014(2):79-80.
9刘磊,何沁洁,常青,邱桂苹.基于缺陷模式的静态分析技术在自主可控平台的应用[J].科学家,2016,4(1):20-20.
10刘康平,李增智.网络告警知识发现研究与实现[J].计算机工程与应用,2001,37(23):25-27. 被引量：4

小型微型计算机系统

2001年第9期

浏览历史

内容加载中请稍等...

基于多知识的Web网页信息抽取方法被引量：10

参考文献1

同被引文献47

引证文献10

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于多知识的Web网页信息抽取方法 被引量：10

参考文献1

同被引文献47

引证文献10

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于多知识的Web网页信息抽取方法被引量：10