基于Agent的Web页面结构化信息抽取

Agent-Based Structured Information Extraction from Web Pages

下载PDF

导出

摘要结合当前Web站点的数据特点,以信息项在页面中的出现位置为信息抽取的路径,利用PAT树技术,提出了一个多Agent协作的自动信息抽取模型.该模型能够自动分析样本页面数据特征,归纳学习整个站点的数据模式,生成抽取规则,指导以后的抽取动作.实验结果表明,该模型对Web页面的结构化信息抽取具有较高的效率.

作者岳国伟梁永全

机构地区山东科技大学信息科学与工程学院

出处《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期344-349,共6页 Journal of Computer Research and Development

基金国家自然科学基金项目(70371052)

关键词智能体 PAT树信息抽取 WEB

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献12

1[1]A Gulli,A Signorini.The indexable Web is more than 11.5 billion pages.International World Wide Web Conf,Tokyo,2005
2李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
3[3]G Webb,J Well,Z Zheng.An experimental evaluation of integrating machine learning with knowledge acquisition.Machine Learning,1999,311(1):5-23
4[4]N Kushmeriek,D Weld.Induction for information extraction.The 15th Int'l Joint Conf on Artificial Intelligent,Nagoya,1997
5[5]H Ouahid,A Karmouch.An XML-based Web mining agent.MATA'99,Ottawa,1999
6[6]Shiren Ye,Tat-Seng Chua.Learning object model from product Web pages.IEEE Trans on Knowledge and Data Engineering,2006,18(3):334-349
7周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541. 被引量：34
8[8]W3C.http://www.w3.org/People/Raggett/tidy/,2007
9[9]Chia -Hui Chang,Shao -Chen Lui,Yen-Chin Wu.Applying pattern mining to Web information extraction.The 5th Pacific-Asia Conference on Knowledge Discovery and Data Mining,Hong Kong,2001
10[10]Monash University.http://www.csse.monash.edu.au/～lloyd/tildeAlgDS/Tree/Suffix/,2007

二级参考文献26

1[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
2[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
3[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
4[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
5[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
6[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
7[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997
8[3]Sager N.Natural Language Information Processing. Reading,Massachusetts:Addison Wesley, 1981
9[4]Dejong G.An Overview of the FRUMP System[C].In:LEHNERT W,RINGLE M h eds. Strategies for Natural Language Processing,Lawrence Erlbaum, 1982:149～176
10[5]Grishman R,Sundheim B.Message Understanding Conference-6:A Brief History[C].In :Proceedings of the 16h International Conference on Computational Linguistics(COLING-96),1996-08

共引文献209

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
4张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
5李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
6宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
7李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2
8马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23. 被引量：2
9陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1
10宫秀志.对中国画人物画创新探索的几点认识[J].齐齐哈尔大学学报（哲学社会科学版）,2005(1):119-119.

1霍永,罗钊.垂直搜索引擎浅析[J].广西警官高等专科学校学报,2009,22(4):38-41. 被引量：1
2张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
3王中元.国内外条形码技术综述（二）[J].图象识别与自动化,1990(2):109-122.
4侯保霞,娄承肇.通向21世纪的电子信息“高速公路”[J].世界科学,1993(12):37-38. 被引量：1
5赵丽,郭宏文.基于双字哈希的PAT树词典机制的研究[J].黑龙江生态工程职业学院学报,2011,24(1):37-39.
6张彦,邵志清.具有概念联想功能的特定领域分词词典的自动构建[J].计算机工程,2004,30(20):148-150. 被引量：3
7陈志雄,朱向庆.基于特征词统计的网页结构化信息抽取[J].嘉应学院学报,2011,29(2):18-21. 被引量：1
8张锋,樊孝忠,许云.Chinese Term Extraction Based on PAT Tree[J].Journal of Beijing Institute of Technology,2006,15(2):162-166. 被引量：2
9郝爱峰.网页结构化信息抽取技术方法研究[J].山西电子技术,2008(4):75-76. 被引量：3
10朱剑林.基于PAT树的程序静态分析方法[J].咸宁学院学报,2007,27(6):44-48. 被引量：1

计算机研究与发展

2007年第z2期

浏览历史

内容加载中请稍等...

基于Agent的Web页面结构化信息抽取

参考文献12

二级参考文献26

共引文献209

相关作者

相关机构

相关主题

浏览历史