一种基于SVM的Web信息自动化抽取方法

Web Information Automatic Extraction Method Based on SVM

下载PDF

导出

摘要针对传统的Web信息抽取方法运算量大、自动化程度低的问题,提出了一种基于SVM的WEB信息自动化抽取方法。利用SVM优秀的分类性能将网页中有用数据和无用数据分类标注,有效地完成Web信息抽取任务,准确地抽取出所需信息,实现数据抽取的自动化。实验结果表明,该方法可以有效地获取网页信息特征,具有较高的召回率和准确率。 Given the problems of heavy computation and low automatic level existed in traditional Web information extraction method, this paper proposes a kind of web information automatic extraction method based on SVM, effectively completing the task of Web information extraction and precisely extracting information so as to realize automation of data extraction. The results show that SVM can be used in web information extraction and it has higher rates of recall and precision.

作者王亚利李晓静

机构地区济源职业技术学院

出处《东莞理工学院学报》 2012年第5期53-57,共5页 Journal of Dongguan University of Technology

关键词支持向量机信息抽取分类学习 support vector machine web information extraction classification learning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1许建华,张学工.统计学理论基础[M].北京:电子工业出版社,2004.
2袁明轩,张选平,蒋宇,赵仲孟.一种基于同层网页相似性去除网页噪音的方法[J].计算机工程,2006,32(23):61-63. 被引量：3
3李文立,王乐超,宋春雷.基于HTML树和模板的文献信息提取方法研究[J].计算机应用研究,2010,27(12):4615-4617. 被引量：7
4李文杰,李方方,魏红.基于支持向量机的位置相关计算[J].计算机仿真,2008,25(2):124-126. 被引量：1
5Keerthi S S. Convergence of a Generalized SMO Algorithm for SVM Classifier Design TR CD -00 -01Control Division Dept of Mecha And Prod [ D 1. Singapore : Engineering National University of Singapore, 2000.
6李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178

二级参考文献40

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
4[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
5[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
6[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
7[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
8[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
9[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997
10[3]Sager N.Natural Language Information Processing. Reading,Massachusetts:Addison Wesley, 1981

共引文献186

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
4岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
5张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
6李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
7宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
8徐慧,窦子辉,杨林,陈雪.面向终端用户的网页过滤模板动态生成技术研究[J].计算机科学,2012,39(S2):90-93. 被引量：2
9李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2
10马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23. 被引量：2

1段雪丽,杨恒.基于Web的数据挖掘方法的研究及实现[J].邢台职业技术学院学报,2006,23(1):45-48. 被引量：1
2重剑.假冒屏保实窃网络账户[J].电脑爱好者,2015,0(18):39-39.
3何鲲,朱方洲.基于Web的数据挖掘方法的研究及实现[J].合肥学院学报（自然科学版）,2005,15(2):24-27. 被引量：7
4肖建鹏,张来顺,任星.直推式支持向量机在Web信息抽取中的应用研究[J].计算机工程与应用,2009,45(2):147-149. 被引量：6
5徐立洋.给数据上个全面“保险”[J].中国计算机用户,2008(30):66-66.
6江湍,李茂青,黄雯霆.BBS网络监听与检测系统研究[J].自动化技术与应用,2006,25(11):13-15. 被引量：1
7夏斌.基于分布式数据库的半连接查询计划选择算法[J].电子技术与软件工程,2017(4):199-199.
8种玉珍,吴晓,倪红波,王海鹏.上下文推理技术在智能家庭中的研究与应用[J].计算机工程,2009,35(13):183-185. 被引量：2
9贾美柱,徐燕,赵林明.对Win98注册表中无用数据的分析及处理[J].华南金融电脑,2003,11(11):62-63.
10李丽双,黄德根,毛婷婷,徐潇潇.基于支持向量机的中国人名的自动识别[J].计算机工程,2006,32(19):188-190. 被引量：9

东莞理工学院学报

2012年第5期

浏览历史

内容加载中请稍等...

一种基于SVM的Web信息自动化抽取方法

参考文献6

二级参考文献40

共引文献186

相关作者

相关机构

相关主题

浏览历史