基于HTML结构特征的网页信息提取被引量：5

Page Information Extraction Based on the Structure of the HTML

下载PDF

导出

摘要 Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。 Large amount of information on the Web is stored as HTML documents. Traditional web page data extraction method is to use Wrapper to collect data of interest. Wrapper need the knowledge acquisition of pattern recognition, which is a time and effort consuming work, and needs high intelligence. Based on the structure features of news web pages, and from the visual perspective, the web page＇s space structure was partitioned into noise and information entities. A method of extracting news web pages principal part was discussed, according to the hierarchical structure and node statistical information. The traditional DOM model was improved, and the hierarchy and style attribute to distinguishing the noise and principal parts were added Some statistic information was added to the DOM node. By utilizing the special format of news headlines and time string, a method, which combines positive information extraction and negative noise reducing, to get structured data from news web pages was proposed and implemented. Experiments show that it is effective to use the method to extract the information of news.

作者胡瑜王立志

机构地区天津大学计算机科学与技术学院天津大学管理学院

出处《辽宁石油化工大学学报》 CAS 2009年第3期65-69,共5页 Journal of Liaoning Petrochemical University

关键词信息提取 DOM LA-DOM HTML解析噪声标记 Information extraction DOM LA-DOM HTML parse Noise mark

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1中国互联网络信息中心(CNNIC).第19次中国互联网络发展状况统计报告[R].2007.
2韩家炜范明孟小峰.数据挖掘概念与技术[M].北京：机械工业出版社,2001..
3Soumen Chakrabarti. Mining the web: discovering knowledge from hypertext data[M]. USA: Morgan kaufmann publishers, 2002.
4朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
5Liu Bing . Editorial: special issue on web content mining[J]. Acm Sigkdd explorations newsletter,2004, 6(2):1-4.
6李彦刚,魏海平,侯兴华.基于HTMLParser的Web信息抽取系统的设计与实现[J].辽宁石油化工大学学报,2006,26(2):83-86. 被引量：8

二级参考文献14

1许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
2Muslea I.Extraction Patterns for Information Extraction Tasks:A Survey[C].AAAI-99 Workshop on Machine Learning for Information Extraction,1999.
3Eikvil L.Information Extraction from World Wide Web-A Survey[R].Norwegian Computer Center,Tech.Rep:945,1999-07.
4World Wide Web Consortium:The Document Object Model[EB/OL].http://www.w3.org/DOM,2004.
5Chang Chiahui,Lui Shaochen.IEPAD:Information Extraction Based on Pattern Discovery[C].Proceedings of the Tenth International Conference on World Wide Web,Hong Kong,2001-05.
6Horstmann C S．Java2核心技术[M]．第5版．北京：机械工业出版社,2001．
7CHANG Chia- hui, HSU Chun- nan, LUI Shao cheng. Automatic information extraction from semi-structured Web pages by pattern discovery[ J ]. Decision support systems,2003,35 ( 1 ) : 129-147.
8Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[J ]. Computer networks and ISDN systems,1998,30( 1 ): 107 - 117.
9王自军,崔朝辉,刘恩,李志刚,程小茁.Web技术在股票查询系统中的应用及Java实现[J].石油化工高等学校学报,2000,13(3):78-80. 被引量：4
10李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101

共引文献61

1林昌平,郑皎凌.基于DOM规范的网页分析技术研究[J].成都信息工程学院学报,2007,22(z1):113-117. 被引量：2
2田启明,王丽珍,尹群.基于网格距离的聚类算法的设计、实现和应用[J].计算机应用,2005,25(2):294-296. 被引量：12
3刘瑛,白振兴,褚文奎.基于数据挖掘的OLAP分析技术及应用[J].现代电子技术,2006,29(1):72-74. 被引量：6
4孙志伟,赵政,王红梅.基于网格和密度的随机样例的聚类算法[J].天津大学学报,2006,39(5):621-626. 被引量：2
5袁鼎荣,王日凤,郭燕萍,曾德胜.一种多特征方查询的有效算法[J].计算机工程与设计,2007,28(6):1257-1260.
6胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,2007,23(3):209-210. 被引量：9
7滕国库,张一弓.基于ARM嵌入式芯片TCP/IP协议的数据采集设计[J].辽宁石油化工大学学报,2007,27(4):51-55. 被引量：5
8高加旺,孙名松,陈福.基于相似度曲线的新闻网页分类模型研究[J].信息技术,2008,32(2):15-18.
9徐翔斌,周新建.基于决策树和规则引擎的挖掘机液压故障诊断专家系统[J].液压与气动,2008,32(3):13-16. 被引量：2
10石孝武,申群太.带钢卷取温度高精度预报的遗传神经网络方法[J].计算机工程与应用,2008,44(16):225-227. 被引量：2

同被引文献34

1王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
2谷利芬,于亚征.Web采集技术的分析[J].焦作大学学报,2005,19(3):78-79. 被引量：1
3姜海洋,伊明,赵孟.一种自动化的网页数据抽取方法[J].科学技术与工程,2006,6(14):2174-2176. 被引量：1
4刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
5张茂元,邹春燕,卢正鼎.一种基于语义匹配的Web信息提取方法研究[J].计算机工程与应用,2006,42(23):141-143. 被引量：3
6梅东霞,张晓明.基于单个XML文档结构的数据挖掘[J].石油化工高等学校学报,2007,20(1):94-98. 被引量：3
7赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
8张茂元,张金隆,卢正鼎,邹春燕.基于特征相关学习的网页信息提取方法[J].华中科技大学学报（自然科学版）,2007,35(7):1-4. 被引量：2
9Mickey Williams.Visual C#.NET技术内幕(修订版)[M].北京:清华大学出版社,2007.
10金越富.Web信息采集与信息抽取技术的研究[D].哈尔滨:哈尔滨理工大学,2009.

引证文献5

1赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1
2屈武江.基于网页数据抽取技术的图书著录系统设计与实现[J].辽宁师专学报（自然科学版）,2012,14(2):45-48.
3黄昱阳,李慧伦.基于XML的Web信息数据库的建立[J].计算机与现代化,2012(9):222-224.
4王帆,张俊杰,欧阳琳.基于win8的天气新闻类应用实现[J].软件工程师,2014(5):33-36.
5林帆,秦晓.一种基于爬虫和html特征提取的移动端跨应用资讯整合展示方案[J].数码世界,2019,0(11):9-9. 被引量：1

二级引证文献2

1郭培铭.基于文献特征提取网页信息的算法研究[J].现代计算机,2019,25(2):37-40.
2林秋芬,张更路.基于C#的乒乓球赛事信息爬虫设计[J].电脑编程技巧与维护,2020(1):8-10.

1陈爽,李先国,陈福,李素.一种抽取新闻网页结构化数据的方法[J].燕山大学学报,2007,31(6):485-488. 被引量：1
2钟春琳,司方豪.一种基于网络爬虫解析HTML的网络热词获取方法[J].电脑编程技巧与维护,2014(12):96-97. 被引量：1
3夏飞,丁胜,孟振南,汤叶舟,谢景文.基于云计算平台的HTML解析系统的设计与实现[J].现代计算机,2015,21(1):42-44. 被引量：1
4金涛.网络爬虫在网页信息提取中的应用研究[J].现代计算机,2012,18(1):16-18. 被引量：11
5严宏伟,何俊.基于房源分析系统的垂直搜索引擎关键技术的探讨[J].中国科技信息,2007(5):153-155.
6张宇林.汇编语言实现PCI设备配置空间的访问[J].微型电脑应用,2004,20(6):50-52.
7史承毅.在基于J2EE架构的网站中集成HTTP代理的设计与实现[J].计算机应用,2011,31(A01):27-29. 被引量：4
8李伟,黄颖.基于HtmlParser的网页信息提取[J].兵工自动化,2007,26(7):41-41. 被引量：4
9钱承聿,唐建国.基于DOM树实现轻量级XML文档解析[J].电脑编程技巧与维护,2016(18):35-36. 被引量：3
10李伟.基于XML＋DOM4J的数据库集成技术研究[J].电脑知识与技术,2007(3):1192-1192. 被引量：1

辽宁石油化工大学学报

2009年第3期

浏览历史

内容加载中请稍等...

基于HTML结构特征的网页信息提取被引量：5

参考文献6

二级参考文献14

共引文献61

同被引文献34

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于HTML结构特征的网页信息提取 被引量：5

参考文献6

二级参考文献14

共引文献61

同被引文献34

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于HTML结构特征的网页信息提取被引量：5