一种基于信息熵的Web页面主题信息抽取方法被引量：6

Extracting topic information of Web page based on entropy

下载PDF

导出

摘要提出了一种剪枝信息熵增较大结点的信息抽取方法。通过对HTML文档解析来构造DOM树,根据配置过滤掉不需处理的相关内容并建立语义模型树,最后对熵增超过阈值的结点进行剪枝并输出抽取的主题信息页面,初步实验结果验证了用这种方法进行Web页面信息抽取的有效性。方法的数学模型简单可靠,基本不需要人工干预即可完成主题信息抽取。可应用于Web数据挖掘系统以及PDA等移动设备的信息获取方面。 This paper presents a method of information extraction by pruning the nodes of which information entropy production reach a certain extent.Firstly,a DOM tree is constructed by parsing HTML document.Then,the nodes which don＇t need to be dealt with are filtrated out,and a STU tree is created.Lastly,the nodes whose information entropy＇s increase overtops the threshold value are pruned,and the topic information of the Web pages is obtained.The primary experiment result proves the validity of the method using for extracting Web page＇s information.The mathematical model of the method is simple and credible,so it can work automatically without intervention of people.This method can be applied to Web data mining and information extraction for mobile device such as PDA etc.

作者贺智平徐学洲李爱玲

机构地区西安电子科技大学软件工程研究所

出处《计算机工程与应用》 CSCD 北大核心 2007年第4期164-166,共3页 Computer Engineering and Applications

关键词 WEB 抽取 STU-DOM树信息熵 Web extraction STU-DOM tree information entropy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：177
3Gupta S,Kaiser G,Neistadt D,et al.DOM-based content extraction of HTML documents[C]//12th International World Wide Web Conference,May 2003.
4Gupta S,Kaiser G E,Grimm P,et al.Automating Content Extraction of HTML Documents[J].World Wide Web Journal.
5Rahman A F R,Alam H,Hartono R.Content extraction from HTML documents[C]//lst Int Workshop on Web Document Analysis (WDA2001),2001.

二级参考文献33

1[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
2[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
3[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
4[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
5[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
6[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
7[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997
8[3]Sager N.Natural Language Information Processing. Reading,Massachusetts:Addison Wesley, 1981
9[4]Dejong G.An Overview of the FRUMP System[C].In:LEHNERT W,RINGLE M h eds. Strategies for Natural Language Processing,Lawrence Erlbaum, 1982:149～176
10[5]Grishman R,Sundheim B.Message Understanding Conference-6:A Brief History[C].In :Proceedings of the 16h International Conference on Computational Linguistics(COLING-96),1996-08

共引文献255

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
5岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
6张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
7李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
8宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
9李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2
10马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23. 被引量：2

同被引文献67

1LIANG Ji-ye, QU Kai-she Department of Computer Science, Shanxi University, Taiyuan 030006, China.Information Measures of Roughness of Knowledge and Rough Sets for Incomplete Information Systems[J].Journal of Systems Science and Systems Engineering,2001,13(4):418-424. 被引量：9
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：7
4刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
5王琰,丁明明.基于熵的柱面全景图拼接算法及其鲁棒性分析[J].小型微型计算机系统,2007,28(1):148-150. 被引量：10
6姜柄圭,张秦龙,谌贻荣,常宝宝.面向机器辅助翻译的汉语语块自动抽取研究[J].中文信息学报,2007,21(1):9-16. 被引量：12
7李慧,沈洁,张舒,顾天竺,吴颜,陈晓红.基于页面分块与信息熵的评论发现及抽取[J].计算机应用研究,2007,24(2):269-271. 被引量：4
8朱红灿,邹凯.基于机器学习的Web链接的抽取[J].情报理论与实践,2007,30(2):252-255. 被引量：2
9刘挺,车万翔,李生.基于最大熵分类器的语义角色标注[J].软件学报,2007,18(3):565-573. 被引量：73
10赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33

引证文献6

1朱红灿,肖子昂.基于聚类的Web链接抽取[J].网络安全技术与应用,2009(3):75-77. 被引量：1
2孟军,刘秋水,王秀坤.节点频度和语义距离相结合的网页正文信息抽取[J].计算机工程与应用,2009,45(1):140-143. 被引量：3
3朱红灿,陈能华,周永红.计算Web页面信息熵的方法[J].计算机工程与设计,2010,31(1):114-117. 被引量：1
4张春娜,李轶然.基于混沌粒子群的模糊C-均值聚类算法[J].计算机工程与设计,2013,34(3):1039-1043. 被引量：1
5李文,郑邦习,邓武.基于XML和DOM技术的Web信息抽取模型[J].大连交通大学学报,2013,34(3):96-99. 被引量：1
6姜茸,廖鸿志,杨明.信息熵在软件领域中的应用研究现状[J].自动化技术与应用,2015,34(4):1-6. 被引量：5

二级引证文献12

1朱红灿,陈能华,周永红.计算Web页面信息熵的方法[J].计算机工程与设计,2010,31(1):114-117. 被引量：1
2王少康,董科军,阎保平.使用特征文本密度的网页正文提取[J].计算机工程与应用,2010,46(20):1-3. 被引量：13
3殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3
4杨晓娟,廖晨辉.一种两阶段的多媒体教育资源网页消重方法[J].现代教育技术,2012,22(9):93-96.
5向程冠,熊世桓.基于CSS视觉分块的Web碎片信息抽取算法[J].计算机光盘软件与应用,2013,16(16):63-65.
6杨晔.基于抗体浓度和混沌粒子群的投资收益仿真[J].计算机工程与设计,2014,35(5):1694-1698.
7赵琳,行致源.基于最重要特征的裁剪k-近邻分类算法设计[J].电子设计工程,2019,27(14):135-138. 被引量：5
8陈彦,于徐红,杨惠仁,代亮.基于相似性的C语言源程序自动评分系统的研究[J].电脑与电信,2019,0(10):29-31. 被引量：1
9董嘉敏,田华.基于局部熵的点云精简算法[J].现代电子技术,2020,43(1):20-23. 被引量：1
10黄莉峥,刘嘉勇,郑荣锋,李孟铭.一种基于暗网的威胁情报主动获取框架[J].信息安全研究,2020,6(2):131-138. 被引量：7

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2关于图片上传后找路径[J].黑客防线,2005(9):140-140.
3邓杰英.浅谈组建Intranet及其应用[J].华南金融电脑,2002(10):100-101.
4张红亮.人为因素对网络bbs系统的信息熵增的影响[J].科技创新导报,2008,5(8):31-31. 被引量：1
5文静云,古平,吴庭君.基于加权自然邻域属性和熵的离群检测算法[J].数字技术与应用,2015,33(2):136-139.
6苏秀芝.基于标题与文本距离的网页去噪算法的研究[J].中小企业管理与科技,2014(24):229-230.
7付费搜索信息醒目区分[J].金融科技时代,2016,24(9):91-91.
8朱梦麟,李光耀,周毅敏.基于树比较的Web页面主题信息抽取[J].微型机与应用,2011,30(19):67-69.
9王吉林,舒江波,李勇,杨森.分布式Web主题信息抽取的框架探析[J].情报理论与实践,2014,37(12):117-122. 被引量：2
10周震方.远方的客人,来我的博客闪聊会[J].电脑爱好者,2009(2):42-42.

计算机工程与应用

2007年第4期

浏览历史

内容加载中请稍等...

一种基于信息熵的Web页面主题信息抽取方法被引量：6

参考文献5

二级参考文献33

共引文献255

同被引文献67

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种基于信息熵的Web页面主题信息抽取方法 被引量：6

参考文献5

二级参考文献33

共引文献255

同被引文献67

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

一种基于信息熵的Web页面主题信息抽取方法被引量：6