基于分块的网页主题文本抽取被引量：5

Extraction of Topical Text from Web Pages Based on Page Segmentation

下载PDF

导出

摘要根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特征进行内容块的分割,以网页的文本内容特征为依据识别链接型和主题型内容块,并提取主题型网页的文本信息块。实验结果表明:基于分块的方法有效地实现了链接型和主题型网页的分类,并准确地完成主题型网页的文本信息块的抽取任务,是一种简单、准确的网页信息抽取方法。 According to the structure and content features of Web pages,a method is proposed,which is applied to extract topical text information in Web pages. Firstly,the Webpage is transformed to the form of DOM Tree, then divided into blocks based on the structural features. Secondly, content blocks are classified into link class or topic class using the content features. Finally,the topical text in topical Web pages is extracted. The experimental result indicates that this method has achieved the classification and extraction of Web pages in simple way ,but effectively and accurately.

作者任玉樊勇郑家恒

机构地区山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2009年第1期141-144,共4页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金资助项目(60473139 60775041)

关键词 HTML标签网页分块内容特征信息抽取 HTML tags Web page segmentation content features information extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1段军峰,黄维通,陆玉昌.中文网页分类研究与系统实现[J].计算机科学,2007,34(6):210-213. 被引量：12
2肖基毅,朱道辉,邹腊梅.基于混合条件模型的Web信息抽取[J].郑州大学学报（理学版）,2008,40(3):52-55. 被引量：2
3MILOS K,MICHELANGEL D.MARCO G,et al. Recognition of common areas in a Web page using a visualization approaeh[C]//Aritifical Intelligence : Methodology, System, and Applications : 10th International Conference, AIMSA 2002. Berlin : Springer. 2002 : 203-212.
4于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
5陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24

二级参考文献30

1林亚平,刘云中,周顺先,陈治平,蔡立军.基于最大熵的隐马尔可夫模型文本信息抽取[J].电子学报,2005,33(2):236-240. 被引量：48
2EMBLEY DW,JIANG YS,NG YK.Record-Boundary Discovery in Web Documents[A].SIGMOD'99 Proceedings[C].1999.
3EMBLEY DW,LI X.Record Location and Reconfiguration in Unstructured Multiple-Record Web Documents[A].WebDB'00 Proceedings[C].2000.
4LIM SJ,NG YK.Extracting Structures of HTML Documents Using a High-Level Stack Machine[M].Information Networking in Asia,Gordon and Breach Science Publishers,Newark,New Jersey,2001.
5LIM SJ,NG YK,YANG XC.Integrating HTML Tables Using Semantic Hierarchies And Meta-Data Sets[A].International Database Engineering and Applications Symposium(IDEAS'02)[C].Edmonton,Canada,2002.
6LIM SJ,NG YK.A Heuristic Approach for Converting HTML Documents to XML Documents[A].Proceedings of the Sixth International Conference on Rules and Objects in Databases(DOOD 2000)[C].London,England,2000.1182-1196.
7LIN SH,HO JM.Discovering Informative Content Blocks from Web Documents[A].KDD 2002[C].2002.588-593.
8YU SP,CAI D,WEN JR,et al.Improving Pseudo-Relevance Feedback in Web Information Retrieval Using Web Page Segmentation[EB/OL].http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&id=632,2002-12.
9WEN JR,SONG RH,CAI D,et al.Microsoft Research Asia at The Web Track of TREC 2003[A].The Twelfth Text Retrieval Conference(TREC'12)[C].2003.
10朱明.[D].中国科学技术大学,2000.

共引文献88

1孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
2郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
3贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
4宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
5吴鹏飞,孟祥增,刘俊晓,马凤娟.网页区域分割与识别技术[J].现代计算机,2006(6):48-50. 被引量：4
6吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
7郑俭,许家成,冯素梅,叶帮利.对因特网特殊教育资源的整合与多方式传播[J].中国特殊教育,2006(8):46-49. 被引量：4
8邵斐,孙济庆.一种适用于动态网页的网络蜘蛛爬行策略研究[J].情报杂志,2007,26(5):28-30. 被引量：5
9黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
10黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8

同被引文献79

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量：2
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
6吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
7谭胜,马静,吴一占.基于主题描述模型的相关性判断在网页信息抽取中的应用[J].情报学报,2011,30(2):155-159. 被引量：6
8骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
9曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006,32(3):134-135. 被引量：10
10谢海光,陈中润.互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006,25(3):95-100. 被引量：113

引证文献5

1黄锋,吴华瑞.一种自适应的Web信息抽取规则自动生成方法[J].广西师范大学学报（自然科学版）,2010,28(1):127-130. 被引量：5
2夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2
3孙明柱,魏海平.基于结构树的网页正文内容抽取方法[J].科学技术与工程,2011,11(28):6990-6993. 被引量：2
4郭淼霞.中文网页分类研究综述[J].赤峰学院学报（自然科学版）,2011,27(12):51-53.
5郝晓玲.网络舆情研判技术的研究进展[J].情报科学,2012,30(12):1901-1906. 被引量：8

二级引证文献17

1张江涛,杜永萍.基于语义链的检索在QA系统中的应用[J].计算机科学,2013,40(2):257-260. 被引量：6
2夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：76
3蒋亚平,赵军伟,田月霞.IBM算法及其在Snort系统下的实现[J].郑州大学学报（理学版）,2014,46(2):50-54.
4顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
5孙想,李庆学,吴华瑞,王一红,刘艳平.基于信息资源聚合的农民专业合作社信息系统[J].计算机工程与设计,2014,35(10):3697-3700. 被引量：2
6方付建.网络舆情研究中量化方法应用态势分析[J].情报杂志,2014,33(10):47-51. 被引量：3
7付业勤,郑向敏.旅游网络舆情研究体系建构研究[J].重庆工商大学学报（社会科学版）,2015,32(2):74-82. 被引量：8
8郑安怡.用于文本情感分析的特征加权改进算法[J].计算机工程与应用,2015,51(21):30-35. 被引量：1
9李宝密.基于自动生成模板的Web信息抽取技术[J].网络安全技术与应用,2016(9):56-56. 被引量：3
10游丹丹,陈福集.我国网络舆情预测研究综述[J].情报科学,2016,34(12):156-160. 被引量：19

1镜花水月.提取主题中的壁纸图片[J].电脑爱好者,2015,0(17):63-63.
2张俊英,胡侠,卜佳俊.网页文本信息自动提取技术综述[J].计算机应用研究,2009,26(8):2827-2831. 被引量：9
3火善栋.基于网页结构特征的网页主要文本信息抽取策略[J].现代计算机,2008,14(4):73-75. 被引量：4
4张芳,肖国强.基于专业搜索引擎的元搜索引擎的设计[J].郑州大学学报（理学版）,2007,39(2):38-41. 被引量：2
5肖国强,张芳.一个元搜索引擎的设计与实现[J].微处理机,2008,29(4):53-55.
6史庆伟,郭朋亮.基于LDA的条件随机场主题模型研究[J].计算机工程与应用,2015,51(7):131-135. 被引量：1
7药珍妮.基于主题和特征的文本相似度算法研究[J].软件,2016,37(10):123-126.
8曹英,徐卫.基于网页的语料库自动生成[J].电脑知识与技术（过刊）,2010,0(23):6438-6439. 被引量：1
9王德广,周志刚,梁旭.PageRank算法的分析及其改进[J].计算机工程,2010,36(22):291-292. 被引量：43
10李开荣,林颖,杭月芹.基于语义模型的文档特征提取[J].计算机工程与应用,2005,41(17):173-176. 被引量：2

广西师范大学学报（自然科学版）

2009年第1期

浏览历史

内容加载中请稍等...

基于分块的网页主题文本抽取被引量：5

参考文献5

二级参考文献30

共引文献88

同被引文献79

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于分块的网页主题文本抽取 被引量：5

参考文献5

二级参考文献30

共引文献88

同被引文献79

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于分块的网页主题文本抽取被引量：5