一种基于统计的复杂页面正文提取方法被引量：1

A STATISTICS-BASED COMPLEX WEB TEXT EXTRACTION METHOD

下载PDF

导出

摘要随着信息技术的发展，web页面复杂多样的特点愈来愈明显，传统页面正文提取方法的效率和精确度较低。针对这种情况，提出一种基于统计的正文提取算法。该算法依据Html标签特征提取经过过滤的每对“〉”和“〈”之间的文本信息，对其长度进行统计并按照匹配顺序进行排序。根据文本长度最优阈值，划定文本行号区间，最后利用公共子序列进行优化并完成正文提取。实验结果表明，该方法能够精确高效地提取复杂页面的正文信息且具有较好的通用性。 With the development of information technology, complex and diverse characteristics of webpages are getting more and more ap- parent, but the efficiency and accuracy of conventional web text extraction methods are quite low. Aiming at this situation, we propose a sta- tistics-based web text extraction method. The algorithm extracts the text information between every pair of ＂〉＂ and＂〈＂, which has been fil- tered, based on the features of Html tags, and makes statistic on its length and then sorts according to the matching sequence. Depending on the optimal threshold of text length, it delimits the ranges of text line numbers, finally it uses the public sub-sequences to optimise and com- plete the text extraction. Experimental results show that this method can extract the text information from complex web accurately and effec- tively, of course, with better universality.

作者秦成磊魏晓杨阳

机构地区上海应用技术学院计算机科学与信息工程学院

出处《计算机应用与软件》 CSCD 2015年第7期90-92,147,共4页 Computer Applications and Software

关键词复杂页面正文提取统计公共子序列文本长度最优阈值文本行号区间 Complex web pages Text extraction Statistics Public sub-sequence Text length optimal threshold Text line number range

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
3崔继馨,张鹏,杨文柱.基于DOM的Web信息抽取[J].河北农业大学学报,2005,28(3):90-93. 被引量：12
4孙晓伟,毕晓清,吴洪越,赵卫东.基于DOM和VBA的Word文档数据交互式抽取[J].计算机应用与软件,2013,30(2):113-115. 被引量：11
5李朝,彭宏,叶苏南,张欢,杨亲遥.基于DOM树的可适应性Web信息抽取[J].计算机科学,2009,36(7):202-203. 被引量：16
6刘军,张净.基于DOM的网页主题信息的抽取[J].计算机应用与软件,2010,27(5):188-190. 被引量：19
7杨俊,李志蜀.基于DOM的WEB主题信息抽取[J].四川大学学报（自然科学版）,2008,45(5):1077-1080. 被引量：11
8于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
9李蕾,王劲林,白鹤,胡晶晶.基于FFT的网页正文提取算法研究与实现[J].计算机工程与应用,2007,43(30):148-151. 被引量：15
10孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3

二级参考文献74

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6胡飞.基于标记树的Web页面区域划分和搜索方法[J].计算机科学,2005,32(8):182-185. 被引量：7
7赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
8邓健爽,郑启伦,彭宏,林旭东.基于关键词聚类和节点距离的网页信息抽取[J].计算机科学,2007,34(4):213-216. 被引量：8
9黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8
10Yi Lan, Liu Bing, Li Xiaoli. Eliminating Noisy Information in Web Pages for Data Mining[C]//Proc. of the 9th Conference on Knowledge Discovery and Data Mining. [S. l.]: ACM Press, 2003.

共引文献313

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2赵彦斌,李庆华,赵峰.Web网页语义树的构造与利用[J].华中科技大学学报（自然科学版）,2005,33(z1):229-231. 被引量：1
3杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
4欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
5孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
6魏勇刚,张国春,常勇,袁方.基于词性分析和领域知识的Deep Web语义标注[J].郑州大学学报（理学版）,2009,41(1):52-55. 被引量：7
7郑志材,张晶.基于JAVA的网络蜘蛛的设计与实现[J].硅谷,2009,2(14):46-47.
8贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
9宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
10王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8

同被引文献11

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2黄健斌,姬红兵,孙鹤立.Web网页中动态数据区域的识别与抽取[J].计算机工程,2007,33(11):53-55. 被引量：8
3Kohlschutter C,Fankhauser P,Nejdl W.Boilerplate Detection Using Shallow Text Features[C].Proc of the 3th ACM International Conference on Web Search and Data Mining.New York,USA,2010:441-450.
4Cunhe Li,Juan Dong,Juntang Chen.Extraction of Informative Blocks from Web Pages Based on VIPS[J].Journal of Computational Information System,2010:271-277.
5Kadam V,Devale P R.A methodology for template extraction from heterogeneous Web pages[J].Indian Journal of Compute Science and Engineering,2012(3):449-452.
6Pasternak J,Roth D.Extracting Article Text from the Web with Maximum Subsequence Segmentation[C].Proc of the18th Interna-tional Conference on World Wide Web.Madrid,Spain,2009:971-980.
7耿焕同,宋庆席,何宏强.一种基于视觉分块的Web信息抽取方法研究[J].情报理论与实践,2009,32(3):106-109. 被引量：4
8陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
9朱泽德,李淼,张健,陈雷,曾新华.基于文本密度模型的Web正文抽取[J].模式识别与人工智能,2013,26(7):667-672. 被引量：13
10刘利,戴齐,尹红风,贾真,胡万亭.基于多特征融合的网页正文信息抽取[J].计算机应用与软件,2014,31(7):47-49. 被引量：4

引证文献1

1王宇龙,赖华,余正涛,洪旭东,刘书龙.融合结构和内容特征提取多类型网页文本要素[J].山西大学学报（自然科学版）,2016,39(3):386-391. 被引量：1

二级引证文献1

1余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.

1王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
2苏秀芝.基于网页Title标签的正文提取方法[J].福建电脑,2016,32(4):43-44.
3杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
4卢志翔,蒙丽莉.文本分类中特征项权重算法的改进[J].柳州师专学报,2011,26(4):128-131. 被引量：1
5薛云,傅俊橦,李杰进,王杜齐,邝秋华,张美珍,肖化.基于公共子序列的OPSM双聚类算法[J].华南师范大学学报（自然科学版）,2015,47(4):165-171. 被引量：1
6熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
7卢泽纲.利用LotusNotes创新设计Web页面[J].电脑编程技巧与维护,2009(2):50-53.
8付华峥,陈翀,向勇,刘春.分布式大数据采集关键技术研究与实现[J].广东通信技术,2015,35(10):7-10. 被引量：15
9贾红健.代码对比与动态规划[J].电脑编程技巧与维护,2017(3):28-28.
10何钰,姬广超.根据需求应用策略路由[J].网络安全和信息化,2017,0(3):51-52.

计算机应用与软件

2015年第7期

浏览历史

内容加载中请稍等...

一种基于统计的复杂页面正文提取方法被引量：1

参考文献12

二级参考文献74

共引文献313

同被引文献11

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于统计的复杂页面正文提取方法 被引量：1

参考文献12

二级参考文献74

共引文献313

同被引文献11

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于统计的复杂页面正文提取方法被引量：1