基于分块的网页主题信息自动提取算法被引量：6

An automatic extraction algorithm of Web pages topical informati on based on blocks

下载PDF

导出

摘要对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网页进行分块,改进了传统的文本特征选择方法,把网页块表示成特征向量,并根据有序标记集识别主题内容块.用该算法改进了网页分类的预处理过程,提高了分类的速度和准确性.实验表明,对网页进行主题信息提取后再进行分类,可以提高分类系统的查全率和查准率. According to the semi-structure of the template-based Web pages in the Internet,an algorithm which can identify the topic content blocks was proposed.In this algorithm,the Web-page is segmented according to the HTML tags,and the Web page block is represented as feature vector,which improved the traditional text feature selection method.After using the Algorithm in the pretreatment of Web page classification,the speed and correctness of the classification was improved a lot.Experiment shows that the algorithm can improve the precision and recall of a classification after the topic content extraction procedure.

作者殷贤亮李猛

机构地区华中科技大学计算机科学与技术学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2007年第10期39-41,共3页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

关键词网页分块主题信息自动提取特征选择网页分类 Web-page segmentation topic content information automate extraction feature selection Web page classification

分类号 TP309 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1Li Shianhua,Ho Janming.Discovering informative content blocks from Web documents[C]//Proceedings of ACM SIGKDD.Edmonton:ACM,2002:588-593.
2Kovacevic M,Diligenti M,Gori M,et al.Recognition of common area in a Web page using visual information:a possible application in a page classification[C]//Proceedings of the 2002 IEEE International Conference on Data Mining.Hong Kong:IEEE Computer Society,2002:250-257.
3Sandip Debnath,Prasenjit Mitra,Lee Giles.Identifying content blocks from Web documents[C]//Proceedings of the 15th ISMIS 2005 Conference.New York:Springer,2005:285-293.
4Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing and Management,1988,26(31):513-523.
5Yiming Y.Noise reduction in a statistical approach to text categorization[C]//Proceedings of SIGIR.Seattle:ACM Press,1995:256-263.

同被引文献49

1彭涛,左万利,赫枫龄,张长利.基于粒子群优化算法的网页分类技术[J].计算机研究与发展,2006,43(z3):33-38. 被引量：2
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
4李向阳,苗壮,肖江.无结构文本信息抽取综述[J].军事通信技术,2004,25(2):31-36. 被引量：3
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6叶卫国,卢正鼎,王天江.基于Hyperlink聚类的网页分类研究[J].华中科技大学学报（自然科学版）,2004,32(12):5-6. 被引量：1
7陆一鸣,胡健,马范援.一种基于源网页质量的锚文本相似度计算方法——LAAT[J].情报学报,2005,24(5):548-554. 被引量：11
8周俊生,戴新宇,尹存燕,陈家骏.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. 被引量：112
9吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报（理学版）,2006,41(3):41-44. 被引量：15
10鲁明羽,沈抖,郭崇慧,陆玉昌.面向网页分类的网页摘要方法[J].电子学报,2006,34(8):1475-1480. 被引量：5

引证文献6

1郑长松,傅彦,佘莉.基于模板的Web信息自动提取方法[J].计算机应用研究,2009,26(2):570-572. 被引量：10
2严海兵.基于扩展锚文本的网页特征识别[J].苏州科技学院学报（自然科学版）,2009,26(2):51-54.
3任颖,李华伟,吕红.基于网页结构特征的中文命名实体识别和关联算法[J].自动化技术与应用,2012,31(1):28-31.
4林强.一种校园网环境下的网页正文内容抽取算法[J].湖北成人教育学院学报,2012,18(4):159-160.
5王树西,夏增艳.一种区分索引与信息的网页分类数学模型及证明[J].计算机科学,2014,41(B11):307-312.
6苏秀芝.基于网页Title标签的正文提取方法[J].福建电脑,2016,32(4):43-44.

二级引证文献10

1顾韵华,李佩,谢刚.一种基于文本样式的Web主题信息提取方法研究[J].计算机与数字工程,2009,37(11):17-20.
2陈钊,张冬梅.Web信息抽取技术综述[J].计算机应用研究,2010,27(12):4401-4405. 被引量：22
3周合明,奚建清.基于模板的Web信息提取系统的设计与实现[J].计算机技术与发展,2011,21(11):105-108. 被引量：5
4来建梅,曹慧,马金刚.中医药领域信息抽取技术的研究与应用[J].山东科学,2011,24(6):88-91. 被引量：2
5李军,陈君,王玲芳,倪宏.一种垂直页面分割与信息提取方法的研究[J].计算机应用研究,2013,30(3):844-847. 被引量：3
6刘利,戴齐,尹红风,贾真,胡万亭.基于多特征融合的网页正文信息抽取[J].计算机应用与软件,2014,31(7):47-49. 被引量：4
7刘小满,王小辉.基于“互联网+”的网络舆情监控系统的设计与实现[J].电脑知识与技术,2019,15(11):37-40. 被引量：3
8淮晓永,韩晓东,高若辰,高焕新.一种自适应网页结构化信息提取方法[J].电子技术应用,2020,46(12):97-102. 被引量：1
9何晓莹.基于微博的数据挖掘方案[J].生物技术世界,2014,11(1):175-175.
10E CHANG.Implementation of a weblog extraction system with an improved template extraction technique[J].Chinese Journal of Library and Information Science,2013(1):52-63.

1王长征,刘建辉.基于网页标记的信息隐藏技术研究与实现[J].科技广场,2007(5):104-105. 被引量：2
2刘茵,苏一丹.一种基于网页结构特征的用户建模技术[J].电脑与电信,2007(5):51-52.
3许文,都云程,李渝勤,施水才.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43. 被引量：11
4孙宝华.企业社会媒体主题信息提取算法研究[J].煤,2014,23(1):72-76. 被引量：1
5软件技巧[J].数字生活,2002(8):58-58.
6赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1
7宋斌,方小璐.基于网页特征的TFIDF改进算法[J].微计算机应用,2002,23(1):18-20. 被引量：9
8罗永莲,赵昌垣.突发事件新闻标题与正文提取方法[J].计算机应用,2014,34(10):2865-2868. 被引量：10
9那赫.基于DOM的Web主题信息提取系统的设计与实现[J].计算机与网络,2010,36(7):30-31. 被引量：1
10Winbo.iframe脚本攻防完全接触[J].黑客防线,2010(1):33-35.

华中科技大学学报（自然科学版）

2007年第10期

浏览历史

内容加载中请稍等...

基于分块的网页主题信息自动提取算法被引量：6

参考文献5

同被引文献49

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于分块的网页主题信息自动提取算法 被引量：6

参考文献5

同被引文献49

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于分块的网页主题信息自动提取算法被引量：6