绿色网络网页正文内容提取算法被引量：1

Text Content Extraction Algorithm for Green Network Webpage

下载PDF

导出

摘要互联网中的网页有较多商业广告,绿色网络系统无法过滤其中具有不良内容的网站。为解决该问题,提出一种绿色网络网页正文内容提取算法。通过文件对象模型树识别与提取网页正文内容模块,使用基于粒子群的权值优化算法对网页正文各个板块特征权值进行评分,利用与不良关键字的比较,确定并过滤不良网页。实验结果表明,经粒子群权值算法优化提取后,绿色网络系统对不良网页的识别准确率为86.9%,召回率为95.6%,F值为91.02%,比优化前有较大提高。 At present, the Web pages have more business in the Internet advertising, the green network system can not filter the site with poor content. In order to solve this problem, this paper proposes a text content extraction algorithm for green network webpage. It uses the Document Object Model（DOM） tree to identify and extract the pages of text content module, uses an optimized content extraction algorithm based on particle swarm weight to score each section of the main content, compares the scores with the unhealthy keywords to identify and filter harmful Web pages. Experimental results show that, after optimized by new algorithm, the accuracy rate of identifying harmful webpage is 86.9%, the recall rate is 95.6%, the F value is 91.02%, and is higher than before optimization.

作者龙珑邓伟

机构地区广西师范学院计算机与信息工程学院广西肿瘤防治研究所

出处《计算机工程》 CAS CSCD 2013年第7期252-256,共5页 Computer Engineering

基金国家创新基金资助项目(10C26224504901) 广西自然科学基金资助项目(2011GXNSFB0180825)

关键词绿色网络网瘾不良内容粒子群优化正文提取 green network net addiction undesired content Particle Swarm Optimization（PSO） text extraction

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1Sushi G, Gai K, David N, et al. DOM-based Content Ex- traction of HTML Document[C]//Proc. of the 12th Inter- national World Wide Web Conference. [S. l.]: ACM Press, 2003.
2W3C. Document Object Model[EB/OL]. (2010-06-05). http:// www.w3.org/DOM/.
3韩光,赵春霞,胡雪蕾.一种新的SVM主动学习算法及其在障碍物检测中的应用[J].计算机研究与发展,2009,46(11):1934-1941. 被引量：14
4Javier A M, Koen D, Maie F M. Language Independent Content Extraction from Web Pages[C]//Proc. of the 9th Dutch-belgian Information Retrieval Workshop. [S. l.]: University of Twente, 2009.
5李连霞,马军,陈竹敏.基于多特征的网页内容提取研究[C].第三届和谐人机环境联合学术会议,2007:151-155
6Tim W, William H H. Web Content Extraction Through Histogram Clustering[C]//Proc. of the 18th International Conference on Artificial Neural in Engineering. New York, USA: [s. n.], 2008.
7欧健文, 董守斌, 蔡斌. 模块化网页主题信息的提取方法[J]. 清华大学学报: 自然科学版, 2005, 45(3): 1743-1747.
8Cai Deng, He Xiaofei, Wen Jirong, et al. Block-level Link Anagysis[C]//Proc. of SIGIR’04. [S. l.]: ACM Press, 2004.
9何凤英.基于语义理解的中文博文倾向性分析[J].计算机应用,2011,31(8):2130-2133. 被引量：18
10郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报（工程科学版）,2009,41(2):173-178. 被引量：4

二级参考文献69

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
3刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
4严建伟,梁力,刘勇.基于分组认证和协作的网格计算安全体系[J].计算机应用研究,2005,22(8):105-107. 被引量：3
5朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：325
6凌俊斌,庄卫华,刘鲁西.图像检索中的主动学习及其可测量性[J].计算机技术与发展,2006,16(2):132-134. 被引量：3
7应伟,王正欧,安金龙.一种基于改进的支持向量机的多类文本分类方法[J].计算机工程,2006,32(16):74-76. 被引量：28
8田春娜,高新波,李洁.基于嵌入式Bootstrap的主动学习示例选择方法[J].计算机研究与发展,2006,43(10):1706-1712. 被引量：8
9徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：119
10GILDEA D,JURAFSKY D.Automatic labeling of semantic roles[J].Computational Linguistics,2002,28(3):245-288.

共引文献55

1孙桂煌,刘发升.基于正文特征的网页正文信息提取方法[J].现代计算机,2008,14(9):34-38. 被引量：5
2胡正平,高文涛,万春艳.基于样本不确定性和代表性相结合的可控主动学习算法研究[J].燕山大学学报,2009,33(4):341-346. 被引量：4
3徐海龙,王晓丹,廖勇,权文.一种基于主动学习的SVM增量训练算法[J].控制与决策,2010,25(2):282-286. 被引量：3
4华漫.基于语义的体育视频场景分割方法[J].计算机工程,2010,36(15):206-207. 被引量：2
5周晓剑,马义中,朱嘉钢.SMO算法的简化及其在非正定核条件下的应用[J].计算机研究与发展,2010,47(11):1962-1969. 被引量：10
6任大伟,胡正平,高文涛.基于样本不同属性综合的鲁棒偏倚赖主动学习分类算法研究[J].燕山大学学报,2011,35(1):74-80.
7吴麒,陈兴蜀,谭骏.基于权值优化的网页正文内容提取算法[J].华南理工大学学报（自然科学版）,2011,39(4):32-37. 被引量：8
8贾俊芳.基于层次聚类的主动学习方法——HC_AL[J].计算机应用,2011,31(8):2134-2137. 被引量：2
9白龙飞,王文剑,郭虎升.一种新的支持向量机主动学习策略[J].南京大学学报（自然科学版）,2012,48(2):182-189. 被引量：10
10吴伟宁,刘扬,郭茂祖,刘晓燕.基于采样策略的主动学习算法研究进展[J].计算机研究与发展,2012,49(6):1162-1173. 被引量：33

同被引文献6

1安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010,29(3):38-41. 被引量：13
2吴麒,陈兴蜀,谭骏.基于权值优化的网页正文内容提取算法[J].华南理工大学学报（自然科学版）,2011,39(4):32-37. 被引量：8
3陈阳,陈兴蜀,吴麒.基于信息量衰减幅度的网页正文提取[J].计算机工程与设计,2012,33(7):2555-2560. 被引量：1
4熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
5杨柳青,李晓东,耿光刚.基于布局相似性的网页正文内容提取研究[J].计算机应用研究,2015,32(9):2581-2586. 被引量：10
6谢方立,周国民,王健.基于节点类型标注的网页主题信息抽取方法[J].计算机科学,2016,43(S2):31-34. 被引量：4

引证文献1

1陈婷婷,严华,臧军.基于改进内容分析算法的网页正文提取[J].计算机工程与设计,2018,39(4):1017-1021. 被引量：3

二级引证文献3

1李国静,尹天阳,张兴睿.基于PAM概率主题模型的赌博网站检测方法[J].计算机应用与软件,2021,38(9):167-172. 被引量：3
2余杨奎,王旅,李婉茹,程振林,刘洁.一种基于页面赋权的网页内容提取方法[J].通化师范学院学报,2021,42(10):20-28.
3秦龙,李晓戈,穆诤辉,李涛.基于网页图像分类的自动化网页正文抽取模型[J].计算机工程与设计,2023,44(2):386-392. 被引量：1

1杨丽萍.网页正文提取技术的分析与研究[J].计算机光盘软件与应用,2012,15(22):115-116. 被引量：1
2熊忠阳,蔺显强,张玉芳,牙漫.结合网页结构与文本特征的正文提取方法[J].计算机工程,2013,39(12):200-203. 被引量：15
3王瑞,周喜,李晓.基于正文相关度的维吾尔网页正文提取[J].计算机工程,2012,38(21):153-156. 被引量：2
4陆易.计算机网络安全在虚拟网络技术中的作用[J].电子技术与软件工程,2015(23):217-217. 被引量：1
5李汉强.用IE限制不良网页[J].电脑技术——Hello-IT,2001(9):61-61.
6何聪.Windows XP注册表应用操作技巧[J].电子乐园,2010(6):16-21.
7王贺艳,邵军.如何利用VB获取驱动器、文件夹及文件信息[J].计算机与现代化,2002(10):76-78.
8靳其兵,王建辉,顾树生.基于CMAC的自适应控制方案[J].石油化工高等学校学报,1997,10(3):69-71. 被引量：4
9黄玮,刘卫民,王旭.基于遗传算法的BP网络最优权值算法[J].昆明冶金高等专科学校学报,2006,22(5):37-43. 被引量：1
10刘彩,王腾,王丽霞,邵玉斌.基于频谱感知的权值优化算法研究[J].昆明理工大学学报（自然科学版）,2016,41(3):71-75.

计算机工程

2013年第7期

浏览历史

内容加载中请稍等...

绿色网络网页正文内容提取算法被引量：1

参考文献14

二级参考文献69

共引文献55

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

绿色网络网页正文内容提取算法 被引量：1

参考文献14

二级参考文献69

共引文献55

同被引文献6

引证文献1

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

绿色网络网页正文内容提取算法被引量：1