期刊文献+

绿色网络网页正文内容提取算法 被引量:1

Text Content Extraction Algorithm for Green Network Webpage
下载PDF
导出
摘要 互联网中的网页有较多商业广告,绿色网络系统无法过滤其中具有不良内容的网站。为解决该问题,提出一种绿色网络网页正文内容提取算法。通过文件对象模型树识别与提取网页正文内容模块,使用基于粒子群的权值优化算法对网页正文各个板块特征权值进行评分,利用与不良关键字的比较,确定并过滤不良网页。实验结果表明,经粒子群权值算法优化提取后,绿色网络系统对不良网页的识别准确率为86.9%,召回率为95.6%,F值为91.02%,比优化前有较大提高。 At present, the Web pages have more business in the Internet advertising, the green network system can not filter the site with poor content. In order to solve this problem, this paper proposes a text content extraction algorithm for green network webpage. It uses the Document Object Model(DOM) tree to identify and extract the pages of text content module, uses an optimized content extraction algorithm based on particle swarm weight to score each section of the main content, compares the scores with the unhealthy keywords to identify and filter harmful Web pages. Experimental results show that, after optimized by new algorithm, the accuracy rate of identifying harmful webpage is 86.9%, the recall rate is 95.6%, the F value is 91.02%, and is higher than before optimization.
作者 龙珑 邓伟
出处 《计算机工程》 CAS CSCD 2013年第7期252-256,共5页 Computer Engineering
基金 国家创新基金资助项目(10C26224504901) 广西自然科学基金资助项目(2011GXNSFB0180825)
关键词 绿色网络 网瘾 不良内容 粒子群优化 正文提取 green network net addiction undesired content Particle Swarm Optimization(PSO) text extraction
  • 相关文献

参考文献14

  • 1Sushi G, Gai K, David N, et al. DOM-based Content Ex- traction of HTML Document[C]//Proc. of the 12th Inter- national World Wide Web Conference. [S. l.]: ACM Press, 2003.
  • 2W3C. Document Object Model[EB/OL]. (2010-06-05). http:// www.w3.org/DOM/.
  • 3韩光,赵春霞,胡雪蕾.一种新的SVM主动学习算法及其在障碍物检测中的应用[J].计算机研究与发展,2009,46(11):1934-1941. 被引量:14
  • 4Javier A M, Koen D, Maie F M. Language Independent Content Extraction from Web Pages[C]//Proc. of the 9th Dutch-belgian Information Retrieval Workshop. [S. l.]: University of Twente, 2009.
  • 5李连霞,马军,陈竹敏.基于多特征的网页内容提取研究[C].第三届和谐人机环境联合学术会议,2007:151-155
  • 6Tim W, William H H. Web Content Extraction Through Histogram Clustering[C]//Proc. of the 18th International Conference on Artificial Neural in Engineering. New York, USA: [s. n.], 2008.
  • 7欧健文, 董守斌, 蔡 斌. 模块化网页主题信息的提取方 法[J]. 清华大学学报: 自然科学版, 2005, 45(3): 1743-1747.
  • 8Cai Deng, He Xiaofei, Wen Jirong, et al. Block-level Link Anagysis[C]//Proc. of SIGIR’04. [S. l.]: ACM Press, 2004.
  • 9何凤英.基于语义理解的中文博文倾向性分析[J].计算机应用,2011,31(8):2130-2133. 被引量:18
  • 10郑皎凌,唐常杰,姜玥,杨宁,李红军.基于伪属性语义匹配的Deep web信息抽取[J].四川大学学报(工程科学版),2009,41(2):173-178. 被引量:4

二级参考文献69

共引文献55

同被引文献6

引证文献1

二级引证文献3

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部