期刊文献+

基于统计机器学习的互联网暗链检测方法 被引量:5

Internet hidden hyperlinks detection based on statistical machine learning
下载PDF
导出
摘要 互联网搜索引擎排名算法中,外部链接是一个重要因素,而利用链接作弊现象普遍存在于互联网中。暗链是链接作弊其中的一种手段,难以检测和清除,被称为"网络牛皮癣"。为了维护公平的搜索引擎排名机制,保证搜索结果质量,针对暗链这种作弊手段,提出了一种基于机器学习的互联网暗链检测方法,该方法结合网页源码锚文本的特征检测暗链。给出了相关性能分析,在真实的网络环境下的实验验证表明了所提出的方法可行有效。该研究为搜索引擎打击链接隐藏的作弊行为提供了理论和实践支撑。 External link is a critical factor in search engine algorithm, thus link spare is wide spread in Internet. Hidden hy- perlink is one kind of the link spam. It is the "psoriasis" in Internet, and hard to eradicate. In order to strike this cheating behavior and ensure quality of search results, this paper proposd a method to identify Web pages which contain hidden hyper- links based on machine learning, utilizing features of anchor text in HTML code of Web pages. It analyzed the performance of this model, and experiment based on the real Internet environment proves the method propose is effective. This study will pro- vide Search Engines with theoretical and practical support for striking the Web spam cheating.
出处 《计算机应用研究》 CSCD 北大核心 2015年第9期2779-2783,共5页 Application Research of Computers
基金 国家自然科学基金资助项目(61375039 61005029) 中国科学院计算机网络信息中心"一三五"规划重点培育方向专项基金资助项目(CNIC_PY_1402)
关键词 暗链 链接隐藏方式 锚文本 机器学习 文本分类 hidden hyperlink hyperlink hiding techniques anchor text machine learning text classification
  • 相关文献

参考文献21

  • 1CNNIC.2013年中国网民搜索行为研究报告[EB/OL].[2014-02-08].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/ssbg/201308/t20130820_41306.htm.
  • 2昝辉.SEO实战密码[M].北京:电子工业出版社,2011:90-91,167-168.
  • 3中国站长网.有效检查网站是否被挂黑链的五个方法[EB/OL].[2010-04-24].http://www.chinaz.com/web/2010/0424/112547.shtml.
  • 4Raggett D,Hors A L,Jacobs I.HTML 4.01 specification[EB/OL].(1999-12-24).http://www.w3.org/TR/html401/.
  • 5Chellapilla K,Maykov A.A taxonomy of JavaScript redirection spam[C]//Proc of the 3rd International Workshop on Adversarial Information Retrieval on the Web.New York:ACM Press,2007:81-88.
  • 6谷歌.网站站长指南[EB/OL].[2014].https://support.google.com/webmasters/answer/35769?hl=zh-Hans#.
  • 7Geng Guanggang,Zhang Yanming,Lee X D,et al.A taxonomy of hyperlink hiding techniques[C]//Lecture Notes Computer Science,vol 8709.Berlin:Springer,2014:165-176.
  • 8百度在线网络技术(北京)有限公司.一种检测黑链的方法和装置:中国,CN 102622435 A[P].2012-08-01.
  • 9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量:383
  • 10Harrington P.Machine learning in action[M].[S.l.]:Manning Publications,2012:3-5.

二级参考文献25

  • 1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量:20
  • 2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:95
  • 3郎小伟,王申康.基于Lucene的全文检索系统研究与开发[J].计算机工程,2006,32(4):94-96. 被引量:68
  • 4张科.多次Hash快速分词算法[J].计算机工程与设计,2007,28(7):1716-1718. 被引量:22
  • 5Cafarella M, Cutting D. Building Nutch:Open source search [J]. ACM Queue,2004,2(2) :54-61.
  • 6Cutting D. Lucene [ EB/OL ]. http ://Jakarta. apache, org/ lucene/,2009-11431.
  • 7Cohen D,Amitay E,Camlal D. Lucene and jura at trec 2007:1- million queries track[ C ]//Proceedings of the 16th Text Retrieval Conference ( TREC 21X37 ). Gaithersburg, Washington, USA ,2007:321-327.
  • 8fan H Witten, Alistair Moffat, Timothy C Bell. Managing Gigabytes: Compressing and Indexing Documents and Images(2 Edition) [M].梁斌译.北京:电子工业出版社,2009.
  • 9Sproat R, Gale W, Shih C. A stochastic finite-state word-segmentation algorithm for Chinese[J ]. Computational Liguistics, 1996,22(3) :377-404.
  • 10Kodaganallur V. Incorporating language processing into Java applications: A JavaCC Tutorial [ J ]. IEEE Software,2004, 21 (4) :70-77.

共引文献541

同被引文献33

引证文献5

二级引证文献24

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部