期刊文献+

搜索引擎中基于密度聚类的混合编码检测算法

Density-Based Clustering Algorithm for Hybrid Coding Detection in Search Engines
下载PDF
导出
摘要 搜索引擎有很多的关键技术,本文主要针对互联网中文HTML混合编码文件,研究了中文HTML文件的字符编码组成结构,然后对混合编码文件内容进行聚类,采用了数据挖掘领域的经典算法DBSCAN,将HTML文件分成几个大类,然后分别对各个类进行了基于特征编码检测。实验结果显示,当选取合适的参数时,对混合编码文件的聚类后,每个类与中文字符特征编码相符率达100%,可以广泛应用于搜索领域。 Aimed at Chinese HTML hybrid coding documents on the internet,this paper studies the character encoding composition of Chinese HTML files and clusters the contents of the hybrid coding files.The HTML files are separated into several categories using the classical data mining algorithms DBSCAN.Then,based on feature encoding each class is detected,after clustering hybrid encoding files.Experimental results show that when selecting the appropriate parameters each class in line with the Chinese character encoding features reaches 100%.The method can be used in the field of search engines.
出处 《数据采集与处理》 CSCD 北大核心 2011年第1期95-100,共6页 Journal of Data Acquisition and Processing
基金 国家支撑计划(2008BAH21B03)基金项目 浙江省公益性技术应用研究计划(2010C31003)基金项目
关键词 搜索引擎 密度聚类 字符编码 search engine density-based clustering character encoding
  • 相关文献

参考文献9

二级参考文献40

  • 1邱保志,沈钧毅.网格聚类中的边界处理技术[J].模式识别与人工智能,2006,19(2):277-280. 被引量:13
  • 2邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与决策,2006,21(9):1011-1014. 被引量:25
  • 3尹宝生 潘峰 徐立军 等.中日韩大字符集文字编码的比较研究.http://www.ge-soft .com/research/paper/he4.ht m.,.
  • 4于明俭(中国科学院高能物理研究所计算中心).GB/BIG5文件识别.http ://ftp.cityu.edu.hk/pub/chinese/ifcss/data/chrecog.gb.html.,.
  • 5张轴材.ISO/ IEC 10646-1 and Unicode标准与实现.CharacterCode amp Data To Come研讨会[R].,1996..
  • 6Han JW, Kambr M. Data Mining Concepts and Techniques. Beijing: Higher Education Press, 2001. 145-176.
  • 7Kaufan L, Rousseeuw PJ. Finding Groups in Data: an Introduction to Cluster Analysis. New York: John Wiley & Sons, 1990.
  • 8Ester M, Kriegel HP, Sander J, Xu X. A density based algorithm for discovering clusters in large spatial databases with noise. In:Simoudis E, Han JW, Fayyad UM, eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining.Portland: AAAI Press, 1996. 226-231.
  • 9Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. "73-84.
  • 10Agrawal R, Gehrke J, Gunopolos D, Raghavan P. Automatic subspace clustering of high dimensional data for data mining application. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data.Seattle: ACM Press, 1998.94-105.

共引文献172

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部