期刊文献+

基于K-中心点聚类算法的论坛信息识别技术研究 被引量:3

Research on web forums information recognition based on K-Medoids clustering
下载PDF
导出
摘要 提出了一种从非确定结构的论坛页面自动获取信息区域的方法。该方法在对K-中心点聚类算法的研究基础上克服了算法中固定簇数的缺陷,并在算法的簇中心距离计算中引入Smith-Waterman改进算法,提高了算法聚类的精确度。通过对大量论坛网页进行信息识别的实验显示,该方法切实可行并且具有较高的准确性。 There is a method of extracting information automatically from web forums with uncertainly structures. Based on the algorithm of K-medoids Clustering algorithms, the method overcomes fixed clusters shortcomings in the algorithm, and it also adds improved Smith-Waterman algorithm into the calculation of cluster center distance, so clustering algorithms accuracy is improved. Information recognition experiments from many web forums show that the method is much more feasibility and veracity.
出处 《计算机工程与设计》 CSCD 北大核心 2009年第1期210-212,共3页 Computer Engineering and Design
关键词 标签结构树 K-中心点聚类算法 SMITH-WATERMAN算法 最小相异度 信息识别 tag tree K-medoids clustering algorithm Smith-Waterman algorithm minimal dissimilar degree data recognition
  • 相关文献

参考文献8

二级参考文献26

  • 1张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量:57
  • 2于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量:55
  • 3陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量:24
  • 4龙银香.基于HTML标记的信息隐藏方法[J].微计算机信息,2006(07X):129-131. 被引量:5
  • 5Crescenzi V,Mecca G.Grammars have exceptions.Information Systems,1998,23(8)
  • 6Hammer J,Garcia-Molina H,Cho J,et al.Extracting semistructured information from the Web.In:Proc.of the Workshop on the Management of Semistructured Data,1997
  • 7Huck G,Frankhauser P,Aberer K,et al.Jedi:Extracting and synthesizing information from the web.In:CoopIS,1998
  • 8Lerman K,Minton S N,Knoblock C A.Wrapper Maintenance:A Machine Learning Approach.Journal of Artificial Intelligence Research,2003,18:149~181
  • 9Arasu A,Garcia-Molina H.Extracting Structured Data from Web Pages.In:SIGMOD 2003,San Diego,CA,June 2003
  • 10Soderland S.Learning information extraction rules for semistructured and free text.Machine Learning,1999,34:1~3

共引文献49

同被引文献14

引证文献3

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部