摘要
本文在文本聚类的基础上对XML文档自动聚类进行了研究,对划分聚类法和层次聚类法进行了改进,使之适合于XML文档聚类;给出了元素比较法、边集比较法和编辑距离法等三种计算文档间相似度的方法,并利用实际数据进行了测试和分析。
On the basis of text cluster, the author makes an exploratory research on XML documents cluster, through the improvement on partition cluster and layer cluster, makes them can use on XML documents cluster. Then, the author discusses some method about XML documents similarity calculation.
出处
《情报学报》
CSSCI
北大核心
2006年第2期215-220,共6页
Journal of the China Society for Scientific and Technical Information
基金
本文为浙江大学“曙光”青年项目“基于XML的Web日志挖掘研究”(No:205000-362221)研究成果.