期刊文献+

融合统计和结构相似度的文档聚类

下载PDF
导出
摘要 提出了一个新的文档聚类框架,在这个框架下,从统计和结构两个方面对词条之间的交互进行建模。首先根据观测词条推断隐含词条,补充和细化文档中每个词条的权重。基于丰富的文档向量表示方法,便可以轻松地获得统计语义的相似度。同时,我们使用现有的依赖解析器提取词条之间的显式语义依赖,并用文档结构表示每个文档。接着采用结构匹配技术来获取结构语义的相似度。然后,将语义相似度和结构相似度通过线性组合,作为任意两个文档之间的最终相似度。最后,我们利用CLUTO聚类工具对文献进行聚类,并针对英语和汉语语料库进行了综合实验,实验结果表明,相比于现有基准,该方法在多个指标上都有显著的提升。
作者 郑重 ZHENG Zhong
出处 《信息技术与信息化》 2021年第4期132-135,共4页 Information Technology and Informatization
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部