期刊文献+

基于多层特征的字符串相似度计算模型 被引量:40

A Model for Chinese String Similarity Based on Multi-Level Features
下载PDF
导出
摘要 针对计算字符串相似度传统方法的不足之处,提出以相似元作为字符串的基本处理单元,综合考虑相似元的字面、语义及统计关联等多层特征的字符串相似度计算方法.对常规计算方法中存在的,由相似元排序引起的相似元位置信息丢失问题进行了修正.实验结果表明该算法的有效性,并且对句子间、段落间的相似度计算有启发意义. String similarity computation has been widely used in the field of Chinese information processing. In this paper, a unifying model for string similarity computation is presented based on multi-level features. The novel approach of similarity computation uses the literal, semantic and statistical relative features of strings. The method can take advantage of the normal approaches to improve the computation accuracy. Experiments show that the proposed method is an effective solution to the Chines string similarity computation problem, and it can be generalized to measure the similarity of other components of Chinese text, such as sentence, paragraph etc.
作者 章成志
出处 《情报学报》 CSSCI 北大核心 2005年第6期696-701,共6页 Journal of the China Society for Scientific and Technical Information
关键词 字符串相似度 相似元 字面相似度 语相似度 多特征度量 Chinese string similarity, similarity unit, multiple-features measuring, literal similarity, semantic similarity.
  • 相关文献

参考文献1

共引文献16

同被引文献449

引证文献40

二级引证文献226

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部