期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
汉字关联性量化方法及其在文本相似性分析中的应用 被引量:1
1
作者 赵彦斌 李庆华 《计算机应用》 CSCD 北大核心 2006年第6期1396-1397,1400,共3页
文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文... 文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文本中汉字与汉字之间关系的量化方法,提出汉字关联度的概念,然后构造汉字关联度矩阵来表示汉语文本,并设计了一种基于汉字关联度矩阵的汉语文本相似性度量算法。实验结果表明,汉字关联度优于二字词词频、互信息、T检验等统计量。由于无需汉语分词,本算法适用于海量中文信息处理。 展开更多
关键词 汉字关联度 信息矩阵 文本相似度算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部