-
题名汉字关联性量化方法及其在文本相似性分析中的应用
被引量:1
- 1
-
-
作者
赵彦斌
李庆华
-
机构
华中科技大学计算机科学与技术学院
国家高性能计算中心
-
出处
《计算机应用》
CSCD
北大核心
2006年第6期1396-1397,1400,共3页
-
基金
国家自然科学基金资助项目(60273075)
-
文摘
文本相似性分析、聚类和分类多基于特征词,由于汉语词之间无分隔符,汉语分词及高维特征空间的处理等基础工作必然引起高计算费用问题。探索了一种在不使用特征词的条件下,使用汉字间的关系进行文本相似性分析的研究思路。首先定义了文本中汉字与汉字之间关系的量化方法,提出汉字关联度的概念,然后构造汉字关联度矩阵来表示汉语文本,并设计了一种基于汉字关联度矩阵的汉语文本相似性度量算法。实验结果表明,汉字关联度优于二字词词频、互信息、T检验等统计量。由于无需汉语分词,本算法适用于海量中文信息处理。
-
关键词
汉字关联度
信息矩阵
文本相似度算法
-
Keywords
Chinese Character Association Measurement( CCAM)
information matrix
text similarity measurement algorithm
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-