-
题名基于词语关联的文本特征词提取方法
被引量:10
- 1
-
-
作者
廖浩
李志蜀
王秋野
张意
-
机构
四川大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2007年第12期3009-3012,共4页
-
文摘
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法。该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息。通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高。
-
关键词
词语关联
词共现率
向量空间模型
特征提取
权重计算
-
Keywords
word relationship
word co-occurrence
Vector Space Model (VSM)
feature selection
term weighting
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-