-
题名利用上下文提高文本聚类的效果
被引量:9
- 1
-
-
作者
丘志宏
宫雷光
-
机构
汕头大学计算机系
IBM华生研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2007年第6期109-115,共7页
-
文摘
传统文本聚类的向量空间模型中,认为词的权重只和词频有关,而与词语出现的上下文无关。本文介绍了如何借助按词语之间关系组织的本体论词典对文章进行上下文分析,得到文章中词语之间意义上的相互关系,进而用相关词语的词频以及关系的权重量化地给出一个词语受到上下文的支持程度,所以在衡量词语权重时不仅考虑其词频,而且考虑上下文的支持情况。文章还介绍了如何用自动构建的方法得到本文所需的词典,使得在本体论词典资源还不太丰富的汉语中也能应用上面的方法。实验数据表明,本文的方法能有效的消除噪音,提高文本聚类的效果。
-
关键词
计算机应用
中文信息处理
文本聚类
上下文
词语权重
本体论词典
-
Keywords
computer application
Chinese information processing
text clustering
context
weight
ontology dictionary
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-