-
题名基于单词相似度的文本聚类
被引量:9
- 1
-
-
作者
李星毅
曾路平
施化吉
-
机构
江苏大学计算机科学与通信工程学院
北京交通大学电子信息工程学院
南京航空航天大学计算机应用研究所
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第8期1966-1968,共3页
-
基金
国家火炬计划基金项目(2004EB33006[0])
江苏省高校自然科学指导性计划基金项目(05JKD520050)
-
文摘
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点。针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类。实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果。
-
关键词
文本聚类
单词相似度
向量空间模型
单词类向量空间
文本表示
-
Keywords
text clustering
word similarity
vector space model
word cluster vector space
text respresentation
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于朴素贝叶斯模型的单词语义相似度度量
被引量:12
- 2
-
-
作者
王俊华
左万利
闫昭
-
机构
吉林大学计算机科学与技术学院
符号计算与知识工程教育部重点实验室(吉林大学)
长春工业大学计算机科学与工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第7期1499-1509,共11页
-
基金
国家自然科学基金项目(60973040)
国家自然科学青年基金项目(60903098,61300148)
+1 种基金
吉林省重点科技攻关项目(20130206051GX)
吉林省科技计划青年基金项目(20130522112JH)
-
文摘
单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体WordNet获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝叶斯推理实现信息融合获得后验概率,并在此基础上量化单词语义相似度.主要贡献是定义了单词对距离和深度,并将朴素贝叶斯模型用于单词语义相似度度量.在基准数据集R&G(65)上,对比算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,样本Pearson相关度达到0.912,比当前最优方法高出0.4%,比经典算法高出7%~13%;Spearman相关度达到0.873,比经典算法高出10%~20%;且算法的运行效率和经典算法相当.实验结果显示将朴素贝叶斯模型和知识库相结合解决单词语义相似度问题是合理有效的.
-
关键词
单词语义相似度
语义相似度
分段线性插值
朴素贝叶斯模型
WORDNET
-
Keywords
word semantic similarity
semantic similarity
piecewise linear interpolation
Naïve Bayes model
WordNet
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-