-
题名基于公共词集对长篇小说相似度的研究
- 1
-
-
作者
郭涛
霸元婕
李绍昂
-
机构
吉林大学计算机科学与技术系
-
出处
《软件工程》
2018年第10期11-13,10,共4页
-
文摘
传统的文本相似度计算基于向量空间模型(VSM),文本映射成独立的、互不关联的词构成的向量。由于长篇小说具有比普通文本更为复杂的构成元素,以及更加紧密的上下文联系,传统算法忽略词项的上下文联系,并且产生高维向量,因此算法的效率和精度不理想。为此,本文基于公共词集对长篇小说进行相似度计算,并对公共词集进行上下文约束检查,得到关联比较紧密的词集,作为小说的主要特征。实验结果表明,对于某些小说类型,效果有很大的提升。
-
关键词
公共词集
小说相似度
上下文约束
-
Keywords
common word set
novel similarity
context constraint
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-