期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
结合语义的特征权重计算方法研究 被引量:20
1
作者 任姚鹏 陈立潮 +1 位作者 张英俊 袁英 《计算机工程与设计》 CSCD 北大核心 2010年第10期2381-2383,2387,共4页
为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚... 为进一步改善目前大多数基于向量空间模型(VSM)的文本聚类算法的效果,研究了文本聚类的基础和关键环节——文本间相似度的计算,其中一个重要步骤就是计算各文本中特征词的权重,该计算的合理性和有效性直接影响到文本相似度的准确性和聚类的效果。传统的VSM特征权重计算方法——TF-IDF,没有考虑语义相似的词语在文本集中的分布情况,针对该问题,在基于"知网"的词语语义相似度分析基础上,提出了一种改进的TF-IDF权重计算方法。实验结果表明,该算法是有效可行的,且在一定程度上提高了文本聚类的查准率和查全率。 展开更多
关键词 文本聚类 向量空间模型 权重计算方法 词汇语义相似度 知网
下载PDF
结合语义改进的K-means短文本聚类算法 被引量:14
2
作者 邱云飞 赵彬 +1 位作者 林明明 王伟 《计算机工程与应用》 CSCD 北大核心 2016年第19期78-83,共6页
针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集... 针对短文本聚类存在的三个主要挑战,特征关键词的稀疏性、高维空间处理的复杂性和簇的可理解性,提出了一种结合语义改进的K-means短文本聚类算法。该算法通过词语集合表示短文本,缓解了短文本特征关键词的稀疏性问题;通过挖掘短文本集的最大频繁词集获取初始聚类中心,有效克服了K-means聚类算法对初始聚类中心敏感的缺点,解决了簇的理解性问题;通过结合TF-IDF值的语义相似度计算文档之间的相似度,避免了高维空间的运算。实验结果表明,从语义角度出发实现的短文本聚类算法优于传统的短文本聚类算法。 展开更多
关键词 文本挖掘 短文本聚类 K-MEANS算法 最大频繁词集 知网 语义相似度
下载PDF
一种基于语义相似度的文本聚类算法 被引量:18
3
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本聚类 语义相似度 文本表示 语义相似度的文本聚类算法
下载PDF
基于语义距离的高效文本聚类算法 被引量:15
4
作者 冯少荣 肖文俊 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第5期30-37,共8页
针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二... 针对现有文本聚类算法忽略了词之间的语义信息,导致文本的相似度计算不够精确的问题,提出了一种基于语义进行文本聚类的新方法.该方法从语义上具体分析文本,利用文本的具体语义来计算文本间的相似度.聚类采用最近邻聚类算法,并提出第二次聚类算法来改进最近邻算法对输入次序敏感的问题.根据相似度权重优胜劣汰类特征词,使得最后类特征词越来越逼近类的主题.实验结果表明,文中所提出的算法在聚类精度和召回率上均优于基于向量空间模型的k-Means聚类算法. 展开更多
关键词 文本聚类 语义距离 相似度 最近邻聚类 聚类算法
下载PDF
一种基于语义相似度的群智能文本聚类的新方法 被引量:3
5
作者 陶红 周永梅 高尚 《计算机应用研究》 CSCD 北大核心 2012年第2期482-484,532,共4页
针对基于VSM(vector space model)的文本聚类算法忽略了词之间的语义信息和各维度之间的关系,导致文本的相似度计算不够精确,提出了一种基于语义相似度的群智能文本聚类的新方法。该方法融合了模拟退火算法的全局搜索和蚁群算法的正反... 针对基于VSM(vector space model)的文本聚类算法忽略了词之间的语义信息和各维度之间的关系,导致文本的相似度计算不够精确,提出了一种基于语义相似度的群智能文本聚类的新方法。该方法融合了模拟退火算法的全局搜索和蚁群算法的正反馈能力。其思路是,首先从语义上分析文本,利用K-均值算法进行文本聚类,再根据K-均值算法的结果,使用蚁群和模拟退火算法进行调整聚类。测试结果表明这种算法能够提高聚类精度和召回率,也验证了混合算法的正确性。 展开更多
关键词 文本聚类 语义相似度 K-均值算法 蚁群算法 模拟退火算法
下载PDF
一种提高文本聚类算法质量的方法 被引量:3
6
作者 冯少荣 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第12期1712-1718,共7页
针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先... 针对基于VSM(vector space model)的文本聚类算法存在的主要问题,即忽略了词之间的语义信息、忽略了各维度之间的联系而导致文本的相似度计算不够精确,提出基于语义距离计算文档间相似度及两阶段聚类方案来提高文本聚类算法的质量.首先,从语义上分析文档,采用最近邻算法进行第一次聚类;其次,根据相似度权重,对类特征词进行优胜劣汰;然后进行类合并;最后,进行第二次聚类,解决最近邻算法对输入次序敏感的问题.实验结果表明,提出的方法在聚类精度和召回率上均有显著的提高,较好解决了基于VSM的文本聚类算法存在的问题. 展开更多
关键词 文本聚类 语义距离 最近邻聚类 相似度 聚类算法
下载PDF
融合形态和语义相似度的对话短文本聚类 被引量:2
7
作者 陈国梁 贺樑 +1 位作者 胡琴敏 杨静 《小型微型计算机系统》 CSCD 北大核心 2015年第9期1963-1967,共5页
智能对话系统是一种人机交互系统,其产生的对话文本是一种特殊的短文本并蕴含着丰富的信息.这类对话短文本具有口语化、输入错误、同音不同字以及同义不同字等特点,导致现有的经典聚类算法无法进行有效的处理.为了对这类对话短文本进行... 智能对话系统是一种人机交互系统,其产生的对话文本是一种特殊的短文本并蕴含着丰富的信息.这类对话短文本具有口语化、输入错误、同音不同字以及同义不同字等特点,导致现有的经典聚类算法无法进行有效的处理.为了对这类对话短文本进行有效的聚类,提出一种形态和语义相似度相结合的短文本聚类算法,其中形态相似度采用字符串相似度,语义相似度基于How Net和Word Net词语知识库.通过在多种短文本数据集上实验结果表明,本文短文本聚类算法在中英文短文本数据集上均有较好的聚类效果.在小i机器人对话文本数据集上的聚类纯度指标相对于Kmeans算法和gcluto工具包中的算法分别有20%和7%的提高. 展开更多
关键词 智能对话系统 短文本 聚类算法 形态相似度 语义相似度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部