期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于特征迭代的短文本去重算法 被引量:4
1
作者 曹海 孙婧 史喜斌 《计算机工程》 CAS CSCD 北大核心 2015年第12期54-57,63,共5页
由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,... 由于短文本具有词频单一、结构简单等特点,基于传统特征选取方法的文本去重算法不适合短文本。为此,提出一种适合短文本特点的去重算法,利用SimHash算法产生短文本的指纹,使用共享最近邻算法对指纹进行聚类,根据聚类结果增删初始特征,迭代直至收敛,从而实现短文本的去重检测。在真实数据集上的实验结果表明,与现有的文本去重算法相比,该算法对于短文本具有更好的去重效果。 展开更多
关键词 SimHash算法 共享最近邻 迭代 特征选择 短文本 去重
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部