摘要
针对电子商务产品评论数据中存在垃圾评论的问题,本文利用评论文本的语义距离来进行垃圾评论识别,基于Stacking集成思想提出一种基于DBSCAN和Mean Shift的融合聚类算法对文本向量进行聚类分析。垃圾评论由于在语义上与有效评论距离较大,会被分到主要簇之外,形成小簇或者离群点进行垃圾评论识别区分。实验结果表明,融合聚类算法既可以避免DBSCAN内存消耗大的问题,又可以有效解决Mean Shift因迭代次数多导致运行时间长和准确率受随机选择初始质心影响的问题。
Aiming at the detection of spam comments in e-commerce product review,this paper proposes the clustering algorithm of DBSCAN and Mean Shift based on stacking ensemble theory.The experimental results show that this clustering ensemblealgorithmhas the effective recognition accuracy,which can avoid the large memory consumptionproblem of DBSCAN,and solve the problem that Mean Shift has long running time and the random selection during the iterations.
作者
柳毅
钱枫
顾虎
陆佳涣
LIU Yi;QIAN Feng;GU Hu;LU Jia-huan(Management School,Hangzhou Dianzi University,Hangzhou 310018,China;Quality Inspection and Technical Supervision Institution of Hangzhou,Hangzhou 310018,China)
出处
《智能物联技术》
2020年第6期43-50,共8页
Technology of Io T& AI
基金
国家重点研发计划项目“‘互联网+’NQI集成服务共性技术研究”(2017YFF0209600)
杭州市科技计划项目“产品质量安全风险监测与监管协作网络技术的研究与应用”(20131813A06)
浙江省质量技术监督系统科研计划项目“网上产品质量监管协作平台构建研究”(20130142)