在话题检测任务中,面对微博这类短文本时,针对SBERT模型的特征提取能力的局限性,以及在聚类阶段,单遍聚类算法存在的小簇问题和效率问题,对两者改进,提出一种基于半监督SBERT与SinglePass(semi-supervised SBERT with SinglePass cluste...在话题检测任务中,面对微博这类短文本时,针对SBERT模型的特征提取能力的局限性,以及在聚类阶段,单遍聚类算法存在的小簇问题和效率问题,对两者改进,提出一种基于半监督SBERT与SinglePass(semi-supervised SBERT with SinglePass clustering,Semi-SBERT-SP)的微博热点话题检测方法,将SBERT模型结合半监督训练,提高其短文本特征提取能力。在聚类阶段过程中引入时间窗口和降维,提高算法效率,增加一个合并层,处理算法产生的小簇。在话题表示层,提出一种融入词热度的词贡献指标,用于提取话题簇中的关键词。实验结果表明,该方法在准确率、F1、互信息3个指标上均优于对比模型或方法,能够有效检测出微博中包含的热点话题。展开更多
文摘在话题检测任务中,面对微博这类短文本时,针对SBERT模型的特征提取能力的局限性,以及在聚类阶段,单遍聚类算法存在的小簇问题和效率问题,对两者改进,提出一种基于半监督SBERT与SinglePass(semi-supervised SBERT with SinglePass clustering,Semi-SBERT-SP)的微博热点话题检测方法,将SBERT模型结合半监督训练,提高其短文本特征提取能力。在聚类阶段过程中引入时间窗口和降维,提高算法效率,增加一个合并层,处理算法产生的小簇。在话题表示层,提出一种融入词热度的词贡献指标,用于提取话题簇中的关键词。实验结果表明,该方法在准确率、F1、互信息3个指标上均优于对比模型或方法,能够有效检测出微博中包含的热点话题。