期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于LDA的Web论坛低质量回帖检测方法 被引量:4
1
作者 韩晓晖 马军 +1 位作者 邵海敏 薛冉 《计算机研究与发展》 EI CSCD 北大核心 2012年第9期1937-1946,共10页
为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比... 为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法. 展开更多
关键词 WEB论坛 主题模型 主题分布 低质量回帖 语义特征 分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部