期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于NWD集成算法的多粒度微博用户兴趣画像构建 被引量:2
1
作者 张舒 莫赞 +2 位作者 柳建华 杨培琛 刘洪伟 《广东工业大学学报》 CAS 2020年第4期42-50,共9页
微博文本特殊性的存在使得微博用户兴趣画像难以有效构建。为此,提出了一种集成算法--新词发现-双向长短期记忆网络-梯度提升算法。首先针对微博文本的非正式性,提出了一种基于支持度视角的新词发现(New Word Discovery, NWD)算法,发掘... 微博文本特殊性的存在使得微博用户兴趣画像难以有效构建。为此,提出了一种集成算法--新词发现-双向长短期记忆网络-梯度提升算法。首先针对微博文本的非正式性,提出了一种基于支持度视角的新词发现(New Word Discovery, NWD)算法,发掘其中大量存在的网络用语以实现更加准确的分词及语义把握;其次,引入Simhash算法使得微博文本中的"信息过载"现象得到改观;再次,为改善微博文本的简洁性而引起的特征稀疏问题,采用双向长短期记忆网络(Bidirectional Long Short-term Memory,Bi-LSTM)模型提取博文语义特征;最后,通过融合微博用户静态特征训练梯度提升(extreme Gradient Boosting,XGBoost)模型,从而有效构建多粒度微博用户兴趣画像。实验结果表明,粗粒度(一级)兴趣标签模型NWD-Bi-LSTM和细粒度(二级)兴趣标签模型NWD-Bi-LSTM-XGBoost的宏平均F1值(Macroaverage F1 score, mF1)和受试者工作特征曲线下面积(Area Under ROC Crave, AUC)分别高达83.6%, 79.7%和70.4%,63.6%,相对于基准模型, NWD算法的集成使得模型的m F1值和AUC值均能提升3%~5%,其促进作用优于现有的新词发现方法。 展开更多
关键词 新词发现 双向长短期记忆网络 XGBoost梯度提升 多粒度 微博用户兴趣画像
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部