-
题名基于LDA特征扩展的短文本分类
被引量:49
- 1
-
-
作者
吕超镇
姬东鸿
吴飞飞
-
机构
武汉大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2015年第4期123-127,共5页
-
基金
国家自然科学基金重点项目(No.61133012)
国家自然科学基金面上项目(No.61173062)
-
文摘
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。
-
关键词
隐含狄利克雷分布
文本分类
支持向量机
特征扩展
-
Keywords
Latent Dirichlet Allocation(LDA)
text classification
Support Vector Machine(SVM)
feature expanding
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于LDA和CTR的用户模型分析
被引量:1
- 2
-
-
作者
吴飞飞
姬东鸿
吕超镇
-
机构
武汉大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2016年第6期50-54,共5页
-
基金
国家自然科学基金重点项目(No.61133012)
国家自然科学基金面上项目(No.61173062)
-
文摘
个性化服务一直是研究的热点,但是如何构建完整的用户模型是一个颇有挑战性的问题。将基于主体模型LDA对用户模型进行预测,在用户和推荐项目的特征向量上采用CTR进行约束,使结果更为准确。在只需要少量人为因素下,由机器来训练最初的主题模型,在训练模型的基础上,通过选取100名用户的微博作为测试,用等级打分制来对推荐的项目进行打分,最终的结果显示,在新闻推荐上,微观满意度达到82.5%;而在名人推荐上,微观满意度达到了84.3%,综合以上,推荐服务的满意度还是令人满意的。
-
关键词
隐形狄雷克雷分布(LDA)
主题模型
基于主题模型的协同过滤(CTR)
用户模型
推荐
-
Keywords
Latent Dirichlet Allocation(LDA)
topic model
Collaborative Topic Regression(CTR)
user model
recommendation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-