-
题名基于WBLDA的学术文献摘要主题聚类
被引量:1
- 1
-
-
作者
潘晓英
伍哲
陈柳
杨芳
-
机构
西安邮电大学计算机学院
陕西省网络数据分析与智能处理重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2020年第8期2273-2278,2283,共7页
-
基金
陕西省教育厅专项科研计划项目(17JK0687)
西安市科技创新引导项目(201805040YD18CG24(7))。
-
文摘
为使科研人员节省时间,高效阅读学术文献信息,提出一种学术文献摘要的主题聚类模型——优化主题数目作者层主题聚类模型(WBLDA)。首先在预处理阶段,自定义符合学术文献摘要特点的分词词典和停用词词典,解决学术文献摘要分词不准确的问题;在特征提取阶段,提出增大词频特征提取方法(ITF-IDF),使用词频放大法来增大词频,弱化文本长度对特征权重的影响,提取出更加符合学术文献摘要方向的特征词;最后,针对传统主题模型忽略作者这一重要属性的缺点,在主题聚类模型中引入学术文献摘要的作者信息,构建文档—主题+作者—词的WBLDA模型,同时使用贝叶斯准则优化主题聚类模型的主题数。通过对学术文献摘要数据集仿真实验结果表明,与TF-IDF相比,ITF-IDF方法的特征提取准确率更高;与LDA相比,WBLDA模型的聚类纯度和F-score值也更高,选择出的主题更加准确,更能代表摘要的学术方向。
-
关键词
主题聚类
增大词频特征提取法
优化主题数目作者层主题聚类模型
贝叶斯准则
-
Keywords
topic clustering
ITF-IDF
WBLDA
Bayesian criterion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-