-
题名基于LDA模型和话题过滤的研究主题演化分析
被引量:29
- 1
-
-
作者
李保利
杨星
-
机构
河南工业大学粮食信息处理与控制教育部重点实验室
数字出版技术国家重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2738-2743,共6页
-
基金
CCF-数字出版技术国家重点实验室开放基金项目(CCF2012-02-02)资助
河南省基础与前沿技术研究项目(112300410007)资助
河南工业大学高层次人才基金项目(2012BS027)资助
-
文摘
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响.
-
关键词
LDA模型
主题演化
种子话题
话题过滤
加权线性组合
-
Keywords
LDA model
topic evolution
seed topic
topic filters
weighted linear combination
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于LDA模型的科技文献话题演化分析
- 2
-
-
作者
袁胜文
-
机构
河南工业大学信息科学与工程学院
-
出处
《计算机光盘软件与应用》
2014年第21期21-22,共2页
-
基金
河南省基础与前沿技术研究项目(项目编号:112300410007)
-
文摘
本文提出了一种通过追踪不同时间片内话题的变化趋势进行话题演化分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后对语义意义不明确的话题进行话题过滤,最后通过计算话题的强度和关联度来分析话题的演化趋势。本文对《计算机学报》论文集进行实验,实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,且具有良好的效果。
-
关键词
LDA模型
话题演化
话题过滤
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-