-
题名基于SL-LDA的领域标签获取方法
被引量:2
- 1
-
-
作者
王胜
张仰森
张雯
蒋玉茹
张睿
-
机构
北京信息科技大学智能信息处理研究所
国家经济安全预警工程北京实验室
-
出处
《计算机科学》
CSCD
北大核心
2020年第11期95-100,共6页
-
基金
国家自然科学基金项目(61772081,61602044)
科技创新服务能力建设-科研基地建设-北京实验室-国家经济安全预警工程北京实验室项目(PXM2018_014224_000010)。
-
文摘
科学技术的发展为文献及学者的管理提出了新的挑战,为解决海量科技文献及学者的自动管理,文中提出了一种基于SL-LDA的领域标签获取方法。在海量科技文献的基础上,分析科技文献数据的分布特点,通过引入科技文献的词频特征构建了SL-LDA主题模型,利用该主题模型对同一学者的科技文献进行"主题-短语"抽取,获得初始领域关键词。接着引入领域体系,对主题模型的抽取结果与体系标签进行向量表征,经过位置特征加权后使用相似度进行体系映射,最终获得学者的领域标签。实验结果表明,在同样的文献数据量下,SL-LDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的Text-Rank算法相比,最终获取的标签词效果更好,准确率更高,F1值也提升到0.572,说明基于SL-LDA的领域标签抽取方法在学术领域具有较好的适用性。
-
关键词
领域标签
sl-lda模型
标签映射
主题短语抽取
科技文献
-
Keywords
Domain tags
sl-lda model
Label mapping
theme phrase extraction
Scientific literature
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-