摘要
全球化背景下,从不同语种的海量科研文献数据集中自动挖掘隐含主题,精准刻画科研人员研究兴趣是信息服务迈向知识服务的关键问题,也是跨语言信息检索的关键技术之一。目前刻画科研人员兴趣的方法多基于其某一语种的文献,不适用于多语言数据集。本文在作者主题模型和多语言主题模型的基础上提出了多语作者主题(JointAT)模型,可从多语言数据集刻画作者兴趣,并给出了一种估计JointAT模型参数的吉布斯采样方法。实验结果表明,JointAT模型与作者主题(AT)模型相比具有更好的泛化能力。
In the background of big data and globalization,mining latent topics automatically and profiling researchersinterests accurately from massive multilingual literature are some of the key issues encountered in providing services with respect to information for knowledge and cross language information retrieval.Currently,the methods adopted to describe researchersinterests are mostly based on literatures in one certain language and therefore,these are not applicable to multilanguage datasets.This study suggests the JointAT(joint author-topic)model on the basis of author-topic model and multilingual topic model to profile researchersinterests from multilingual datasets.Moreover,a Gibbs sampling method to estimate the parameters of the JointAT model is proposed.The experimental results indicate that the JointAT model exhibits a better generalization ability than the author-topic model.
作者
李岩
刘志辉
高影繁
Li Yan;Liu Zhihui;Gao Yingfan(Institute of Scientific and Technical Information of China,Beijing 100038)
出处
《情报学报》
CSSCI
CSCD
北大核心
2020年第6期601-608,共8页
Journal of the China Society for Scientific and Technical Information
基金
中央级公益性科研院所基本科研业务费专项资金项目“上市公司年报数据库建设及服务系统研发”(ZD2019-09)
中国科学技术信息研究所创新研究基金青年项目“上市公司技术主题识别方法及可视化研究”(QN2019-12)。
关键词
主题模型
多语作者主题模型
研究兴趣
吉布斯采样
topic model
multilingual author-topic model
research interests
Gibbs sampling