[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和...[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和5种文本特征计算方法(Bag of Words、TFIDF、Doc2vec、MiniLM、SciBert)进行中英文科学文献主题建模实验,并对不同建模结果的主题多样性、主题一致性、主题稳定性和主题离散性指标进行对比分析。[结果/结论]不同建模工具的主题识别结果存在较大差异,其中LDA与Bertopic在英文和中文语料上识别出的主题中具有相似性关系的主题占比相对较高,但也仅为9.81%和7.46%;基于Doc2vec算法的Top2vec模型在主题多样性指标上的表现相对最优;基于文本预训练算法的Top2vec模型和Bertopic模型的主题稳定性和离散性指标优于传统主题建模方法。针对大语言模型技术的快速发展和广泛应用,加快推进科学文献预训练模型研发,并将之应用于科技情报业务实践是当前的重要研究方向。展开更多
文摘[背景/意义]研究和对比不同主题建模方法在科学文献主题识别上的应用表现,对于合理选择使用主题建模技术开展科学文献主题挖掘具有重要意义。[方法/过程]通过构建中英文科学文献实验语料,选择3种主题建模方法(LDA、Top2vec、Bertopic)和5种文本特征计算方法(Bag of Words、TFIDF、Doc2vec、MiniLM、SciBert)进行中英文科学文献主题建模实验,并对不同建模结果的主题多样性、主题一致性、主题稳定性和主题离散性指标进行对比分析。[结果/结论]不同建模工具的主题识别结果存在较大差异,其中LDA与Bertopic在英文和中文语料上识别出的主题中具有相似性关系的主题占比相对较高,但也仅为9.81%和7.46%;基于Doc2vec算法的Top2vec模型在主题多样性指标上的表现相对最优;基于文本预训练算法的Top2vec模型和Bertopic模型的主题稳定性和离散性指标优于传统主题建模方法。针对大语言模型技术的快速发展和广泛应用,加快推进科学文献预训练模型研发,并将之应用于科技情报业务实践是当前的重要研究方向。