识别学科交叉研究的前沿主题,并对演化趋势进行分析,有助于揭示学科交叉融合的方向,为未来创新性、突破性研究提供参考。首先,基于引文视角构建测度论文学科交叉性的指标,识别具有学科交叉性的研究论文;其次,通过BERT-LDA模型识别研究主...识别学科交叉研究的前沿主题,并对演化趋势进行分析,有助于揭示学科交叉融合的方向,为未来创新性、突破性研究提供参考。首先,基于引文视角构建测度论文学科交叉性的指标,识别具有学科交叉性的研究论文;其次,通过BERT-LDA模型识别研究主题,利用余弦相似度计算主题之间的相似度,构建主题演化路径;最后,基于新颖度、增长性、关注度、影响力构建前沿主题识别指标体系,识别具有前沿性的学科交叉研究主题。以图书情报学(Library and Information Science,LIS)为例展开研究,研究结果显示,2004—2023年该学科领域的交叉研究主题呈现出逐渐细化和深入的特点,主要集中在信息挖掘与知识发现、互联网信息行为、医疗信息学3个方面;现阶段学科交叉研究前沿主题为医疗数据模型、舆情治理与情感分析、机器学习与深度学习;基于信息技术的研究方法和其在不同领域的应用研究具有良好的应用前景,有可能成为未来LIS领域的核心研究主题。展开更多
传统的主题模型在对短文本建模时,会由于词汇稀疏导致模型效果不好。论文针对短文本数据特征,提出了BERT-LDA主题挖掘模型(Short Text Topic Mining Based on BERT and LDA),该算法通过使用预训练BERT模型提取文本语义特征,再通过K-mean...传统的主题模型在对短文本建模时,会由于词汇稀疏导致模型效果不好。论文针对短文本数据特征,提出了BERT-LDA主题挖掘模型(Short Text Topic Mining Based on BERT and LDA),该算法通过使用预训练BERT模型提取文本语义特征,再通过K-means聚类算法将短文本聚合成长文本再进行主题建模,从而扩充单条文本包含的语义特征,有效降低了词汇稀疏性,从而提升模型效果。通过在实际数据上进行对比实验证明,与LDA和BTM模型相比,该算法能够取得更低的困惑度。展开更多
文摘识别学科交叉研究的前沿主题,并对演化趋势进行分析,有助于揭示学科交叉融合的方向,为未来创新性、突破性研究提供参考。首先,基于引文视角构建测度论文学科交叉性的指标,识别具有学科交叉性的研究论文;其次,通过BERT-LDA模型识别研究主题,利用余弦相似度计算主题之间的相似度,构建主题演化路径;最后,基于新颖度、增长性、关注度、影响力构建前沿主题识别指标体系,识别具有前沿性的学科交叉研究主题。以图书情报学(Library and Information Science,LIS)为例展开研究,研究结果显示,2004—2023年该学科领域的交叉研究主题呈现出逐渐细化和深入的特点,主要集中在信息挖掘与知识发现、互联网信息行为、医疗信息学3个方面;现阶段学科交叉研究前沿主题为医疗数据模型、舆情治理与情感分析、机器学习与深度学习;基于信息技术的研究方法和其在不同领域的应用研究具有良好的应用前景,有可能成为未来LIS领域的核心研究主题。
文摘构建大规模网络舆情演化仿真模型,对新冠疫情武汉重灾区与全国其他地区采取差异化的应急管理和舆情疏导具有指导价值。为实现主题细粒度的舆情情感演化仿真,将LDA(Latent Dirichlet Allocation)主题模型与BERT(Bidirectional Encoder Representations from Transformers)词向量深度融合,优化主题向量助力文本主题聚类;同时,在改进BERT预训练任务的基础上,叠加深度预训练任务,以提高模型在情感分类中的精确度。结果表明:在主题向量训练过程中,改进的BERT-LDA模型较原始LDA模型NPMI(Normalized Pointwise Mutual Information)值提升0.357;在疫情事件情感分类任务上,AUC(Area Under the Curve)值超过了99.6%,证明其能够有效运用于大规模网络舆情演化仿真。
文摘传统的主题模型在对短文本建模时,会由于词汇稀疏导致模型效果不好。论文针对短文本数据特征,提出了BERT-LDA主题挖掘模型(Short Text Topic Mining Based on BERT and LDA),该算法通过使用预训练BERT模型提取文本语义特征,再通过K-means聚类算法将短文本聚合成长文本再进行主题建模,从而扩充单条文本包含的语义特征,有效降低了词汇稀疏性,从而提升模型效果。通过在实际数据上进行对比实验证明,与LDA和BTM模型相比,该算法能够取得更低的困惑度。