传统的主题模型在对短文本建模时,会由于词汇稀疏导致模型效果不好。论文针对短文本数据特征,提出了BERT-LDA主题挖掘模型(Short Text Topic Mining Based on BERT and LDA),该算法通过使用预训练BERT模型提取文本语义特征,再通过K-mean...传统的主题模型在对短文本建模时,会由于词汇稀疏导致模型效果不好。论文针对短文本数据特征,提出了BERT-LDA主题挖掘模型(Short Text Topic Mining Based on BERT and LDA),该算法通过使用预训练BERT模型提取文本语义特征,再通过K-means聚类算法将短文本聚合成长文本再进行主题建模,从而扩充单条文本包含的语义特征,有效降低了词汇稀疏性,从而提升模型效果。通过在实际数据上进行对比实验证明,与LDA和BTM模型相比,该算法能够取得更低的困惑度。展开更多
由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,...由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率。实验证明该模型在短文本分析中有较好的效果。展开更多
文摘传统的主题模型在对短文本建模时,会由于词汇稀疏导致模型效果不好。论文针对短文本数据特征,提出了BERT-LDA主题挖掘模型(Short Text Topic Mining Based on BERT and LDA),该算法通过使用预训练BERT模型提取文本语义特征,再通过K-means聚类算法将短文本聚合成长文本再进行主题建模,从而扩充单条文本包含的语义特征,有效降低了词汇稀疏性,从而提升模型效果。通过在实际数据上进行对比实验证明,与LDA和BTM模型相比,该算法能够取得更低的困惑度。
文摘由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率。实验证明该模型在短文本分析中有较好的效果。