期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
共词网络LDA模型的中文短文本主题分析 被引量:42
1
作者 蔡永明 长青 《情报学报》 CSSCI CSCD 北大核心 2018年第3期305-317,共13页
由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,... 由于短文本的特征稀疏性,传统的LDA或PLSA主题模型分析短文本的效果并不理想。结合社交网络社区发现技术,提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word network Analysis)。在传统LDA模型的基础上加入共词网络分析,考虑词汇在不同文档间的共现情况,构建词汇社交网络;利用词汇社交网络隐含空间降维的方法,以自同构等价规则,合并在网络中结构特征相同的词汇,在不损失信息的前提下,降低了词汇矩阵稀疏性;考虑词汇搭配关系(网络节点的邻接),以共词网络特征向量中心度调节主题模型中的词汇权重,通过递归累加,提高与重要词汇搭配的词汇的重要性;在传统LDA主题模型吉布斯采样(Gibbs Sampling)过程中,同时增加隐含位置聚类模型的社区发现算法,提高了具有相同搭配关系词汇划分在同一主题下的概率。实验证明该模型在短文本分析中有较好的效果。 展开更多
关键词 共词网络lda主题模型(CA-lda) 隐含空间降维 自同构等价规则 隐含位置聚类
下载PDF
共词网络LDA模型的中文文本主题分析:以交通法学文献(2000-2016)为例 被引量:7
2
作者 马红 蔡永明 《现代图书情报技术》 CSSCI 2016年第12期17-26,共10页
【目的】通过结合传统LDA模型的概率主题抽取方法和共词网络分析发现文献词汇间的联系结构的两者优势,降低由少量文献产生的高频词汇的干扰,提高主题凝聚性。【方法】在交通法学文献摘要文本主题分析中,加入文献的关键词作为分词复合词... 【目的】通过结合传统LDA模型的概率主题抽取方法和共词网络分析发现文献词汇间的联系结构的两者优势,降低由少量文献产生的高频词汇的干扰,提高主题凝聚性。【方法】在交通法学文献摘要文本主题分析中,加入文献的关键词作为分词复合词典,提高语义识别度;提出CA-LDA模型(Latent Dirichlet Allocation Model with Co-word Analysis),在传统LDA模型的基础上加入共词网络分析,以共词网络拓扑结构参数作为权重控制词汇主题分配(采用介数中心度),优先提取同时具有高共现性(中介性)和高频率的词汇。【结果】CA-LDA模型可以得到多篇文献同时共现的高频词汇,这样产生的重点词汇表对主题分析更有意义。该算法的结果不仅仅反映词频概率,同时也能从词汇关联上发现枢纽词汇,更深入理解该领域的研究热点。【局限】CA-LDA模型主题数目K的取值采用混淆度标准交叉验证获得,如果在实际分析中K值太大,不利于文献主题的分类整理,未来研究需要对该结果进一步处理来凝聚主题。【结论】本文将该模型应用于交通法学研究领域热点主题分析,在处理大规模文献数据中取得较好效果。相关研究可以拓展应用于各种领域的大规模文献数据自动化处理中。 展开更多
关键词 共词网络lda 主题模型(CA-lda) 主题 网络拓扑结构参数 随机梯度下降 交通法学热
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部