期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于LDA和语步标注的主题识别与分析方法研究
1
作者 张辉 串丽敏 +2 位作者 郑怀国 赵静娟 齐世杰 《数据与计算发展前沿》 CSCD 2023年第5期107-118,共12页
【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transfor... 【目的】从主题表征词抽取和主题句功能分类两个维度,设计基于潜在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)和语步标注的主题分析方法,并探究方法的有效性与实用性。【方法】采用LDA模型进行主题识别,利用Sentence Transformer模型对主题词短语进行提取,同时构建句子功能分类模型进行语步标注,识别文本句子功能类型,从句子功能维度对主题内容进行细粒度分析。【结果】以农业资源与环境领域论文数据为例进行实证研究,结果表明,相比传统LDA模型,经过提取主题词短语后,识别出的主题表征词可读性和解释性更强,进一步结合语步标注后,主题句子内容分析更为深入。【局限】主题短语表征词扩展内容存在含义相同问题,有待进一步改进表征词的多样性,以整合相同含义的主题短语表征词。【结论】本研究所提方法在主题表征词抽取、主题内容分析方面具有较好的效果,可以提高文本主题挖掘的效率与深度。 展开更多
关键词 LDA模型 语步标注 主题短语 主题分析
下载PDF
一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现 被引量:6
2
作者 郎冬冬 刘晨晨 +2 位作者 冯旭鹏 刘利军 黄青松 《计算机应用与软件》 北大核心 2018年第3期54-60,共7页
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词... 为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。 展开更多
关键词 关键短语抽取 LDA模型 主题挖掘 TextRank 主题影响力
下载PDF
基于发文内容的微博用户兴趣挖掘方法研究 被引量:9
3
作者 熊才伟 曹亚男 《计算机应用研究》 CSCD 北大核心 2018年第6期1619-1623,共5页
针对微博用户兴趣属性缺失问题,提出一种基于发文内容分析的微博用户兴趣挖掘方法。利用基于短语的主题模型和自动构建的用户兴趣知识库,能够有效地从发文内容中挖掘出高质量的用户兴趣短语并标志其类别,从而实现对微博用户的兴趣挖掘。... 针对微博用户兴趣属性缺失问题,提出一种基于发文内容分析的微博用户兴趣挖掘方法。利用基于短语的主题模型和自动构建的用户兴趣知识库,能够有效地从发文内容中挖掘出高质量的用户兴趣短语并标志其类别,从而实现对微博用户的兴趣挖掘。在SMP CUP 2016数据集上的实验结果表明,主题短语模型在困惑度和短语质量上取得的效果均优于传统的主题模型,用户兴趣挖掘的准确率和召回率最高可达到78%和82%。 展开更多
关键词 微博 发文内容 兴趣挖掘 主题短语模型 知识库
下载PDF
LDA与词汇链相结合的主题短语抽取方法 被引量:4
4
作者 张小鹏 吕学强 +1 位作者 李卓 徐丽萍 《小型微型计算机系统》 CSCD 北大核心 2018年第11期2457-2463,共7页
主题短语能够有效地概括文献主要内容,针对性地反映文献的核心思想.为了改进技术文献的主题抽取效果,在研究LDA主题模型和词汇链的基础上,提出了LDA模型与词汇链相结合的主题短语抽取方法,减小了利用单一LDA模型抽取文献主题中存在的主... 主题短语能够有效地概括文献主要内容,针对性地反映文献的核心思想.为了改进技术文献的主题抽取效果,在研究LDA主题模型和词汇链的基础上,提出了LDA模型与词汇链相结合的主题短语抽取方法,减小了利用单一LDA模型抽取文献主题中存在的主题漂移问题;在主题短语抽取中,利用对数似然比解决了词汇链构造过程中知识库未收录词的词语相关度的计算问题.实验结果表明,该方法相对于传统方法的主题抽取效果具有明显的改善,且准确率和召回率均有所提升.对信息检索、文本聚类等工作具有十分重要的支撑作用. 展开更多
关键词 LDA模型 词汇链 WORDNET 主题短语 对数似然比
下载PDF
基于SL-LDA的领域标签获取方法 被引量:2
5
作者 王胜 张仰森 +2 位作者 张雯 蒋玉茹 张睿 《计算机科学》 CSCD 北大核心 2020年第11期95-100,共6页
科学技术的发展为文献及学者的管理提出了新的挑战,为解决海量科技文献及学者的自动管理,文中提出了一种基于SL-LDA的领域标签获取方法。在海量科技文献的基础上,分析科技文献数据的分布特点,通过引入科技文献的词频特征构建了SL-LDA主... 科学技术的发展为文献及学者的管理提出了新的挑战,为解决海量科技文献及学者的自动管理,文中提出了一种基于SL-LDA的领域标签获取方法。在海量科技文献的基础上,分析科技文献数据的分布特点,通过引入科技文献的词频特征构建了SL-LDA主题模型,利用该主题模型对同一学者的科技文献进行"主题-短语"抽取,获得初始领域关键词。接着引入领域体系,对主题模型的抽取结果与体系标签进行向量表征,经过位置特征加权后使用相似度进行体系映射,最终获得学者的领域标签。实验结果表明,在同样的文献数据量下,SL-LDA模型与传统的LDA模型、基于统计的TFIDF算法和基于网络图的Text-Rank算法相比,最终获取的标签词效果更好,准确率更高,F1值也提升到0.572,说明基于SL-LDA的领域标签抽取方法在学术领域具有较好的适用性。 展开更多
关键词 领域标签 SL-LDA模型 标签映射 主题短语抽取 科技文献
下载PDF
中文文本的主题关键短语提取技术 被引量:5
6
作者 杨玥 张德生 《计算机科学》 CSCD 北大核心 2017年第B11期432-436,共5页
在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在传统关键词提取算法中,通常忽略了两个重要的方面:词语长度和... 在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在传统关键词提取算法中,通常忽略了两个重要的方面:词语长度和文本主题。针对以上两方面问题,提出了提取中文文本的主题关键短语技术。将LDA主题模型与频繁短语发现算法相结合,生成不同长度的频繁候选短语;然后,利用所提的完整性筛选和排序函数对候选短语进行筛选和排序;最后,根据排序结果选择最终的主题关键短语。 展开更多
关键词 关键词提取 LDA主题模型 频繁短语 完整性筛选 排序函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部