期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于LDA模型的文本分类研究 被引量:56
1
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 潜在狄利克雷分配(lda)模型 GIBBS抽样 贝叶斯统计理论
下载PDF
基于LDA模型的电力投诉文本热点话题识别 被引量:3
2
作者 许睿 龙丹 +1 位作者 刘佳 刘畅 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第S02期26-31,共6页
电力客户投诉是评价电网公司客户满意度的核心指标.传统人工分析方法存在发现热点话题上存在低效率、实时性不高等问题,提出一种基于LDA(Latent Dirichlet Allocation)模型的电力投诉文本热点话题的识别方法.首先,使用TF-IDF方法从电力... 电力客户投诉是评价电网公司客户满意度的核心指标.传统人工分析方法存在发现热点话题上存在低效率、实时性不高等问题,提出一种基于LDA(Latent Dirichlet Allocation)模型的电力投诉文本热点话题的识别方法.首先,使用TF-IDF方法从电力投诉文本中提取TOP-N关键词,作为该文本的特征词集合,并采用词袋模型,将文本向量表示;其次,使用LDA模型提取文本的话题,得到"文本-话题"矩阵和"话题-单词"矩阵;然后,根据关键词在话题-单词矩阵中出现的分布概率以及关键词在文本中出现的频率,选取从最大权重值的关键词,作为该话题的特征词;最后,使用文档话题支持度,从提取的话题中识别出热点话题.实验结果表明该方法可以准确识别电力投诉文本中的热点话题. 展开更多
关键词 话题识别 lda(Latent Dirichlet Allocation)模型 TF-IDF 电力投诉文本
下载PDF
在线增量标签主题模型 被引量:1
3
作者 陈永恒 左祥麟 林耀进 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2015年第5期992-998,共7页
将文本之间存在的时序关联性元信息和文档的标签信息,引入到隐藏Dirichlet分配模型中,提出一种在线增量标签主题(on-line labeled incremental topic model,OLT)模型.首先,在线增量标签主题模型优化了文本标签元信息与主题之间的映射关... 将文本之间存在的时序关联性元信息和文档的标签信息,引入到隐藏Dirichlet分配模型中,提出一种在线增量标签主题(on-line labeled incremental topic model,OLT)模型.首先,在线增量标签主题模型优化了文本标签元信息与主题之间的映射关系;其次,利用动态字典增加了模型与文本的拟合程度.该模型优化了先验分布超参数迁移计算的连续性,解决了隐藏Dirichlet分配(LDA)模型不能利用文本属性与主题之间的相关性进行主题发现及演变分析的问题.实验结果表明,所提出的在线增量标签主题模型能显著改善多标签判别精度,提高模型的泛化能力并提升模型的运行性能. 展开更多
关键词 信息处理 隐藏Dirichlet分配(lda)模型 自然语言处理 主题模型
下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
4
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 潜在狄利克雷分配(lda)模型 GIBBS抽样 多关系主题
下载PDF
面向共享单车需求预测的多模型可视比较分析
5
作者 张奇奇 饶宁 +2 位作者 朱素佳 查梦 孙国道 《高技术通讯》 CAS 2023年第12期1323-1332,共10页
针对不同的区域如何比较不同的模型并选择最佳模型进行预测以及是否存在普遍适用的最佳预测模型等问题,本文设计了一套面向共享单车需求预测的多模型可视比较分析系统。首先,使用隐含狄利克雷分布(LDA)模型,选择具有代表性的预测区域,... 针对不同的区域如何比较不同的模型并选择最佳模型进行预测以及是否存在普遍适用的最佳预测模型等问题,本文设计了一套面向共享单车需求预测的多模型可视比较分析系统。首先,使用隐含狄利克雷分布(LDA)模型,选择具有代表性的预测区域,并在预测区域之间设计相应的字形,通过字形比较多个模型的预测性能。其次,提出一种计算城市空间区域相似度的新方法area2vec,用于比较相似区域模型预测性能的差异;设计使用网格布局算法,有效地缓解了地图中字形遮挡的问题。最后,通过案例分析和用户调查验证了该系统的有效性和实用性。 展开更多
关键词 需求预测 隐含狄利克雷分布(lda)模型 词嵌入 模型比较 可视分析
下载PDF
潜在狄利克雷分配模型在网络日志的应用
6
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 潜在狄利克雷分配(lda)模型 URL 分类
下载PDF
基于LDA模型的元宇宙主题挖掘与演化
7
作者 陈加元 刘彦 《科技和产业》 2024年第23期279-287,共9页
检索WoS核心数据库关于元宇宙文献(保留文献的摘要部分),依靠Python进行LDA(潜在狄利克雷分配)模型构建,通过困惑度以及主题一致性确定最佳主题数,并抽取文本下词频最高的11个主题,对元宇宙相关文献进行主题抽取与挖掘,运用WordCloud技... 检索WoS核心数据库关于元宇宙文献(保留文献的摘要部分),依靠Python进行LDA(潜在狄利克雷分配)模型构建,通过困惑度以及主题一致性确定最佳主题数,并抽取文本下词频最高的11个主题,对元宇宙相关文献进行主题抽取与挖掘,运用WordCloud技术、桑基图(主题相似度)进行主题演化分析,从而了解元宇宙发展状态以及演化趋势。结果表明:目前关于元宇宙的研究主要在“元宇宙技术”和“元宇宙应用”方面,词云分析中关键词“tech-nolog”以及“virtual”较为突出;从主题热度分析来看,主题4(教育元宇宙研究)、主题7(元宇宙技术研究)、主题8(元宇宙应用研究)是目前元宇宙研究的热点;从主题演化分析来看,第1阶段(2018—2022年)中主题2元宇宙模型研究和主题8元宇宙技术研究表现出较强的演化能力,第2阶段(2023—2024年)的主题4元宇宙体验研究和主题8元宇宙场景构建研究演化能力强,且与相邻主题相似性高。 展开更多
关键词 元宇宙 潜在狄利克雷分配(lda)模型 主题挖掘 主题演化
下载PDF
基于大数据的智能制造岗位与技能需求研究 被引量:1
8
作者 刘祺彬 高祥兰 +1 位作者 何凤琴 李新元 《上海师范大学学报(自然科学版中英文)》 2024年第2期236-240,共5页
在不违反相关协议准则的情况下,通过爬虫技术获取智能制造岗位数据,并对其进行清洗与脱敏处理.应用Jieba中文分词工具、K-means聚类算法与隐含狄利克雷分布(LDA)模型,将岗位名称分为6类,将技能集分为8类.最后,构建需求矩阵并归一化处理... 在不违反相关协议准则的情况下,通过爬虫技术获取智能制造岗位数据,并对其进行清洗与脱敏处理.应用Jieba中文分词工具、K-means聚类算法与隐含狄利克雷分布(LDA)模型,将岗位名称分为6类,将技能集分为8类.最后,构建需求矩阵并归一化处理,得到各技能集对岗位簇的重要程度,为专业选择、课程建设与从业人员发展提供参考. 展开更多
关键词 智能制造 大数据分析 K-MEANS 隐含狄利克雷分布(lda)模型 需求评估
下载PDF
洪涝灾害研究主题的时空差异性:中英文文献比较研究
9
作者 贺蔚杰 田健 +2 位作者 宋苑震 张家豪 曾坚 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4391-4400,共10页
在全球气候变化背景下,洪涝灾害已成为威胁人群生命财产安全的世界性问题。目前,关于洪涝灾害的研究已较为丰富,需进行系统性梳理和总结。为探究国内外洪涝灾害的研究现状与趋势,采用文献计量的分析方法,对2003—2022年中国知网(China N... 在全球气候变化背景下,洪涝灾害已成为威胁人群生命财产安全的世界性问题。目前,关于洪涝灾害的研究已较为丰富,需进行系统性梳理和总结。为探究国内外洪涝灾害的研究现状与趋势,采用文献计量的分析方法,对2003—2022年中国知网(China National Knowledge Infrastructure,CNKI)和WoS(Web of Science)数据库中主题为洪涝灾害的中英文文献进行文本分析。从关键词共现模式、研究主题的时间聚类及空间分布三个角度,探索洪涝灾害相关研究的主题演进模式和地理分布特征,并总结未来发展方向。结果表明:(1)在研究关键词共现模式方面,中文研究更加关心洪涝灾害区域影响及管理策略等灾害的后续影响方面,英文研究则更倾向于探究洪涝灾害的成因,从气候变化与孕灾环境角度分析洪涝灾害。中英文研究均强调新兴技术在洪涝灾害研究中的应用。(2)在研究主题时间聚类方面,中文研究在21世纪初期追随英文研究的关注热点,并在2015年前后逐渐形成具有中国本土化特色的研究框架,强调使用多源数据和多种算法模型进行定量化分析,主要着眼于城市化发展对洪涝灾害的多时段、多尺度干预效应。(3)在研究主题空间分布方面,沿海经济发达地区受到研究者更多的关注,表明洪涝灾害研究的主题与数量受到研究区域的地理位置、气候条件和社会经济发展水平的影响。 展开更多
关键词 公共安全 洪涝灾害 文本分析 共现网络 潜在狄利克雷分配(lda)模型 地理解析 对比分析
下载PDF
基于高光谱的黑色签字笔墨水种类鉴别方法研究 被引量:9
10
作者 王书越 杨玉柱 +1 位作者 何伟文 李润康 《分析测试学报》 CAS CSCD 北大核心 2021年第10期1489-1496,共8页
该文提出了高光谱成像技术结合机器学习快速无损鉴别黑色签字笔墨水种类的新方法。采集36支不同品牌型号的黑色签字笔笔迹的高光谱图像,对每支签字笔笔迹的高光谱图像选取18个感兴趣区域,共提取648个平均光谱作为样本集。对450~950 nm... 该文提出了高光谱成像技术结合机器学习快速无损鉴别黑色签字笔墨水种类的新方法。采集36支不同品牌型号的黑色签字笔笔迹的高光谱图像,对每支签字笔笔迹的高光谱图像选取18个感兴趣区域,共提取648个平均光谱作为样本集。对450~950 nm的原始光谱进行Savitzky-Golay平滑、Z-Score标准化和两种组合方法光谱预处理,使用线性判别分析(LDA)和随机子空间-线性判别分析(RSM-LDA)分别构建黑色签字笔墨水种类鉴别模型。实验结果表明:不同预处理方法对RSM-LDA模型的鉴别准确率影响较小,而对于LDA模型,组合预处理具有更优的鉴别准确率;相比LDA模型,RSM-LDA模型分类效果更佳,训练集的平均分类准确率达100%,交叉验证平均分类准确率达99.09%,测试集的平均分类准确率达90.70%,每类样本的准确率、精准率、召回率均高于LDA模型分类结果,模型的接受者操作特征曲线下方面积(AUC值)达0.9983,模型性能良好。因此,采用高光谱成像技术结合RSM-LDA可实现不同品牌型号黑色签字笔墨水的快速无损鉴别。 展开更多
关键词 高光谱成像 黑色签字笔墨水 线性判别分析(lda)模型 随机子空间-线性判别分析(RSM-lda)模型
下载PDF
基于耦合关系的情感词语义分析方法 被引量:1
11
作者 王伟 孟祥福 肖春娇 《计算机科学与探索》 CSCD 2014年第9期1146-1152,共7页
针对传统话题模型不能很好地获取文本情感信息并进行情感分类的问题,提出了情感LDA(latent Dirichlet allocation)模型,并通过对文本情感进行建模分析,提出了情感词耦合关系的LDA模型。该模型不但考虑了情感词的话题语境,而且考虑了词... 针对传统话题模型不能很好地获取文本情感信息并进行情感分类的问题,提出了情感LDA(latent Dirichlet allocation)模型,并通过对文本情感进行建模分析,提出了情感词耦合关系的LDA模型。该模型不但考虑了情感词的话题语境,而且考虑了词的情感耦合关系,并且通过引入情感变量对情感词的概率分布进行控制,采用隐马尔科夫模型对情感词耦合关系的转移进行建模分析。实验表明,该模型可以对情感词耦合关系和话题同时进行分析,不仅能有效地进行文本情感建模,而且提升了情感分类结果的准确度。 展开更多
关键词 潜在Dirichlet分配(lda)模型 情感词耦合 隐马尔科夫模型(HMM) 文本情感建模
下载PDF
地名视角下青海藏族人类活动演变时空分析 被引量:1
12
作者 栾桂泽 彭直琰 +4 位作者 蔡敬芝 富瑶 宋璐 沈克强 赵飞 《测绘地理信息》 CSCD 2021年第5期163-168,共6页
以青海省95 000余条地名数据为研究样本,运用向前逐步回归分析与隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型等方法,系统地分析了青海藏族地名特征及人类活动时空演变规律。结果表明:(1)藏族聚集区的形成主要受地形与水系... 以青海省95 000余条地名数据为研究样本,运用向前逐步回归分析与隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型等方法,系统地分析了青海藏族地名特征及人类活动时空演变规律。结果表明:(1)藏族聚集区的形成主要受地形与水系的影响,其中地形因素影响最大;(2)1949年后,受民族政策影响出现大量民族区域自治组织;(3)许多牧民转为定居劳作形成现在的藏族聚集区;(4)近300年中,青海藏民的主要迁徙地区为海南藏族自治州及其周边,藏民的迁徙在一定程度上传播了藏传佛教。 展开更多
关键词 藏族聚集区 地名研究 人类活动 逐步回归分析 隐含狄利克雷分布(latent Dirichlet allocation lda)模型 迁移分析
原文传递
基于在线文本情感分析的“唐文化”目的地形象挖掘研究 被引量:1
13
作者 张成元 刘云珂 +2 位作者 赵炳清 柴建 姜福鑫 《计量经济学报》 CSSCI CSCD 2023年第2期387-407,共21页
如何挖掘历史文化资源促进精准营销以高效吸引游客,是我国诸多文化旅游资源富集的景区亟需解决的问题.本文以西安“唐文化”旅游目的地形象挖掘为研究对象,通过15,683条在线文本评论的高频词提取、语义网络分析、主题词挖掘和情感分析,... 如何挖掘历史文化资源促进精准营销以高效吸引游客,是我国诸多文化旅游资源富集的景区亟需解决的问题.本文以西安“唐文化”旅游目的地形象挖掘为研究对象,通过15,683条在线文本评论的高频词提取、语义网络分析、主题词挖掘和情感分析,识别出消费者“唐文化”目的地形象的关注点.研究结果表明,首先,前100个高频词可分为遗产资源、旅游活动和游客情绪三类;其次,游客较为关注西安著名景区、建筑、文化及“大唐盛世”文化氛围;再次,通过文本评论情感分析获取负面情感高频词,并挖掘负面评论出现的原因;最后,通过隐含狄利克雷分布(latent Dirichlet allocation,LDA)模型确定评论主题,同时,利用K近邻算法验证LDA主题分类.本文的研究结果可为西安市旅游目的地形象改进和潜在“唐文化”旅游创意策划提供有力支撑,同时也可为其他历史文化名城提高旅游吸引力提供借鉴. 展开更多
关键词 文本挖掘 情感分析 连续词袋(CBOW)模型 隐含狄利克雷分布(lda)模型
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部