期刊文献+
共找到78篇文章
< 1 2 4 >
每页显示 20 50 100
基于潜在狄利克雷分配模型预测克隆代码不一致变化的可能性 被引量:3
1
作者 尹丽丽 张丽萍 +2 位作者 王春晖 涂颖 刘东升 《计算机应用》 CSCD 北大核心 2014年第6期1788-1791,1811,共5页
程序员对源代码的拷贝、粘贴及修改活动会导致软件中出现大量的克隆代码,而在版本的进化过程中,克隆代码的不一致变化是引起程序错误的主要原因,同时会增加维护成本。为了解决该问题,提出一种新的研究方法:首先构建版本间克隆群的映射关... 程序员对源代码的拷贝、粘贴及修改活动会导致软件中出现大量的克隆代码,而在版本的进化过程中,克隆代码的不一致变化是引起程序错误的主要原因,同时会增加维护成本。为了解决该问题,提出一种新的研究方法:首先构建版本间克隆群的映射关系,其次借助潜在狄利克雷分配(LDA)模型提取直系克隆群集主题,最后预测克隆代码不一致变化的可能性。对一款软件的8个版本进行了实验,实验结果的区分度明显,可以有效地预测不一致变化的可能性,评估软件质量和可信性。 展开更多
关键词 预测 克隆代码 不一致变化 在狄利克雷分配模型 进化
下载PDF
基于潜在狄利克雷分配模型和互信息的无监督特征选取法 被引量:3
2
作者 董元元 陈基漓 唐小侠 《计算机应用》 CSCD 北大核心 2012年第8期2250-2252,2257,共4页
为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以"词—主题"间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分... 为解决互信息(MI)在特征选取中的类别缺失和倾向低频词问题,提出LDA-σ方法。该方法使用潜在狄利克雷分配模型(LDA)提取潜在主题,以"词—主题"间互信息的标准差作为特征评估函数。在Reuters-21578语料集上提取特征词并进行分类,LDA-σ方法的微平均F1最高达0.9096;宏平均F1优于其他算法,最高达0.7823。实验表明,LDA-σ方法可用于文本特征选取。 展开更多
关键词 在狄利克雷分配模型 互信息 评价函数
下载PDF
基于潜在狄利克雷分配的图像多层视觉表示方法
3
作者 李冬睿 李梅 《计算机应用》 CSCD 北大核心 2013年第8期2310-2312,2358,共4页
针对前馈型图像多层视觉表示方法难以处理局部模糊情况,提出一种基于潜在狄利克雷分配(LDA)的图像多层视觉表示方法——LDA-IMVR。通过递归的概率分解方式,获得LDA的递归生成模型;同时,通过学习和推断多层结构的所有分层,以及利用反馈... 针对前馈型图像多层视觉表示方法难以处理局部模糊情况,提出一种基于潜在狄利克雷分配(LDA)的图像多层视觉表示方法——LDA-IMVR。通过递归的概率分解方式,获得LDA的递归生成模型;同时,通过学习和推断多层结构的所有分层,以及利用反馈方式来提高分类学习性能。在Caltech 101数据集上的实验结果表明,与相关的多层视觉表示方法比较,LDA-IMVR提高了数据对象的分类性能,并且在分量学习和图像特征区域可视化方面也得到了较好的效果。 展开更多
关键词 分层视觉表示 计算机视觉 在狄利克雷分配 递归 反馈
下载PDF
基于潜在狄利克雷分配模型的医疗数据研究 被引量:2
4
作者 许珠香 江弋 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第3期356-359,共4页
以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗... 以潜在狄利克雷分配(Lejeune Dirichlet allocation,LDA)模型为基础,研究中医诊疗中的多关系主题模型,提出一个症状-中药-治疗-诊断方法(symptom-herb-therapies-diagnosis topic,SHTDT)模型,用于提取中医临床数据中的症状、中药、治疗方法和诊断的主题结构.参数推理采用Gibbs抽样,根据主题间平均相似度,确定最佳主题数.实验中采用SHTDT模型可以预测给定症状的患者的主题分布、中药、治疗方法及诊断结果,为临床医生和研究人员提供参考.结果表明该模型能够为中医临床诊疗规律的研究提供一个新的统计工具. 展开更多
关键词 中医诊断 中医治疗 在狄利克雷分配(LDA)模型 GIBBS抽样 多关系主题
下载PDF
潜在狄利克雷分配模型在网络日志的应用
5
作者 许两有 许珠香 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期455-458,共4页
近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历... 近年来,基于Web日志的数据挖掘技术逐渐成为理论研究和商业应用中的热点问题,而其中Web用户分类又是挖掘领域中最重要的研究主题之一.对Web用户分类能够发现用户之间相似的用户行为,从而针对具体用户群设置对应的服务项目.根据用户的历史访问网页地址(URL)信息,提出了基于加权潜在狄利克雷分配(LDA)模型的用户分类方法,将用户划分到不同的主题群体,实验表明,这种方法能达到很好的分类效果. 展开更多
关键词 WEB日志 在狄利克雷分配(LDA)模型 URL 分类
下载PDF
分布式潜在狄利克雷分配研究综述
6
作者 过云燕 李建中 《智能计算机与应用》 2021年第9期200-205,共6页
作为主题模型中最重要的机器学习模型,潜在狄利克雷分配问题在包括自然语言处理和信息检索等各领域展现出不可替代的地位。求解潜在狄利克雷分配问题主要采用变分推断和马尔科夫链蒙特卡洛两类算法。目前,数据的增长速度早已远超硬件能... 作为主题模型中最重要的机器学习模型,潜在狄利克雷分配问题在包括自然语言处理和信息检索等各领域展现出不可替代的地位。求解潜在狄利克雷分配问题主要采用变分推断和马尔科夫链蒙特卡洛两类算法。目前,数据的增长速度早已远超硬件能力的增长速度,因此在大数据时代,分布式平台的使用成为大数据训练的主流解决方案。利用分布式系统加速对潜在狄利克雷的训练和推断,成为相关研究领域的热门问题。本文对分布式潜在狄利克雷分配算法的相关工作进行分类整理和评估,对未来该领域的研究方向具有引导作用。 展开更多
关键词 分布式系统 在狄利克雷分配 变分推断 马尔科夫链蒙特卡洛
下载PDF
非监督式层次话题情感模型在网络评论主题发现中的应用
7
作者 陈永恒 姚桂杰 林耀进 《东北石油大学学报》 CAS 北大核心 2015年第1期112-117,8,共6页
自动发现话题的隐含结构、情感的极性及其关系,可以方便用户从海量网络评论集中快速获得他们关注的主要观点.提出一种基于非监督式的层次话题的情感(Unsupervised Level Aspect-Sentiment,ULAS)模型,利用贝叶斯非参数性模型作为先验知识... 自动发现话题的隐含结构、情感的极性及其关系,可以方便用户从海量网络评论集中快速获得他们关注的主要观点.提出一种基于非监督式的层次话题的情感(Unsupervised Level Aspect-Sentiment,ULAS)模型,利用贝叶斯非参数性模型作为先验知识,实现非监督式发现未标记评论文本集话题的层次结构,分析层次话题的情感极性.实验结果表明,相比传统的JST和ASUM模型,ULAS模型具备较高的分类精确度和较强的模型泛化能力,能够解决传统话题情感模型只能在单一粒度话题层进行情感分析的问题,实现多粒度话题层的情感分析,满足用户对于评论对象不同粒度话题的情感信息需求. 展开更多
关键词 非监督式层次话题情感模型 隐藏狄利克雷分配 文本分析 网络评论 主题发现 主题模型 非参贝叶斯模型
下载PDF
基于词嵌入的科研主题排序研究
8
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 在狄利克雷分配(LDA) 主题排序 科研主题 词嵌入
下载PDF
基于LDA主题模型的在途驾驶风格识别方法
9
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 在狄利克雷分配(LDA)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
下载PDF
洪涝灾害研究主题的时空差异性:中英文文献比较研究
10
作者 贺蔚杰 田健 +2 位作者 宋苑震 张家豪 曾坚 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4391-4400,共10页
在全球气候变化背景下,洪涝灾害已成为威胁人群生命财产安全的世界性问题。目前,关于洪涝灾害的研究已较为丰富,需进行系统性梳理和总结。为探究国内外洪涝灾害的研究现状与趋势,采用文献计量的分析方法,对2003—2022年中国知网(China N... 在全球气候变化背景下,洪涝灾害已成为威胁人群生命财产安全的世界性问题。目前,关于洪涝灾害的研究已较为丰富,需进行系统性梳理和总结。为探究国内外洪涝灾害的研究现状与趋势,采用文献计量的分析方法,对2003—2022年中国知网(China National Knowledge Infrastructure,CNKI)和WoS(Web of Science)数据库中主题为洪涝灾害的中英文文献进行文本分析。从关键词共现模式、研究主题的时间聚类及空间分布三个角度,探索洪涝灾害相关研究的主题演进模式和地理分布特征,并总结未来发展方向。结果表明:(1)在研究关键词共现模式方面,中文研究更加关心洪涝灾害区域影响及管理策略等灾害的后续影响方面,英文研究则更倾向于探究洪涝灾害的成因,从气候变化与孕灾环境角度分析洪涝灾害。中英文研究均强调新兴技术在洪涝灾害研究中的应用。(2)在研究主题时间聚类方面,中文研究在21世纪初期追随英文研究的关注热点,并在2015年前后逐渐形成具有中国本土化特色的研究框架,强调使用多源数据和多种算法模型进行定量化分析,主要着眼于城市化发展对洪涝灾害的多时段、多尺度干预效应。(3)在研究主题空间分布方面,沿海经济发达地区受到研究者更多的关注,表明洪涝灾害研究的主题与数量受到研究区域的地理位置、气候条件和社会经济发展水平的影响。 展开更多
关键词 公共安全 洪涝灾害 文本分析 共现网络 在狄利克雷分配(LDA)模型 地理解析 对比分析
下载PDF
突发事件影响下的城市居民出行活动时空模式研究 被引量:1
11
作者 何惠雨 付晓 吕启航 《时空信息学报》 2024年第2期259-268,共10页
在人类社会的发展过程中,突发事件常常引发人们生活和行为的急剧变化,并可能对其产生持续性的影响。目前相关研究多为居民出行活动的总体趋势和整体特征,而在细分层面分析出行活动在时空维度上差异性的研究较少,且存在时空维度分离、缺... 在人类社会的发展过程中,突发事件常常引发人们生活和行为的急剧变化,并可能对其产生持续性的影响。目前相关研究多为居民出行活动的总体趋势和整体特征,而在细分层面分析出行活动在时空维度上差异性的研究较少,且存在时空维度分离、缺乏整体性的问题。本文以美国旧金山新型冠状病毒感染流行为例,采用共享单车出行数据、兴趣点数据等进行长时间跨度的研究,利用k均值聚类和潜在狄利克雷分配模型,挖掘突发事件前后居民出行时空模式的特征及变化。结果表明:①事件暴发后,居民不同目的的出行活动时空模式发生了显著变化,通勤及娱乐出行的比例大幅下降,居民尝试用聚集程度较小的户外休闲娱乐代替聚集性娱乐,生活必需品购买及处理个人事务的出行比例上升,医疗需求大幅增加且该类型出行的早高峰开始时间提前。②随着时间的推移,突发事件的影响逐渐降低,人们的出行活动时空模式逐渐恢复至事件前的状态。研究成果可深化对风险和不确定性的认知,建立更全面的时空知识服务体系,为城市管理部门制定合理的应急管理策略提供参考。 展开更多
关键词 突发事件 出行活动 兴趣点 出行目的 聚类分析 时空模式 在狄利克雷分配模型
下载PDF
基于LDA与双向GRU的借阅主题热度预测
12
作者 陈志辉 吴克晴 +1 位作者 陈嘉超 秦泽豪 《软件导刊》 2024年第7期51-57,共7页
图书借阅主题分析能够挖掘读者借阅喜好和阅读规律,通过使用借阅主题热度预测模型能够预测读者借阅主题热度变化趋势,对图书馆开展阅读推广活动具有重要意义。为了解决图书借阅主题提取、主题热度预测问题,提出基于LDA与双向GRU神经网... 图书借阅主题分析能够挖掘读者借阅喜好和阅读规律,通过使用借阅主题热度预测模型能够预测读者借阅主题热度变化趋势,对图书馆开展阅读推广活动具有重要意义。为了解决图书借阅主题提取、主题热度预测问题,提出基于LDA与双向GRU神经网络的借阅主题热度预测模型。该算法通过LDA算法提取读者不同时间段中的借阅图书特征和借阅主题,在计算不同时间段借阅主题热度、构建借阅主题热度序列数据集的基础上,构造基于双向GRU神经网络的主题热度预测模型以预测未来主题热度变化趋势,并在厦门大学图书馆纸质文献借阅记录数据集上进行实验评估。实验结果表明,模型能准确获得借阅主题与关键词之间的关系,与机器学习等算法比较可知,该模型能有效降低借阅主题热度预测误差。 展开更多
关键词 热度预测 借阅主题发现 深度学习 双向门控循环单元 在狄利克雷分配
下载PDF
语义识别驱动的化工泄漏事故事前预防研究
13
作者 刘勤明 董宏霖 孔得朝 《安全与环境学报》 CAS CSCD 北大核心 2024年第12期4734-4742,共9页
化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent ... 化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型提取化工泄漏事故致因主题及关键词,利用关键词共现网络分析进行致因中心性和关联度分析,使用因子分析进行致因影响因子的计算,实现了对化工泄漏事故报告潜在信息的挖掘和有效分析。结果表明:通过LDA模型可以计算得到化工泄漏事故致因主题,得出安全意识缺失、物料逸出、设备故障等5个聚类;基于改进点互信息(Pointwise Mutual Information,PMI)的关键词共现网络可以得到事故的关键致因、环节、场所和事故类型,其中最重要且关联度较高的致因是人员操作不当和现场管理不力;最后,通过因子分析得到影响后果最严重的致因是危险作业环境,其次是违规操作或操作不当。提出的研究框架在更深入挖掘利用海量事故致因信息的同时,减少了事故致因评价指标的主观性,为结构复杂、非单一标准的事故报告文本信息提取提供了新的思路,同时将语义识别拓展到化工泄漏事故预防领域,有助于化工泄漏事故的风险识别、预测与防控。 展开更多
关键词 安全社会工程 化工事故 文本挖掘 语义识别 词频逆文档频率算法 在狄利克雷分配主题模型
下载PDF
基于LDA和ISM模型的疫苗接种意愿研究
14
作者 马丽荣 洪小娟 +1 位作者 郑惠莉 吴林海 《江苏科技大学学报(自然科学版)》 CAS 2024年第1期104-110,共7页
从信息化语境中挖掘社交媒体平台中的舆情数据,尝试更加系统地分析新冠疫苗接种意愿多重影响因素间的关系.利用网络爬虫技术抓爬社交媒体Twitter平台中的数据,借助潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型识别影响新冠... 从信息化语境中挖掘社交媒体平台中的舆情数据,尝试更加系统地分析新冠疫苗接种意愿多重影响因素间的关系.利用网络爬虫技术抓爬社交媒体Twitter平台中的数据,借助潜在狄利克雷分配(latent Dirichlet allocation,LDA)模型识别影响新冠疫苗接种意愿的因素,并运用解释结构模型方法(interpretative structural modeling method,ISM)辅助建模,构建多级层次递阶结构模型,梳理和分析各项影响因素之间的逻辑层次关系.结果表明:通过LDA和ISM模型可以对获取到的因素集进行结构化处理,并根据ISM模型的逻辑结构,将影响新冠疫苗接种意愿的4个层级划分为深层、中间层和表层,不同层级对疫苗接种意愿的影响程度不同.研究结果可为提升民众对新冠疫苗的接受意愿和接种倾向提供相应的决策支持和参考价值. 展开更多
关键词 新冠疫苗 接种意愿 在狄利克雷分配 解释结构模型
下载PDF
基于LDA模型的元宇宙主题挖掘与演化
15
作者 陈加元 刘彦 《科技和产业》 2024年第23期279-287,共9页
检索WoS核心数据库关于元宇宙文献(保留文献的摘要部分),依靠Python进行LDA(潜在狄利克雷分配)模型构建,通过困惑度以及主题一致性确定最佳主题数,并抽取文本下词频最高的11个主题,对元宇宙相关文献进行主题抽取与挖掘,运用WordCloud技... 检索WoS核心数据库关于元宇宙文献(保留文献的摘要部分),依靠Python进行LDA(潜在狄利克雷分配)模型构建,通过困惑度以及主题一致性确定最佳主题数,并抽取文本下词频最高的11个主题,对元宇宙相关文献进行主题抽取与挖掘,运用WordCloud技术、桑基图(主题相似度)进行主题演化分析,从而了解元宇宙发展状态以及演化趋势。结果表明:目前关于元宇宙的研究主要在“元宇宙技术”和“元宇宙应用”方面,词云分析中关键词“tech-nolog”以及“virtual”较为突出;从主题热度分析来看,主题4(教育元宇宙研究)、主题7(元宇宙技术研究)、主题8(元宇宙应用研究)是目前元宇宙研究的热点;从主题演化分析来看,第1阶段(2018—2022年)中主题2元宇宙模型研究和主题8元宇宙技术研究表现出较强的演化能力,第2阶段(2023—2024年)的主题4元宇宙体验研究和主题8元宇宙场景构建研究演化能力强,且与相邻主题相似性高。 展开更多
关键词 元宇宙 在狄利克雷分配(LDA)模型 主题挖掘 主题演化
下载PDF
应用hLDA进行多文档主题建模关键因素研究 被引量:5
16
作者 衡伟 于佳 +1 位作者 李蕾 刘咏彬 《中文信息学报》 CSCD 北大核心 2013年第6期117-127,共11页
hLDA(层次潜在狄利克雷分配)在层次主题建模中的良好效果已经得到广泛验证。为了实现半监督或无监督,通常采用交叉验证或抽样超参来确定参数。但由于语料特征、建模需求等不确定因素,参数调节方法、建模效果和效率都是实际应用中的难点... hLDA(层次潜在狄利克雷分配)在层次主题建模中的良好效果已经得到广泛验证。为了实现半监督或无监督,通常采用交叉验证或抽样超参来确定参数。但由于语料特征、建模需求等不确定因素,参数调节方法、建模效果和效率都是实际应用中的难点。该文首先结合贝叶斯线索和范围线索构成的统一分析框架,研究hLDA主题建模中的关键影响因素,然后给出一个切实有效的建模策略及流程,最终结合ACL MultiLing 2013多文档摘要语料进行实际建模效果评估。 展开更多
关键词 层次潜在狄利克雷分配 层次主题建模 统一分析框架
下载PDF
一种面向主题的领域服务聚类方法 被引量:17
17
作者 李征 王健 +3 位作者 张能 李昭 何成万 何克清 《计算机研究与发展》 EI CSCD 北大核心 2014年第2期408-419,共12页
随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在... 随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在对服务进行领域分类的基础上,提出了一种基于概率、融合领域特性的服务聚类模型——领域服务聚类模型(domain service clustering model,DSCM),然后基于该模型提出了一种面向主题的服务聚类方法.最后通过ProgrammableWeb网站提供的真实服务集对提出的方法进行了验证.实验结果表明,该方法可以准确地对不同类型的服务文档进行聚类.与经典的潜在狄利克雷分配(latent Dirichlet allocation,LDA),K-means等方法相比,该方法在聚类纯度和F-measure指标上均具有更好的效果,从而为按需服务发现与服务组合提供更好的支持. 展开更多
关键词 服务聚类 在狄利克雷分配 主题 概率 特征降维
下载PDF
基于LDA模型的文本分类研究 被引量:56
18
作者 姚全珠 宋志理 彭程 《计算机工程与应用》 CSCD 北大核心 2011年第13期150-153,共4页
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数... 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 展开更多
关键词 文本分类 在狄利克雷分配(LDA)模型 GIBBS抽样 贝叶斯统计理论
下载PDF
融合显著信息的LDA极光图像分类 被引量:20
19
作者 韩冰 杨辰 高新波 《软件学报》 EI CSCD 北大核心 2013年第11期2758-2766,共9页
美丽的极光形态各异,不同形态的极光蕴含不同的物理意义,所以研究极光图像的分类具有重要的科学价值.在LDA(latent Dirichlet allocation)模型基础上提出了一种融合显著信息的LDA方法(LDA with saliency information,简称SI-LDA),利用... 美丽的极光形态各异,不同形态的极光蕴含不同的物理意义,所以研究极光图像的分类具有重要的科学价值.在LDA(latent Dirichlet allocation)模型基础上提出了一种融合显著信息的LDA方法(LDA with saliency information,简称SI-LDA),利用极光图像的谱残差(spectral residual,简称SR)显著信息生成视觉字典,加强极光图像的语义信息,并将其用于极光图像的特征表示.最后,利用SVM分类器对极光图像进行分类.实验结果表明,所提出的算法获得了良好的分类结果. 展开更多
关键词 极光图像 词袋模型 在狄利克雷分配 谱残差 显著信息
下载PDF
基于动态主题情感混合模型的微博主题情感演化分析方法 被引量:12
20
作者 李超雄 黄发良 +2 位作者 温肖谦 李璇 元昌安 《计算机应用》 CSCD 北大核心 2015年第10期2905-2910,共6页
针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题... 针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题与情感的变化趋势,获得主题情感演化图,从而实现主题和情感的演化分析。真实微博数据集上的实验结果表明,与当前优秀代表算法JST(Joint Sentiment/Topic)、S-LDA(Sentiment-Latent Dirichlet Allocation)和DPLDA(Dependency Phrases-Latent Dirichlet Allocation)相比,该方法的情感分类准确率分别提高了3.01%、4.33%和8.75%,并且可以获得主题情感演化图。这表明该方法具有更高的情感分类准确率并且可以进行微博主题情感演化分析,为舆情分析等应用提供了较好的帮助。 展开更多
关键词 主题情感演化 情感挖掘 微博 在狄利克雷分配 情感周期性
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部