期刊文献+
共找到201篇文章
< 1 2 11 >
每页显示 20 50 100
Self-Adaptive Topic Model: A Solution to the Problem of "Rich Topics Get Richer" 被引量:1
1
作者 FANG Ying 《China Communications》 SCIE CSCD 2014年第12期35-43,共9页
The problem of "rich topics get richer"(RTGR) is popular to the topic models,which will bring the wrong topic distribution if the distributing process has not been intervened.In standard LDA(Latent Dirichlet... The problem of "rich topics get richer"(RTGR) is popular to the topic models,which will bring the wrong topic distribution if the distributing process has not been intervened.In standard LDA(Latent Dirichlet Allocation) model,each word in all the documents has the same statistical ability.In fact,the words have different impact towards different topics.Under the guidance of this thought,we extend ILDA(Infinite LDA) by considering the bias role of words to divide the topics.We propose a self-adaptive topic model to overcome the RTGR problem specifically.The model proposed in this paper is adapted to three questions:(1) the topic number is changeable with the collection of the documents,which is suitable for the dynamic data;(2) the words have discriminating attributes to topic distribution;(3) a selfadaptive method is used to realize the automatic re-sampling.To verify our model,we design a topic evolution analysis system which can realize the following functions:the topic classification in each cycle,the topic correlation in the adjacent cycles and the strength calculation of the sub topics in the order.The experiment both on NIPS corpus and our self-built news collections showed that the system could meet the given demand,the result was feasible. 展开更多
关键词 topic model infinite latent Dirichlet Allocation Dirichlet process topic evolution
下载PDF
融合LDA-BN的船舶碰撞事故致因分析
2
作者 邵波 刘巧 +2 位作者 柯善钢 郑霞忠 贺语琴 《安全与环境学报》 北大核心 2025年第1期157-164,共8页
为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报... 为探究船舶碰撞事故致因及其关系,提升航运安全管理水平,研究提出融合狄利克雷分布(Latent Dirichlet allocation,LDA)与贝叶斯网络(Bayesian Network,BN)的船舶碰撞事故致因分析方法。首先,运用LDA主题模型挖掘361份船舶碰撞事故调查报告,提取27个事故致因主题;其次,利用事故树方法厘清调查报告中致因间的影响关系,构建事故致因贝叶斯网络结构,使用期望最大化算法进行贝叶斯网络参数学习,确定各节点的条件概率,构建事故致因贝叶斯网络模型;最后,通过逆向推理分析、最大致因链分析及敏感性分析,找出导致船舶碰撞事故发生的主要致因因素。结果显示:安全管理不到位、疏忽瞭望、事发水域通航环境复杂是引发船舶碰撞事故可能性大的致因,航线保持不当、应急处置不当、违规穿越锚地是导致船舶碰撞事故发生的最敏感致因因素。 展开更多
关键词 安全社会工程 船舶碰撞 狄利克雷分布主题模型 贝叶斯网络 事故致因
下载PDF
一种新的目标检测方法:Latent Dirichlet classification 被引量:3
3
作者 丁轶 郭乔进 李宁 《南京大学学报(自然科学版)》 CSCD 北大核心 2012年第2期214-220,共7页
图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共... 图像目标检测的任务是通过对图像分块或者分区域提取特征,进行学习和分类,从而检测出目标在图像中的位置.基于潜在迪利克雷分布模型,提出一种应用于目标检测的主题模型latentDirichlet classification(LDC),结合图像连续值局部特征和共生关系来进行目标检测.LDC模型将latentDirichlet allocation(LDA)生成的主题信息作为权重赋予样本,生成多份样本,然后利用多份样本训练多个分类器进行集成分类.实验结果表明利用LDC模型能有效提高检测精度. 展开更多
关键词 潜在迪利克雷分布 目标检测 变分推理 主题模型
下载PDF
基于词嵌入的科研主题排序研究
4
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 潜在狄利克雷分配(LDA) 主题排序 科研主题 词嵌入
下载PDF
中国日报“双碳”报道文档主题挖掘研究
5
作者 刘昊 蒲安妮 《中国传媒大学学报(自然科学版)》 2024年第5期32-40,共9页
主流外宣媒体是国际社会了解中国碳达峰和碳中和目标的重要窗口,尤以《中国日报》为代表,其围绕“双碳”政策进行了大量宣传和报道。反思“双碳”报道框架,评估其科学性和有效性,对于“双碳”跨文化传播至关重要。采集中国日报相关报道... 主流外宣媒体是国际社会了解中国碳达峰和碳中和目标的重要窗口,尤以《中国日报》为代表,其围绕“双碳”政策进行了大量宣传和报道。反思“双碳”报道框架,评估其科学性和有效性,对于“双碳”跨文化传播至关重要。采集中国日报相关报道数据,基于潜在狄利克雷分配模型,识别出“双碳”主题:政府引领生态文明建设、中欧政策承诺与国际合作、清洁能源转型与绿色产业增长、绿色经济增长与可持续发展、全球绿色低碳发展区域布局及中德绿色交通合作。研究发现《中国日报》“双碳”报道政策宣介全面且重点突出,但主题对“双碳”诠释的全面性和平衡性仍需提升,且缺乏“南方转向”视角。“双碳”国际传播应聚焦故事性、整合传播和对话互动。 展开更多
关键词 外宣主流媒体 气候传播 隐含狄利克雷分布 文档主题模型
下载PDF
基于LDA主题模型的在途驾驶风格识别方法
6
作者 汪娇 刘锴 +2 位作者 栗慧哲 曹鹏 王秋玲 《中国安全科学学报》 CAS CSCD 北大核心 2024年第10期197-204,共8页
为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业... 为增强人机共驾条件下智能系统对个体驾驶行为的理解,提出一种基于潜在狄利克雷分配(LDA)主题模型的在途驾驶风格识别方法,从多维度挖掘车辆轨迹信息,快速提取和识别驾驶员潜在驾驶风格特征。首先,建立驾驶行为语义理解规则,从驾驶作业的场景感知层、模式层、操作层以及车辆状态层出发,将连续的轨迹时序数据阐述为驾驶行为语义理解词汇;其次,根据主题困惑度和主题一致性指标定义4类习惯性驾驶风格:稳定型、保守型、适中型以及激进型;最后,将每位驾驶员的在途驾驶风格识别为上述驾驶风格的概率组合。结果表明:所提出的在途驾驶风格识别方法考虑驾驶员在驾驶过程中的异质性和不一致性,能够解释同一驾驶员在不同驾驶环境下表现出差异化驾驶风格的现象,同时,有助于提高驾驶风格在途识别的全面性以及可理解性。 展开更多
关键词 潜在狄利克雷分配(LDA)主题模型 在途驾驶风格 轨迹数据 语义理解 驾驶行为
下载PDF
基于隐含狄利克雷分配模型的企业创新测量方法研究
7
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 CSSCI 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
下载PDF
国外智慧旅游政策和理论的主题建模及趋势研究
8
作者 陈秋英 宋姗姗 《科技和产业》 2024年第5期56-64,共9页
为理清国外智慧旅游政策和理论的研究热点及趋势,通过LDA(隐含狄利克雷分布)主题模型得出4个政策主题、8个理论主题。分析发现“digital travel(数字旅游)”“intelligent travel(智能旅游)”“smart tourism standards(智慧旅游标准)... 为理清国外智慧旅游政策和理论的研究热点及趋势,通过LDA(隐含狄利克雷分布)主题模型得出4个政策主题、8个理论主题。分析发现“digital travel(数字旅游)”“intelligent travel(智能旅游)”“smart tourism standards(智慧旅游标准)”是政策文本重点内容。通过主题模型和知识图谱分析学术文本发现,智慧旅游“data mining (数据挖掘)”“smart tourism system(智慧旅游系统)”信息推荐功能日渐显著,游客行为满意度与智慧旅游城市的选择两者之间关系密切。针对研究结论提出强化智慧旅游工作绩效评估机制、完善标准化政策体系、加大政策扶持新力度等建议。 展开更多
关键词 智慧旅游 LDA(隐含狄利克雷分布)主题建模 CITESPACE 研究趋势
下载PDF
监督主题模型的临床文本挖掘和药效预测
9
作者 谢新平 裴洋洋 +1 位作者 姜晓东 王红强 《信息与电脑》 2024年第6期200-205,共6页
患者的临床文本隐含着个体与药效之间的密切联系。针对临床上抗癌药效精准性问题,基于有监督隐含狄利克雷分布(Supervised Latent Dirichlet Allocation,SLDA)构建了一种用于药效二分类预测新方法——伯努利-监督隐含狄利克雷分布(Berno... 患者的临床文本隐含着个体与药效之间的密切联系。针对临床上抗癌药效精准性问题,基于有监督隐含狄利克雷分布(Supervised Latent Dirichlet Allocation,SLDA)构建了一种用于药效二分类预测新方法——伯努利-监督隐含狄利克雷分布(Bernoulli-SLDA,B-SLDA),该模型获得患者临床文本的特征表示,学习到与对应药效标签的映射关系。实验结果表明,对比传统的特征提取方法,所提方法提高了抗肿瘤药物药效预测性能。 展开更多
关键词 监督主题模型 监督隐含狄利克雷分布(SLDA) 药效预测 文本分类
下载PDF
语义识别驱动的化工泄漏事故事前预防研究
10
作者 刘勤明 董宏霖 孔得朝 《安全与环境学报》 CAS CSCD 北大核心 2024年第12期4734-4742,共9页
化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent ... 化工泄漏事故报告蕴含事故信息量大,但利用度低,仅依赖传统的事故分析理论和方法对事故后果进行分析统计难以实现事前预防、控制损失最小化的目的,因此,构建了语义识别驱动的化工泄漏事故事前预防研究框架,基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型提取化工泄漏事故致因主题及关键词,利用关键词共现网络分析进行致因中心性和关联度分析,使用因子分析进行致因影响因子的计算,实现了对化工泄漏事故报告潜在信息的挖掘和有效分析。结果表明:通过LDA模型可以计算得到化工泄漏事故致因主题,得出安全意识缺失、物料逸出、设备故障等5个聚类;基于改进点互信息(Pointwise Mutual Information,PMI)的关键词共现网络可以得到事故的关键致因、环节、场所和事故类型,其中最重要且关联度较高的致因是人员操作不当和现场管理不力;最后,通过因子分析得到影响后果最严重的致因是危险作业环境,其次是违规操作或操作不当。提出的研究框架在更深入挖掘利用海量事故致因信息的同时,减少了事故致因评价指标的主观性,为结构复杂、非单一标准的事故报告文本信息提取提供了新的思路,同时将语义识别拓展到化工泄漏事故预防领域,有助于化工泄漏事故的风险识别、预测与防控。 展开更多
关键词 安全社会工程 化工事故 文本挖掘 语义识别 词频逆文档频率算法 潜在狄利克雷分配主题模型
下载PDF
基于LDA的社会化标签综合聚类方法 被引量:14
11
作者 李慧宗 胡学钢 +2 位作者 杨恒宇 林耀进 何伟 《情报学报》 CSSCI 北大核心 2015年第2期146-155,共10页
社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资... 社会化标注系统产生了大量歧义的、不受控制的标签,不仅会降低用户的体验,而且会限制资源的利用效率。标签聚类能够把具有相近语义的标签聚集在一起,反映标签的潜在语义结构,从而有效缓解上述问题。传统的标签聚类方法通常只利用资源的被标注信息进行聚类,由于忽略了用户的标注信息使得聚类结果不能表达准确的语义。本文提出一种基于LDA(Latent Dirichlet Allocation)模型的社会化标签综合聚类方法,该方法分别利用用户的标注信息和资源的被标注信息来建立主题学习模型,通过学习,获取基于用户的标签潜在主题和基于资源的标签潜在主题,综合标签在这两类主题上的概率分布结果,建立标签主题的二次学习模型,学习出标签的混合主题并在此基础上判定标签的聚类簇。与传统方法相比,本文的方法不仅可以有效地利用标签之间的语义关系,而且能够在一定程度上缓解传统标签聚类方法所面临的高维和稀疏性问题。实验结果表明,本文的方法具有较好的效果。 展开更多
关键词 社会化标注系统 标签聚类 潜在语义 主题模型
下载PDF
主题模型LDA的多文档自动文摘 被引量:23
12
作者 杨潇 马军 +2 位作者 杨同峰 杜言琦 邵海敏 《智能系统学报》 2010年第2期169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型... 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 展开更多
关键词 多文档自动文摘 句子分值计算 主题模型 LDA 主题数目
下载PDF
融合主题与语言模型的个性化标签推荐方法研究 被引量:3
13
作者 李慧 马小平 +1 位作者 胡云 施珺 《计算机科学》 CSCD 北大核心 2015年第8期70-74,共5页
随着Web的推广和普及,产生了越来越多的网络数据。广泛应用了标签系统,以便人们使用搜索技术来组织和使用这些信息。这些数据允许用户使用关键字(标签)注释资源,为传统的基于文本的信息检索提供了方案。为了支持用户选择正确的关键字,... 随着Web的推广和普及,产生了越来越多的网络数据。广泛应用了标签系统,以便人们使用搜索技术来组织和使用这些信息。这些数据允许用户使用关键字(标签)注释资源,为传统的基于文本的信息检索提供了方案。为了支持用户选择正确的关键字,标签推荐算法应运而生。提出了一种个性化标签推荐方法,该方法综合了用户的资源标签与标签概率模型。该模型利用了简单语言模型和隐含狄利克雷分配模型,并针对现实世界的大型数据集进行了大量实验。实验表明,该个性化方法改进了标签推荐算法,推荐结果优于传统方法。 展开更多
关键词 标签 推荐 主题 潜在主题模型 个性化
下载PDF
基于LDA话题演化研究方法综述 被引量:86
14
作者 单斌 李芳 《中文信息学报》 CSCD 北大核心 2010年第6期43-49,68,共8页
现实生活中不断有新话题的产生和旧话题的衰减,同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应... 现实生活中不断有新话题的产生和旧话题的衰减,同时话题的内容也会随着时间发生变化。自动探测话题随时间的演化越来越受到人们的关注。Latent Dirichlet Allocation模型是近年提出的概率话题模型,已经在话题演化领域得到较为广泛的应用。该文提出了话题演化的两个方面:内容演化和强度演化,总结了基于LDA话题模型的话题演化方法,根据引入时间的不同方式将目前的研究方法分为三类:将时间信息结合到LDA模型、对文本集合后离散和先离散方法。在详细叙述这三种方法的基础上,针对时间粒度、是否在线等多个特征进行了对比,并且简要描述了目前广泛应用的话题演化评测方法。文章最后分析了目前存在的挑战,并且对该研究方向进行了展望。 展开更多
关键词 话题模型 话题演化 latent DIRICHLET ALLOCATION
下载PDF
基于自然标注信息和隐含主题模型的无监督文本特征抽取 被引量:4
15
作者 饶高琦 于东 荀恩东 《中文信息学报》 CSCD 北大核心 2015年第6期141-149,共9页
术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现... 术语和惯用短语可以体现文本特征。无监督的抽取特征词语对诸多自然语言处理工作起到支持作用。该文提出了"聚类-验证"过程,使用主题模型对文本中的字符进行聚类,并采用自然标注信息对提取出的字符串进行验证和过滤,从而实现了从未分词领域语料中无监督获得词语表的方法。通过优化和过滤,我们可以进一步获得了富含有术语信息和特征短语的高置信度特征词表。在对计算机科学等六类不同领域语料的实验中,该方法抽取的特征词表具有较好的文体区分度和领域区分度。 展开更多
关键词 自然标注信息 自然语块 隐含主题模型 领域特征 文体特征
下载PDF
基于主题情感混合模型的无监督文本情感分析 被引量:54
16
作者 孙艳 周学广 付伟 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期102-108,共7页
针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各... 针对有监督、半监督的文本情感分析存在标注样本不容易获取的问题,通过在LDA模型中融入情感模型,提出一种无监督的主题情感混合模型(UTSU模型)。UTSU模型对每个句子采样情感标签,对每个词采样主题标签,无须对样本进行标注,就可以得到各个主题的主题情感词,从而对文档集进行情感分类。情感分类实验对比表明,UTSU模型的分类性能比有监督情感分类方法稍差,但在无监督的情感分类方法中效果最好,情感分类综合指标比ASUM模型提高了约2%,比JST模型提高了约16%。 展开更多
关键词 主题模型 LDA 情感分析 混合模型
下载PDF
基于LDA主题模型的文本相似度计算 被引量:98
17
作者 王振振 何明 杜永萍 《计算机科学》 CSCD 北大核心 2013年第12期229-232,共4页
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏... LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 展开更多
关键词 主题模型 LDA 文本相似度 GIBBS抽样
下载PDF
基于主题和链接分析的微博社区发现算法 被引量:28
18
作者 闫光辉 舒昕 +1 位作者 马志程 李祥 《计算机应用研究》 CSCD 北大核心 2013年第7期1953-1957,共5页
针对传统社区发现方法大多基于链接或主题关系,且没有考虑获取微博用户社会信息时的限制,无法有效识别微博中多个社区的问题,提出了一种综合基于主题和链接分析的微博社区发现算法来挖掘微博中多个社区。算法首先研究微博用户的链接及... 针对传统社区发现方法大多基于链接或主题关系,且没有考虑获取微博用户社会信息时的限制,无法有效识别微博中多个社区的问题,提出了一种综合基于主题和链接分析的微博社区发现算法来挖掘微博中多个社区。算法首先研究微博用户的链接及博文主题特性,定义了链接相关度和主题相关度公式;然后推出用户总相关度公式,以此来计算节点间的传递概率,用改进后的标签传递算法对用户分类;最终划分出兴趣相似且社会联系紧密的用户群。真实数据集上的仿真实验验证了该方法的合理性和有效性。 展开更多
关键词 微博 社区发现 潜层Dirichlet分配 主题模型 链接分析 标签传递算法
下载PDF
有监督主题模型的SLDA-TC文本分类新方法 被引量:10
19
作者 唐焕玲 窦全胜 +2 位作者 于立萍 宋英杰 鲁明羽 《电子学报》 EI CAS CSCD 北大核心 2019年第6期1300-1308,共9页
本文提出了一种有监督主题模型的SLDA-TC(Super vised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其... 本文提出了一种有监督主题模型的SLDA-TC(Super vised LDA-Text Categorization)文本分类方法,引入主题-类别概率分布参数,识别主题-类别的语义信息;提出SLDA-TC-Gibbs主题采样新方法,对每个词的隐含主题采样,只从该词所在文档的同类其它文档中采样,并给出了理论推导;另外,其主题数只需略大于类别数.实验表明,对比LDA-TC(LDA-Text Categorization)和SVM算法,本方法能提高分类精度和时间性能. 展开更多
关键词 文本分类 主题模型 隐含Dirichlet分布 吉布斯采样
下载PDF
用于多标签分类的改进Labeled LDA模型 被引量:12
20
作者 江雨燕 李平 王清 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2013年第4期425-432,共8页
概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言... 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力. 展开更多
关键词 主题模型 隐含狄利克雷分配 多标签分类 共享主题
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部