期刊文献+
共找到151篇文章
< 1 2 8 >
每页显示 20 50 100
基于隐含狄利克雷分配模型的企业创新测量方法研究
1
作者 叶琴 蔡建峰 张秋韵 《科技进步与对策》 北大核心 2024年第2期90-98,共9页
如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利... 如何准确测量企业创新是国家创新驱动发展战略背景下学界和业界亟待解决的关键问题。近年来,专利和研发支出作为当前主流企业创新代理指标备受质疑。为此,基于上市公司分析师报告文本,引入机器学习领域非监督学习方法,通过构建隐含狄利克雷分配主题模型,开发一种新的测量企业创新的方法,并与当前主流方法进行比较。研究发现:①基于文本的企业创新测量方法既适用于专利和研发企业,也适用于非专利和非研发企业;②对于专利和研发企业而言,基于文本的企业创新与企业专利申请和研发支出显著相关;对于非专利和非研发企业而言,新测量方法能够有效识别企业利用新技术、开辟新市场等创新实践;③时间序列分析表明,基于文本分析的企业创新能够准确反映样本区间企业创新活动宏观趋势。 展开更多
关键词 隐含狄利克雷分配模型 企业创新 文本分析 主题模型 分析师报告
下载PDF
基于LDA模型的我国中医药政策主题演化分析
2
作者 王涟 袁永旭 +2 位作者 陈俊冶 殷彩明 孙一凡 《医学信息学杂志》 CAS 2024年第9期44-49,62,共7页
目的/意义分析我国中央层面出台的中医药政策文本内容,识别热点主题并进行主题演化分析。方法/过程检索我国2006—2023年出台的中医药政策,运用隐含狄利克雷分布主题模型分别对各阶段政策文本进行主题提取、热点分析和主题演化分析。结... 目的/意义分析我国中央层面出台的中医药政策文本内容,识别热点主题并进行主题演化分析。方法/过程检索我国2006—2023年出台的中医药政策,运用隐含狄利克雷分布主题模型分别对各阶段政策文本进行主题提取、热点分析和主题演化分析。结果/结论我国中医药政策关注临床医疗服务、科研与创新、教育事业发展、产业建设和文化传播等多个方面,其不同阶段热点具有独特性,其演化呈现出由基础建设向规范化、精细化、全面化发展的趋势。 展开更多
关键词 中医药政策 隐含狄利克雷分布模型 政策分析 主题挖掘
下载PDF
监督主题模型的临床文本挖掘和药效预测
3
作者 谢新平 裴洋洋 +1 位作者 姜晓东 王红强 《信息与电脑》 2024年第6期200-205,共6页
患者的临床文本隐含着个体与药效之间的密切联系。针对临床上抗癌药效精准性问题,基于有监督隐含狄利克雷分布(Supervised Latent Dirichlet Allocation,SLDA)构建了一种用于药效二分类预测新方法——伯努利-监督隐含狄利克雷分布(Berno... 患者的临床文本隐含着个体与药效之间的密切联系。针对临床上抗癌药效精准性问题,基于有监督隐含狄利克雷分布(Supervised Latent Dirichlet Allocation,SLDA)构建了一种用于药效二分类预测新方法——伯努利-监督隐含狄利克雷分布(Bernoulli-SLDA,B-SLDA),该模型获得患者临床文本的特征表示,学习到与对应药效标签的映射关系。实验结果表明,对比传统的特征提取方法,所提方法提高了抗肿瘤药物药效预测性能。 展开更多
关键词 监督主题模型 监督隐含狄利克雷分布(Slda) 药效预测 文本分类
下载PDF
基于LDA主题模型的杭州市公园季节性公共服务价值
4
作者 侯力丹 卢群 林帅君 《中国城市林业》 2023年第3期109-116,132,共9页
季节对公园的公共服务价值具有显著影响,明确游客对于公园季节性公共服务价值的关注度及态度有助于提高公园的服务质量。文章以“大众点评”上游客对杭州市公园的评价文本为研究对象,基于LDA主题模型对公园季节性公共服务价值属性及游... 季节对公园的公共服务价值具有显著影响,明确游客对于公园季节性公共服务价值的关注度及态度有助于提高公园的服务质量。文章以“大众点评”上游客对杭州市公园的评价文本为研究对象,基于LDA主题模型对公园季节性公共服务价值属性及游客的关注度进行研究,并利用SnowNLP对评价文本中游客的情感变化进行分析。结果表明:春季和秋季游客主要关注以自然风光为主的游赏价值,夏季游客对公园的功能服务价值具有最高的关注度,冬季公园的休闲娱乐价值是游客最在意的方面,此外,游客对于不同季节的公园的公共服务价值普遍给予较为积极的评价,其中游赏价值、功能服务价值和休闲娱乐价值对游客的情感具有显著的影响。因此,公园的建设与发展应充分考虑公共服务价值随季节的变化,并根据游客诉求进行灵活调整。 展开更多
关键词 潜在狄利克雷分布主题模型 网络文本 简体中文文本处理 季节性公共服务价值 杭州市公园
下载PDF
基于隐含狄利克雷模型的文献主题演化预测 被引量:2
5
作者 茅利锋 张伟 《计算机技术与发展》 2016年第9期34-38,42,共6页
利用隐含狄利克雷分配模型(LDA),根据科技文献往年的主题变化来分析科技文献主题的演化,是目前主题演化研究的热点。根据科技论文的主题演化具有无后效性的特点,使用马尔可夫链来预测主题的演化信息。该方法利用LDA模型获取不同时段的主... 利用隐含狄利克雷分配模型(LDA),根据科技文献往年的主题变化来分析科技文献主题的演化,是目前主题演化研究的热点。根据科技论文的主题演化具有无后效性的特点,使用马尔可夫链来预测主题的演化信息。该方法利用LDA模型获取不同时段的主题,使用相似度等方法对相邻时间窗口的主题进行关联,并根据主题的强度将主题分为热门主题、普通主题和冷门主题,最后利用马尔可夫链得到主题之间的强度转移概率矩阵,对主题的强度变化趋势进行分析和预测。对NIPS论文集进行实验表明,科技论文主题在长时间演化后,其状态占比趋于稳定,热门主题、普通主题和冷门主题占比将保持在30%、60%和10%左右。说明该方法能有效地根据现有的主题演化结果对主题在未来几年的演化信息进行预测。 展开更多
关键词 隐含狄利克雷分配模型 主题演化预测 马尔可夫链 状态转移
下载PDF
基于狄利克雷多项分配模型的多源文本主题挖掘模型 被引量:1
6
作者 徐立洋 黄瑞章 +2 位作者 陈艳平 钱志森 黎万英 《计算机应用》 CSCD 北大核心 2018年第11期3094-3099,3104,共7页
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多... 随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。 展开更多
关键词 多源文本数据 主题模型 吉布斯采样 狄利克雷多项分配模型 文本挖掘
下载PDF
一种并行LDA主题模型建立方法研究 被引量:12
7
作者 王旭仁 姚叶鹏 +1 位作者 冉春风 何发镁 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第6期590-593,共4页
针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行... 针对潜在狄利克雷分析(LDA)模型分析大规模文档集或语料库中潜藏的主题信息计算时间较长问题,提出基于MapReduce架构的并行LDA主题模型建立方法.利用分布式编程模型研究了LDA主题模型建立方法的并行化实现.通过Hadoop并行计算平台进行实验的结果表明,该方法在处理大规模文本时,能获得接近线性的加速比,对主题模型的建立效果也有提高. 展开更多
关键词 MapReduce架构 并行计算 潜在狄利克雷分布模型 主题建模
下载PDF
主题模型自动标记方法研究综述
8
作者 何东彬 陶莎 +2 位作者 朱艳红 任延昭 褚云霞 《计算机科学与探索》 CSCD 北大核心 2023年第12期2861-2879,共19页
主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题... 主题模型常用于非结构化语料库和离散数据建模,抽取隐含主题分布。由于主题发现结果采用词列表形式,理解其含义较为困难。尽管通过人工标记可生成更具解释性和易理解的主题标签,但成本巨大缺乏可行性,而自动主题标记的研究为解决该问题提供了方法和思路。首先对当前最为流行的狄利克雷分配主题模型进行阐述与分析,并根据主题标签三种不同表现形式,基于短语、摘要和图片,将主题标记方法分为三种类型;之后围绕提高主题的可解释性,以生成的不同类型主题标签为线索,对近年来的相关研究成果进行梳理、分析和总结,并对不同标签的适用情境和可用性进行探讨;同时根据不同方法的特点进一步分类,重点对基于词法、子模优化和图排序方法生成摘要主题标签进行定量和定性分析,从学习类型、使用技术和数据来源出发,对比不同方法的差异;最后对主题自动标记研究存在的问题和趋势发展进行讨论,基于深度学习、与情感分析结合并不断拓展主题标记应用的场景,将是未来发展的重点和方向。 展开更多
关键词 主题模型 潜在狄利克雷分配(lda) 主题标记 主题标签
下载PDF
一种基于LDA模型的主题句抽取方法 被引量:10
9
作者 王力 李培峰 朱巧明 《计算机工程与应用》 CSCD 2013年第2期160-164,257,共6页
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题... 在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。 展开更多
关键词 隐含狄利克雷分配(lda) 主题模型 主题句抽取 信息融合
下载PDF
基于轨迹分段LDA主题模型的视频异常行为检测方法 被引量:9
10
作者 郑併斌 范新南 +1 位作者 李敏 张继 《计算机应用》 CSCD 北大核心 2015年第2期515-518,565,共5页
基于目标轨迹的异常行为检测算法忽略了轨迹内部信息,容易导致异常检测虚警率偏高。为解决该问题,提出一种基于轨迹分段主题模型的视频异常行为检测方法。首先将目标原始轨迹根据轨迹转角分段,然后采用分段量化的方式提取轨迹片段中包... 基于目标轨迹的异常行为检测算法忽略了轨迹内部信息,容易导致异常检测虚警率偏高。为解决该问题,提出一种基于轨迹分段主题模型的视频异常行为检测方法。首先将目标原始轨迹根据轨迹转角分段,然后采用分段量化的方式提取轨迹片段中包含的行为特征信息,接着通过潜在狄利克雷分配(LDA)主题模型建模发掘目标轨迹之间的时空关系,最后通过学习所构建的模型并结合贝叶斯理论进行行为模式分析和异常行为检测。分别对两个视频场景进行了目标行为模式分析和异常行为检测的仿真实验,检测出了场景内多种异常行为模式。实验结果表明,通过结合轨迹分段与LDA主题模型,该算法能够充分挖掘目标轨迹内部的行为特征信息,识别多种异常行为模式,并且能提高对异常行为检测的准确率。 展开更多
关键词 视频分析 行为模式分析 异常检测 潜在狄利克雷分配 主题模型 轨迹分段
下载PDF
基于LDA主题模型的短文本分类 被引量:19
11
作者 杨萌萌 黄浩 +2 位作者 程露红 马平 包武杰 《计算机工程与设计》 北大核心 2016年第12期3371-3377,共7页
针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主... 针对传统VSM(vector space model)在短文本分类中维数高、语义特征不明显的问题,提出基于LDA(latent Dirichlet allocation)模型主题分布相似度分类方法;针对短文本内容少、长度短、特征稀疏的问题,提出基于LDA模型主题-词分布矩阵的主题分布向量改进方法。与传统VSM分类方法相比,该方法降低了相似度计算维度,融合了一定语义特征。实验结果表明,与传统VSM分类方法相比,基于主题分布相似度方法的平均F1值提高了4.5%,基于LDA模型主题-词分布矩阵主题分布向量改进方法的平均F1值提高了5.2%,验证了以上方法的有效性。 展开更多
关键词 潜在狄利克雷分布(lda) 向量空间模型(VSM) 短文本分类 K近邻(K-nearest neighbor) 吉布斯采样 相似度计算
下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
12
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
下载PDF
DOLDA模型设计与主题演化分析 被引量:3
13
作者 蒋权 郑山红 +1 位作者 刘凯 李万龙 《计算机工程与设计》 北大核心 2018年第2期446-451,485,共7页
为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf... 为解决OLDA模型挖掘大规模文档主题时计算效率低下和不能发现新主题的问题,提出一种分布式的DOLDA模型(distribute online LDA,DOLDA)。建立分布式矩阵存储主题-词项,设计一种动态负载均衡策略来提升计算速度和线程调度的性能,根据Zipf定律结合主题的遗传度提出一种文档权值设置方法。在Spark分布式计算平台的实验结果表明,相比OLDA模型,DOLDA模型能够提高近16%的加速比,有效地在线分析主题的演化。 展开更多
关键词 主题挖掘 分布式计算 在线的潜在狄利克雷分布模型 动态负载均衡 主题演化
下载PDF
基于LDA的条件随机场主题模型研究 被引量:1
14
作者 史庆伟 郭朋亮 《计算机工程与应用》 CSCD 北大核心 2015年第7期131-135,140,共6页
使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于"段袋"假设——文本中的段落具有相同的主题,且连续的段落更倾向于具... 使用主题模型对文本建模,提取文本的隐含主题,进而进行词性标注和文本分类等工作,是机器学习和文本挖掘领域的研究热点。提出一个基于LDA的主题模型,它基于"段袋"假设——文本中的段落具有相同的主题,且连续的段落更倾向于具有相同的主题。对于文章的段落,采用条件随机场(CRF)模型划分并判断它们是否具有相同主题。实验表明,新模型相比LDA模型能更好得提取主题并具有更低的困惑度,同时,能够较好地进行词性标注和文本分类工作。 展开更多
关键词 潜在的狄利克雷分配(lda) 条件随机场 主题
下载PDF
融合LDA和CNN的施工触电事故原因识别和预判
15
作者 李珏 潘悦 吴畅 《安全与环境学报》 CAS CSCD 北大核心 2024年第10期3973-3981,共9页
鉴于施工触电事故具有突发性强、致死率高的特点,为了有效辅助事故原因的调查,首先,对318份施工触电事故进行预处理,运用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)关键词处理算法和可视化技术提取关键信息。... 鉴于施工触电事故具有突发性强、致死率高的特点,为了有效辅助事故原因的调查,首先,对318份施工触电事故进行预处理,运用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)关键词处理算法和可视化技术提取关键信息。其次,通过狄利克雷主题模型(Latent Dirichlet Allocation,LDA)提取原因主题词条,并根据关键信息构建相应的原因主题标签。随后,运用Word2Vec模型将“事故经过”和“主题标签”转化为词向量矩阵,并输入卷积神经网络(Convolutional Neural Networks,CNN)模型中,利用CNN模型数据预测的特征,实现事故原因的预判。最后,对比分析CNN模型与其他两种经典模型的预判效果。试验结果表明,该方法能够在事故调查完成前,较准确地预判事故可能原因。该模型构建的事故原因库,可以为事故预防提供一定参考,模型可以作为辅助事故实际调查的有效手段。 展开更多
关键词 安全工程 施工触电事故 事故原因 狄利克雷主题模型(lda) Word2Vec模型 卷积神经网络(CNN)
下载PDF
基于词嵌入的科研主题排序研究
16
作者 何东彬 陶莎 +1 位作者 任延昭 朱艳红 《北方工业大学学报》 2024年第1期136-149,共14页
为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实... 为准确把握科研领域内文献主题的发展变化,常利用隐式语义特征提取科研主题分布。但由于主题挖掘技术本身的限制,并非所有主题都具有同等重要性或意义。有些主题可能包含太多背景词,信息空泛,或者主题词之间缺乏连贯性,导致主题缺乏实际意义。针对上述问题,在已有研究基础上,基于词嵌入,提出一种新的多维度评估主题质量算法;针对科研文档的特点,利用语料库的统计特征对无意义主题距离评估方法进行优化,并最终将二者融合到一个统一的主题排序框架中。实验结果表明,本文提出的方法可以有效提高主题排序整体效果,能够识别出非重要和质量差的主题,主题排序的整体效果优于现有方法。 展开更多
关键词 主题模型 潜在狄利克雷分配(lda) 主题排序 科研主题 词嵌入
下载PDF
基于主题模型和情感分析的进口跨境电商顾客满意度评价研究 被引量:2
17
作者 邢丹 屈仁均 《科技和产业》 2023年第1期58-65,共8页
进口跨境电商已成为驱动国内消费增量的新业态,而顾客满意度的高低则是进口跨境电商提高留存率和转换率的关键。与此同时,海量的在线评论为商家提供了极具价值的信息,对其进行情感挖掘将有助于商家优化产品供给。为此,选择京东全球购个... 进口跨境电商已成为驱动国内消费增量的新业态,而顾客满意度的高低则是进口跨境电商提高留存率和转换率的关键。与此同时,海量的在线评论为商家提供了极具价值的信息,对其进行情感挖掘将有助于商家优化产品供给。为此,选择京东全球购个人护理产品作为研究对象,通过构建进口跨境电商顾客满意度综合评价模型,运用TF-IDF算法和文本聚类LDA主题模型等对评论文本内容进行分析和主题特征提取,并建立情感词典依次对顾客满意度各影响因素匹配赋值打分,以此来确定各项用户需求的重要度和产品及服务改进的优先级顺序。最终研究表明影响顾客满意度的各个因素综合得分排序从高到低为产品质量、物流服务质量、品牌信誉、感知价值、商家服务质量。 展开更多
关键词 进口跨境电商 潜在狄利克雷分布(lda)主题模型 情感分析 顾客满意度评价 文本挖掘
下载PDF
基于层次狄利克雷过程的交互式主题建模 被引量:9
18
作者 严宇宇 陶煜波 林海 《软件学报》 EI CSCD 北大核心 2016年第5期1114-1126,共13页
随着信息技术的快速发展,大量的文本数据产生、被收集和存储.主题模型是文本分析的重要工具之一,被广泛地应用于分析大规模文本集.然而,主题模型通常无法直观而有效地结合用户的领域专业知识对模型结果进行修正.针对这一问题,提出了一... 随着信息技术的快速发展,大量的文本数据产生、被收集和存储.主题模型是文本分析的重要工具之一,被广泛地应用于分析大规模文本集.然而,主题模型通常无法直观而有效地结合用户的领域专业知识对模型结果进行修正.针对这一问题,提出了一个交互式可视分析系统,帮助用户对主题模型进行交互修正.首先对层次狄利克雷过程进行了改进,使其支持单词约束;然后,使用矩阵视图对主题模型进行展示,并使用语义相关的词云布局帮助用户寻找单词约束,用户通过添加单词约束迭代优化主题模型;最后,通过案例分析及用户研究来评价该系统的可用性. 展开更多
关键词 文本可视化 主题模型 文本分析 层次狄利克雷过程
下载PDF
基于LDA主题模型的图像场景识别方法 被引量:1
19
作者 任艺 尹四清 李松阳 《计算机工程与设计》 北大核心 2017年第2期506-510,共5页
针对传统潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型在进行图像场景识别时存在聚类方法效率低以及不能有效利用图像主要特征的问题,提出改进图像场景识别模型的方法。采用K-Means++聚类算法生成视觉单词,使用加权统计... 针对传统潜在狄利克雷分布(latent Dirichlet allocation,LDA)主题模型在进行图像场景识别时存在聚类方法效率低以及不能有效利用图像主要特征的问题,提出改进图像场景识别模型的方法。采用K-Means++聚类算法生成视觉单词,使用加权统计直方图完成图像表示,通过引入特征函数加强重要特征在分类识别中的作用,提出有特征函数的潜在狄利克雷分布(featured latent Dirichlet allocation,FLDA)主题模型。实验结果表明,对比于改进前的模型,该模型可缩短执行时间并提高识别准确率。 展开更多
关键词 潜在狄利克雷主题模型(lda) K-Means十十聚类方法 加权统计直方图 特征函数 图像场景识别
下载PDF
基于分层狄利克雷过程模型的文本分割 被引量:2
20
作者 李天彩 王波 +1 位作者 席耀一 张佳明 《数据采集与处理》 CSCD 北大核心 2017年第2期408-416,共9页
文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process... 文本分割在文本摘要、信息检索等诸多领域都有重要的应用。主题模型是该领域研究中的重要方法,但目前基于主题模型的方法普遍依赖于主题个数的人工设置。针对此问题,本文提出了一种基于分层狄利克雷过程(Hierarchical Dirichlet process,HDP)模型的文本分割方法。首先使用HDP模型获取文本在主题空间的向量表示,然后将主题向量用于C99分割算法实现文本分割,最后使用两种优化策略对结果进行优化。实验结果表明,基于HDP模型的方法能够摆脱对人工设置主题个数的依赖,有效提高了文本分割的性能。 展开更多
关键词 主题模型 文本分割 分层狄利克雷过程 CRF构造
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部