期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
Unsupervised Feature Selection for Latent Dirichlet Allocation 被引量:1
1
作者 徐蔚然 杜刚 +2 位作者 陈光 郭军 杨洁 《China Communications》 SCIE CSCD 2011年第5期54-62,共9页
As a generative model,Latent Dirichlet Allocation Model,which lacks optimization of topics' discrimination capability focuses on how to generate data,This paper aims to improve the discrimination capability throug... As a generative model,Latent Dirichlet Allocation Model,which lacks optimization of topics' discrimination capability focuses on how to generate data,This paper aims to improve the discrimination capability through unsupervised feature selection.Theoretical analysis shows that the discrimination capability of a topic is limited by the discrimination capability of its representative words.The discrimination capability of a word is approximated by the Information Gain of the word for topics,which is used to distinguish between "general word" and "special word" in LDA topics.Therefore,we add a constraint to the LDA objective function to let the "general words" only happen in "general topics" other than "special topics".Then a heuristic algorithm is presented to get the solution.Experiments show that this method can not only improve the information gain of topics,but also make the topics easier to understand by human. 展开更多
关键词 pattern recognition unsupervised feature selection latent dirichlet allocation general topic special topic
下载PDF
基于多特征融合的微博主题情感挖掘 被引量:62
2
作者 黄发良 冯时 +1 位作者 王大玲 于戈 《计算机学报》 EI CSCD 北大核心 2017年第4期872-888,共17页
微博情感分析是社会媒体挖掘中的重要任务之一,在恐怖组织识别、个性化推荐、舆情分析等方面具有重要的理论和应用价值.但与传统文本数据不同,微博消息短小而凌乱,包含着大量诸如微博表情符号之类的特有信息,同时微博情感是与其讨论主... 微博情感分析是社会媒体挖掘中的重要任务之一,在恐怖组织识别、个性化推荐、舆情分析等方面具有重要的理论和应用价值.但与传统文本数据不同,微博消息短小而凌乱,包含着大量诸如微博表情符号之类的特有信息,同时微博情感是与其讨论主题是密切相关的.多数现有的微博情感分析方法都没有将微博主题与微博情感进行协同分析,或者在微博主题情感分析过程中没有考虑将用户关系、用户性格情绪等特征数据,从而导致微博情感分析与主题检测的效果难尽人意.为此,提出了一个基于多特征融合的微博主题情感挖掘模型TSMMF(Topic Sentiment Model based on Multi-feature Fusion),该模型将情感表情符号与微博用户性格情绪特征纳入到图模型LDA中实现微博主题与情感的同步推导.实验结果表明,与当前用于短文本情感主题挖掘的最优模型(JST,SLDA与DPLDA)相比较,TSMMF具有更优的微博主题情感检测性能. 展开更多
关键词 情感分析 主题检测 LDA 微博短文本 社会媒体处理 自然语言处理
下载PDF
一种面向主题的领域服务聚类方法 被引量:17
3
作者 李征 王健 +3 位作者 张能 李昭 何成万 何克清 《计算机研究与发展》 EI CSCD 北大核心 2014年第2期408-419,共12页
随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在... 随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在对服务进行领域分类的基础上,提出了一种基于概率、融合领域特性的服务聚类模型——领域服务聚类模型(domain service clustering model,DSCM),然后基于该模型提出了一种面向主题的服务聚类方法.最后通过ProgrammableWeb网站提供的真实服务集对提出的方法进行了验证.实验结果表明,该方法可以准确地对不同类型的服务文档进行聚类.与经典的潜在狄利克雷分配(latent Dirichlet allocation,LDA),K-means等方法相比,该方法在聚类纯度和F-measure指标上均具有更好的效果,从而为按需服务发现与服务组合提供更好的支持. 展开更多
关键词 服务聚类 潜在狄利克雷分配 主题 概率 特征降维
下载PDF
基于动态主题情感混合模型的微博主题情感演化分析方法 被引量:12
4
作者 李超雄 黄发良 +2 位作者 温肖谦 李璇 元昌安 《计算机应用》 CSCD 北大核心 2015年第10期2905-2910,共6页
针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题... 针对现有模型无法进行微博主题情感演化分析的问题,提出一种基于主题情感混合模型(TSCM)和情感周期性理论的主题情感演化模型——动态主题情感混合模型(DTSCM)。DTSCM通过捕获不同时间片中微博消息集的主题和情感,追踪不同时间片内主题与情感的变化趋势,获得主题情感演化图,从而实现主题和情感的演化分析。真实微博数据集上的实验结果表明,与当前优秀代表算法JST(Joint Sentiment/Topic)、S-LDA(Sentiment-Latent Dirichlet Allocation)和DPLDA(Dependency Phrases-Latent Dirichlet Allocation)相比,该方法的情感分类准确率分别提高了3.01%、4.33%和8.75%,并且可以获得主题情感演化图。这表明该方法具有更高的情感分类准确率并且可以进行微博主题情感演化分析,为舆情分析等应用提供了较好的帮助。 展开更多
关键词 主题情感演化 情感挖掘 微博 潜在狄利克雷分配 情感周期性
下载PDF
CGRMB-LDA:面向隐式微博的主题挖掘 被引量:3
5
作者 李继云 黄昀 陈捷 《计算机应用》 CSCD 北大核心 2016年第A01期67-71,共5页
由于微博文本短、词量少、语法风格随意的特点,因此微博中包含大量因缺少主题词汇而无法分析话题归属的微博,即隐式微博。提出改进的基于LDA的生成模型考虑评论组和转发微博的CGRMB-LDA模型,利用微博间评论关系、转发关系和上下文关系... 由于微博文本短、词量少、语法风格随意的特点,因此微博中包含大量因缺少主题词汇而无法分析话题归属的微博,即隐式微博。提出改进的基于LDA的生成模型考虑评论组和转发微博的CGRMB-LDA模型,利用微博间评论关系、转发关系和上下文关系扩展隐式微博,明确隐式微博的主题归属,采用吉布斯采样的方法来求解模型从而得到主题集和微博所属主题。在真实数据集上的实验表明,CGRMB-LDA模型能有效地对微博特别是隐式微博进行主题挖掘。 展开更多
关键词 微博 主题挖掘 评论组 转发微博 潜在dirichlet分配 隐式微博
下载PDF
基于LDA模型的微博话题发现技术研究 被引量:10
6
作者 李凤岭 朱保平 《计算机应用与软件》 CSCD 北大核心 2014年第10期24-26,66,共4页
微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图... 微博中存在着数以亿计的用户,这些用户每天发布大量的信息。这些海量的微博信息给热点话题发现提出了严峻的挑战。应用LDA(Latent Dirichlet Allocation)模型对微博中隐含的话题进行建模,利用话题间的共享词汇将话题构成一个无向加权图,并通过PageRank算法将话题进行排名。实验结果表明,排名后返回给用户的话题的准确性明显高于未排名的结果。 展开更多
关键词 微博 话题 排名 LDA模型
下载PDF
多特征融合文本聚类的新闻话题发现模型 被引量:10
7
作者 车蕾 杨小平 《国防科技大学学报》 EI CAS CSCD 北大核心 2017年第3期85-90,共6页
融合新闻命名实体、新闻标题、新闻重要段落、文本语义等多特征影响,提出基于多特征融合文本聚类的新闻话题发现模型。模型根据新闻的多特征影响,提出一种多特征融合文本聚类方法。该方法针对新闻标题、新闻重要段落等特征因素构建向量... 融合新闻命名实体、新闻标题、新闻重要段落、文本语义等多特征影响,提出基于多特征融合文本聚类的新闻话题发现模型。模型根据新闻的多特征影响,提出一种多特征融合文本聚类方法。该方法针对新闻标题、新闻重要段落等特征因素构建向量空间模型及相似度算法,基于潜在狄利克雷分配模型构建主题空间模型及相似度算法,针对命名实体构建命名实体模型及相似度算法,并将三种相似度算法形成最优融合。基于多特征融合文本聚类方法,模型改进了用于新闻话题发现的Single-Pass算法。实验是在真实新闻数据集上开展的,实验结果表明:该模型有效地提高了新闻话题发现的准确率、召回率和综合评价指标,并具有一定的自适应能力。 展开更多
关键词 新闻话题 多特征融合 潜在狄利克雷分配 向量空间模型 主题空间模型
下载PDF
嵌入标记信息的铁路扣件状态检测主题模型 被引量:4
8
作者 欧阳 罗建桥 +1 位作者 李柏林 李爽 《计算机工程》 CAS CSCD 北大核心 2018年第6期200-206,共7页
针对潜在狄利克雷分布(LDA)模型忽略特征单词明确性的问题,提出一种嵌入标记信息的主题模型WL_LDA。设计一种基于SIFT特征点约束单方向LBP图像的方法。运用该方法获取图像的纹理结构,对视觉单词进行标记。将标记信息嵌入到LDA中,利用单... 针对潜在狄利克雷分布(LDA)模型忽略特征单词明确性的问题,提出一种嵌入标记信息的主题模型WL_LDA。设计一种基于SIFT特征点约束单方向LBP图像的方法。运用该方法获取图像的纹理结构,对视觉单词进行标记。将标记信息嵌入到LDA中,利用单词和标记的二维直方图推导图像的主题分布。通过运用该主题分布训练分类器,完成铁路扣件的状态检测。实验结果表明,与LDA主题模型相比,各扣件在主题空间中的区分度增加4.5%~15%,与现有PCA、DF等方法相比,漏检率和误检率明显降低,具有较好的分类性能。 展开更多
关键词 图像语义分析 潜在狄利克雷分布 视觉单词 SIFT特征 单词标记 主题模型
下载PDF
混合词汇特征和LDA的语义相关度计算方法 被引量:5
9
作者 肖宝 李璞 蒋运承 《计算机工程与应用》 CSCD 北大核心 2017年第12期152-157,165,共7页
文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量... 文本语义相关度计算在自然语言处理、语义信息检索等方面起着重要作用,以Wikipedia为知识库,基于词汇特征的ESA(Explicit Semantic Analysis)因简单有效的特点在这些领域中受到学术界的广泛关注和应用。然而其语义相关度计算因为有大量冗余概念的参与变成了一种高维度、低效率的计算方式,同时也忽略了文本所属主题因素对语义相关度计算的作用。引入LDA(Latent Dirichlet Allocation)主题模型,对ESA返回的相关度较高的概念转换为模型的主题概率向量,从而达到降低维度和提高效率的目的;将JSD距离(Jensen-Shannon Divergence)替换余弦距离的测量方法,使得文本语义相关度计算更加合理和有效。最后对不同层次的数据集进行算法的测试评估,结果表明混合词汇特征和主题模型的语义相关度计算方法的皮尔逊相关系数比ESA和LDA分别高出3%和9%以上。 展开更多
关键词 主题模型 词汇特征 显式语义分析(ESA) 隐含狄利克雷分布(LDA) 语义相关度计算
下载PDF
基于LDA主题特征的微博转发预测 被引量:21
10
作者 李志清 《情报杂志》 CSSCI 北大核心 2015年第9期158-162,共5页
微博转发是微博传播的重要途径,也是研究微博信息传播、舆情监控的最关键问题之一。研究用户转发行为对信息传播分析、舆情监控和热点提取有很大帮助。然而,当前对微博转发行为的研究大多是在宏观层面,为了解决微观层面预测用户转发行... 微博转发是微博传播的重要途径,也是研究微博信息传播、舆情监控的最关键问题之一。研究用户转发行为对信息传播分析、舆情监控和热点提取有很大帮助。然而,当前对微博转发行为的研究大多是在宏观层面,为了解决微观层面预测用户转发行为问题,在分析影响用户转发的各类因素基础上,首先构建了微博特征和用户特征,然后通过将LDA抽取的微博隐含主题特征,与微博特征和用户特征相结合建立起基于主题特征的微博预测模型。实验结果验证了该模型在微博转发行为预测的有效性。 展开更多
关键词 微博转发 主题特征 latent dirichlet allocation
下载PDF
基于隐含狄利克雷分配模型的图像分类算法 被引量:9
11
作者 杨赛 赵春霞 《计算机工程》 CAS CSCD 2012年第14期181-183,共3页
概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对... 概率隐含语义分析模型不适用于大规模图像数据集,为此,提出一种基于隐含狄利克雷分配模型(LDA)的图像分类算法。以BOF特征作为图像内容的初始描述,利用Gibbs抽样算法近似估算LDA模型参数,得到图像的隐含主题分布特征,并采用k近邻算法对图像进行分类。实验结果表明,与基于概率隐含语义分析模型的分类算法相比,该算法的分类性能较优。 展开更多
关键词 BOF模型 中层语义特征 隐含狄利克雷分配模型 隐含主题分布特征 K近邻算法 图像分类
下载PDF
基于LDA模型的中文微博热点话题发现 被引量:6
12
作者 谈成访 汪材印 张亚康 《宿州学院学报》 2014年第4期71-73,77,共4页
针对微博文本数量增加速度快、信息量繁杂等问题,将LDA模型应用到热点话题的挖掘中,构建出微博热点话题的识别过程。首先应用LDA模型对微博语料库进行主题建模,采用困惑度方法确定最佳主题个数,通过Gibbs抽样算法实现参数推理,获得语料... 针对微博文本数量增加速度快、信息量繁杂等问题,将LDA模型应用到热点话题的挖掘中,构建出微博热点话题的识别过程。首先应用LDA模型对微博语料库进行主题建模,采用困惑度方法确定最佳主题个数,通过Gibbs抽样算法实现参数推理,获得语料库的主题-词汇概率分布和文本-主题概率分布,在此基础上计算并识别出微博中的热点话题、热点词汇和热点话题微博。实验结果显示该模型与人工挑选的结果基本一致,表明该模型具有较好的热点识别效果。 展开更多
关键词 LDA 微博 热点话题
下载PDF
基于主题与语义的作弊网页检测方法 被引量:1
13
作者 易军凯 刘慕凡 万静 《计算机工程》 CAS CSCD 北大核心 2015年第9期311-316,共6页
网页作弊检测可以被看作二元分类问题。当前基于内容的作弊网页检测方法主要使用统计特征,不能准确识别隐藏的作弊手段。为此,提出一种改进的作弊网页检测方法,使用语义与统计两类特征,将作弊检测深入至主题层次。该方法对网页内容进行... 网页作弊检测可以被看作二元分类问题。当前基于内容的作弊网页检测方法主要使用统计特征,不能准确识别隐藏的作弊手段。为此,提出一种改进的作弊网页检测方法,使用语义与统计两类特征,将作弊检测深入至主题层次。该方法对网页内容进行主题建模,将网页内容映射至主题空间,根据其主题分布进行语义分析计算,从中提取语义特征,结合统计特征对网页进行分类检测。实验结果表明,该方法在精确率、召回率与F1测度上均获得了较好的效果。 展开更多
关键词 分类 主题模型 潜在狄利克雷分配 语义特征 语义相似度
下载PDF
基于GV-LDA的微博话题检测研究 被引量:3
14
作者 李少华 李卫疆 余正涛 《软件导刊》 2018年第2期131-135,共5页
随着社交网络的不断发展,微博成为越来越多的人获取信息的平台。为了有效解决微博话题检测中海量短文本带来的词稀疏问题,提出结合全局向量模型(GloVe)和潜在狄利克雷分布(LDA)的GV-LDA模型。在使用LDA进行话题检测前,模型利用多义词词... 随着社交网络的不断发展,微博成为越来越多的人获取信息的平台。为了有效解决微博话题检测中海量短文本带来的词稀疏问题,提出结合全局向量模型(GloVe)和潜在狄利克雷分布(LDA)的GV-LDA模型。在使用LDA进行话题检测前,模型利用多义词词项的含义与词性相关的事实,在标注过并去除低频词的语料上,对全局向量模型进行训练获得词向量,对词性相同且相似度大于阈值的词进行替换以解决稀疏性问题。实验结果表明,GV-LDA模型较传统的LDA主题模型,可有效提高话题检测的准确率和召回率,并降低"主题-词"处理的维度,因此GV-LDA更适合微博话题检测。 展开更多
关键词 微博 话题检测 全局向量 潜在狄利克雷分布
下载PDF
基于SGC-LDA的微博用户兴趣主题演化研究 被引量:1
15
作者 傅魁 丁健 覃桂双 《北京邮电大学学报(社会科学版)》 2021年第4期28-41,共14页
针对传统的用户兴趣主题模型存在非动态、噪声性、计算复杂度高和兴趣演化分析维度单一等问题,基于滑动窗口技术,引入兴趣主题遗传因子保持主题连续性,并定义用于捕获通用语义和噪声干扰词的兴趣通用主题。提出了SGC-LDA(sliding-window... 针对传统的用户兴趣主题模型存在非动态、噪声性、计算复杂度高和兴趣演化分析维度单一等问题,基于滑动窗口技术,引入兴趣主题遗传因子保持主题连续性,并定义用于捕获通用语义和噪声干扰词的兴趣通用主题。提出了SGC-LDA(sliding-window,genetic factor and common topic-latent dirichlet allocation)用户兴趣主题模型,并根据该模型对数据集进行主题演化分析,从兴趣主题强度、兴趣主题状态和兴趣主题路径三个维度分析用户的兴趣偏好及演化规律。运用新浪微博语料文本进行实证分析,结果表明,SGC-LDA用户兴趣主题模型优于传统的LDA主题模型,可以准确描述用户兴趣演化规律,漏报率、误报率以及归一化开销均低于未进行主题关联过滤的基准(Baseline)方法,从而证明了模型的有效性。 展开更多
关键词 用户兴趣 主题演化 隐狄利克雷分配模型 演化关系 微博
下载PDF
融合多特征的基于远程监督的中文领域实体关系抽取 被引量:11
16
作者 王斌 郭剑毅 +2 位作者 线岩团 王红斌 余正涛 《模式识别与人工智能》 EI CSCD 北大核心 2019年第2期133-143,共11页
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用... 针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好. 展开更多
关键词 远程监督 实体关系抽取 领域知识库 特征融合 隐含狄利克雷分布主题模型
下载PDF
基于WLabeled-LDA模型的文本分类研究
17
作者 卜天然 《长春师范大学学报》 2017年第4期6-12,共7页
Labeled-LDA模型引入了类别标签信息,较传统的LDA主题模型改进了强制分配主题的问题,但Labeled-LDA模型仍存在一些问题,例如Labeled-LDA在训练主题模型之前没有去除无用词,在训练过程中没有考虑词与各类别的关联度,且Labeled-LDA模型获... Labeled-LDA模型引入了类别标签信息,较传统的LDA主题模型改进了强制分配主题的问题,但Labeled-LDA模型仍存在一些问题,例如Labeled-LDA在训练主题模型之前没有去除无用词,在训练过程中没有考虑词与各类别的关联度,且Labeled-LDA模型获得的主题分布倾向于高频词,导致主题的表达能力降低等问题。本文提出WLabeled-LDA模型,在训练主题模型之前使用卡方特征来选出好的特征词,训练主题模型时用获得的词对类别的卡方值进行主题模型加权,并使用高斯密度函数对特征词加权来降低高频词对主题表达能力的影响。实验结果显示,此方法能使分类的准确率和召回率得到一定的提高,说明其具有更好的分类效果。 展开更多
关键词 文本分类 隐含狄利克雷分配(LDA) 卡方统计 特征选择 加权主题模型
下载PDF
基于主题信息的项目评审专家推荐方法 被引量:6
18
作者 余峰 余正涛 +2 位作者 杨剑锋 郭剑毅 严馨 《计算机工程》 CAS CSCD 2014年第6期201-205,共5页
针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的... 针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的重要性因素,利用TF-IDF特征提取算法分别获得项目文档与专家文档的主题特征向量,采用改进的相似度算法计算项目与专家主题特征向量的相关度,并选择与项目相关度较高的专家作为推荐结果。实验结果表明,该方法的推荐效果优于使用TF-IDF+余弦相似度计算的推荐方法,准确率、召回率和综合评价指标F值平均提高了4.87%,5.04%和4.97%。 展开更多
关键词 专家推荐 隐含狄利克雷分配模型 主题词 向量空间模型 TF—IDF特征 相似度计算
下载PDF
MTRF:融合空间信息的主题模型 被引量:2
19
作者 潘智勇 刘扬 +2 位作者 刘国军 郭茂祖 李盼 《计算机应用》 CSCD 北大核心 2015年第10期2715-2720,2732,共7页
针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。根据相邻视觉词汇以... 针对主题模型中词汇独立性和主题独立性假设忽略了视觉词汇间空间关系的问题,提出了一种融合了视觉词汇空间信息的主题模型,称为马尔可夫主题随机场(MTRF),并且提出了主题在图像处理中的表现形式为对象的组成部件。根据相邻视觉词汇以很大概率产生于同一主题的特点,该算法在产生主题的过程中,通过视觉词汇间是否产生于同一主题,来判断主题产生于马尔可夫随机场(MRF),还是产生于多项式分布。同时,从理论和实验两方面论证了主题并非对象的实例,而是以中层特征的形式表达对象的各个组成部件。与隐狄利克雷分配(LDA)相比,MTRF在Caltech101上的平均准确率提高了3.91%;在VOC2007数据集上的平均精度均值(m AP)提高了2.03%;此外,MTRF更准确地为视觉词汇分配了主题,能产生更有效表达对象的组成部件的中层特征。实验结果表明,MTRF有效地利用了空间信息,提高了模型的准确率。 展开更多
关键词 主题模型 隐狄利克雷分配模型 马尔可夫随机场 空间关系 中层特征 图像分类
下载PDF
基于改进LDA主题模型的产品特征抽取 被引量:7
20
作者 佘维军 刘子平 杨卫芳 《计算机与现代化》 2016年第11期1-6,57,共7页
针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每... 针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每条评论,提取主观句并利用改进LDA模型对其主题进行学习,根据语料库构建must-link和cannot-link约束条件,在主题更新时对其进行约束和引导,每个主题对应一个特征类。实验表明,本文方法对显式特征和隐式特征都具有很好的实验效果,且相比传统的方法和其他改进方法在保证召回率的同时对准确率也有一定程度的提高。 展开更多
关键词 潜在狄利克雷分布 主题模型 句法分析 特征抽取 约束条件
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部