期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于短语向量和主题加权的关键词抽取方法 被引量:3
1
作者 孙新 盖晨 +1 位作者 申长虹 张颖捷 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1682-1690,共9页
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短... 现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息. 展开更多
关键词 短语向量 自编码器 主题加权 关键词抽取
下载PDF
基于加权主题分布表达的微博文本摘要生成研究 被引量:1
2
作者 贾晓婷 王名扬 曹宇 《东北师大学报(自然科学版)》 CAS 北大核心 2020年第1期69-74,共6页
对微博文本的向量化表达及摘要效果的评测问题进行了研究.引入Word2vec模型实现微博文本词语的向量化表达,进而对词向量聚类生成主题词类.计算微博文本到主题词类的隶属度,结合主题词类的权重,生成微博文本的加权主题分布表达.在此基础... 对微博文本的向量化表达及摘要效果的评测问题进行了研究.引入Word2vec模型实现微博文本词语的向量化表达,进而对词向量聚类生成主题词类.计算微博文本到主题词类的隶属度,结合主题词类的权重,生成微博文本的加权主题分布表达.在此基础上划分类簇实现摘要句的提取.基于类簇H指数选出高频词作为标准摘要词集,考察了生成摘要与标准摘要词集中共现词的词频分布,实现对自动摘要效果的评测.实验结果表明,本文提出的方法有助于提升微博短文本集的摘要生成效果. 展开更多
关键词 自动摘要 加权主题分布表达 Word2vec H指数
下载PDF
一种改进的LDA主题模型 被引量:47
3
作者 张小平 周雪忠 +3 位作者 黄厚宽 冯奇 陈世波 焦宏官 《北京交通大学学报》 CAS CSCD 北大核心 2010年第2期111-114,共4页
由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关... 由于文档中的词符合幂律分布,使得LDA模型的主题分布向高频词倾斜,导致能够代表主题的多数词被少量的高频词淹没使得主题表达能力降低.通过一种高斯函数对特征词加权,改进LDA主题模型的主题分布.实验显示加权LDA模型获得的主题间的相关性以及复杂度(Perplexity)值都降低,说明改进模型在主题表达和预测性能方面都有所提高. 展开更多
关键词 LDA Dirichlet分布 加权主题模型
下载PDF
基于主题融合和关联规则挖掘的图像标注 被引量:4
4
作者 张蕾 蔡明 《计算机科学》 CSCD 北大核心 2019年第7期246-251,共6页
为减小“语义鸿沟”,在LDA主题模型的基础上,提出了一种主题融合和关联规则挖掘的图像标注方法。首先,针对视觉和文本信息的关联度不高的问题,引入基于向量机的多类别分类得到图像的类别信息。其次,通过文本模态的语义主题分布和类别信... 为减小“语义鸿沟”,在LDA主题模型的基础上,提出了一种主题融合和关联规则挖掘的图像标注方法。首先,针对视觉和文本信息的关联度不高的问题,引入基于向量机的多类别分类得到图像的类别信息。其次,通过文本模态的语义主题分布和类别信息,计算出图像类的文本主题分布。未知图像将其所属类的文本主题分布与其视觉主题分布进行加权融合,并以此概率模型计算初始标签集。最后依据初始标注词概率,利用关联规则挖掘和词间相关性挖掘文本关联度,从而得到精确化语义标注。在Corel5K图像数据集上进行对比实验,实验结果证明了方法的有效性。 展开更多
关键词 图像标注 LDA主题模型 加权主题融合 关联规则挖掘 词间相关性
下载PDF
基于WLabeled-LDA模型的文本分类研究
5
作者 卜天然 《长春师范大学学报》 2017年第4期6-12,共7页
Labeled-LDA模型引入了类别标签信息,较传统的LDA主题模型改进了强制分配主题的问题,但Labeled-LDA模型仍存在一些问题,例如Labeled-LDA在训练主题模型之前没有去除无用词,在训练过程中没有考虑词与各类别的关联度,且Labeled-LDA模型获... Labeled-LDA模型引入了类别标签信息,较传统的LDA主题模型改进了强制分配主题的问题,但Labeled-LDA模型仍存在一些问题,例如Labeled-LDA在训练主题模型之前没有去除无用词,在训练过程中没有考虑词与各类别的关联度,且Labeled-LDA模型获得的主题分布倾向于高频词,导致主题的表达能力降低等问题。本文提出WLabeled-LDA模型,在训练主题模型之前使用卡方特征来选出好的特征词,训练主题模型时用获得的词对类别的卡方值进行主题模型加权,并使用高斯密度函数对特征词加权来降低高频词对主题表达能力的影响。实验结果显示,此方法能使分类的准确率和召回率得到一定的提高,说明其具有更好的分类效果。 展开更多
关键词 文本分类 隐含狄利克雷分配(LDA) 卡方统计 特征选择 加权主题模型
下载PDF
加权专利文本主题模型研究
6
作者 俞琰 赵乃瑄 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第4期81-89,共9页
【目的】解决专利文本分析中主题模型向高频词倾斜、区分度低的问题。【方法】提出基于词权重方法,形成加权专利文本主题模型,给不同的词分配不同的权重,改变生成模型生成词的概率。【结果】相较于传统的专利文本主题模型,本文提出的加... 【目的】解决专利文本分析中主题模型向高频词倾斜、区分度低的问题。【方法】提出基于词权重方法,形成加权专利文本主题模型,给不同的词分配不同的权重,改变生成模型生成词的概率。【结果】相较于传统的专利文本主题模型,本文提出的加权专利主题模型能够增加主题间的区分度。【局限】加权算法需要更多数据集验证,并不断优化。【结论】通过专利文本数据验证了该方法的可行性与有效性。 展开更多
关键词 文本分析 专利 加权主题模型
原文传递
基于大数据技术的农产品智能推荐方法研究
7
作者 傅思维 陈桂芬 赵姗 《东北农业科学》 北大核心 2020年第6期140-144,共5页
随着智慧农业与大数据智能的兴起,农产品电商平台智能推荐方法正成为高效满足个性化需求的重要手段。针对传统推荐方法存在的耗时长、效率低问题,本研究提出了基于大数据处理技术的农产品智能推荐方法。该方法首先将文档主题算法与矩阵... 随着智慧农业与大数据智能的兴起,农产品电商平台智能推荐方法正成为高效满足个性化需求的重要手段。针对传统推荐方法存在的耗时长、效率低问题,本研究提出了基于大数据处理技术的农产品智能推荐方法。该方法首先将文档主题算法与矩阵分解算法混合,形成文档主题与矩阵分解混合算法;然后,将基于物品的协同过滤算法和文档主题与矩阵分解混合算法进行加权融合;最后,搭建Spark并行化计算平台,抓取京东商城和中国农产品网销售评分、评论等数据,进行特征提取、加权融合、智能推荐、误差测评。实验结果表明:文档主题与矩阵分解混合算法可有效提高推荐准确率;主题加权融合协同过滤算法可提高多样性;农产品智能推荐方法在推荐质量及执行效率方面具有明显提升。 展开更多
关键词 混合算法 主题加权融合协同过滤算法 智能推荐 农产品 大数据处理技术
原文传递
基于改进信息熵的干细胞研究领域共词分析 被引量:5
8
作者 安新颖 《图书情报工作》 CSSCI 北大核心 2011年第2期37-40,共4页
由于医学文献的主要主题词和次要主题词在文献中所反映出的重要程度不同,因此在预处理过程中首先将主要主题词和次要主题词进行加权处理。在主题遴选阶段采用改进信息熵算法对主题进行遴选,最后利用共词分析中的战略坐标分析对热点主题... 由于医学文献的主要主题词和次要主题词在文献中所反映出的重要程度不同,因此在预处理过程中首先将主要主题词和次要主题词进行加权处理。在主题遴选阶段采用改进信息熵算法对主题进行遴选,最后利用共词分析中的战略坐标分析对热点主题进行描绘。 展开更多
关键词 加权主题 共词分析 战略坐标 信息熵
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部