期刊文献+
共找到104篇文章
< 1 2 6 >
每页显示 20 50 100
基于集成学习的跨语言文本主题发现方法研究
1
作者 李帅 于娟 巫邵诚 《计算机科学》 CSCD 北大核心 2024年第S01期182-189,共8页
跨语言文本主题发现是跨语言文本挖掘领域的重要研究方向,对跨语言文本分析和组织各种文本数据具有较高的应用价值。基于Bagging和跨语言词嵌入改进LDA主题模型,提出跨语言文本主题发现方法BCL-LDA(Bagging,Cross-lingual word embeddin... 跨语言文本主题发现是跨语言文本挖掘领域的重要研究方向,对跨语言文本分析和组织各种文本数据具有较高的应用价值。基于Bagging和跨语言词嵌入改进LDA主题模型,提出跨语言文本主题发现方法BCL-LDA(Bagging,Cross-lingual word embedding with LDA),从多语言文本中挖掘关键信息。该方法首先将Bagging集成学习思想与LDA主题模型结合生成混合语言子主题集;然后利用跨语言词嵌入和K-means算法对混合子主题进行聚类分组;最后使用TF-IDF算法对主题词进行过滤排序。汉语-德语、汉语-法语主题发现实验表明,该方法在主题连贯性和多样性方面均表现优异,能够提取出语义更加相关且主题更加连贯多样的双语主题。 展开更多
关键词 主题发现 跨语言 LDA 主题聚类 德语 法语
下载PDF
涉警网络舆情主题发现及情感分析研究
2
作者 管雨翔 王娟 张鹏 《情报工程》 2023年第6期105-116,共12页
[目的/意义]研究涉警网络舆情主题特点及网民情感变化,可以为构建良好的警民关系和警察形象提供参考,具有重要的社会意义和实际价值。[方法/过程]获取微博平台涉警网络舆情数据,使用LDA主题模型及TF-IDF算法对网络舆情数据进行主题发现... [目的/意义]研究涉警网络舆情主题特点及网民情感变化,可以为构建良好的警民关系和警察形象提供参考,具有重要的社会意义和实际价值。[方法/过程]获取微博平台涉警网络舆情数据,使用LDA主题模型及TF-IDF算法对网络舆情数据进行主题发现研究,基于Word2Vec模型构建涉警网络舆情领域情感词典,进而对网民情感进行分析。[局限]在案例选取及分析方面不够全面。[结果/结论]通过LDA主题模型及TF-IDF算法可以使主题划分更为明显,基于领域情感词典的情感分析也较为准确,更好地反映出舆情传播过程中热点话题及网民情感的变化。 展开更多
关键词 涉警舆情 主题发现 情感分析 LDA主题模型
下载PDF
基于文本聚类技术的主题发现 被引量:15
3
作者 郭建永 蔡勇 甄艳霞 《计算机工程与设计》 CSCD 北大核心 2008年第6期1426-1428,1432,共4页
阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题。并提出了一种增量层次聚类算法,该算法结合了划分聚类和... 阐述了一种主题发现系统,它能发现数据流中的隐含知识,并将其表述为含有主题/副主题的层次树,每个主题包含与其相关的文档集和文档摘要,以便于用户从层次树中浏览和选择所需主题。并提出了一种增量层次聚类算法,该算法结合了划分聚类和凝聚聚类的主要优点。实验结果表明,无论是作为主题检测系统还是分类和概括工具,该算法都是高效的。 展开更多
关键词 文本聚类 主题发现 层次方法 文本挖掘
下载PDF
一种基于聚类分析的BBS主题发现算法研究 被引量:7
4
作者 吴昊 耿焕同 吴祥 《安徽师范大学学报(自然科学版)》 CAS 北大核心 2009年第1期9-13,共5页
针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于聚类分析的主题发现方法,其思想是借助潜在语义分析技术计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现.
关键词 聚类分析 潜在语义分析 BBS 主题发现
下载PDF
技术领域主题发现研究——以基因工程疫苗领域为例 被引量:5
5
作者 隗玲 许海云 +2 位作者 刘春江 李婧 方曙 《数字图书馆论坛》 CSSCI 2017年第1期37-45,共9页
本文梳理基于专利文献进行技术领域主题发现的研究方法发展进程,提出一套高效获取专利技术主题词、生成战略坐标图的研究流程,并以基因工程疫苗技术为例,对我国基因工程疫苗技术主题分布及发展趋势进行实证分析。研究结果显示,采用本文... 本文梳理基于专利文献进行技术领域主题发现的研究方法发展进程,提出一套高效获取专利技术主题词、生成战略坐标图的研究流程,并以基因工程疫苗技术为例,对我国基因工程疫苗技术主题分布及发展趋势进行实证分析。研究结果显示,采用本文构建的共词分析流程和方法,利用专利共词聚类和战略坐标图能较好地识别技术主题及其发展现状。 展开更多
关键词 技术主题发现 共词分析 战略坐标图 基因工程疫苗
下载PDF
微博网络中基于主题发现的舆情分析 被引量:4
6
作者 彭浩 周杰 +1 位作者 周豪 赵丹丹 《电讯技术》 北大核心 2015年第6期611-617,共7页
针对现有微博网络舆情分析的研究中没有从全局层面考虑舆情文本特征的情况,结合微博网络舆情的主题及趋向性分析,提出了基于主题发现的微博网络舆情分析模型,从文本预处理、微博文本特征提取、微博舆情的主题发现及趋向性分析三方面进... 针对现有微博网络舆情分析的研究中没有从全局层面考虑舆情文本特征的情况,结合微博网络舆情的主题及趋向性分析,提出了基于主题发现的微博网络舆情分析模型,从文本预处理、微博文本特征提取、微博舆情的主题发现及趋向性分析三方面进行了具体描述。仿真结果表明,基于该模型实现的微博网络舆情分析方法在微博网络舆情的分析处理中检测效果良好,说明该模型有效。相关内容可为该领域的进一步研究提供有价值的参考。 展开更多
关键词 微博网络 舆情分析 主题发现 文本特征
下载PDF
融合频繁项集和潜在语义分析的股评论坛主题发现方法 被引量:2
7
作者 张涛 翁康年 +1 位作者 顾小敏 张玥杰 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第4期583-592,共10页
针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC... 针对股评论坛主题发现,提出基于频繁项集与潜在语义相结合的短文本聚类(STC_FL)框架.在基于知网的知识获取后得到概念向量空间,挖掘并筛选出重要频繁项集,然后采用统计和潜在语义相结合的方法进行重要频繁项集的自适应聚类.最后,提出TSC-SN(text soft classifying based on similarity threshold and non-overlapping)算法,通过参数调优策略选择和控制文本软聚类过程.股吧论坛数据实证分析发现:所提出的STC_FL框架和TSC-SN算法可充分挖掘文本潜在语义信息,并有效降低特征空间维度,最终实现对短文本的深层次信息挖掘和主题归类. 展开更多
关键词 主题发现 股吧论坛 频繁项集 潜在语义分析 文本软聚类
下载PDF
利用作者主题模型进行图书馆UGC的主题发现与演化研究 被引量:7
8
作者 赵华 章成志 《图书馆论坛》 CSSCI 北大核心 2016年第7期34-45,共12页
通过对在线社交网络上图书馆用户生成内容(UGC)的分析,可以从宏观上更好地了解我国图书馆机构关注的热点话题及其演化情况。文章以新浪微博为数据源,获取一定时段我国图书馆微博的内容数据,依据作者主题模型获取候选主题,通过对候选主... 通过对在线社交网络上图书馆用户生成内容(UGC)的分析,可以从宏观上更好地了解我国图书馆机构关注的热点话题及其演化情况。文章以新浪微博为数据源,获取一定时段我国图书馆微博的内容数据,依据作者主题模型获取候选主题,通过对候选主题进行聚类确定合适的话题数,根据作者主题模型结果计算相邻时间片主题之间的相似度,在此基础上分析主题的演化,最终完成不同图书馆主题分布及演化的差异分析。实证研究结果表明:目前我国图书馆微博主要关注新书推荐、讲座信息、图书馆服务、图书信息等主题;各月份的关注主题差异不大;除了共同关注的图书馆服务、新书推荐等话题之外,上午时段关注音乐和大学生相关话题,下午关注讲座信息和公益话题,晚上时段关注公益和大学生话题。 展开更多
关键词 主题发现 主题演化 图书馆微博 在线社交网络 用户生成内容
下载PDF
基于PBTM的海量微博主题发现 被引量:2
9
作者 郑涛 王路路 +1 位作者 杨冰 姬东鸿 《计算机应用研究》 CSCD 北大核心 2015年第3期768-770,785,共4页
BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),... BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),通过多台主机同时对语料库进行本主机biterm吉布斯采样,然后每次迭代后更新全局主题单词矩阵,直到采样收敛。通过MPI集群实现PBTM模型,实验结果表明,PBTM主题挖掘微博文本速度较BTM大大加快。 展开更多
关键词 主题模型 主题发现 PBTM 吉布斯采样 分布式计算
下载PDF
基于LDA的网络评论主题发现研究 被引量:39
10
作者 阮光册 《情报杂志》 CSSCI 北大核心 2014年第3期161-164,共4页
网络用户评论的主题发现研究是Web2.0时代信息分析的重要方式,如何从冗杂的用户评论中分析出有价值的信息是研究的热点。针对网络用户评论信息内容短、信息量少的特征,提出基于LDA(latent Dirichlet allocation)主题发现模型结合HowNet... 网络用户评论的主题发现研究是Web2.0时代信息分析的重要方式,如何从冗杂的用户评论中分析出有价值的信息是研究的热点。针对网络用户评论信息内容短、信息量少的特征,提出基于LDA(latent Dirichlet allocation)主题发现模型结合HowNet知识库进行信息分析的方法,对网络评论进行主题发现的研究。首先通过评论文本的词性标注、语义分析,形成语料库,然后利用HowNet对语料库中的词项进行语义相似度的计算,完成语义去重、合并,最后通过LDA主题模型将用户评论的内容映射到主题上,实现对用户评论信息主题的发现。 展开更多
关键词 网络评论 主题发现 网络信息分析 LDA(latentDirichletallocation) 语义分析 文本挖掘
下载PDF
学科交叉热点主题发现与演化分析方法研究——以动物资源与育种领域为例 被引量:5
11
作者 吴蕾 孙巍 《数字图书馆论坛》 CSSCI 2015年第12期15-20,共6页
为挖掘多学科、跨学科合作交叉点,揭示其发展演化规律,本文以动物资源与育种领域为例,使用学科标识提取农学和遗传学交叉文献集,并进行词语共现分析,得到静态主题聚类;随后综合各个时间片段交叉性主题,对其进行主题动态演化分析,并结合... 为挖掘多学科、跨学科合作交叉点,揭示其发展演化规律,本文以动物资源与育种领域为例,使用学科标识提取农学和遗传学交叉文献集,并进行词语共现分析,得到静态主题聚类;随后综合各个时间片段交叉性主题,对其进行主题动态演化分析,并结合领域专家的分析解读给出解释。研究结果表明,该分析有效挖掘动物资源与育种领域农学和遗传学学科交叉融合所产生的主题及其演化规律,具有一定的可扩展性,可辅助预测新学科领域交叉融合点,并为科学研究人员和高层管理者提供战略决策帮助。 展开更多
关键词 学科交叉 热点主题发现 演化分析 动物资源与育种
下载PDF
基于作者引用文献关系的潜在研究兴趣主题发现 被引量:4
12
作者 冯小东 武森 王佳晔 《中国科技论文》 CAS 北大核心 2014年第1期65-70,共6页
扩展LDA(latent dirichlet allocation)模型,提出基于作者引用文献关系的作者-兴趣主题-文献模型。每个作者被分配一个在所有主题上的多项概率分布,每个主题被分配一个在所有文献上的多项概率分布。在DBLP(digital bibliography&lib... 扩展LDA(latent dirichlet allocation)模型,提出基于作者引用文献关系的作者-兴趣主题-文献模型。每个作者被分配一个在所有主题上的多项概率分布,每个主题被分配一个在所有文献上的多项概率分布。在DBLP(digital bibliography&library project)文献引用关系数据集上的实验表明,所提模型能有效地提取一个研究领域的主要潜在研究兴趣主题及其所包含的代表性文献,并能挖掘每个作者属于每个研究兴趣主题的分布。 展开更多
关键词 数据挖掘 主题发现 LATENT DIRICHLET ALLOCATION 作者-兴趣主题-文献模型
下载PDF
基于主题发现的专利发明人推荐方法 被引量:5
13
作者 黎楠 杜永萍 何明 《情报工程》 2015年第3期90-97,共8页
LDA主题模型可用于识别大规模文档集中潜藏的主题信息,本文提出了一种基于LDA建立发明人兴趣主题模型的方法,合并每位发明人的专利数据,专利信息基于发明人进行划分,将标准的文档-主题-词的三层LDA模型变为专利数据中的发明人-主题-词... LDA主题模型可用于识别大规模文档集中潜藏的主题信息,本文提出了一种基于LDA建立发明人兴趣主题模型的方法,合并每位发明人的专利数据,专利信息基于发明人进行划分,将标准的文档-主题-词的三层LDA模型变为专利数据中的发明人-主题-词的发明人兴趣模型,实现发明人的主题发现,并利用该模型中主题分布之间的相似性进行发明人的个性化推荐。在采集真实专利数据集上的实验结果表明该方法相比传统的向量空间模型方法和隐马尔科夫模型方法具有更高的准确率,推荐效果更优。 展开更多
关键词 LDA主题模型 专利 主题发现 推荐技术
下载PDF
基于时间序列聚类的主题发现与演化分析研究 被引量:18
14
作者 李海林 邬先利 《情报学报》 CSSCI CSCD 北大核心 2019年第10期1041-1050,共10页
针对现有研究对文献主题发现和演化分析方法的单一性,本文提出了基于时间序列聚类的主题发现与演化分析方法。该方法首先通过共词分析找出文献数据集中高频关键词的共现矩阵,利用Ochiia系数计算方法将共现矩阵转换为相似性矩阵,然后使... 针对现有研究对文献主题发现和演化分析方法的单一性,本文提出了基于时间序列聚类的主题发现与演化分析方法。该方法首先通过共词分析找出文献数据集中高频关键词的共现矩阵,利用Ochiia系数计算方法将共现矩阵转换为相似性矩阵,然后使用近邻传播聚类算法发现文献主题。同时,再将主题在某段时间内的研究热度进行分析并转化为反映主题热度时间序列数据,结合时间序列聚类方法对各主题进行分类以及演化趋势的分析。实验结果表明,通过对中国知网中2000—2018年与创新管理相关的期刊文献进行数据处理与挖掘,提出的方法能有效地发现期刊的研究主题,并且能较好地分析这些主题的演化趋势。 展开更多
关键词 AP聚类 时间序列聚类 主题发现 主题演化
下载PDF
在线用户评论的主题发现研究 被引量:3
15
作者 王和勇 崔蓉 《现代情报》 CSSCI 北大核心 2015年第9期63-69,共7页
在线用户评论是电子商务网站中的一个重要板块,找出在线用户评论的关注点有利于网站、商家及时有效地查看用户的反馈信息。本文在对在线用户评论进行分词的基础上,分别使用拉普拉斯评分(LS,Laplacian Score)及信息增益(IG,Information G... 在线用户评论是电子商务网站中的一个重要板块,找出在线用户评论的关注点有利于网站、商家及时有效地查看用户的反馈信息。本文在对在线用户评论进行分词的基础上,分别使用拉普拉斯评分(LS,Laplacian Score)及信息增益(IG,Information Gain)对所得到的分词结果进行文本主题挖掘,并使用支持向量机(SVM,Support Vector Machine)进行分类精度的检验。实证结果表明,主题选择的结果是有效的,分类的效果与选择的关键词个数和核函数有关。 展开更多
关键词 中文分词 主题发现 拉普拉斯评分 信息增益 支持向量机
下载PDF
基于LDA模型的欧盟框架计划近10年农业科研项目研究主题发现 被引量:3
16
作者 王德川 赵瑞雪 +1 位作者 寇远涛 鲜国建 《农业展望》 2017年第4期69-75,共7页
当前科研项目研究主题发现的方法主要是基于文献计量学,即通过统计项目的外部特征进行分析,但并未涉及项目研究内容。科研项目数据不仅是集技术情报、经济情报、商业情报于一体的知识载体,同时还具有科学性、具体性、探索性、创新性等... 当前科研项目研究主题发现的方法主要是基于文献计量学,即通过统计项目的外部特征进行分析,但并未涉及项目研究内容。科研项目数据不仅是集技术情报、经济情报、商业情报于一体的知识载体,同时还具有科学性、具体性、探索性、创新性等特点。若能使用有效的方法对科研项目数据内容进行挖掘,将对科研工作者的研究创新以及国家科研政策制定产生积极影响。探讨了基础传统文献计量学方法的科研项目分析的局限性及存在的问题,对比分析了Latent Dirichlet Allocation(LDA)模型在主题发现领域的优势,提出了基于LDA模型的科研项目主题发现方法,并通过对欧盟框架计划近10年的农业科研项目数据进行分析,验证LDA模型在科研项目数据分析中的有效性。基于欧盟农业科研项目研究主题的分析结果发现,基于LDA模型在科研项目主题发现上能够充分挖掘科研项目的主题信息,是一种行之有效的科研项目分析方法。 展开更多
关键词 欧盟框架计划 农业科研项目 LDA模型 主题发现
下载PDF
基于社区发现和关键节点识别的网络舆情主题发现与实证分析 被引量:15
17
作者 王曰芬 王一山 杨洁 《图书与情报》 CSSCI 北大核心 2020年第5期48-58,共11页
为了深入探究网络舆情演化的特点与规律,需要在内容层面上有效地从网络舆情的大量数据中发现高价值的舆情主题,并结合时间维度将各个时间点孤立的舆情内容整合起来。文章将情报学理论、生命周期理论、舆情传播理论、社会网络分析方法与... 为了深入探究网络舆情演化的特点与规律,需要在内容层面上有效地从网络舆情的大量数据中发现高价值的舆情主题,并结合时间维度将各个时间点孤立的舆情内容整合起来。文章将情报学理论、生命周期理论、舆情传播理论、社会网络分析方法与文本分析方法相结合,提出了基于社区发现与关键节点识别的包括网络舆情生命周期阶段划分、网络舆情社区发现与关键节点识别、舆情事件主题发现三个部分的网络舆情主题发现研究设计。最后,选取新浪微博“上海踩踏”事件作为研究对象进行实证分析。研究发现:在主题发现研究中加入用户属性和用户行为等非文本特征要素的设计,弥补了用户关系的缺失,提高主题发现的效率;提出的主题发现方法在一定程度上降低了微博文本稀疏性的影响;研究发现了舆情事件在整个生命周期中主题内容变化的状态,所提方案可为相关决策提供有效的方法支撑,研究结论具有情报参考价值。 展开更多
关键词 网络舆情 主题发现 社区发现 关键节点识别 非文本特征
下载PDF
传播阶段中不同传播者的舆情主题发现与对比分析 被引量:11
18
作者 王曰芬 王一山 《现代情报》 CSSCI 2018年第9期28-35,144,共9页
在网络舆情内容的传播过程中,各种物理上独立的舆论会话在传播要素上可能存在着语义关联,并且传播要素之间的相互影响对舆情传播内容的演变具有重要作用。本文从网络舆情的传播阶段中传播要素的相互影响入手,以传播内容为主要研究对象,... 在网络舆情内容的传播过程中,各种物理上独立的舆论会话在传播要素上可能存在着语义关联,并且传播要素之间的相互影响对舆情传播内容的演变具有重要作用。本文从网络舆情的传播阶段中传播要素的相互影响入手,以传播内容为主要研究对象,以社群网络中的关键节点及其传播主题为分析单元,将生命周期理论和关键节点识别相结合,并选择新浪微博作为数据来源,采集舆情事件信息,构建舆情事件生命周期各阶段的社会网络并提取关键节点,借助LDA主题模型方法挖掘各阶段舆情内容的主题,在此基础上研究相同阶段或者不同阶段中在关键节点影响下的舆情主题分布及其变化。研究结论为社会舆情分析与决策支持提供了一定的参考。 展开更多
关键词 网络舆情 主题发现 传播要素 生命周期 关键节点识别 社群分析 新浪微博 LDA主题模型
下载PDF
大型公共建筑投资中公众态度网络舆情主题发现研究 被引量:2
19
作者 庞永师 胡勇军 《统计与决策》 CSSCI 北大核心 2017年第5期64-67,共4页
我国大型公共建筑投资因其牵涉利益主体多、涉及公众切身利益,受到各级政府高度重视。然而,受公众意见分散多样、信息不对称等影响,公众的真实态度往往难以在事前纳入决策中。在事后,如因决策不当损害到公众切身利益时,会遭致抵制,形成&... 我国大型公共建筑投资因其牵涉利益主体多、涉及公众切身利益,受到各级政府高度重视。然而,受公众意见分散多样、信息不对称等影响,公众的真实态度往往难以在事前纳入决策中。在事后,如因决策不当损害到公众切身利益时,会遭致抵制,形成"邻避效应",甚至诱发群体性事件,对大型公共建筑的投资带来巨大的损失和影响。如何在事前采集公众真实态度纳入到决策中并改善决策?文章通过采集网络舆情数据,基于时空情境语义分析建立了面向事前决策的公众态度网络舆情主题发现模型,实现了对公众利益相关方中不同群体意见的挖掘及情感分类。 展开更多
关键词 事前决策 大型公共建筑投资 公众态度 网络舆情主题发现
下载PDF
基于LDA的ESI研究前沿主题发现研究 被引量:1
20
作者 袁润 刘邦国 潘颖 《中国集体经济》 2021年第1期70-72,共3页
文章利用LDA主题模型对ESI研究前沿进行主题发现研究,将每1期的ESI分类的22个学科领域的研究前沿视为1个文档,1年6期数据共计合成132个文档,再将这些文档构成文档集,利用R语言贡献包中的LDA函数进行主题建模,得到“文档-主题-术语”矩阵... 文章利用LDA主题模型对ESI研究前沿进行主题发现研究,将每1期的ESI分类的22个学科领域的研究前沿视为1个文档,1年6期数据共计合成132个文档,再将这些文档构成文档集,利用R语言贡献包中的LDA函数进行主题建模,得到“文档-主题-术语”矩阵,在此基础上可视化表征学科领域的主题及其演变、交叉融合。 展开更多
关键词 研究前沿 主题发现 主题建模 ESI LDA
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部