期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
一种融合语义特征的图卷积文本分类方法
1
作者 黎文杰 洪嘉伟 +1 位作者 魏艳辉 左亚尧 《计算机应用与软件》 北大核心 2024年第5期247-253,285,共8页
随着文本分类领域相关研究的推进,基于深度学习的文本分类方法成为了该领域的重要研究方向之一。深度学习模型因其强大的特征提取能力,在文本分类任务上有着颇为优越的表现。但由于文本数据的高维性和自然语言的语义复杂性,现有的深度... 随着文本分类领域相关研究的推进,基于深度学习的文本分类方法成为了该领域的重要研究方向之一。深度学习模型因其强大的特征提取能力,在文本分类任务上有着颇为优越的表现。但由于文本数据的高维性和自然语言的语义复杂性,现有的深度学习模型在复合语义信息的提取上仍有待进一步优化,其表现对文本分类效果产生不可忽视的影响。为此,该文提出一种基于LDA和GCN的文本分类模型LGCN。该模型利用LDA模型学习文档、单词和主题的关联信息,借助滑动窗口、PMI值计算等方式获取字符间的联系,采用TF-IDF得到单词和文档的联系,通过融合这些丰富的语义信息得到以节点形式构建的图,使用GCN模型学习图中语义信息并对图中文档节点进行分类从而完成文本分类任务。实验结果表明,在相同的数据集上,LGCN模型的文本分类效果优于LSTM等参照模型。 展开更多
关键词 图卷积神经网络 隐狄利克雷分布 文本分类
下载PDF
CRF机制结合LDA的病历文书后结构化系统的应用
2
作者 温煜 赖舒婷 +1 位作者 曾菲菲 雷佳雨 《微型电脑应用》 2024年第4期59-63,共5页
为了提高病历文书结构化分类准确度,提出利用条件随机场(CRF)半监督词典分词算法结合隐式狄利克雷分布(LDA)医学病历文本分类算法,构建出CRF机制结合LDA的病历文书后结构化系统。结果表明:当主题数量为40时,LDA主题建模的困惑度最小值为... 为了提高病历文书结构化分类准确度,提出利用条件随机场(CRF)半监督词典分词算法结合隐式狄利克雷分布(LDA)医学病历文本分类算法,构建出CRF机制结合LDA的病历文书后结构化系统。结果表明:当主题数量为40时,LDA主题建模的困惑度最小值为-6.97,与初始困惑度相比,LDA主题建模困惑度下降9.76%;当主题数量为3时,得到了一致性值的最低值为0.361;当主题数量为40时,得到了一致性值的最大值为0.442,与最低值相比,LDA主题建模一致性值上升22.44%。综上可以看出,研究的CRF机制结合LDA的病历文书后结构化系统具有较好的应用效果。 展开更多
关键词 条件随机场 半监督词典 狄利克雷分布 病历文书 文本分类
下载PDF
基于词-标签概率的多标签文本分类研究 被引量:1
3
作者 赵宏 郑厚泽 郭岚 《兰州理工大学学报》 CAS 北大核心 2023年第1期103-109,共7页
针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM(bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征... 针对多标签文本分类任务中如何有效地提取文本特征和获取标签之间潜在的相关性问题,提出一种CNN(convolutional neural networks)结合Bi-LSTM(bi-directional long short-term memory)的模型.首先,通过CNN网络和最大池化提取文本的特征;然后,利用训练的Labeled-LDA(labeled latent dirichlet allocation)模型获取所有词与标签之间的词-标签概率信息;接着,使用Bi-LSTM网络和CNN网络提取当前预测文本中每个词的词-标签信息特征;最后,结合提取的文本特征,预测与当前文本相关联的标签集.实验结果表明,使用词-标签概率获取文本中词与标签之间的相关性信息,能够有效提升模型的F1值. 展开更多
关键词 多标签文本分类 卷积神经网络 双向长短期记忆网络 标签的隐狄利克雷分布
下载PDF
面向用户需求挖掘的去中心化异步联邦LDA算法
4
作者 伍星 范玉顺 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1055-1068,共14页
在云制造服务场景下,服务组合开发者往往需要基于用户的制造需求进行定制化服务组合开发。随着隐私保护法律法规的相继颁布,常用的用户需求挖掘算法如隐狄利克雷分布(LDA)主题模型已难以在实际中使用。本文通过对区块链和联邦学习技术... 在云制造服务场景下,服务组合开发者往往需要基于用户的制造需求进行定制化服务组合开发。随着隐私保护法律法规的相继颁布,常用的用户需求挖掘算法如隐狄利克雷分布(LDA)主题模型已难以在实际中使用。本文通过对区块链和联邦学习技术交叉研究,提出了面向用户需求挖掘的去中心化异步联邦隐狄利克雷分布算法(DAFedLDA)。在DAFedLDA中,本文基于对等分布式LDA,进一步提出了基于多链的权限控制机制(MCACS)以及基于随机丢弃的数据贡献质量监控机制(RDDMS)。本文基于ProgrammableWeb.com实例进行了一系列实验,验证了算法的有效性。 展开更多
关键词 用户需求挖掘 云制造服务 区块链 联邦学习 隐狄利克雷分布
下载PDF
基于LDA与新兴主题特征分析的新兴主题探测研究 被引量:58
5
作者 范云满 马建霞 《情报学报》 CSSCI 北大核心 2014年第7期698-711,共14页
本文尝试基于LDA主题模型探测文档集中的新兴主题.本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析.并提出了针对上述新兴主题探测指标,基于LDA主题... 本文尝试基于LDA主题模型探测文档集中的新兴主题.本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析.并提出了针对上述新兴主题探测指标,基于LDA主题模型抽取文档的语义主题词,利用文档-主题矩阵建立主题和文档的映射,得到主题的新颖度指标和发文量指标、被引量指标,并形成新兴主题探测表格和探测曲线VDP,从而探测出新兴主题,并对新兴主题VDP与基线VDP距离的发展趋势进行预测,根据拟合的曲线对其进行分析,得到最值得关注的新兴主题. 展开更多
关键词 隐狄利克雷分布 主题模型 新兴主题 主题特征 新颖度指标 发文量指标 被引量指标 生命周期
下载PDF
图像分割中改进空间约束贝叶斯网络模型的应用 被引量:3
6
作者 张海艳 高尚兵 《计算机应用》 CSCD 北大核心 2017年第3期823-826,831,共5页
针对马尔可夫链蒙特卡罗方法普遍存在的迭代收敛性问题,在具有空间平滑约束的高斯混合模型条件上提出改进空间约束贝叶斯网络模型并在图像分割领域进行具体应用。所提模型应用隐狄利克雷分布(LDA)概率密度模型和高斯-马尔可夫定理的随... 针对马尔可夫链蒙特卡罗方法普遍存在的迭代收敛性问题,在具有空间平滑约束的高斯混合模型条件上提出改进空间约束贝叶斯网络模型并在图像分割领域进行具体应用。所提模型应用隐狄利克雷分布(LDA)概率密度模型和高斯-马尔可夫定理的随机域参数混合过程来实现参数平滑。所提方法根据空间信息先验平滑变换操作,在待处理像素点的上下文混合结构中引入LDA符合多项式分布,用来替换传统期望最大化算法中映射操作。LDA参数采用闭合形式将有利于准确估计最大后验概率(MAP)框架与上下文混合结构的相关比例。实验结果表明,应用PRI、Vo I、GCE和BDE指标进行效果比较,该方法比联合系统工程组(JSEG)、当前变换矩阵(CTM)和最大后验概率-最大似然法(MM)方法的图像分割应用效果较好,高斯噪声对于该算法的鲁棒性影响较小。 展开更多
关键词 隐狄利克雷分布 期望最大化方法 贝叶斯模型 高斯混合模型 图像分割
下载PDF
基于层次聚类的子话题检测算法 被引量:11
7
作者 代翔 黄细凤 +4 位作者 唐瑞 蒋梦婷 陈兴蜀 王海舟 罗梁 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第8期84-95,共12页
使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对... 使用隐狄利克雷分布(LDA)进行话题检测时,话题模型产生的话题存在语义上的分层现象;LDA建模产生的话题会出现语义上概括较广的泛话题;话题数目超参数K的设定通常根据人的经验.这些将造成建模结果出现包含多个子话题的混合话题情况.针对上述问题,文中基于层次聚类算法,使用一种文档特征词序列对LDA模型分类结果粒度过粗、热点话题检测结果泛化所导致的舆情监控价值较低的情况进行子话题检测.首先对LDA模型建模结果进行优化,对话题-单词分布与文档-单词分布两个矩阵进行过滤;然后对重叠话题进行检测与合并,采用文档间紧密度度量方式发现泛话题与混合话题;最后通过层次聚类算法对话题下的文本进行二次聚类,得到话题下的子话题.实验结果表明:该算法对子话题的检测能够在更深层次上体现出热点话题的特性,便于舆情监控分析;与Single-Pass算法和K-均值聚类算法相比,该算法获得的结果更具有有效性;K的选取策略对基于层次聚类的子话题检测算法具有鲁棒性. 展开更多
关键词 话题模型 子话题 层次聚类 隐狄利克雷分布 话题检测
下载PDF
一种融合标签语义的微博热点话题挖掘方法 被引量:3
8
作者 周福星 陈秀真 +1 位作者 马进 李生红 《计算机工程》 CAS CSCD 北大核心 2019年第10期283-287,共5页
由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模... 由于微博文本的长度较短,直接使用隐狄利克雷分布(LDA)模型会导致特征向量高维稀疏。为此,提出一种融合标签语义的热点话题挖掘方法。利用公共块算法计算微博标签的相似度,合并标签相似度较高的微博文本。采用LDA模型对合并后的文本建模,并通过K-means聚类算法挖掘微博热点话题。实验结果表明,与针对单一微博文本建模的方法以及直接合并相同标签的方法相比,该方法的困惑度较低,挖掘热点话题的准确性较高。 展开更多
关键词 微博文本 隐狄利克雷分布模型 标签语义 公共块 K-MEANS聚类
下载PDF
基于文本上下文和网络信息的链接预测方法 被引量:1
9
作者 任奕豪 张琨 +1 位作者 赵静 冯新淇 《计算机与数字工程》 2017年第10期1990-1995,共6页
对于链接预测问题,传统的预测模型通常仅考虑网络中节点的链接信息,而社会网络中普遍存在的文本信息可以用于提高链接预测的准确性,利用文本内容来帮助链接预测越发受到重视。结合文本上下文和网络链接,提出了一种基于层次隐狄利克雷分... 对于链接预测问题,传统的预测模型通常仅考虑网络中节点的链接信息,而社会网络中普遍存在的文本信息可以用于提高链接预测的准确性,利用文本内容来帮助链接预测越发受到重视。结合文本上下文和网络链接,提出了一种基于层次隐狄利克雷分布主题模型的链接预测模型。模型通过层次隐狄利克雷分布模型对文本数据进行训练,从迭代收敛的主题树中提取文本相似特征,然后利用支持向量机模型来训练特征数据以提高链接预测的精度,并得到二元分类器,根据该分类器,可以预测文本与其他文本链接的可能性。实验结果表明,所提出的模型相比于已有的相关模型,提高了预测文本网络中文档之间链接的准确度。 展开更多
关键词 链接预测 层次隐狄利克雷分布 主题树 文本相似特征 支持向量机
下载PDF
融合LDA的门控图卷积网络文本分类研究
10
作者 高维奇 黄浩 +1 位作者 胡英 吾守尔·斯拉木 《东北师大学报(自然科学版)》 CAS 北大核心 2021年第4期68-76,共9页
在现有文本图基础上引入隐狄利克雷分布,将文档-主题和主题-词信息融入文本图以丰富文本图中节点间关系,之后将该文本图送入一个基于图卷积网络门控机制模型.在多个数据集上进行验证.结果表明,所提出的模型优于现有图卷积网络文本分类模型.
关键词 文本分类 图卷积网络 隐狄利克雷分布 门控机制 文本图
下载PDF
基于药物疗效日志的临床路径挖掘方法 被引量:2
11
作者 李睿易 鲁法明 +2 位作者 包云霞 曾庆田 朱冠烨 《计算机集成制造系统》 EI CSCD 北大核心 2019年第4期1017-1025,共9页
标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者... 标准临床路径对于规范治疗流程、提高治疗效果具有重要作用,但当前的临床路径是面向同一病种的所有患者制定的,无法体现患者或者医疗部门的个性化信息。为了实现符合患者和医疗部门特点的个性化临床路径,从医疗信息化系统中记录的患者处方数据出发,进行药物治疗临床路径的挖掘。首先由处方数据结合DrugBank数据库生成患者的每日用药疗效文档;然后使用词对隐狄利克雷分布模型对这些药物疗效文档进行主题聚类,得到患者每日所用药物对应的疗效主题;最后以各个患者的药物疗效主题序列为输入,训练概率后缀树模型作为药物治疗的临床路径模型,该模型既可以辅助专家进行个性化临床路径的制定,也可以用于患者后续服用药物的推荐。以MIMIC-Ⅲ数据库中肺炎患者的处方数据为实例,对所提方法的可行性和有效性进行了验证。 展开更多
关键词 过程挖掘 词对隐狄利克雷分布模型 概率后缀树 临床路径
下载PDF
一种结合主题模型的推荐算法 被引量:10
12
作者 曹占伟 胡晓鹏 《计算机应用研究》 CSCD 北大核心 2019年第6期1638-1642,共5页
针对传统协同过滤推荐算法存在的冷启动、数据稀疏以及相似度度量的准确性问题,基于LDA主题模型对文本隐式主题挖掘的有效性和KL散度在主题分布相似性度量的准确性,提出了结合LDA主题模型的矩阵分解推荐算法。首先,利用改进的LDA算法输... 针对传统协同过滤推荐算法存在的冷启动、数据稀疏以及相似度度量的准确性问题,基于LDA主题模型对文本隐式主题挖掘的有效性和KL散度在主题分布相似性度量的准确性,提出了结合LDA主题模型的矩阵分解推荐算法。首先,利用改进的LDA算法输出项目—主题分布,并用困惑度作为主题数设置的修正函数;然后分别基于余弦相似度和KL散度计算得到项目相似度矩阵,将得到的相似度矩阵结合原评分训练集输出预评分,再将预评分填充到训练集;最后将训练集输入ALS矩阵分解算法得到推荐结果。通过MovieLens数据集的实验结果表明,该算法在不同隐式参数设定下均能得到比ALS推荐算法以及更小的预测误差,并且最优预测误差小于传统推荐算法。该实验说明了通过集成LDA主题模型的ALS算法效果要优于其他推荐算法。 展开更多
关键词 推荐算法 矩阵分解 狄利克雷分布 KL散度 主题模型
下载PDF
国家高新技术产业开发区生物医药产业政策主题挖掘及量化评价研究 被引量:6
13
作者 乔晗 徐俐颖 +2 位作者 李旭 李树祥 褚淑贞 《中国药房》 CAS 北大核心 2020年第22期2689-2694,共6页
目的:为我国生物医药产业发展提供参考。方法:收集2010年1月-2019年12月我国全部169家国家高新技术产业开发区(以下简称"国家高新区")官方网站上发布的政策文件,从中筛选出专门针对生物医药产业方面的政策以及全部产业政策中... 目的:为我国生物医药产业发展提供参考。方法:收集2010年1月-2019年12月我国全部169家国家高新技术产业开发区(以下简称"国家高新区")官方网站上发布的政策文件,从中筛选出专门针对生物医药产业方面的政策以及全部产业政策中提及生物医药产业发展的政策,采用Excel 2019软件进行政策信息的汇总分析;使用Gensim包完成政策文本的预处理并构建隐合狄利克雷分布(LDA)主题模型,实现对政策文本中潜在语义信息的提取与分析。结果:共收集到相关政策文本518件,其中有效词汇共58617个,高频词汇包括项目、人才、支持、补贴、创新等;提取出8个主题,按主题强度排序依次为技术创新、人才建设、融资支持、项目金融支持、税收优惠、资源引领、出口贸易、中小企业建设,强度分别为0.299、0.168、0.134、0.116、0.113、0.063、0.058、0.049。结论:国家高新区生物医药产业政策以技术创新、人才建设和融资支持为主,缺乏对中小企业建设、资源引领、出口贸易的关注。今后国家高新区对生物医药产业的政策支持及体系建设应重点完善政策激励措施,平衡各领域政策运用比例;鼓励企业扩大海外市场,学习海外先进技术,加强科研等领域的多边合作;配套相应的政策以增进企业间的交流合作,发挥龙头企业和名牌产品的带动作用,促进中小企业发展。 展开更多
关键词 狄利克雷分布主题模型 国家高新技术产业开发区 生物医药产业 政策 主题挖掘 量化评价
下载PDF
浙江省农创客培育政策主题及演变过程分析
14
作者 傅嘉艺 厉海林 +1 位作者 苏飞 曹轶蓉 《浙江农业科学》 2022年第3期632-637,共6页
以2016—2021年浙江省农创客培育政策为研究对象,运用隐合狄利克雷分布(LDA)主题模型,提取和收集政策文本中的潜在语义信息。研究得到高频词汇包括发展、培训、支持、资金等;提取出社会组织协作发展、创业重点项目建设、农业建设经营用... 以2016—2021年浙江省农创客培育政策为研究对象,运用隐合狄利克雷分布(LDA)主题模型,提取和收集政策文本中的潜在语义信息。研究得到高频词汇包括发展、培训、支持、资金等;提取出社会组织协作发展、创业重点项目建设、农业建设经营用地、人员技能组织培训、园区服务平台支持、新型人才队伍建设、创业资金补贴扶助7个主题,各主题在不同时间窗口呈现不同强度;浙江省农创客培育政策侧重于人才培育、资金扶持、技能提升等方面。分析表明浙江省对农创客的政策支持应重点加强资源整合、地域联系与组织协作,推动营造有利于农创客发展的氛围。 展开更多
关键词 农创客 狄利克雷分布(LDA) 主题挖掘 政策文本 浙江省
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部