期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
BTM-BERT模型在民航机务维修安全隐患自动分类中的应用
1
作者 陈芳 张亚博 《安全与环境学报》 CAS CSCD 北大核心 2024年第11期4366-4373,共8页
为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行... 为界定民航机务维修安全隐患类别,实现安全隐患数据的自动分类,首先,利用构建的机务维修停用词库对安全隐患记录语料进行预处理。其次,运用词对主题模型(Biterm Topic Model,BTM)提取主题和关键词,确定了“员工未按规定对工作现场进行监管”等12类安全隐患。最后,根据BTM主题模型标注的数据集对算法进行微调,构建了基于变换器的双向编码(Bidirectional Encoder Representations from Transformers,BERT)算法的机务维修安全隐患记录自动分类模型,并与传统的分类算法进行对比。结果表明:所构建的模型可以实现民航机务维修安全隐患自动分类,其效果远高于传统机器学习支持向量机算法的效果,构建的分类模型的精确率、召回率和F 1较文本卷积神经网络算法分别提升了0.12、0.14和0.14,总体准确率达到了93%。 展开更多
关键词 安全工程 机务维修 词对主题模型(BTM) 基于变换器的双向编码(BERT) 安全隐患 文本分类
下载PDF
基于Biterm主题模型的无监督微博情感倾向性分析 被引量:13
2
作者 张佳明 王波 +1 位作者 唐浩浩 李天彩 《计算机工程》 CAS CSCD 北大核心 2015年第7期219-223,229,共6页
基于传统主题模型的无监督情感倾向性分析方法不能较好地解决微博语料特征稀疏的问题。为此,提出一种新的无监督微博情感倾向性分析方法。对语料进行预处理并统计语料中的共现词对,利用BTM模型挖掘文档中的隐含主题,通过已有情感词典分... 基于传统主题模型的无监督情感倾向性分析方法不能较好地解决微博语料特征稀疏的问题。为此,提出一种新的无监督微博情感倾向性分析方法。对语料进行预处理并统计语料中的共现词对,利用BTM模型挖掘文档中的隐含主题,通过已有情感词典分析隐含主题的情感分布,并实现整条微博的情感倾向性分析。在NLP&CC2012语料上进行测试,结果表明,该方法能够有效识别微博的情感倾向,平均F1值比传统主题模型方法提高15%。 展开更多
关键词 微博 短文本 情感倾向性分析 无监督 biterm主题模型
下载PDF
基于双词语义扩展的Biterm主题模型 被引量:3
3
作者 李思宇 谢珺 +2 位作者 邹雪君 续欣莹 冀小平 《计算机工程》 CAS CSCD 北大核心 2019年第1期210-216,共7页
针对Biterm主题模型短文本文档的双词产生过程中词对之间缺乏语义联系的情况,提出一种融入词对语义扩展的Biterm主题模型。考虑双词的语义关系,引入词向量模型。通过训练词向量模型,判断词与词之间的语义距离,并根据语义距离对Biterm主... 针对Biterm主题模型短文本文档的双词产生过程中词对之间缺乏语义联系的情况,提出一种融入词对语义扩展的Biterm主题模型。考虑双词的语义关系,引入词向量模型。通过训练词向量模型,判断词与词之间的语义距离,并根据语义距离对Biterm主题模型进行双词语义扩展。实验结果表明,与现有Biterm主题模型相比,该模型不仅具有较好的短文本主题分类效果,而且双词间的语义关联性能及主题词义聚类性能也得到明显提升。 展开更多
关键词 biterm主题模型 双词 词向量 双词语义 吉布斯采样
下载PDF
融入词汇共现的社交网络用户情感Biterm主题模型 被引量:2
4
作者 顾秋阳 吴宝 琚春华 《电信科学》 2020年第11期47-60,共14页
近年社交网络用户数量不断增加,基于文本的用户情感分析技术得到普遍关注和应用。但数据稀疏性、精度较低等问题往往会降低情感识别方法的精度和速度,提出了用户情感Biterm主题模型(US-BTM),从特定场所的文本中发现用户偏好及情感倾向,... 近年社交网络用户数量不断增加,基于文本的用户情感分析技术得到普遍关注和应用。但数据稀疏性、精度较低等问题往往会降低情感识别方法的精度和速度,提出了用户情感Biterm主题模型(US-BTM),从特定场所的文本中发现用户偏好及情感倾向,有效利用Biterm进行主题建模,并使用聚合策略形成伪文档,为整个文本集创建词汇配对以解决数据稀疏性和短文本等问题。通过词汇共现算法对主题进行研究,推断文本集级别信息的主题,并通过分析特定场景下的评论文本集中的词汇配对集及其相应主题的情感,达到准确预测用户对特定场景的兴趣、偏好和情感的目的。结果证明,所提方法能准确地捕捉用户的情感倾向,正确地揭示用户偏好,可广泛应用于社交网络的内容描述、推荐及社交网络用户兴趣描述、语义分析等多个领域。 展开更多
关键词 词汇共现 社交网络 用户情感 biterm主题模型 聚合策略
下载PDF
基于在线Biterm主题模型的舆情新闻事件跟踪
5
作者 马子娟 岳昆 +1 位作者 段亮 赵天资 《计算机工程与应用》 CSCD 北大核心 2022年第22期132-141,共10页
舆情新闻事件跟踪,是舆情监控、热点分析、政策制定等研究和应用的重要基础。针对舆情新闻的稀疏性、敏感性、易演化性、次生性等特点,基于在线Biterm主题模型(online Biterm topic model,DBTM),通过随机坍缩变分贝叶斯(stochastic coll... 舆情新闻事件跟踪,是舆情监控、热点分析、政策制定等研究和应用的重要基础。针对舆情新闻的稀疏性、敏感性、易演化性、次生性等特点,基于在线Biterm主题模型(online Biterm topic model,DBTM),通过随机坍缩变分贝叶斯(stochastic collapsed variational Bayesian inference,SCVB0)算法更新参数,提出面向舆情新闻事件监控的主题模型MBTM(monitor Biterm topic model),利用该模型检测初期事件主题,跟踪后续新闻所属的主题。为了对存在关联关系的事件进行串联,进一步给出事件线索的概念,分别从主题层面和语义层面度量线索关联度,进而针对新闻事件主题生成事件线索。实验结果表明,MBTM模型在大多数指标上均优于OBTM等模型,验证了该方法的有效性和高效性。 展开更多
关键词 舆情新闻事件 事件跟踪 事件线索 在线biterm主题模型
下载PDF
遗忘曲线和BTM词频双层加权微博用户画像 被引量:1
6
作者 吴迪 马文莉 杨利君 《计算机工程与设计》 北大核心 2023年第12期3800-3808,共9页
针对微博短文本具有时效性和建模中频词缺失的问题,提出一种遗忘曲线和BTM词频双层加权微博用户画像方法。通过计算词条的时间权重和提高中频词的词频权重,获取双层加权的用户兴趣主题词。利用遗忘曲线拟合时间函数,计算微博词条的时间... 针对微博短文本具有时效性和建模中频词缺失的问题,提出一种遗忘曲线和BTM词频双层加权微博用户画像方法。通过计算词条的时间权重和提高中频词的词频权重,获取双层加权的用户兴趣主题词。利用遗忘曲线拟合时间函数,计算微博词条的时间权重;将重新计算的词频特征作为Gibbs采样的随机值,提出一种改进的词频加权BTM主题模型,提高中频词的词频权重;提出一种微博用户行为影响力计算方法,构建热点话题下的用户画像。实验结果表明,该方法与BTM、SL-LDA、LDA方法相比,在不同时间片PMI-score指标性能均最优,能够准确挖掘不同时间片的各主题词,构建热点话题下用户兴趣主题词词云,准确展示热点话题下的用户兴趣。 展开更多
关键词 微博 用户画像 双层加权 遗忘曲线 时间函数 词对主题模型 行为影响力
下载PDF
基于词对主题模型的中分辨率遥感影像土地利用分类 被引量:4
7
作者 邵华 李杨 +1 位作者 丁远 刘凤臣 《农业工程学报》 EI CAS CSCD 北大核心 2016年第22期259-265,共7页
利用遥感影像数据进行土地利用/覆被分类是多学科共同关注的热点问题,但传统自动分类方法仍然难以满足应用需求,以隐狄利克雷分配模型(latent dirichlet allocation,LDA)为代表的概率主题模型能够建立底层特征和高层语义之间的桥梁,近... 利用遥感影像数据进行土地利用/覆被分类是多学科共同关注的热点问题,但传统自动分类方法仍然难以满足应用需求,以隐狄利克雷分配模型(latent dirichlet allocation,LDA)为代表的概率主题模型能够建立底层特征和高层语义之间的桥梁,近年来也被引入了遥感影像分析领域,但多集中于针对高空间分辨遥感影像的分析。该文分析了一般概率主题模型在遥感影像空间分辨率降低后面临的问题,在此基础上借鉴词对主题模型(biterm topic model,BTM)对单词稀疏文档的推理能力,将其引入中空间分辨率遥感影像的分类中,并提出使用空间相邻的视觉单词对作为模型的观测数据。试验结果表明,BTM模型的分类性能优于LDA模型,并且使用空间相邻视觉单词对可以比标准BTM模型使用更少的观测数据,取得更高的分类精度。 展开更多
关键词 土地利用 遥感 模型 概率主题模型 中空间分辨率 遥感影像分类 词对主题模型
下载PDF
基于BTM的微博舆情热点发现 被引量:27
8
作者 王亚民 胡悦 《情报杂志》 CSSCI 北大核心 2016年第11期119-124,140,共7页
[目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信... [目的/意义]作为一种新兴的社交新闻媒体,近年来,微博在许多热点事件的发布和传播中发挥了重要作用。但由于其文本的特殊性,传统方法不能有效地对其进行建模发现热点话题。因此,如何高效、准确地从微博数据中发现并提取有意义的热点信息是一个很有价值的研究课题。[方法/过程]提出一种基于BTM模型的微博舆情热点发现方法。首先,对微博文本采用BTM建模,改进TF-IDF权重计算算法,以适应微博短文本的特征。并将BTM建模结果与改进的TF-IDF权重算法结合对微博文本进行特征提取及相似性度量,然后采用K-means聚类方法发现热点话题。[结果/结论]通过对新浪微博数据集的对比实验及结果分析验证了本方法的有效性。本方法能够有效解决传统模型在文本建模中所面临的高维度和稀疏性问题,显著改善热点话题的发现质量。 展开更多
关键词 词对主题模型 短文本 微博舆情 相似性度量
下载PDF
基于双词主题模型的半监督实体消歧方法研究 被引量:6
9
作者 张雄 陈福才 黄瑞阳 《电子学报》 EI CAS CSCD 北大核心 2018年第3期607-613,共7页
针对实体上下文信息主题漂移的问题,提出一种基于双词主题模型的实体消歧方法.方法考虑到实体在一定语义环境下具有不同的主题,且在同一文档中同时出现的其他实体在一定程度上能够帮助待消歧实体确定所指代内容,利用命名实体构建双词的... 针对实体上下文信息主题漂移的问题,提出一种基于双词主题模型的实体消歧方法.方法考虑到实体在一定语义环境下具有不同的主题,且在同一文档中同时出现的其他实体在一定程度上能够帮助待消歧实体确定所指代内容,利用命名实体构建双词的思想,将协同实体关系融合到主题模型中,并在此基础上利用维基百科知识库,进行半监督消歧.本文最后在网络文本数据上进行了相关的实验,验证了所提算法的有效性.实验表明该方法有效的提高了实体消歧精度. 展开更多
关键词 实体消歧 维基百科 双词主题模型
下载PDF
基于PBTM的海量微博主题发现 被引量:2
10
作者 郑涛 王路路 +1 位作者 杨冰 姬东鸿 《计算机应用研究》 CSCD 北大核心 2015年第3期768-770,785,共4页
BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),... BTM(biterm topic model)能较好挖掘出微博主题。但面对海量微博,BTM无法胜任,因为BTM挖掘主题速度过慢。基于此,提出一种基于吉布斯采样本主机biterm元组来更新主题单词全局矩阵的分布式的BTM模型PBTM(parallel biterm topic model),通过多台主机同时对语料库进行本主机biterm吉布斯采样,然后每次迭代后更新全局主题单词矩阵,直到采样收敛。通过MPI集群实现PBTM模型,实验结果表明,PBTM主题挖掘微博文本速度较BTM大大加快。 展开更多
关键词 主题模型 主题发现 PBTM 吉布斯采样 分布式计算
下载PDF
基于词语对狄利克雷过程的时序摘要 被引量:3
11
作者 席耀一 李弼程 +1 位作者 李天彩 黄山奇 《自动化学报》 EI CSCD 北大核心 2015年第8期1452-1460,共9页
是按照时间顺序生成摘要,对话题的演化发展进行概括.已有的相关研究忽视或者不能准确发现句子中隐含的子话题信息.针对该问题,本文建立了一种新的主题模型,即词语对狄利克雷过程,并提出了一种基于该模型的时序摘要生成方法.首先通过模... 是按照时间顺序生成摘要,对话题的演化发展进行概括.已有的相关研究忽视或者不能准确发现句子中隐含的子话题信息.针对该问题,本文建立了一种新的主题模型,即词语对狄利克雷过程,并提出了一种基于该模型的时序摘要生成方法.首先通过模型推理得到句子的子话题分布;然后利用该分布计算句子的相关度和新颖度;最后按时间顺序抽取与话题相关且新颖度高的句子组成时序摘要.实验结果表明,本文方法较目前的代表性研究方法生成了更高质量的时序摘要. 展开更多
关键词 时序摘要 狄利克雷过程 词语对 主题模型
下载PDF
改进在线词对主题模型的微博热点话题演化 被引量:3
12
作者 吴迪 张梦甜 +2 位作者 生龙 黄竹韵 顾明星 《计算机工程与应用》 CSCD 北大核心 2021年第24期179-184,共6页
话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进... 话题演化分析是舆情监控的研究热点之一,面向微博热点话题进行演化分析,对于网络用户以及网络监管部门都有很重要的现实意义。针对在线词对主题模型(On-line Biterm Topic Model,OBTM)新旧主题混合、冗余词概率相对较高的问题,对OBTM进行改进,提出基于话题标签和先验参数的OBTM模型(Topic Labels and Prior Parameters OBTM,LPOBTM)。根据微博热点话题的话题标签,将微博文本集区分为含话题标签和不含话题标签的两类数据集,并设置不同的文档-主题先验参数;在前一时间片文档-主题概率分布的基础上,借鉴Sigmod函数对所有主题进行强度排名,从而优化当前时间片上主题-词分布的先验参数计算方法。实验结果表明,LPOBTM能够更准确地描述话题的内容演化情况,并且有更低的模型困惑度。 展开更多
关键词 话题标签 先验参数 主题强度排名 在线词对主题模型 微博热点话题演化
下载PDF
基于BTM和加权K-Means的微博话题发现 被引量:2
13
作者 陈凤 蒙祖强 《广西师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期71-78,共8页
为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的... 为适应微博数据的短文本、低词频、缺乏语义表达等特殊性,提高话题发现的准确性,利于用户从大量微博数据中获取有用信息,本文提出一种基于BTM和加权K-Means方法实现微博话题发现。首先,针对微博数据稀疏性的问题,采用BTM模型对微博中的短文本进行建模,获得话题词;然后针对传统K-Means算法本身的缺陷,提出加权K-Means算法实现微博话题发现;最后实验验证本文的方法,实验结果表明,BTM和加权K-Means方法解决了微博数据高维度和稀疏性的问题,提高了热点话题发现的准确性和有效性。 展开更多
关键词 BTM模型 加权K-Means 微博数据 话题发现
下载PDF
基于多标签双词主题模型的短文本谣言分析研究 被引量:8
14
作者 武庆圆 何凌南 《情报杂志》 CSSCI 北大核心 2017年第3期92-97,共6页
[目的/意义]面对互联网与智能移动设备的兴起,谣言尤其是短文本类型的谣言发展速度十分迅猛。短文本谣言具有词语稀疏、语义提取困难等特点,这为精准识别谣言带来了挑战和困难。如何能够有效地鉴别进而控制谣言的传播是目前迫在眉睫的... [目的/意义]面对互联网与智能移动设备的兴起,谣言尤其是短文本类型的谣言发展速度十分迅猛。短文本谣言具有词语稀疏、语义提取困难等特点,这为精准识别谣言带来了挑战和困难。如何能够有效地鉴别进而控制谣言的传播是目前迫在眉睫的问题。[方法/过程]提出一个在文本与标签之间引入语义层的多标签双词主题模型,用于发现及探究网民发表在公共媒体平台上的短文本属于谣言或欺诈的倾向。该研究专门针对微信等短文本数据,并通过真实数据集对双词主题的提取和建模进行验证。[结果/结论]结果表明:上述模型可以有效鉴别谣言,帮助媒体加强和改进监管机制,遏制网络谣言、欺诈等现象。 展开更多
关键词 多标签 双词 短文本 谣言 主题模型 微信 语义分析
下载PDF
面向服务聚类的短文本优化主题模型 被引量:2
15
作者 陆佳炜 郑嘉弘 +2 位作者 李端倪 徐俊 肖刚 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2022年第12期2416-2425,2444,共11页
为了获取高质量的隐式主题结果,提高服务聚类精度,解决服务描述文档文本短带来的语义稀疏性与噪声问题,提出词向量与噪声过滤优化的词对主题模型(BTM-VN).该模型以词对为基础,拓展服务描述文档,获取额外的语义信息,设计利用主题分布信... 为了获取高质量的隐式主题结果,提高服务聚类精度,解决服务描述文档文本短带来的语义稀疏性与噪声问题,提出词向量与噪声过滤优化的词对主题模型(BTM-VN).该模型以词对为基础,拓展服务描述文档,获取额外的语义信息,设计利用主题分布信息进行代表词对概率计算的策略,通过在采样过程中计算代表词对矩阵,提高代表词对在当前主题的权重,降低噪声词对服务描述文档主题获取的干扰.利用词向量筛选待训练的词对集合,减少共现意义低的词对组合,解决词对主题模型耗时较长的问题.使用优化的密度峰值聚类算法对经BTM-VN训练后的服务主题分布矩阵进行聚类.实验结果表明,基于BTM-VN的服务聚类方法在3种聚类评价指标上的表现均优于传统的服务聚类算法. 展开更多
关键词 服务聚类 主题模型 短文本优化 代表词对 词向量
下载PDF
情感极性和影响函数的OBTM弹幕主题演化
16
作者 吴迪 黄竹韵 +2 位作者 生龙 张梦甜 贾耀清 《计算机工程与设计》 北大核心 2021年第10期2956-2961,共6页
针对主题模型不能充分考虑情感极性信息和衰减因子设定单一的问题,提出情感极性和影响函数的OBTM弹幕主题演化方法。提出基于改进负采样的word2vec词向量模型,对弹幕词语的情感极性进行标注;设计影响函数,反映离散时间中文本主题的历史... 针对主题模型不能充分考虑情感极性信息和衰减因子设定单一的问题,提出情感极性和影响函数的OBTM弹幕主题演化方法。提出基于改进负采样的word2vec词向量模型,对弹幕词语的情感极性进行标注;设计影响函数,反映离散时间中文本主题的历史影响程度;利用情感极性特征和影响函数改进OBTM模型,用于弹幕主题演化的分析。实验结果表明,改进的OBTM可以有效优化主题演化效果,能够扩展弹幕在主题情感极性演化方面的应用。 展开更多
关键词 弹幕 主题演化 情感极性 在线双词主题模型 word2vec词向量模型
下载PDF
基于多特征融合的微博情感摘要方法
17
作者 张佳明 王波 +2 位作者 席耀一 刘欣 田营 《信息工程大学学报》 2016年第2期218-224,共7页
是对微博文本的主题和情感信息进行抽取,归纳为带有情感倾向的总结性描述。已有的相关研究忽视或者不能准确得到话题的正面和负面情感摘要。针对该问题,提出一种基于多特征融合的微博情感摘要方法。首先,对语料进行预处理并统计语料中... 是对微博文本的主题和情感信息进行抽取,归纳为带有情感倾向的总结性描述。已有的相关研究忽视或者不能准确得到话题的正面和负面情感摘要。针对该问题,提出一种基于多特征融合的微博情感摘要方法。首先,对语料进行预处理并统计语料中的共现词对;然后,利用BTM模型挖掘文档中的隐含主题,计算语料和文档的主题概率分布;最后,利用该分布计算句子的主题相关度和情感特征权重,并抽取与话题相关度高且情感特征权重较大的句子形成正面和负面情感摘要。实验结果表明,相比传统方法,文章方法能够有效提高微博情感摘要的综合性能。 展开更多
关键词 微博 情感摘要 BTM模型 主题相关度 情感特征
下载PDF
融合主题信息和Transformer模型的健康问句意图分类 被引量:4
18
作者 迟海洋 严馨 +2 位作者 徐广义 陈玮 周枫 《小型微型计算机系统》 CSCD 北大核心 2021年第12期2519-2524,共6页
问答系统的一项关键任务就是如何理解用户的问句意图并将其正确地分类到相应的领域中,其分类性能直接影响着问答系统的质量.针对中文医疗健康问句数据量庞大但文本字符数少、特征稀疏的特点,以及传统卷积神经网络和循环神经网络的不足,... 问答系统的一项关键任务就是如何理解用户的问句意图并将其正确地分类到相应的领域中,其分类性能直接影响着问答系统的质量.针对中文医疗健康问句数据量庞大但文本字符数少、特征稀疏的特点,以及传统卷积神经网络和循环神经网络的不足,提出了一种融合主题信息和Transformer模型的健康问句意图分类方法.首先,对短文本数据集预处理后通过BERT预训练语言模型生成词的词向量;其次,分别使用BTM主题模型和TWE模型获得文档-主题矩阵、主题-词矩阵和主题向量矩阵,由矩阵变换生成每个词的主题向量;然后,将词向量和词的主题向量拼接融合后输入到Transformer编码器中进行充分的特征提取并得到句子特征向量;最后,由全连接和Softmax分类器获得输入文本在各个类别的概率,从而实现最终的分类目的.在中文医疗健康问句数据集上进行不同模型的对比实验,准确率、召回率和F1值指标上均有不错的提升.实验结果表明,本文提出的方法可以有效提高模型的语义表示能力和分类效果. 展开更多
关键词 主题信息 BTM TRANSFORMER 意图分类
下载PDF
聊天机器人中用户就医意图识别方法 被引量:9
19
作者 余慧 冯旭鹏 +1 位作者 刘利军 黄青松 《计算机应用》 CSCD 北大核心 2018年第8期2170-2174,共5页
传统的聊天机器人中用户意图识别一般采用基于模板匹配或人工特征集合等方法,针对其费时费力而且扩展性不强的问题,并结合医疗领域聊天文本的特点,提出了基于短文本主题模型(BTM)和双向门控循环单元(Bi GRU)的意图识别模型。该混合模型... 传统的聊天机器人中用户意图识别一般采用基于模板匹配或人工特征集合等方法,针对其费时费力而且扩展性不强的问题,并结合医疗领域聊天文本的特点,提出了基于短文本主题模型(BTM)和双向门控循环单元(Bi GRU)的意图识别模型。该混合模型将用户就医意图识别看作分类问题,使用主题特征,首先通过BTM对用户聊天文本逐句进行主题挖掘并量化,然后送入Bi GRU进行完整上下文学习得到连续语句最终表示,最后通过分类完成用户就医意图识别。对爬取的语料进行实验,BTM-Bi GRU方法明显优于传统的支持向量机(SVM)等方法,其F值更是高出目前较好的卷积长短期记忆组合神经网络(CNN-LSTM)近1.5个百分点。实验结果表明,在本任务上该混合模型重点考虑研究对象的特点,能有效提高意图识别的准确率。 展开更多
关键词 就医意图识别 医疗聊天文本 短文本主题模型 双向门控循环单元 模板匹配
下载PDF
基于BTM主题模型的Web服务聚类方法研究 被引量:8
20
作者 陈婷 刘建勋 +1 位作者 曹步清 李润 《计算机工程与科学》 CSCD 北大核心 2018年第10期1737-1745,共9页
针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布... 针对网络中海量的Web服务聚类时,因其表征数据稀疏而导致使用传统建模方法所获效果不理想的问题,提出了一种基于BTM主题模型的Web服务聚类方法。该方法首先利用BTM学习整个Web服务描述文档集的隐含主题,通过推理得出每篇文档的主题分布,然后应用K-Means算法对Web服务进行聚类。通过与LDA、TF-IDF等方法进行对比发现,该方法在聚类纯度、熵和F-Measure指标上均具有更好的效果。实验表明,该方法能够有效解决因Web服务描述所具有的短文本性质而导致的数据稀疏性问题,可显著提高服务聚类效果。 展开更多
关键词 WEB服务 BTM主题模型 短文本 Web服务聚类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部