期刊文献+
共找到498篇文章
< 1 2 25 >
每页显示 20 50 100
MAIN TOPICS,ABSTRACTS & KEY WORDS
1
《焊接》 2018年第3期65-68,共4页
关键词 MAIN topicS ABSTRACTS KEY wordS
下载PDF
基于组合相似度动态聚类和词熵的网络话题在线检测
2
作者 郭慧 王亚楠 +2 位作者 王欣艳 魏艺泽 王养廷 《情报杂志》 北大核心 2024年第5期159-166,共8页
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题... [研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。 展开更多
关键词 网络话题 在线话题检测 增量式聚类 主题词提取 组合相似度 动态聚类算法 词熵
下载PDF
基于细粒度知识图谱的科技文献主题发现与热点分析 被引量:1
3
作者 刘成山 杜怡然 汪圳 《情报理论与实践》 北大核心 2024年第5期131-138,共8页
[目的/意义]利用知识图谱进行细粒度的知识组织并识别科技文献的热点主题,有助于科研工作者把握领域的研究现状和学科前沿,进而为科研资源优化配置提供有力支持。[方法/过程]提出一套基于知识图谱的主题发现和热点分析方法。首先,识别... [目的/意义]利用知识图谱进行细粒度的知识组织并识别科技文献的热点主题,有助于科研工作者把握领域的研究现状和学科前沿,进而为科研资源优化配置提供有力支持。[方法/过程]提出一套基于知识图谱的主题发现和热点分析方法。首先,识别科技文献中的知识元,再抽取知识元中的语义实体进行主题发现;其次,构建“文献—知识元—主题”知识图谱,通过知识图谱中的共现关系网络识别领域的研究热点;最后,以农学领域的中文学术论文为实验数据,进行实证研究。[结果/结论]所构建的细粒度知识图谱不仅能够揭示科学知识与主题的潜在关联,而且能够实现科技文献主题的热点分析。 展开更多
关键词 知识图谱 知识元 细粒度 主题发现 共词分析
下载PDF
主题方面共享的领域主题层次模型
4
作者 万常选 张奕韬 +3 位作者 刘德喜 刘喜平 廖国琼 万齐智 《软件学报》 EI CSCD 北大核心 2024年第4期1790-1818,共29页
层次主题模型是构建主题层次的重要工具.现有的层次主题模型大多通过在主题模型中引入nCRP构造方法,为文档主题提供树形结构的先验分布,但无法生成具有明确领域涵义的主题层次结构,即领域主题层次.同时,领域主题不仅存在层次关系,而且... 层次主题模型是构建主题层次的重要工具.现有的层次主题模型大多通过在主题模型中引入nCRP构造方法,为文档主题提供树形结构的先验分布,但无法生成具有明确领域涵义的主题层次结构,即领域主题层次.同时,领域主题不仅存在层次关系,而且不同父主题下的子主题之间还存在子领域方面共享的关联关系,在现有主题关系研究中没有合适的模型来生成这种领域主题层次.为了从领域文本中自动、有效地挖掘出领域主题的层次关系和关联关系,在4个方面进行创新研究.首先,通过主题共享机制改进nCRP构造方法,提出nCRP+层次构造方法,为主题模型中的主题提供具有分层主题方面共享的树形先验分布;其次,结合nCRP+和HDP模型构建重分层的Dirichlet过程,提出rHDP(reallocated hierarchical Dirichlet processes)层次主题模型;第三,结合领域分类信息、词语语义和主题词的领域代表性,定义领域知识,包括基于投票机制的领域隶属度、词语与领域主题的语义相关度和层次化的主题-词语贡献度;最后,通过领域知识改进rHDP主题模型中领域主题和主题词的分配过程,提出结合领域知识的层次主题模型rHDP_DK(rHDP with domain knowledge),并改进采样过程.实验结果表明,基于nCRP+的层次主题模型在评价指标方面均优于基于nCRP的层次主题模型(hLDA,nHDP)和神经主题模型(TSNTM);通过rHDP_DK模型生成的主题层次结构具有领域主题层次清晰、关联子主题的主题词领域差异明确的特点.此外,该模型将为领域主题层次提供一个通用的自动挖掘框架. 展开更多
关键词 层次主题模型 领域分类信息 词语语义 主题关联关系 层次化的采样过程 领域主题层次
下载PDF
基于词-主题-文本异质网络的短文本分类方法
5
作者 徐涛 赵星甲 卢敏 《计算机应用与软件》 北大核心 2024年第1期146-152,182,共8页
针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学... 针对现有分类方法未考虑长距离词的语义相关性和文本间潜在主题共享的问题,提出一种基于词-主题-文本异质网络(WTDHN)的短文本分类方法。通过Word2vec训练词的上下文语义向量;构建词相关性矩阵以充足的词共现信息增强短文本各级别语义学;构建以词、主题和文本为节点的异质网络,并采用图卷积学习节点之间的高阶邻域信息,丰富短文本语义。相较于基准分类模型,该方法在五个公开短文本数据集上的分类准确率平均提高1.56%。 展开更多
关键词 词-主题-文本异质网络 词共现 文本-主题分布 短文本分类
下载PDF
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量:4
6
作者 黄春雨 胡迪 +1 位作者 邱宁佳 孙爽滋 《长春理工大学学报(自然科学版)》 2020年第1期89-96,132,共9页
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本... LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 展开更多
关键词 主题模型 词嵌入 文本表示 Huffman-LDA Weight-word2vec
下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:22
7
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
基于共词网络的教育信息化热点主题识别与发展态势研究 被引量:3
8
作者 石道元 《重庆工商大学学报(社会科学版)》 2024年第1期130-142,共13页
通过对教育信息化领域高水平学术文献分析,揭示教育信息化领域的热点研究主题与发展态势,对我国教育信息化研究及发展具有深远的意义。以近十年CSSCI数据库教育信息化文献数据为样本,通过构建高频关键词共词矩阵并生成共词网络,运用共... 通过对教育信息化领域高水平学术文献分析,揭示教育信息化领域的热点研究主题与发展态势,对我国教育信息化研究及发展具有深远的意义。以近十年CSSCI数据库教育信息化文献数据为样本,通过构建高频关键词共词矩阵并生成共词网络,运用共词分析、社会网络分析、战略坐标分析等研究方法,以期识别分析我国教育信息化热点主题及发展态势。研究表明:慕课、人工智能、教学设计、深度学习等受到了教育研究者们的广泛关注;目前教育信息化研究主要聚焦在学习分析、在线学习与开放教育、信息化教学模式与方法、教育信息化理论与实践、教师专业发展、学习环境与学习资源等主题,而在线学习的学习分析是当前最活跃研究主题,且取得了丰硕的成果。 展开更多
关键词 教育信息化 共词网络 网络分析 热点主题
下载PDF
基于DTM模型与共词分析法的主题挖掘与演化分析——以智慧物流研究为例
9
作者 龙祖文 王静 严红 《物流工程与管理》 2024年第1期10-15,共6页
随着物联网、大数据、云计算、5G和人工智能等新兴技术的不断发展,我国物流业正逐渐由传统物流向“智慧物流”转变。为探究国内智慧物流领域的研究热点和研究主题的发展演化趋势,文中选取2010-2023年间国内智慧物流研究相关文献,并将其... 随着物联网、大数据、云计算、5G和人工智能等新兴技术的不断发展,我国物流业正逐渐由传统物流向“智慧物流”转变。为探究国内智慧物流领域的研究热点和研究主题的发展演化趋势,文中选取2010-2023年间国内智慧物流研究相关文献,并将其划分为4个时间段,结合DTM动态主题模型和共词分析方法对其进行主题挖掘、热点主题识别和主题演化趋势分析。研究结果表明,物流专业人才培养在2018年后一直是国内智慧物流领域研究的重点,而物联网、大数据、云计算、人工智能等现代新兴技术自问世以来一直都是国内智慧物流领域研究的重点。由此可见,加强人才培养和现代新兴技术的攻关力度,是今后我国物流业转型升级的关键。 展开更多
关键词 DTM模型 共词分析 主题挖掘 演化分析 智慧物流
下载PDF
2012—2023年主题出版重点出版物立项选题词频分析
10
作者 范广红 《出版科学》 北大核心 2024年第5期47-54,共8页
基于2012-2023年主题出版重点出版物立项选题数据,使用Python软件和Jieba文本挖掘技术对长时段主题出版立项选题关键词进行词频统计,分析主题出版立项选题的发展趋势和时代特点。研究发现近年主题出版立项选题呈现三方面特征:一是主题... 基于2012-2023年主题出版重点出版物立项选题数据,使用Python软件和Jieba文本挖掘技术对长时段主题出版立项选题关键词进行词频统计,分析主题出版立项选题的发展趋势和时代特点。研究发现近年主题出版立项选题呈现三方面特征:一是主题的多维度趋势,在关注节点维度的同时,重视宏观维度和永恒维度;二是在关注主题出版政治性的同时,视野扩展到围绕中心工作的社会生活方方面面;三是在关注主题出版理论性的同时,利用各种文本形式,重视主题出版的可接受性。研究结论为主题出版顶层设计和出版单位的主题出版立项申报提供一定的参考价值。 展开更多
关键词 主题出版 立项选题 词频 选题趋势
下载PDF
结合领域知识的标签生成方法研究
11
作者 景道月 《计算机与数字工程》 2024年第5期1459-1462,1501,共5页
传统文本资源的标签生成算法忽略了与领域有关的语义属性,不适用于针对特定领域的标签生成任务。论文提出了一种适应于军事领域特征的标签生成算法,首先使用适合该领域的分词方法,进而基于文本资源的主题信息和词语的统计特征进行标签... 传统文本资源的标签生成算法忽略了与领域有关的语义属性,不适用于针对特定领域的标签生成任务。论文提出了一种适应于军事领域特征的标签生成算法,首先使用适合该领域的分词方法,进而基于文本资源的主题信息和词语的统计特征进行标签的自动生成。实验结果显示,所提方法在准确率、召回率及F值上较传统的TF-IDF算法有一定的提升。 展开更多
关键词 抽取 标签生成 分词 LDA主题模型 统计特征
下载PDF
国潮兴起下消费者在线评论的主题分析研究——以国货护肤品为例
12
作者 马玉洋 刘畅 《中国商论》 2024年第5期73-76,共4页
基于中国综合国力增强、经济快速发展、科技创新水平提升、国货品质提高、民众文化自信提高多重因素的影响,国货消费高速发展,其中国货护肤彩妆行业的表现尤为突出。本文基于淘宝和京东两大电商平台的文本评论数据,通过情感分析和主题... 基于中国综合国力增强、经济快速发展、科技创新水平提升、国货品质提高、民众文化自信提高多重因素的影响,国货消费高速发展,其中国货护肤彩妆行业的表现尤为突出。本文基于淘宝和京东两大电商平台的文本评论数据,通过情感分析和主题分析提取评论主题词,了解消费者对国货护肤品牌的评价。结果显示:消费者对国货护肤品整体表现出积极正向的态度,重视购物体验、个体皮肤差异、店铺服务、皮肤问题和使用体验五个方面;负面评价主要集中在产品效果及购物体验两方面。同时,本文通过挖掘消费者对购买国货护肤品的需求重点,以期对国货品牌的产品及在电商平台的服务质量提供改进建议,以供参考。 展开更多
关键词 国货护肤品 消费者评论 词云图 LDA主题模型 顾客满意度 国货消费 科技创新
下载PDF
“异地高考”政策研究热点及其研究展望——基于ROST WordParser词频分析
13
作者 张娅琴 《成都师范学院学报》 2016年第10期15-19,共5页
自2012年教育部出台有关异地高考政策并要求各地必须出台具体实施方案以来,学术界对此高度关注,并产生了大量的研究成果。本文基于ROST WordParser软件对CNKI所收录的有关异地高考的优质文献进行词频分析,通过分析总结出异地高考政策的... 自2012年教育部出台有关异地高考政策并要求各地必须出台具体实施方案以来,学术界对此高度关注,并产生了大量的研究成果。本文基于ROST WordParser软件对CNKI所收录的有关异地高考的优质文献进行词频分析,通过分析总结出异地高考政策的研究和解决异地高考问题的策略研究两大研究主题,然后根据所得高频词将这两大研究主题的内容细化为四个研究热点并在最后作出未来研究展望。 展开更多
关键词 异地高考 词频分析 研究主题 研究热点 研究展望
下载PDF
基于T-HDGN模型的对话摘要生成方法 被引量:1
14
作者 高玮军 刘健 毛文静 《计算机工程》 CAS CSCD 北大核心 2023年第10期80-88,共9页
随着对话系统和文本摘要生成技术的发展,生成式对话摘要引起了广泛的关注。由于会话中的信息流至少在2个对话者之间交换,关键信息往往分散在各说话者的不同话语中,因此传统文本摘要模型生成的对话摘要包含冗余或者不正确的内容。针对传... 随着对话系统和文本摘要生成技术的发展,生成式对话摘要引起了广泛的关注。由于会话中的信息流至少在2个对话者之间交换,关键信息往往分散在各说话者的不同话语中,因此传统文本摘要模型生成的对话摘要包含冗余或者不正确的内容。针对传统文本摘要模型在生成对话摘要时对会话的上下文理解不充分且难以将说话人与其正确的行动相联系的问题,提出一种基于T-HDGN模型的对话摘要生成方法。利用抽取的行动三元组对会话结构进行显式建模,将话语和行动三元组作为2种不同类型的数据来构建异质对话图,并通过1个异质图网络对这2种信息进行建模。同时,还增加说话人作为异质节点以促进信息流的传播。此外,在解码阶段使用主题词特征辅助摘要的生成。在SAMSum数据集上的实验结果表明,所提方法在ROUGE-1、ROUGE-2、ROUGE-L评价指标上分别达到42.05%、18.09%、39.48%,相比Longest-3、PGN、Fast Abs RL等基线模型,能有效地融合信息并且准确地将说话人与其对应动作相关联。 展开更多
关键词 对话摘要 异质图 行动三元组 主题词 异质图网络
下载PDF
基于局部特征和全局特征融合的微博情感分析
15
作者 胥桂仙 陈思瑾 +2 位作者 孟月婷 张廷 于绍娜 《中南民族大学学报(自然科学版)》 CAS 北大核心 2023年第4期526-534,共9页
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM... 目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率. 展开更多
关键词 情感分析 特征融合 神经主题模型 词向量
下载PDF
基于Doc2Vec增强特征的长文本主题聚类研究 被引量:1
16
作者 陈洁 《计算机科学》 CSCD 北大核心 2023年第S01期211-216,共6页
针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度... 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类。相比直接应用Doc2Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%。实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用。 展开更多
关键词 主题聚类 文本表征 Doc2Vec 词向量 HDBSCAN
下载PDF
基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究 被引量:2
17
作者 吴树芳 杨强 +1 位作者 侯晓舟 尹萌 《情报杂志》 北大核心 2023年第11期119-125,共7页
[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提... [研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F 1值上均有一定提高。 展开更多
关键词 敏感语义(SSI) 敏感种子词 敏感信息识别 引导式主题模型 GuidedLDA word2Vec
下载PDF
老派上海话常用语法特点分析
18
作者 黄炜 《文化创新比较研究》 2023年第12期26-30,共5页
该文主要基于诸多实例,从复句、隐性关联词、语序(各种句子成分的前置、后置)、一般疑问句的不同表示方式、重复句、话题句、时态、书面语等方面分析了(老派)上海话的语法特点,例如,助词可作为关联词,状语一般后置,受事宾语常常前置,地... 该文主要基于诸多实例,从复句、隐性关联词、语序(各种句子成分的前置、后置)、一般疑问句的不同表示方式、重复句、话题句、时态、书面语等方面分析了(老派)上海话的语法特点,例如,助词可作为关联词,状语一般后置,受事宾语常常前置,地点名词和方位名词常常前置,一般疑问句有非常多的表达形式,上海话既有很多的成分省略现象,动词重复的句子又非常多,上海话也是话题句非常普遍的方言。在此基础上思考上海话书面语,上海话书面语与口头语是一致的,建议用上海话写作不要受普通话和文言文影响,旨在让大众了解上海话。 展开更多
关键词 上海话 语法 语序 话题 时态
下载PDF
基于BERT和LightGBM的文本关键词提取方法 被引量:5
19
作者 何传鹏 尹玲 +4 位作者 黄勃 王明胜 郭茹燕 张帅 巨家骥 《电子科技》 2023年第3期7-13,共7页
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选... 传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。 展开更多
关键词 主题模型 词向量 BERT LightGBM 候选关键词 关键词提取 文本主题 关键词
下载PDF
基于TWE-NMF主题模型的Mashup服务聚类方法 被引量:1
20
作者 陆佳炜 赵伟 +2 位作者 张元鸣 梁倩卉 肖刚 《软件学报》 EI CSCD 北大核心 2023年第6期2727-2748,共22页
随着互联网和面向服务技术的发展,一种新型的Web应用——Mashup服务,开始在互联网上流行并快速增长.如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题.寻找功能相似的服务并进行聚类,能有效提升服务发现的精度... 随着互联网和面向服务技术的发展,一种新型的Web应用——Mashup服务,开始在互联网上流行并快速增长.如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题.寻找功能相似的服务并进行聚类,能有效提升服务发现的精度与效率.目前国内外主流方法为挖掘Mashup服务中隐含的功能信息,进一步采用特定聚类算法如K-means等进行聚类.然而Mashup服务文档通常为短文本,基于传统的挖掘算法如LDA无法有效处理短文本,导致聚类效果并不理想.针对这一问题,提出一种基于非负矩阵分解的TWE-NMF(nonnegative matrix factorization combining tags and word embedding)模型对Mashup服务进行主题建模.所提方法首先对Mashup服务规范化处理,其次采用一种基于改进的Gibbs采样的狄利克雷过程混合模型,自动估算主题的数量,随后将词嵌入和服务标签等信息与非负矩阵分解相结合,求解Mashup服务主题特征,并通过谱聚类算法将服务聚类.最后,对所提方法的性能进行了综合评价,实验结果表明,与现有的服务聚类方法相比,所提方法在准确率、召回率、F-measure、纯度和熵等评价指标方面都有显著提高. 展开更多
关键词 Mashup服务 非负矩阵分解 主题模型 词嵌入 服务聚类
下载PDF
上一页 1 2 25 下一页 到第
使用帮助 返回顶部