期刊文献+
共找到67篇文章
< 1 2 4 >
每页显示 20 50 100
基于LDA和Word2Vec模型的学位论文评阅意见主题挖掘与分析
1
作者 王孟 苏进城 陈志德 《福建师范大学学报(自然科学版)》 CAS 北大核心 2024年第5期41-51,共11页
选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将... 选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将评阅意见转化为主题分布向量;其次,结合Word2Vec模型将评阅意见的关键词转化为向量表达;最后,采用TextRank方法提取关键词,以揭示评阅专家的关注核心主题。实验结果表明,所提方法能为高校管理人员提供切实有效的分析工具,有助于他们更好地分析总结评阅意见,同时也为硕士研究生撰写高质量学位论文提供有益借鉴。 展开更多
关键词 硕士学位论文 自然语言处理 lda模型 Word2vec模型 TextRank方法
下载PDF
基于Word2Vec和LDA主题模型的中国省级五年规划“文化政策”文本研究
2
作者 高娜 东梅 《网络安全与数据治理》 2024年第7期47-55,共9页
运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、... 运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、技术应用等方面随时间推移呈现不同演化趋势;四大区域受经济发展水平、文化资源禀赋、政策导向影响,在企业角色强调程度、地区特色旅游发展以及国家级项目和竞争力方面存在地域差异。 展开更多
关键词 lda主题模型 Word2vec 五年规划 文化政策 文本分析
下载PDF
基于LDA-Word2vec的图书情报领域机器学习研究主题演化与热点主题识别 被引量:4
3
作者 胡泽文 韩雅蓉 王梦雅 《现代情报》 CSSCI 北大核心 2024年第4期154-167,共14页
[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以... [目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。 展开更多
关键词 机器学习 lda模型 Word2vec 主题演化 热点主题 主题影响力 主题关注度
下载PDF
基于LDA2Vec-BERT的新兴技术主题多维指标识别与演化分析研究——以颠覆性技术领域:区块链为例
4
作者 胡泽文 王梦雅 韩雅蓉 《现代情报》 CSSCI 北大核心 2024年第9期42-58,共17页
[目的/意义]挖掘并可视化全球性颠覆性技术:区块链领域发明专利文献中隐含的细粒度新兴和热点技术主题及其演化差异,能够为领域从业者、科技政策制定者、管理部门和科技研发人员提供参考和借鉴。[方法/过程]以全球区块链领域的专利文献... [目的/意义]挖掘并可视化全球性颠覆性技术:区块链领域发明专利文献中隐含的细粒度新兴和热点技术主题及其演化差异,能够为领域从业者、科技政策制定者、管理部门和科技研发人员提供参考和借鉴。[方法/过程]以全球区块链领域的专利文献为基础,按时序划分不同的时间切片,综合运用LDA主题模型、Word2vec词向量模型和BERT语言模型构建区块链领域技术主题挖掘模型,同时通过构建识别新兴和热点技术主题的四维指标:主题热度,主题族群,主题技术性和主题新颖度,识别出区块链领域细粒度新兴和热点技术主题,并结合主题演化模型,对新兴和热点技术主题差异进行演化分析。[结果/结论]研究发现,LDA2Vec-BERT主题识别与演化模型能够基于区块链领域海量专利文献标题和摘要识别出领域的新兴技术主题和热点技术主题,并直观清晰展示出区块链领域细粒度技术主题的演化趋势和特征,发现区块链技术形成从构架研究到应用研究的发展趋势。通过模型结果对比可以发现,识别结果科学合理,且模型的精准率、召回率、F1值均高于其他识别模型,证明构建的集成模型能有效识别颠覆性技术领域细粒度新兴和热点主题。 展开更多
关键词 区块链专利 lda主题模型 Word2vec模型 BERT模型 新兴技术主题 热点技术主题 主题识别 主题演化
下载PDF
基于CiteSpace、Word2vec和LDA主题模型的国内技术接受模型领域研究现状和演化分析 被引量:1
5
作者 冯靖 章胜平 +1 位作者 宋志刚 肖镇江 《情报探索》 2023年第11期125-134,共10页
[目的/意义]旨在梳理国内技术接受模型领域研究成果,总结国内学术界在技术接受模型领域研究热点,同时对研究主题的演化进行分析,为技术接受模型后续研究提供借鉴和参考。[方法/过程]采用CiteSpace、Word2vec和LDA主题模型,首先对在知网... [目的/意义]旨在梳理国内技术接受模型领域研究成果,总结国内学术界在技术接受模型领域研究热点,同时对研究主题的演化进行分析,为技术接受模型后续研究提供借鉴和参考。[方法/过程]采用CiteSpace、Word2vec和LDA主题模型,首先对在知网上检索的文章进行清理与信息采集,导出相应的Refworks文件。然后借助于软件CiteSpace,从作者、机构、关键词等方面,对技术接受模型研究进行可视化分析,再通过Word2vec和LDA主题模型对文献摘要进行分析,总结得出技术接受模型研究的热点主题及主题演化。[结果/结论]研究发现,技术接受模型依然是解决新技术的采纳和持续使用的重要方法,但要考虑多因素影响,增强其扩展性和适应性,重视用户体验和情感因素。 展开更多
关键词 技术接受模型 CITESPACE Word2vec lda主题模型 演化分析
下载PDF
新媒体与企业管理研究的中文文献主题演化——基于word2vec与LDA模型的可视化分析(2017—2023)
6
作者 金国峰 陈泽峰 《新媒体研究》 2023年第21期24-30,共7页
相对于传统的LDA模型,引入word2vec的LDA模型在进行主题演化分析时,可以更好地理解并追踪主题的演变过程。结合word2vec与LDA模型,对2017年至2023年有关“新媒体与企业管理”的中文文献进行主题演化分析,生成主题演化桑基图。结果显示:... 相对于传统的LDA模型,引入word2vec的LDA模型在进行主题演化分析时,可以更好地理解并追踪主题的演变过程。结合word2vec与LDA模型,对2017年至2023年有关“新媒体与企业管理”的中文文献进行主题演化分析,生成主题演化桑基图。结果显示:在第一阶段(2017年至2019年),大部分研究主要集中在新媒体环境下的企业公共关系管理;在第二阶段(2020年至2023年),除了延续既有的主题,部分研究焦点转移到市场竞争、数字转型、人力资源及消费者等其他情境和要素。未来的研究可以进一步挖掘新媒体的潜力,更好地帮助企业应对来自市场竞争和数字化转型的挑战,同时也要关注对应的技术和伦理风险。 展开更多
关键词 主题识别 演化分析 word2vec模型 lda主题模型 新媒体 企业管理
下载PDF
基于Word2Vec和LDA主题模型的Web服务聚类方法 被引量:11
7
作者 肖巧翔 曹步清 +2 位作者 张祥平 刘建勋 李晏新闻 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第12期2979-2985,共7页
为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,... 为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。 展开更多
关键词 WEB服务 Word2vec lda主题模型 K-MEANS算法 Web服务聚类
下载PDF
基于Lda2vec的专利技术主题识别与演化研究--—以医疗机器人领域为例
8
作者 欧洋 《移动信息》 2023年第11期154-157,共4页
技术主题识别与演化研究是当前专利情报分析领域的研究热点,受到了人们的广泛关注。文中将深度学习技术应用到主题演化研究中,通过将LDA主题模型与Word2vec结合,以医疗机器人领域的专利技术文本为数据源进行技术主题识别,探索领域技术... 技术主题识别与演化研究是当前专利情报分析领域的研究热点,受到了人们的广泛关注。文中将深度学习技术应用到主题演化研究中,通过将LDA主题模型与Word2vec结合,以医疗机器人领域的专利技术文本为数据源进行技术主题识别,探索领域技术的发展、演化规律。研究发现,医疗机器人领域的技术主题在各阶段的演化路径呈现出波动式递进和相互交叉等变化趋势,大部分技术主题在各个阶段中的研究热度基本保持稳定,处于波动变化之中。 展开更多
关键词 主题识别 主题演化 专利 lda Word2vec
下载PDF
融合Word2Vec的半积累引用共词网络的领域主题演化研究 被引量:5
9
作者 程秀峰 邹晶晶 +1 位作者 叶光辉 夏立新 《情报学报》 CSSCI CSCD 北大核心 2023年第7期801-815,共15页
发现并厘清学科及领域的发展路径和演化脉络,对科学研究和学科发展具有重要意义。针对传统共词分析法的不足和主题演化分析维度的单一性问题,本文提出了一种基于引用共词网络的主题发现与演化分析方法,并以情报学领域为例进行了实证研... 发现并厘清学科及领域的发展路径和演化脉络,对科学研究和学科发展具有重要意义。针对传统共词分析法的不足和主题演化分析维度的单一性问题,本文提出了一种基于引用共词网络的主题发现与演化分析方法,并以情报学领域为例进行了实证研究。通过引用关系定义“引用共现”关联,并融合词嵌入技术构建关键词网络;使用社区探测法识别领域主题,采用后离散分析法,从内容结构和发展趋势两个角度进行学科主题演化分析,并可视化呈现主题演化路径及发展趋势。研究结果表明,本文所构建网络比传统共词网络能呈现粒度更优的主题聚类效果,并且能较好地呈现主题动态演化趋势,是共词分析法的有效补充。 展开更多
关键词 主题演化 引用共词网络 Word2vec模型 时间序列 战略坐标
下载PDF
基于word2vec与LDA主题模型的技术相似性可视化研究 被引量:28
10
作者 席笑文 郭颖 +1 位作者 宋欣娜 王瑾 《情报学报》 CSSCI CSCD 北大核心 2021年第9期974-983,共10页
技术相似性是企业、组织或国家进行技术情报分析的重要内容,能为其识别潜在竞争关系和合作伙伴提供准确、有效的信息支持。本文针对传统LDA(latent Dirichlet allocation)主题模型忽略专利文本上下文间语义关联的问题,提出了基于word2ve... 技术相似性是企业、组织或国家进行技术情报分析的重要内容,能为其识别潜在竞争关系和合作伙伴提供准确、有效的信息支持。本文针对传统LDA(latent Dirichlet allocation)主题模型忽略专利文本上下文间语义关联的问题,提出了基于word2vec和LDA主题模型的技术相似性可视化研究方法。首先,基于word2vec模型学习特征词在专利文档集合中的上下文语境信息;其次,基于LDA主题模型构建专利权人-专利-技术主题三层概率分布,并将两者融合生成“词粒度”层面的主题向量、专利文档向量及专利权人向量;再次,利用向量相似性指标计算专利权人间的语义相似度,并在此基础上构建能够直观反映专利权人与技术主题关系的二模网络;最后,以NEDD(nano enabled drug delivery)领域为例进行实证研究,证明了该模型在技术相似性测度分析中具有较好的效果。 展开更多
关键词 word2vec lda主题模型 技术相似性测度
下载PDF
融合LDA主题和Doc2vec算法的DeepFM模型的推荐算法研究 被引量:3
11
作者 刘伦珲 吴丽萍 《电视技术》 2022年第4期47-53,共7页
如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本... 如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本中的隐藏主题和隐藏特征并考虑隐藏特征的交叉情况,能够在保留评论文本表层信息的同时学习数据中的浅层和深层特征。本文将该模型与之前的模型在真实的数据上进行实验对比。实验结果表明,相较于现存模型,该模型的推荐准确率有了一定的提高。 展开更多
关键词 推荐系统 lda主题模型 Doc2vec DeepFM
下载PDF
基于word2vec和LDA的文本主题 被引量:7
12
作者 徐守坤 周佳 +1 位作者 李宁 石林 《计算机工程与设计》 北大核心 2018年第9期2764-2769,共6页
将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初... 将word2vec和LDA算法相结合,对文本主题进行提取研究。通过已有的分词工具实现文本分词,提取文本中的词汇;对语料库依据LDA主题模型进行建模,提取主题相关词汇作为初始主题词集;依据word2vec模型提取与初始主题词集语义相似的词汇,将初始主题词汇之间的相似度和向量邻接关系按照权重不同重新分配,改进Gibbs抽样,对LDA进行改进,提高主题挖掘的准确性和稳定性。实验结果表明,当训练语料分布合理时,经过LDA和word2vec的有效结合,主题词抽取效果有所提高,验证了该方法的可行性。 展开更多
关键词 自然语言处理 lda模型 主题挖掘 word2vec模型 GIBBS抽样
下载PDF
基于LDA2Vec联合训练的热点主题识别方法 被引量:3
13
作者 薛涛 郭莹 胡伟华 《西安工程大学学报》 CAS 2021年第4期95-101,共7页
针对传统的主题模型算法没有充分利用词间语义关系和上下文语境而导致主题语义一致性、可解释性差的问题,给出一种基于LDA2Vec主题模型联合训练的热点主题识别方法——NS-LDA2Vec方法。该方法通过扩展Skip-gram模型,将初始化后的文档向... 针对传统的主题模型算法没有充分利用词间语义关系和上下文语境而导致主题语义一致性、可解释性差的问题,给出一种基于LDA2Vec主题模型联合训练的热点主题识别方法——NS-LDA2Vec方法。该方法通过扩展Skip-gram模型,将初始化后的文档向量和枢轴词向量联合训练,以获得上下文向量,然后利用该向量来预测中枢词的上下文单词,从而将主题信息嵌入到词表示和文档表示中,使得预测过程中负采样损失和Dirichlet似然项总和最小化,产生可解释性更好的文本表示。结果表明:所提方法取得的F1值最高可达到0.898,在热点主题分类任务上,相比传统的LDA主题模型,主题相关度提升了约9%,能够有效提升主题识别任务的效果。 展开更多
关键词 lda2vec 文档向量 词向量 主题模型 热点主题识别
下载PDF
基于Huffman-LDA和Weight-Word2vec的文本表示模型研究 被引量:4
14
作者 黄春雨 胡迪 +1 位作者 邱宁佳 孙爽滋 《长春理工大学学报(自然科学版)》 2020年第1期89-96,132,共9页
LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本... LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征。Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息。LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性。本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示。实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度。 展开更多
关键词 主题模型 词嵌入 文本表示 Huffman-lda Weight-Word2vec
下载PDF
基于LDA-TF-IDF和Word2vec文档表示 被引量:2
15
作者 彭俊利 王少泫 +1 位作者 陆正球 李兴远 《浙江纺织服装职业技术学院学报》 2023年第2期91-96,共6页
针对自然语言处理中传统文档表示方法上下文语义信息不全,干扰词多等问题,提出了一种基于LDA-TFIDF和Word2vec的文档表示方法。首先对数据集进行分词、去停用词等预处理;其次,利用LDA主题模型和TF-IDF抽取文档中具有表征性的特征词,并... 针对自然语言处理中传统文档表示方法上下文语义信息不全,干扰词多等问题,提出了一种基于LDA-TFIDF和Word2vec的文档表示方法。首先对数据集进行分词、去停用词等预处理;其次,利用LDA主题模型和TF-IDF抽取文档中具有表征性的特征词,并计算对应权重;最后,应用数据集训练Word2vec模型获取词向量,并将抽取的特征词权重融入Word2vec词向量构建文档语义向量。通过分类任务对该方法进行验证,实验结果表明,与已有方法相比该方法在垃圾短信数据集上表现效果更佳,验证了方法的有效性。 展开更多
关键词 lda主题模型 TF-IDF word2vec 文档表示
下载PDF
基于LDA模型和Doc2vec的学术摘要聚类方法 被引量:21
16
作者 张卫卫 胡亚琦 +1 位作者 翟广宇 刘志鹏 《计算机工程与应用》 CSCD 北大核心 2020年第6期180-185,共6页
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型... 针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。 展开更多
关键词 短文本聚类 lda模型 Doc2vec模型 学术摘要
下载PDF
基于LDA-加权Word2Vec组合的机器学习情感分类模型研究
17
作者 陈登建 杜飞霞 +2 位作者 吴瑞雪 杨秀璋 夏换 《现代计算机》 2022年第18期16-22,共7页
为解决社交媒体用户发布评论文本过长,导致情感倾向不明确,情感特征分布离散,传统情感分类模型缺乏上下文语义分析,提取情感特征不准确,分类精准率较低的难题,提出一种主题模型与词向量组合特征(LDA-Word2Vec)的情感分类模型。通过LDA... 为解决社交媒体用户发布评论文本过长,导致情感倾向不明确,情感特征分布离散,传统情感分类模型缺乏上下文语义分析,提取情感特征不准确,分类精准率较低的难题,提出一种主题模型与词向量组合特征(LDA-Word2Vec)的情感分类模型。通过LDA主题模型对长评论文本进行特征提取,构建所有主题下的特征词库;借助特征词库构建长评论的LDA特征表达;利用CBOW训练得到特征表达后文本的词向量表示,使用TF-IDF对词向量进行加权并融合语义特征,再构建机器学习模型对长评论文本进行情感分类的方法,研究了机器学习情感分类模型。实验结果表明:相较于传统的文本特征表示方法,本文提出的LDA-Word2Vec组合特征的方法,在情感分类的准确率与召回率的表现上都更加优秀。可见本文的模型能够进一步挖掘文本的情感特征,具有一定学术意义和现实意义。 展开更多
关键词 lda主题挖掘 Word2vec模型 机器学习 情感分类
下载PDF
基于SSI-GuidedLDA模型的引导式网络敏感信息识别研究 被引量:2
18
作者 吴树芳 杨强 +1 位作者 侯晓舟 尹萌 《情报杂志》 CSSCI 北大核心 2023年第11期119-125,共7页
[研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提... [研究目的]引导式主题模型可以引导生成有倾向性的敏感主题,提高网络敏感信息识别性能,对维护国家安全和社会稳定具有重要意义。[研究方法]针对当前网络敏感信息识别研究构建敏感信息特征不全面和不准确,从而导致识别性能欠佳的问题,提出基于SSI-GuidedLDA模型的引导式网络敏感信息识别方法。首先,从多源网络资源中爬取敏感种子词,并基于词向量模型Word2Vec获得种子词的敏感语义相关词,构建更为完备、准确的敏感特征。其次,将构建的敏感特征融入引导式主题模型,得到改进后的模型SSI-GuidedLDA。最后,基于SSI-GuidedLDA模型获得待识别信息的主题分布,通过主题分布概率判断其是否为网络敏感信息。[研究结论]在新浪微博数据集上的实验结果显示,与已有方法相比,提出的方法在准确率、召回率和F 1值上均有一定提高。 展开更多
关键词 敏感语义(SSI) 敏感种子词 敏感信息识别 引导式主题模型 Guidedlda Word2vec
下载PDF
数字乡村政策的主题挖掘及注意力配置——基于LDA2Vec和ATM模型的分析
19
作者 李云新 陈果 《信息技术与管理应用》 2024年第4期22-37,99,共17页
探索数字乡村政策细分领域及注意力配置规律,有助于理解政府推动数字乡村建设的工作重心和思路,进而为促进数字乡村长效发展提供助益。本文基于中央和省级政府颁布的56份数字乡村政策文本,运用LDA模型识别数字乡村政策主题,进而通过构... 探索数字乡村政策细分领域及注意力配置规律,有助于理解政府推动数字乡村建设的工作重心和思路,进而为促进数字乡村长效发展提供助益。本文基于中央和省级政府颁布的56份数字乡村政策文本,运用LDA模型识别数字乡村政策主题,进而通过构建融合LDA主题模型与Word2Vec的LDA2Vec模型来分析政策注意力配置及其变化态势,并运用ATM模型分析政策注意力配置的主体差异。发现数字乡村政策主题覆盖农业农村大数据开发应用等六个领域;政策注意力配置显著聚焦于数字技术在农业领域的推广和应用且呈现持续上升态势,技术赋能乡村治理与社会效益提升的注意力配置则较为有限;中央政府在数字乡村各领域的注意力配置较为均衡,而省级政府则具有明显的“技术”倾向;不同党政部门的注意力配置呈现出差异化协同的特征。 展开更多
关键词 数字乡村 政府注意力配置 lda模型 lda2vec模型 ATM模型
原文传递
结合LDA与Word2vec的文本语义增强方法 被引量:22
20
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 lda主题模型 Word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部