期刊文献+
共找到557篇文章
< 1 2 28 >
每页显示 20 50 100
基于Word2Vec方法的主题数据提取与分析——以德国光伏科技项目为例 被引量:1
1
作者 周雷 《情报探索》 2018年第7期36-40,共5页
[目的/意义]探讨基于Word2Vec模型提取关键词及以关键词共现的可视化分析方法在任意主题上科技短文的应用,以便对各科研领域做出有效的分析。[方法/过程]选取德国经济和能源部1991—2017年的光伏类科研项目数据为例,采用基于Word2Vec的... [目的/意义]探讨基于Word2Vec模型提取关键词及以关键词共现的可视化分析方法在任意主题上科技短文的应用,以便对各科研领域做出有效的分析。[方法/过程]选取德国经济和能源部1991—2017年的光伏类科研项目数据为例,采用基于Word2Vec的方法提取关键信息,并进行可视化处理,分析了德国光伏产业的技术发展。[结果/结论]初步形成一套数据处理方法进行国外技术、经济等相关情报的快速分析。 展开更多
关键词 光伏 德国 word2vec 数据分析
下载PDF
结合Word2vec和BiLSTM的民航非计划事件分析方法 被引量:1
2
作者 王捷 周迪 +1 位作者 左洪福 黄维 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2024年第7期917-924,共8页
安全是民航业的核心主题。针对目前民航非计划事件分析严重依赖专家经验及分析效率低下的问题,文章提出一种结合Word2vec和双向长短期记忆(bidirectional long short-term memory,BiLSTM)神经网络模型的民航非计划事件分析方法。首先采... 安全是民航业的核心主题。针对目前民航非计划事件分析严重依赖专家经验及分析效率低下的问题,文章提出一种结合Word2vec和双向长短期记忆(bidirectional long short-term memory,BiLSTM)神经网络模型的民航非计划事件分析方法。首先采用Word2vec模型针对事件文本语料进行词向量训练,缩小空间向量维度;然后通过BiLSTM模型自动提取特征,获取事件文本的完整序列信息和上下文特征向量;最后采用softmax函数对民航非计划事件进行分类。实验结果表明,所提出的方法分类效果更好,能达到更优的准确率和F 1值,对不平衡数据样本同样具有较稳定的分类性能,证明了该方法在民航非计划事件分析上的适用性和有效性。 展开更多
关键词 民航安全 文本分析 非计划事件 word2vec 双向长短期记忆(BiLSTM)神经网络
下载PDF
分类数据的Word2Vec与Jaccard相似度聚类方法的比较分析
3
作者 孙晶 《软件》 2024年第9期49-51,共3页
在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用... 在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用于Word2Vec和K-means聚类算法的参数调优过程,通过多次迭代寻找最优参数解。通过计算分析,并与基于独热编码的Jaccard相似度计算方法实现的聚类算法结果进行比较,证明本文提出的优化改进思路聚类效果更好,准确率更高。 展开更多
关键词 K-MEANS算法 贝叶斯优化 word2vec模型 独热编码 Jaccard相似度
下载PDF
基于Word2vec的二语教学“基本形式库”构建方法初探
4
作者 杨苛鑫 庄会彬 杨牧 《国际汉语教学研究》 2024年第3期76-84,共9页
二语教学中,重视表达取向的“基本形式”观致力于构建一个“基本形式库”。本文以微博语料库为例,将其中高频词设置为检索词,依据Word2vec训练的词向量进行检索,围绕检索词查找近似词来构成(准)等义组,继而进一步确定该组的“基本形式... 二语教学中,重视表达取向的“基本形式”观致力于构建一个“基本形式库”。本文以微博语料库为例,将其中高频词设置为检索词,依据Word2vec训练的词向量进行检索,围绕检索词查找近似词来构成(准)等义组,继而进一步确定该组的“基本形式”。本文初步提出了一种兼具可操作性和效率性的建设方法,作为人工建设“基本形式库”的辅助工具,并检索出了一部分基本形式(准)等义组作为前人研究的补充,为“基本形式”观理论进一步发展提供工具与思考。 展开更多
关键词 基本形式 word2vec 词向量 (准)等义组
下载PDF
基于Word2Vec和LDA主题模型的中国省级五年规划“文化政策”文本研究 被引量:1
5
作者 高娜 东梅 《网络安全与数据治理》 2024年第7期47-55,共9页
运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、... 运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、技术应用等方面随时间推移呈现不同演化趋势;四大区域受经济发展水平、文化资源禀赋、政策导向影响,在企业角色强调程度、地区特色旅游发展以及国家级项目和竞争力方面存在地域差异。 展开更多
关键词 LDA主题模型 word2vec 五年规划 文化政策 文本分析
下载PDF
基于LDA和Word2Vec模型的学位论文评阅意见主题挖掘与分析
6
作者 王孟 苏进城 陈志德 《福建师范大学学报(自然科学版)》 CAS 北大核心 2024年第5期41-51,共11页
选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将... 选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将评阅意见转化为主题分布向量;其次,结合Word2Vec模型将评阅意见的关键词转化为向量表达;最后,采用TextRank方法提取关键词,以揭示评阅专家的关注核心主题。实验结果表明,所提方法能为高校管理人员提供切实有效的分析工具,有助于他们更好地分析总结评阅意见,同时也为硕士研究生撰写高质量学位论文提供有益借鉴。 展开更多
关键词 硕士学位论文 自然语言处理 LDA模型 word2vec模型 TextRank方法
下载PDF
基于Word2vec与注意力机制的情感分析研究
7
作者 任伟建 徐海杰 +3 位作者 康朝海 霍凤财 任璐 张永丰 《计算机与数字工程》 2024年第10期2991-2995,3147,共6页
针对传统情感分析模型对关键词特征抓取不准确、局部情感特征提取不全面造成分类效果差的问题,提出一种基于TW-BiLSTM-ATT情感分析模型。通过对TF-IDF改进,并与Word2vec结合,使权重特征融入词向量提升对关键信息的抓取能力;将词向量的... 针对传统情感分析模型对关键词特征抓取不准确、局部情感特征提取不全面造成分类效果差的问题,提出一种基于TW-BiLSTM-ATT情感分析模型。通过对TF-IDF改进,并与Word2vec结合,使权重特征融入词向量提升对关键信息的抓取能力;将词向量的位置特征融入到注意力机制中,使模型可以关注到目标词汇附近的词,进而更加全面地将情感特征提取出来。对比实验结果表明TW-BiLSTM-ATT模型在处理情感分析任务中分类效果好于同类模型。 展开更多
关键词 word2vec TF-IDF BiLSTM ATTENTION 情感分析
下载PDF
基于Word2vec的论文和专利主题关联演化分析方法研究 被引量:25
8
作者 徐红姣 曾文 张运良 《情报杂志》 CSSCI 北大核心 2018年第12期36-42,共7页
[目的/意义]论文与专利分别反映的是基础研究和技术创新成果的进展情况。将两者结合起来进行主题关联演化分析,对于理解科学和技术的相互影响和渗透关系、技术机会识别、潜在商业化机会发现等方面有着重要的意义。[方法/过程]针对论文... [目的/意义]论文与专利分别反映的是基础研究和技术创新成果的进展情况。将两者结合起来进行主题关联演化分析,对于理解科学和技术的相互影响和渗透关系、技术机会识别、潜在商业化机会发现等方面有着重要的意义。[方法/过程]针对论文和专利的词汇表达方式存在很大差异的问题,该文以Word2vec算法为基础,通过对论文和专利关键词聚类、主题相似度计算,探索构建能综合揭示论文和专利主题关系的关联演化图谱。[结果/结论]电动汽车领域的实证研究表明,该方法能够全面展示领域主题随时间的变化趋势,并能揭示论文和专利主题间的相互影响情况。 展开更多
关键词 主题关联演化 论文 专利 word2vec
下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:23
9
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
融入Attention机制改进Word2vec技术的水利水电工程专业词智能提取与分析方法 被引量:21
10
作者 李明超 田丹 +2 位作者 沈扬 Jonathan Shi 韩帅 《水利学报》 EI CSCD 北大核心 2020年第7期816-826,共11页
水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。... 水利水电工程专业文本信息处理与分析以往主要依赖于人工交互,存在过程繁琐、效率低且易出错等问题。本文基于自然语言处理技术,引入Attention机制对Word2vec技术加以改进,提出了一种智能高效的水利水电工程专业词识别提取与分析方法。该方法通过组合Attention机制,改进Word2vec技术建立了专业词向量计算模型;根据所求词向量,计算词语间相似度,以词语间相似度为组合标准,组合提取水利水电工程专业词;进而结合已有的水利水电工程专业文本,验证所提取专业词的可信度,实现了水利水电工程专业词的自动提炼,构建了一套水利水电工程专业词智能识别提取与分析体系。该方法应用于实际某混凝土大坝长达229周的施工监理周报文本分析中,经过3轮识别计算与分析,获得了9034个水利水电工程专业词,准确率为87.58%,有效提升了水利水电工程专业文本信息提取分析的效率、准确率与智能化水平。 展开更多
关键词 水利水电工程 专业文本 自然语言处理 词向量 word2vec技术 Attention机制 智能提取
下载PDF
基于Word2Vec词嵌入和高维生物基因选择遗传算法的文本特征选择方法 被引量:9
11
作者 张阳 王小宁 《计算机应用》 CSCD 北大核心 2021年第11期3151-3155,共5页
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词... 文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。 展开更多
关键词 文本分类 遗传算法 特征降维 word2vec 文本特征
下载PDF
基于Word2vec和多分类器的影评情感分类方法 被引量:2
12
作者 王学贺 赵华 《宁夏大学学报(自然科学版)》 CAS 2019年第2期141-144,共4页
针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的... 针对影评数据的情感分析,提出基于Word2vec和多分类器的情感分类方法.首先在对评论数据进行预处理的基础上,训练Word2vec模型,将词表示为词向量;其次结合随机森林和朴素贝叶斯多项式模型完成影评数据的情感分类;最后在Kaggle竞赛公开的影评数据集上进行实验.结果表明,Word2vec可有效捕捉词的语义,显著提高情感分类算法的性能. 展开更多
关键词 word2vec 情感分类 随机森林 朴素贝叶斯多项式模型
下载PDF
基于Word2Vec和决策树的故障定位技术 被引量:1
13
作者 王露露 陈军华 《上海师范大学学报(自然科学版中英文)》 2024年第2期223-227,共5页
利用Word2Vec方法对Java源代码进行深层语义编码,生成文件级和行级的语义向量,并将其用作输入数据来训练决策树模型,以实现精确的文件级别和行级别故障定位,优化故障检测过程,构建一个综合文件级别与行级别分析的高效故障定位框架.实验... 利用Word2Vec方法对Java源代码进行深层语义编码,生成文件级和行级的语义向量,并将其用作输入数据来训练决策树模型,以实现精确的文件级别和行级别故障定位,优化故障检测过程,构建一个综合文件级别与行级别分析的高效故障定位框架.实验结果表明:该模型在各项目中的故障定位准确率均高于83%. 展开更多
关键词 故障定位 语义表示 word2vec 决策树
下载PDF
基于LDA-Word2vec的图书情报领域机器学习研究主题演化与热点主题识别 被引量:7
14
作者 胡泽文 韩雅蓉 王梦雅 《现代情报》 CSSCI 北大核心 2024年第4期154-167,共14页
[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以... [目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。 展开更多
关键词 机器学习 LDA模型 word2vec 主题演化 热点主题 主题影响力 主题关注度
下载PDF
基于LSTM+Word2vec的微博评论情感分析 被引量:1
15
作者 王剑辉 闫芳序 《沈阳师范大学学报(自然科学版)》 CAS 2024年第2期138-144,共7页
微博作为当今热门的社交平台,其中蕴含着许多具有强烈主观性的用户评论文本。为挖掘微博评论文本中潜在的信息,针对传统的情感分析模型中存在的语义缺失以及过度依赖人工标注等问题,提出一种基于LSTM+Word2vec的深度学习情感分析模型。... 微博作为当今热门的社交平台,其中蕴含着许多具有强烈主观性的用户评论文本。为挖掘微博评论文本中潜在的信息,针对传统的情感分析模型中存在的语义缺失以及过度依赖人工标注等问题,提出一种基于LSTM+Word2vec的深度学习情感分析模型。采用Word2vec中的连续词袋模型(continuous bag of words,CBOW),利用语境的上下文结构及语义关系将每个词语映射为向量空间,增强词向量之间的稠密度;采用长短时记忆神经网络模型实现对文本上下文序列的线性抓取,最后输出分类预测的结果。实验结果的准确率可达95.9%,通过对照实验得到情感词典、RNN、SVM三种模型的准确率分别为52.3%、92.7%、85.7%,对比发现基于LSTM+Word2vec的深度学习情感分析模型的准确率更高,具有一定的鲁棒性和泛化性,对用户个性化推送和网络舆情监控具有重要意义。 展开更多
关键词 情感分析 word2vec 长短时记忆神经网络 社交平台 微博
下载PDF
基于K-means与Word2vec的哺乳文胸评论主题挖掘研究
16
作者 刘妍 刘驰 《人类工效学》 2024年第2期40-45,共6页
目的为了了解消费者在网络平台购买哺乳文胸时的关注侧重点,文章从在线评论中抽取有效关键词构建哺乳文胸主题,并通过计算主题的重要程度协助商家了解消费者关注重点方向。方法选用TF-IDF关键词抽取算法,结合K-means和Word2vec进行语义... 目的为了了解消费者在网络平台购买哺乳文胸时的关注侧重点,文章从在线评论中抽取有效关键词构建哺乳文胸主题,并通过计算主题的重要程度协助商家了解消费者关注重点方向。方法选用TF-IDF关键词抽取算法,结合K-means和Word2vec进行语义聚类、主题识别、主题词挖掘及主题重要度计算。结果哺乳文胸评论文本聚类后的主题重要程度排名是:产品品质(45.47%)、产品外观(35.83%)、产品服务(18.79%)。结论通过该方法能够有效的识别和构建哺乳文胸主题及主题词,同时,通过主题的重要程度,能够了解消费者对于网络平台购买哺乳文胸时关注的重点方向,为哺乳内衣企业进行产品改善及生产等提供理论参考。 展开更多
关键词 服装工程 文本聚类分析 哺乳文胸 在线评论 K-MEANS word2vec 主题挖掘 主题重要程度 文献计量分析
下载PDF
关于Word2Vec文本分类效果若干影响因素的分析 被引量:4
17
作者 谢庆恒 《现代信息科技》 2024年第1期125-129,共5页
Word2Vec向量模型参数众多,在不同情景下分类效果不一,分析其影响因素很有必要。从Word2Vec模型基本原理出发,分析讨论了预训练语料、词向量预训练参数以及分类模型参数三大因素对模型分类效果的影响。结果表明限定域预料效果好于广域预... Word2Vec向量模型参数众多,在不同情景下分类效果不一,分析其影响因素很有必要。从Word2Vec模型基本原理出发,分析讨论了预训练语料、词向量预训练参数以及分类模型参数三大因素对模型分类效果的影响。结果表明限定域预料效果好于广域预料;预训练参数中向量维度越大,效果越好,窗口大小存在最优值,分类算法影响不大;分类模型参数中学习率、激活函数、批次大小对模型分类效果影响较大,训练轮次相对较小。 展开更多
关键词 word2vec 文本分类 模型效果 影响因素
下载PDF
基于Word2Vec和LDA主题模型的Web服务聚类方法 被引量:11
18
作者 肖巧翔 曹步清 +2 位作者 张祥平 刘建勋 李晏新闻 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第12期2979-2985,共7页
为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,... 为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。 展开更多
关键词 WEB服务 word2vec LDA主题模型 K-MEANS算法 Web服务聚类
下载PDF
一种基于word2vec的文本分类方法 被引量:16
19
作者 薛炜明 侯霞 李宁 《北京信息科技大学学报(自然科学版)》 2018年第1期71-75,共5页
提出一种基于word2vec的文本分类方法,通过词向量进行文本特征表示,并通过相似度计算实现文本分类。通过大量实验对方法的性能和参数进行了分析,包括:1)基于word2vec解决传统词袋模型的降维问题的量化分析;2)关键词个数与相似度阈值的选... 提出一种基于word2vec的文本分类方法,通过词向量进行文本特征表示,并通过相似度计算实现文本分类。通过大量实验对方法的性能和参数进行了分析,包括:1)基于word2vec解决传统词袋模型的降维问题的量化分析;2)关键词个数与相似度阈值的选取,对文本分类效果的影响;3)该方法与经典的KNN及其改进方法的效果对比。最终验证和分析了该方法的有效性与准确性。 展开更多
关键词 word2vec 词向量 文本分类 降维 相似度阈值
下载PDF
基于Word2Vec模型与RAG框架的医疗检索增强生成算法
20
作者 刘彦宏 崔永瑞 《人工智能与机器人研究》 2024年第3期479-486,共8页
当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲... 当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲,对于一些专业领域问题的回答并不是很准确,这就需要检索增强生成(RAG)技术的支持。尤其是在智慧医疗领域方面,由于相关数据的缺乏,不能发挥出大语言模型优秀的对话和解决问题的能力。本算法通过使用Jieba分词,Word2Vec模型对文本数据进行词嵌入,计算句子间的向量相似度并做重排序,帮助大语言模型快速筛选出最可靠可信的模型外部的医疗知识数据,再根据编写相关的提示词(Prompt),可以使大语言模型针对医生或患者的问题提供令人满意的答案。Nowadays, general artificial intelligence is developing rapidly, and major language models are emerging one after another. The widespread application of large language models has greatly improved people’s work level and efficiency, but large language models are not perfect and are also accompanied by many shortcomings. Such as: data security, illusion, timeliness, etc. At the same time, for general large language models, the answers to questions in some professional fields are not very accurate, which requires the support of RAG technology. Especially in the field of smart medical care, due to the lack of relevant data, the excellent conversation and problem-solving capabilities of the large language model cannot be brought into play. This algorithm uses Jieba word segmentation and the Word2Vec model to embed text data, calculate the vector similarity between sentences and reorder them, helping the large language model to quickly screen out the most reliable and trustworthy medical knowledge data outside the model, and then write relevant prompts to enable the large language model to provide satisfactory answers to doctors or patients’ questions. 展开更多
关键词 通用人工智能 大语言模型 检索增强生成 Jieba分词 word2vec PROMPT
下载PDF
上一页 1 2 28 下一页 到第
使用帮助 返回顶部