期刊文献+
共找到1,783篇文章
< 1 2 90 >
每页显示 20 50 100
基于LDA和Word2Vec模型的学位论文评阅意见主题挖掘与分析
1
作者 王孟 苏进城 陈志德 《福建师范大学学报(自然科学版)》 CAS 北大核心 2024年第5期41-51,共11页
选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将... 选取某高校部分硕士学位论文评阅意见为研究对象,使用自然语言处理和机器学习技术进行自动化的硕士学位论文评阅意见主题挖掘与分析。首先,采用LDA(latent dirichlet allocation)模型对评阅数据进行主题建模,提取文本中的潜在主题,并将评阅意见转化为主题分布向量;其次,结合Word2Vec模型将评阅意见的关键词转化为向量表达;最后,采用TextRank方法提取关键词,以揭示评阅专家的关注核心主题。实验结果表明,所提方法能为高校管理人员提供切实有效的分析工具,有助于他们更好地分析总结评阅意见,同时也为硕士研究生撰写高质量学位论文提供有益借鉴。 展开更多
关键词 硕士学位论文 自然语言处理 LDA模型 Word2vec模型 TextRank方法
下载PDF
基于改进Node2vec算法的锅炉温度场分割方法研究
2
作者 张悦 梁珊珊 《电力科学与工程》 2024年第5期72-78,共7页
针对温度场特征参数差异引发的锅炉温度场分割准确性的问题,以维持温度场特征为目标,引入图结构表达场数据,通过改进Node2vec算法进行聚类分析,进而实现锅炉温度场的最佳分割。该方法基于多维度的特征信息对锅炉温度场实现分割,能够更... 针对温度场特征参数差异引发的锅炉温度场分割准确性的问题,以维持温度场特征为目标,引入图结构表达场数据,通过改进Node2vec算法进行聚类分析,进而实现锅炉温度场的最佳分割。该方法基于多维度的特征信息对锅炉温度场实现分割,能够更准确地保留流场特征。在标准数据集上进行了实验验证,结果表明在具有多维度特征的数据集上,所提方法相比其他对比算法在分割效果方面有提升显著。最后将提出的方法用于分割电站锅炉温度场,结果表明该方法可以很好地捕捉温度场数据中的局部和全局特征,且结果具有较好的精确性。 展开更多
关键词 燃煤锅炉 温度场 流场分割 图结构 Node2vec
下载PDF
基于Word2Vec和LDA主题模型的中国省级五年规划“文化政策”文本研究
3
作者 高娜 东梅 《网络安全与数据治理》 2024年第7期47-55,共9页
运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、... 运用Word2Vec和LDA相结合的主题模型分析技术,对我国31个省份三个时期五年规划文本中文化政策部分进行主题识别,从时间和空间两个维度进行“文化政策”主题挖掘和演化分析。研究发现,“文化政策”主题在发展趋势、重点转移、政策导向、技术应用等方面随时间推移呈现不同演化趋势;四大区域受经济发展水平、文化资源禀赋、政策导向影响,在企业角色强调程度、地区特色旅游发展以及国家级项目和竞争力方面存在地域差异。 展开更多
关键词 LDA主题模型 Word2vec 五年规划 文化政策 文本分析
下载PDF
基于Doc2vec-LightGBM的CBTC车载信号设备故障分类诊断方法 被引量:1
4
作者 柴琳果 张景会 +2 位作者 上官伟 蔡伯根 李小雨 《铁道学报》 EI CAS CSCD 北大核心 2024年第4期108-118,共11页
车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-Ligh... 车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-LightGBM的CBTC车载设备故障自动分类诊断方法。首先对故障文本使用Jieba完成文本分词,依据TF-IDF实现分词文本数据的特征提取,并采用Doc2vec训练文本分词向量;其次针对数据不均衡的问题,采用Borderline-SMOTE算法进行少数类文本向量数据的补全泛化;最后,通过训练轻量梯度提升机LightGBM分类器完成故障文本自动分类。采用某信号厂商所记录的1 133条故障文本数据进行分类实验分析,并与支持向量机(SVM)方法对比。实验结果表明,所提方法在分类精确率、召回率上分别为98.2%、97.5%,证明了该故障文本自动分类方法的有效性和优越性。 展开更多
关键词 CBTC 车载设备 Doc2vec LightGBM 故障分类诊断
下载PDF
基于SWPF2vec和DJ-TextRCNN的古籍文本主题分类研究 被引量:1
5
作者 武帅 杨秀璋 +1 位作者 何琳 公佐权 《情报学报》 CSSCI CSCD 北大核心 2024年第5期601-615,共15页
以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人... 以编目分类和规则匹配为主的古籍文本主题分类方法存在工作效能低、专家知识依赖性强、分类依据单一化、古籍文本主题自动分类难等问题。对此,本文结合古籍文本内容和文字特征,尝试从古籍内容分类得到符合研究者需求的主题,推动数字人文研究范式的转型。首先,参照东汉古籍《说文解字》对文字的分析方式,以前期标注的古籍语料数据集为基础,构建全新的“字音(说)-原文(文)-结构(解)-字形(字)”四维特征数据集。其次,设计四维特征向量提取模型(speaking,word,pattern,and font to vector,SWPF2vec),并结合预训练模型实现对古籍文本细粒度的特征表示。再其次,构建融合卷积神经网络、循环神经网络和多头注意力机制的古籍文本主题分类模型(dianji-recurrent convolutional neural networks for text classification,DJ-TextRCNN)。最后,融入四维语义特征,实现对古籍文本多维度、深层次、细粒度的语义挖掘。在古籍文本主题分类任务上,DJ-TextRCNN模型在不同维度特征下的主题分类准确率均为最优,在“说文解字”四维特征下达到76.23%的准确率,初步实现了对古籍文本的精准主题分类。 展开更多
关键词 多维特征融合 古籍文本 主题分类 SWPF2vec DJ-TextRCNN
下载PDF
基于Word2Vec和决策树的故障定位技术 被引量:1
6
作者 王露露 陈军华 《上海师范大学学报(自然科学版中英文)》 2024年第2期223-227,共5页
利用Word2Vec方法对Java源代码进行深层语义编码,生成文件级和行级的语义向量,并将其用作输入数据来训练决策树模型,以实现精确的文件级别和行级别故障定位,优化故障检测过程,构建一个综合文件级别与行级别分析的高效故障定位框架.实验... 利用Word2Vec方法对Java源代码进行深层语义编码,生成文件级和行级的语义向量,并将其用作输入数据来训练决策树模型,以实现精确的文件级别和行级别故障定位,优化故障检测过程,构建一个综合文件级别与行级别分析的高效故障定位框架.实验结果表明:该模型在各项目中的故障定位准确率均高于83%. 展开更多
关键词 故障定位 语义表示 Word2vec 决策树
下载PDF
基于LDA-Word2vec的图书情报领域机器学习研究主题演化与热点主题识别 被引量:4
7
作者 胡泽文 韩雅蓉 王梦雅 《现代情报》 CSSCI 北大核心 2024年第4期154-167,共14页
[目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以... [目的/意义]在人工智能技术及应用快速发展与深刻变革背景下,机器学习领域不断出现新的研究主题和方法,深度学习和强化学习技术持续发展。因此,有必要探索不同领域机器学习研究主题演化过程,并识别出热点与新兴主题。[方法/过程]本文以图书情报领域中2011—2022年Web of Science数据库中的机器学习研究论文为例,融合LDA和Word2vec方法进行主题建模和主题演化分析,引入主题强度、主题影响力、主题关注度与主题新颖性指标识别热点主题与新兴热点主题。[结果/结论]研究结果表明,(1)Word2vec语义处理能力与LDA主题演化能力的结合能够更加准确地识别研究主题,直观展示研究主题的分阶段演化规律;(2)图书情报领域的机器学习研究主题主要分为自然语言处理与文本分析、数据挖掘与分析、信息与知识服务三大类范畴。各类主题之间的关联性较强,且具有主题关联演化特征;(3)设计的主题强度、主题影响力和主题关注度指标及综合指标能够较好地识别出2011—2014年、2015—2018年和2019—2022年3个不同周期阶段的热点主题。 展开更多
关键词 机器学习 LDA模型 Word2vec 主题演化 热点主题 主题影响力 主题关注度
下载PDF
结合Word2vec和BiLSTM的民航非计划事件分析方法
8
作者 王捷 周迪 +1 位作者 左洪福 黄维 《合肥工业大学学报(自然科学版)》 CAS 北大核心 2024年第7期917-924,共8页
安全是民航业的核心主题。针对目前民航非计划事件分析严重依赖专家经验及分析效率低下的问题,文章提出一种结合Word2vec和双向长短期记忆(bidirectional long short-term memory,BiLSTM)神经网络模型的民航非计划事件分析方法。首先采... 安全是民航业的核心主题。针对目前民航非计划事件分析严重依赖专家经验及分析效率低下的问题,文章提出一种结合Word2vec和双向长短期记忆(bidirectional long short-term memory,BiLSTM)神经网络模型的民航非计划事件分析方法。首先采用Word2vec模型针对事件文本语料进行词向量训练,缩小空间向量维度;然后通过BiLSTM模型自动提取特征,获取事件文本的完整序列信息和上下文特征向量;最后采用softmax函数对民航非计划事件进行分类。实验结果表明,所提出的方法分类效果更好,能达到更优的准确率和F 1值,对不平衡数据样本同样具有较稳定的分类性能,证明了该方法在民航非计划事件分析上的适用性和有效性。 展开更多
关键词 民航安全 文本分析 非计划事件 Word2vec 双向长短期记忆(BiLSTM)神经网络
下载PDF
基于LSTM+Word2vec的微博评论情感分析 被引量:1
9
作者 王剑辉 闫芳序 《沈阳师范大学学报(自然科学版)》 CAS 2024年第2期138-144,共7页
微博作为当今热门的社交平台,其中蕴含着许多具有强烈主观性的用户评论文本。为挖掘微博评论文本中潜在的信息,针对传统的情感分析模型中存在的语义缺失以及过度依赖人工标注等问题,提出一种基于LSTM+Word2vec的深度学习情感分析模型。... 微博作为当今热门的社交平台,其中蕴含着许多具有强烈主观性的用户评论文本。为挖掘微博评论文本中潜在的信息,针对传统的情感分析模型中存在的语义缺失以及过度依赖人工标注等问题,提出一种基于LSTM+Word2vec的深度学习情感分析模型。采用Word2vec中的连续词袋模型(continuous bag of words,CBOW),利用语境的上下文结构及语义关系将每个词语映射为向量空间,增强词向量之间的稠密度;采用长短时记忆神经网络模型实现对文本上下文序列的线性抓取,最后输出分类预测的结果。实验结果的准确率可达95.9%,通过对照实验得到情感词典、RNN、SVM三种模型的准确率分别为52.3%、92.7%、85.7%,对比发现基于LSTM+Word2vec的深度学习情感分析模型的准确率更高,具有一定的鲁棒性和泛化性,对用户个性化推送和网络舆情监控具有重要意义。 展开更多
关键词 情感分析 Word2vec 长短时记忆神经网络 社交平台 微博
下载PDF
基于T-LDA2vec的高校图书馆信息素质教育主题挖掘与演化分析 被引量:1
10
作者 王智迪 《科技和产业》 2024年第2期102-110,共9页
为了深入研究高校图书馆信息素质教育领域的发展趋势和演化过程,收集了1998—2023年的1 606篇相关文献,经过数据清洗和预处理后,构建T-LDA2vec混合模型,用于主题建模和文本分析。在时间趋势上,揭示高校图书馆信息素质教育领域存在学术... 为了深入研究高校图书馆信息素质教育领域的发展趋势和演化过程,收集了1998—2023年的1 606篇相关文献,经过数据清洗和预处理后,构建T-LDA2vec混合模型,用于主题建模和文本分析。在时间趋势上,揭示高校图书馆信息素质教育领域存在学术繁荣期和学术调整期两个关键时期。在学术繁荣期相关文献数量迅速增长,而学术调整期文献数量急剧下降,反映该领域正在经历学术调整。继而,运用T-LDA2vec模型进行主题挖掘,确定每个时期的最佳主题数量,并将主题划分为高校教育评估、师资培养、情报管理、网络化图书馆服务、高校图书馆素质教育服务、心理素质与教育表现、地方信息化与课程发展、数字化图书馆员培养八大类别。结果表明,计算不同时间段内各主题的强度,并通过交互式条形图描述热点主题。研究发现,一些主题在不同时期内保持较高的强度,表明它们在相关文献中具有重要影响力。师资培养、教学改革及高校图书馆资源创新与服务质量等主题在不同时期内维持了较高的强度。通过主题演化分析,揭示了不同时期内主题之间的关联和演化过程,指出高校图书馆信息素质教育研究的关注焦点逐渐从基础服务向资源创新、知识管理和在线教育等领域演化。该研究有助于更全面地理解该领域的研究动态,为未来的研究方向和政策制定提供有益的参考,同时也为文本分析方法的应用提供了有益的方法论示范。 展开更多
关键词 文本挖掘 LDA word2vec 高校图书馆 信息素质教育
下载PDF
基于K-means与Word2vec的哺乳文胸评论主题挖掘研究
11
作者 刘妍 刘驰 《人类工效学》 2024年第2期40-45,共6页
目的为了了解消费者在网络平台购买哺乳文胸时的关注侧重点,文章从在线评论中抽取有效关键词构建哺乳文胸主题,并通过计算主题的重要程度协助商家了解消费者关注重点方向。方法选用TF-IDF关键词抽取算法,结合K-means和Word2vec进行语义... 目的为了了解消费者在网络平台购买哺乳文胸时的关注侧重点,文章从在线评论中抽取有效关键词构建哺乳文胸主题,并通过计算主题的重要程度协助商家了解消费者关注重点方向。方法选用TF-IDF关键词抽取算法,结合K-means和Word2vec进行语义聚类、主题识别、主题词挖掘及主题重要度计算。结果哺乳文胸评论文本聚类后的主题重要程度排名是:产品品质(45.47%)、产品外观(35.83%)、产品服务(18.79%)。结论通过该方法能够有效的识别和构建哺乳文胸主题及主题词,同时,通过主题的重要程度,能够了解消费者对于网络平台购买哺乳文胸时关注的重点方向,为哺乳内衣企业进行产品改善及生产等提供理论参考。 展开更多
关键词 服装工程 文本聚类分析 哺乳文胸 在线评论 K-MEANS Word2vec 主题挖掘 主题重要程度 文献计量分析
下载PDF
关于Word2Vec文本分类效果若干影响因素的分析 被引量:2
12
作者 谢庆恒 《现代信息科技》 2024年第1期125-129,共5页
Word2Vec向量模型参数众多,在不同情景下分类效果不一,分析其影响因素很有必要。从Word2Vec模型基本原理出发,分析讨论了预训练语料、词向量预训练参数以及分类模型参数三大因素对模型分类效果的影响。结果表明限定域预料效果好于广域预... Word2Vec向量模型参数众多,在不同情景下分类效果不一,分析其影响因素很有必要。从Word2Vec模型基本原理出发,分析讨论了预训练语料、词向量预训练参数以及分类模型参数三大因素对模型分类效果的影响。结果表明限定域预料效果好于广域预料;预训练参数中向量维度越大,效果越好,窗口大小存在最优值,分类算法影响不大;分类模型参数中学习率、激活函数、批次大小对模型分类效果影响较大,训练轮次相对较小。 展开更多
关键词 Word2vec 文本分类 模型效果 影响因素
下载PDF
缺氧环境下miR-210调控HDAC2对肝癌VEC细胞血管通透性、血管形成及放疗耐药性的影响
13
作者 易琼 杨燕光 +5 位作者 王锋 钱霞 金建华 郝其洁 钱红燕 谭程 《胃肠病学和肝病学杂志》 CAS 2024年第7期849-855,共7页
目的探究缺氧环境下miR-210调控组蛋白去乙酰化酶2(histone deacetylase 2,HDAC2)对肝癌VEC细胞血管通透性、血管形成及放疗耐药性的影响。方法分别在缺氧环境和正常环境下培养VEC细胞,以RT-qPCR和Western blotting检测两种培养环境下VE... 目的探究缺氧环境下miR-210调控组蛋白去乙酰化酶2(histone deacetylase 2,HDAC2)对肝癌VEC细胞血管通透性、血管形成及放疗耐药性的影响。方法分别在缺氧环境和正常环境下培养VEC细胞,以RT-qPCR和Western blotting检测两种培养环境下VEC细胞miR-210和HDAC2表达。其中在缺氧环境下培养VEC细胞并随机分为对照组、阴性对照组、miR-210 inhibitor组、HDAC2敲低组、miR-210 inhibitor+HDAC2过表达组,采用MTT法和Edu染色检测缺氧环境下各组VEC细胞增殖;Transwell小室法、小管形成实验分别检测各组VEC细胞血管通透性和血管形成;Western blotting和ELISA检测各组VEC细胞血管VEGF表达释放;MTT法测定各组细胞活力并检测其放疗耐药指数。结果与正常环境下培养的VEC细胞相比,缺氧环境下VEC细胞miR-210表达、HDAC2 mRNA及蛋白表达升高(P<0.05)。与对照组相比,miR-210 inhibitor组、HDAC2敲低组细胞HDAC2 mRNA及蛋白表达、细胞活力、增殖率、通透性强度、成管长度、VEGF蛋白表达、细胞培养基中VEGF水平、放疗耐药指数降低(P<0.05),阴性对照组细胞各指标差异无统计学意义(P>0.05);与miR-210 inhibitor组相比,miR-210 inhibitor+HDAC2过表达组细胞HDAC2 mRNA及蛋白表达、细胞活力、增殖率、通透性强度、成管长度、VEGF蛋白表达、细胞培养基中VEGF水平、放疗耐药指数升高(P<0.05)。结论缺氧环境下下调miR-210可通过降低HDAC2表达而抑制肝癌VEC细胞增殖、血管通透性、血管形成及放疗耐药性。 展开更多
关键词 缺氧环境 MIR-210 HDAC2 肝癌vec细胞 血管形成 放疗耐药性
下载PDF
基于LDA2Vec-BERT的新兴技术主题多维指标识别与演化分析研究——以颠覆性技术领域:区块链为例
14
作者 胡泽文 王梦雅 韩雅蓉 《现代情报》 CSSCI 北大核心 2024年第9期42-58,共17页
[目的/意义]挖掘并可视化全球性颠覆性技术:区块链领域发明专利文献中隐含的细粒度新兴和热点技术主题及其演化差异,能够为领域从业者、科技政策制定者、管理部门和科技研发人员提供参考和借鉴。[方法/过程]以全球区块链领域的专利文献... [目的/意义]挖掘并可视化全球性颠覆性技术:区块链领域发明专利文献中隐含的细粒度新兴和热点技术主题及其演化差异,能够为领域从业者、科技政策制定者、管理部门和科技研发人员提供参考和借鉴。[方法/过程]以全球区块链领域的专利文献为基础,按时序划分不同的时间切片,综合运用LDA主题模型、Word2vec词向量模型和BERT语言模型构建区块链领域技术主题挖掘模型,同时通过构建识别新兴和热点技术主题的四维指标:主题热度,主题族群,主题技术性和主题新颖度,识别出区块链领域细粒度新兴和热点技术主题,并结合主题演化模型,对新兴和热点技术主题差异进行演化分析。[结果/结论]研究发现,LDA2Vec-BERT主题识别与演化模型能够基于区块链领域海量专利文献标题和摘要识别出领域的新兴技术主题和热点技术主题,并直观清晰展示出区块链领域细粒度技术主题的演化趋势和特征,发现区块链技术形成从构架研究到应用研究的发展趋势。通过模型结果对比可以发现,识别结果科学合理,且模型的精准率、召回率、F1值均高于其他识别模型,证明构建的集成模型能有效识别颠覆性技术领域细粒度新兴和热点主题。 展开更多
关键词 区块链专利 LDA主题模型 Word2vec模型 BERT模型 新兴技术主题 热点技术主题 主题识别 主题演化
下载PDF
分类数据的Word2Vec与Jaccard相似度聚类方法的比较分析
15
作者 孙晶 《软件》 2024年第9期49-51,共3页
在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用... 在实际问题中,使用K-means算法进行聚类的数据点往往有很多特征值,这些特征值大多以文本形式存在,因此如何将大量特征值形成的稀疏数据集进行有效编码,再进行数据点聚类是一个重要的研究方向。本文提出了一种优化思路:将贝叶斯优化应用于Word2Vec和K-means聚类算法的参数调优过程,通过多次迭代寻找最优参数解。通过计算分析,并与基于独热编码的Jaccard相似度计算方法实现的聚类算法结果进行比较,证明本文提出的优化改进思路聚类效果更好,准确率更高。 展开更多
关键词 K-MEANS算法 贝叶斯优化 Word2vec模型 独热编码 Jaccard相似度
下载PDF
基于Word2Vec模型与RAG框架的医疗检索增强生成算法
16
作者 刘彦宏 崔永瑞 《人工智能与机器人研究》 2024年第3期479-486,共8页
当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲... 当今通用人工智能(AGI)发展火热,各大语言模型(LLMs)层出不穷。大语言模型的广泛应用大大提高了人们的工作水平和效率,但大语言模型也并非完美的,同样伴随着诸多缺点。如:敏感数据安全性、幻觉性、时效性等。同时对于通用大语言模型来讲,对于一些专业领域问题的回答并不是很准确,这就需要检索增强生成(RAG)技术的支持。尤其是在智慧医疗领域方面,由于相关数据的缺乏,不能发挥出大语言模型优秀的对话和解决问题的能力。本算法通过使用Jieba分词,Word2Vec模型对文本数据进行词嵌入,计算句子间的向量相似度并做重排序,帮助大语言模型快速筛选出最可靠可信的模型外部的医疗知识数据,再根据编写相关的提示词(Prompt),可以使大语言模型针对医生或患者的问题提供令人满意的答案。Nowadays, general artificial intelligence is developing rapidly, and major language models are emerging one after another. The widespread application of large language models has greatly improved people’s work level and efficiency, but large language models are not perfect and are also accompanied by many shortcomings. Such as: data security, illusion, timeliness, etc. At the same time, for general large language models, the answers to questions in some professional fields are not very accurate, which requires the support of RAG technology. Especially in the field of smart medical care, due to the lack of relevant data, the excellent conversation and problem-solving capabilities of the large language model cannot be brought into play. This algorithm uses Jieba word segmentation and the Word2Vec model to embed text data, calculate the vector similarity between sentences and reorder them, helping the large language model to quickly screen out the most reliable and trustworthy medical knowledge data outside the model, and then write relevant prompts to enable the large language model to provide satisfactory answers to doctors or patients’ questions. 展开更多
关键词 通用人工智能 大语言模型 检索增强生成 Jieba分词 Word2vec PROMPT
下载PDF
基于Word2vec的二语教学“基本形式库”构建方法初探
17
作者 杨苛鑫 庄会彬 杨牧 《国际汉语教学研究》 2024年第3期76-84,共9页
二语教学中,重视表达取向的“基本形式”观致力于构建一个“基本形式库”。本文以微博语料库为例,将其中高频词设置为检索词,依据Word2vec训练的词向量进行检索,围绕检索词查找近似词来构成(准)等义组,继而进一步确定该组的“基本形式... 二语教学中,重视表达取向的“基本形式”观致力于构建一个“基本形式库”。本文以微博语料库为例,将其中高频词设置为检索词,依据Word2vec训练的词向量进行检索,围绕检索词查找近似词来构成(准)等义组,继而进一步确定该组的“基本形式”。本文初步提出了一种兼具可操作性和效率性的建设方法,作为人工建设“基本形式库”的辅助工具,并检索出了一部分基本形式(准)等义组作为前人研究的补充,为“基本形式”观理论进一步发展提供工具与思考。 展开更多
关键词 基本形式 Word2vec 词向量 (准)等义组
下载PDF
中国碳排放权交易价格影响因素分析——基于全国碳市场价格时间序列的VEC动态分析
18
作者 宋容容 陈勇明 《成都信息工程大学学报》 2024年第4期512-518,共7页
“双碳”目标提出后,全国碳市场发展面临新的机遇与挑战。探究影响碳交易价格的因素,对完善碳市场交易机制从而实现“双碳”目标具有现实意义。已有研究仅以几个碳交易试点为研究对象,由于各个试点的交易价格、气体种类和交易量等相差较... “双碳”目标提出后,全国碳市场发展面临新的机遇与挑战。探究影响碳交易价格的因素,对完善碳市场交易机制从而实现“双碳”目标具有现实意义。已有研究仅以几个碳交易试点为研究对象,由于各个试点的交易价格、气体种类和交易量等相差较大,研究结果存在较大差异且不全面,故有必要将新上市的全国碳市场纳入研究。以2021年7月上市的全国碳交易点和碳交易试点为研究对象,基于外部性理论、产权理论、环境金融理论分析碳交易价格的理论影响因素,并建立VEC模型进行实证分析。结果表明:碳交易价格受市场中动力煤价格、上证指数负向影响;受欧盟碳期货价格、空气质量指数、天然气价格正向影响。通过对全国碳交易点和碳交易试点的对比分析,发现全国碳交易价格受市场因素影响较大,且逐期增强,说明新建立的全国碳交易市场的市场效应更强。 展开更多
关键词 vec模型 全国碳市场 脉冲响应 方差分解
下载PDF
基于SVM和Word2vec的微博评论情感识别模型
19
作者 闫芳序 王剑辉 《现代计算机》 2024年第10期60-64,共5页
微博作为高互动性的社媒平台,其中富含大量主观性文本数据。为挖掘评论文本中潜在的信息价值,针对传统方法中存在的语义缺失和过度依赖背景知识等问题,提出一种基于SVM和Word2vec的情感识别模型。通过Word2vec模型中的Skip-gram方法利... 微博作为高互动性的社媒平台,其中富含大量主观性文本数据。为挖掘评论文本中潜在的信息价值,针对传统方法中存在的语义缺失和过度依赖背景知识等问题,提出一种基于SVM和Word2vec的情感识别模型。通过Word2vec模型中的Skip-gram方法利用当前语境的中心词预测上下文结构,将词语映射为词向量,进而转化成向量矩阵,输入至SVM模型进行训练与分类。实验结果表明,模型的准确率为0.943,召回率为0.941,F1值为0.946,具有良好的泛化性。 展开更多
关键词 情感分析 SVM Word2vec 微博
下载PDF
An Optimized Chinese Filtering Model Using Value Scale Extended Text Vector
20
作者 Siyu Lu Ligao Cai +5 位作者 Zhixin Liu Shan Liu Bo Yang Lirong Yin Mingzhe Liu Wenfeng Zheng 《Computer Systems Science & Engineering》 SCIE EI 2023年第11期1881-1899,共19页
With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification... With the development of Internet technology,the explosive growth of Internet information presentation has led to difficulty in filtering effective information.Finding a model with high accuracy for text classification has become a critical problem to be solved by text filtering,especially for Chinese texts.This paper selected the manually calibrated Douban movie website comment data for research.First,a text filtering model based on the BP neural network has been built;Second,based on the Term Frequency-Inverse Document Frequency(TF-IDF)vector space model and the doc2vec method,the text word frequency vector and the text semantic vector were obtained respectively,and the text word frequency vector was linearly reduced by the Principal Component Analysis(PCA)method.Third,the text word frequency vector after dimensionality reduction and the text semantic vector were combined,add the text value degree,and the text synthesis vector was constructed.Experiments show that the model combined with text word frequency vector degree after dimensionality reduction,text semantic vector,and text value has reached the highest accuracy of 84.67%. 展开更多
关键词 Chinese text filtering text vector word frequency vectors text semantic vectors value degree BP neural network TF-IDF doc2vec PCA
下载PDF
上一页 1 2 90 下一页 到第
使用帮助 返回顶部