期刊文献+
共找到1,108篇文章
< 1 2 56 >
每页显示 20 50 100
Text-to-SQL文本信息处理技术研究综述
1
作者 彭钰寒 乔少杰 +5 位作者 薛骐 李江敏 谢添丞 徐康镭 冉黎琼 曾少北 《无线电工程》 2024年第5期1053-1062,共10页
信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无... 信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无需掌握结构化查询语言(Structured Query Language,SQL)也能够熟练操作数据库。介绍Text-to-SQL的研究背景及面临的挑战;介绍Text-to-SQL关键技术、基准数据集、模型演变及最新研究进展,关键技术包括Transformer等主流技术,用于模型训练的基准数据集包括WikiSQL和Spider;介绍Text-to-SQL不同阶段模型的特点,详细阐述Text-to-SQL最新研究成果的工作原理,包括模型构建、解析器设计及数据集生成;总结Text-to-SQL未来的发展方向及研究重点。 展开更多
关键词 文本转结构化查询语言 解析器 文本信息处理 数据库 深度学习
下载PDF
基于BERT和TextCNN的智能制造成熟度评估方法 被引量:1
2
作者 张淦 袁堂晓 +1 位作者 汪惠芬 柳林燕 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期852-863,共12页
随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,... 随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,设计了一种新的评估流程,采用文本处理算法对整个评估过程进行了重构,通过利用国标文件中智能制造成熟度评估标准,将其作为训练集,采用基于预训练语言模型与文本神经网络(BERT+TextCNN)相结合的智能评估算法代替人工评估。在真实的企业智能制造数据集上的验证表明,当BERT+TextCNN评估模型在卷积核为[2,3,4]、迭代次数为6次、学习率为3e-5时,对智能制造成熟度进行评估,准确率达到85.32%。这表明所设计的评估方法能够较准确地帮助企业完成智能制造成熟度自评估,有助于企业了解自身智能制造能力水平,制定正确的发展方向。 展开更多
关键词 智能制造成熟度模型 BERT预训练语言模型 文本卷积神经网络 评估过程重构
下载PDF
Smart Approaches to Efficient Text Mining for Categorizing Sexual Reproductive Health Short Messages into Key Themes
3
作者 Tobias Makai Mayumbo Nyirenda 《Open Journal of Applied Sciences》 2024年第2期511-532,共22页
To promote behavioral change among adolescents in Zambia, the National HIV/AIDS/STI/TB Council, in collaboration with UNICEF, developed the Zambia U-Report platform. This platform provides young people with improved a... To promote behavioral change among adolescents in Zambia, the National HIV/AIDS/STI/TB Council, in collaboration with UNICEF, developed the Zambia U-Report platform. This platform provides young people with improved access to information on various Sexual Reproductive Health topics through Short Messaging Service (SMS) messages. Over the years, the platform has accumulated millions of incoming and outgoing messages, which need to be categorized into key thematic areas for better tracking of sexual reproductive health knowledge gaps among young people. The current manual categorization process of these text messages is inefficient and time-consuming and this study aims to automate the process for improved analysis using text-mining techniques. Firstly, the study investigates the current text message categorization process and identifies a list of categories adopted by counselors over time which are then used to build and train a categorization model. Secondly, the study presents a proof of concept tool that automates the categorization of U-report messages into key thematic areas using the developed categorization model. Finally, it compares the performance and effectiveness of the developed proof of concept tool against the manual system. The study used a dataset comprising 206,625 text messages. The current process would take roughly 2.82 years to categorise this dataset whereas the trained SVM model would require only 6.4 minutes while achieving an accuracy of 70.4% demonstrating that the automated method is significantly faster, more scalable, and consistent when compared to the current manual categorization. These advantages make the SVM model a more efficient and effective tool for categorizing large unstructured text datasets. These results and the proof-of-concept tool developed demonstrate the potential for enhancing the efficiency and accuracy of message categorization on the Zambia U-report platform and other similar text messages-based platforms. 展开更多
关键词 Knowledge Discovery in text (KDT) Sexual Reproductive Health (SRH) text Categorization text Classification text Extraction text Mining Feature Extraction Automated Classification process Performance Stemming and Lemmatization Natural Language processing (NLP)
下载PDF
Fast Data Processing of a Polarimeter-Interferometer System on J-TEXT
4
作者 刘煜锴 高丽 +3 位作者 刘海庆 杨曜 高翔 J-TEXT Team 《Plasma Science and Technology》 SCIE EI CAS CSCD 2016年第12期1143-1147,共5页
A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversio... A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversion method, evolution of the density profile analyzed by this method can quickly offer important information. This method has the advantage of fast calculation speed with the order of ten milliseconds per normal shot and it is capable of processing up to 1 MHz sampled data, which is helpful for studying density sawtooth instability and the disruption between shots. In the duration of a flat-top plasma current of usual ohmic discharges on J-TEXT, shape factor u is ranged from 4 to 5. When the disruption of discharge happens, the density profile becomes peaked and the shape factor u typically decreases to 1. 展开更多
关键词 fast data processing polarimeter-interferometer J-text
下载PDF
基于主题模型的通用文本匹配方法
5
作者 黄振业 莫淦清 余可曼 《计算机应用与软件》 北大核心 2024年第5期310-318,349,共10页
检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹... 检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹配问题。基于这个问题,提出一种新的基于文本聚类主题模型的轻量方法,不需要利用额外的背景知识来匹配通用文本相似性。在两个经典测试样本数据集上的实验结果表明,该方法的文本相似性检测效率非常高。 展开更多
关键词 自然语言处理 文本匹配 主题模型 吉布斯采样
下载PDF
以对比学习与时序递推提升摘要泛化性的方法
6
作者 汤文亮 陈帝佑 +2 位作者 桂玉杰 刘杰明 徐军亮 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第2期170-180,共11页
为了有效缓解基于交叉熵损失函数训练的传统文本摘要模型所面临的推理过程中性能下降、泛化性较低、生成过程中曝光偏差现象严重、生成的摘要与参考摘要文本相似度较低等问题,提出了一种新颖的训练方式,一方面,模型本身以beamsearch的... 为了有效缓解基于交叉熵损失函数训练的传统文本摘要模型所面临的推理过程中性能下降、泛化性较低、生成过程中曝光偏差现象严重、生成的摘要与参考摘要文本相似度较低等问题,提出了一种新颖的训练方式,一方面,模型本身以beamsearch的方式生成候选集,以候选摘要的评估分数选取正负样本,在输出的候选集中以“argmax-贪心搜索概率值”和“标签概率值”构建2组对比损失函数;另一方面,设计作用于候选集句内的时序递推函数引导模型在输出每个单独的候选摘要时确保时序准确性,并缓解曝光偏差问题。实验表明,所提方法在CNN/DailyMail和Xsum公共数据集上的泛化性得到提升,Rouge与BertScore在CNN/DailyMail上达到47.54和88.51,在Xsum上达到了48.75和92.61。 展开更多
关键词 自然语言处理 文本摘要 对比学习 模型微调
下载PDF
预训练大语言模型发展对中国数字创意产业的启示
7
作者 魏晓 陈茂清 +1 位作者 曹小琴 许芳婷 《科技管理研究》 2024年第12期123-129,共7页
预训练大语言模型与数字创意产业的结合,一方面可以促进预训练大语言模型技术研发和应用,推动自然语言处理相关产业发展,另一方面也可以为数字创意产业提供更高效、精准的解决方案,促进产业数字化转型升级。然而,目前中国预训练大语言... 预训练大语言模型与数字创意产业的结合,一方面可以促进预训练大语言模型技术研发和应用,推动自然语言处理相关产业发展,另一方面也可以为数字创意产业提供更高效、精准的解决方案,促进产业数字化转型升级。然而,目前中国预训练大语言模型在数字创意产业的运用主要侧重于文本识别生成和语音生成等领域。为此,通过阐述预训练大语言模型以及中国数字创意产业的发展现状,梳理预训练大语言模型在数字创意产业的应用范畴和商业布局,综合分析作为新质生产力引擎的预训练大语言模型在中国数字创意产业发展中的机遇与挑战,并为中国数字创意产业的发展提出建议。研究发现:融合发展是中国数字创意产业的重要趋势,网络文学、动漫游戏、短视频等细分产业开始发展出完整的产业链条;预训练大语言模型可提升数字创意产业的内容生成效率、丰富艺术创意、拓展数字娱乐形式,也可以加强社交媒体分析监测、提高跨语言应用的效率、辅助科研教育,带来提升数字创意产业的智能化水平、增强用户黏性、数字创意生产者身份多元化等机遇,但同时也面临数据成本、隐私安全、知识产权等问题。提出未来在预训练大语言模型应用于数字创意产业的发展中,重视构建相关监管评估框架和知识产权保护体系,提升多模态技术水平,强化智能算力体系建设,以推动数字创意产业的智能化发展。 展开更多
关键词 大语言模型 预训练模型 数字创意产业 自然语言处理技术 文本生成 人工智能 产业智能化 融合发展
下载PDF
一种多特征融合的加密流量快速分类方法
8
作者 谭阳红 罗琼辉 钟豪 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期98-107,共10页
网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加... 网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加密流量快速分类方法 .该方法通过融合数据包和字节序列特征来完成网络流的特征表示,采用双元字节编码将所选特征扩展为双字节序列,增加了字节的上下文语义特征;通过与数据包特征处理相适应的池化方法来最大限度保留数据包的特征信息,从而使所提模型具有更强的抗噪能力和更精确的分类能力.本文方法分别在ISCX-2016和一个包含66个热门应用程序的私有数据集(ETD66)上进行验证,并与其他模型展开比较.结果表明:本文所提方法在ISCX-2016及ETD66上的测试精度和性能都明显优于其他流量分类模型,分别取得了98.2%和98.6%的识别准确率,从而证明了所提方法的特征提取能力和强泛化能力. 展开更多
关键词 加密流量识别 自然语言处理 深度学习 文本分类 卷积神经网络
下载PDF
基于内在质量约束的文本生成和评价综述 被引量:1
9
作者 兰玉乾 饶元 +3 位作者 李冠呈 孙菱 夏昺灿 辛婷婷 《电子学报》 EI CAS CSCD 北大核心 2024年第2期633-659,共27页
近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的... 近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的事实性错误,而且也需要依靠提示内容来控制细致的生成质量和领域适应性,因此,研究以内在质量约束为核心的文本生成方法仍具有重要意义.本文在近年来关键的内容生成模型和技术对比研究的基础上,定义了基于内在质量约束的文本生成的基本形式,以及基于“信、达、雅”的6种质量特征;针对这6种质量特征,分析并总结了生成器模型的设计和相关算法;同时,围绕不同的内在质量特征总结了多种自动评价和人工评价指标与方法.最后,本文对文本内在质量约束技术的未来研究方向进行了展望. 展开更多
关键词 自然语言处理 语言模型 文本生成 文本质量 文本评价
下载PDF
面向医学影像报告生成的门归一化编解码网络
10
作者 谭立玮 张淑军 +2 位作者 韩琪 郭淇 王鸿雁 《智能系统学报》 CSCD 北大核心 2024年第2期411-419,共9页
医学影像报告的自动生成可以减轻医生的工作强度,减少误诊或漏诊的情况发生。由于医学影像的独特性,通常病灶比较小,与正常区域灰度差异难以分辨,导致文本生成时关键词的缺失,报告不够准确。对此提出一种面向医学影像报告生成的门归一... 医学影像报告的自动生成可以减轻医生的工作强度,减少误诊或漏诊的情况发生。由于医学影像的独特性,通常病灶比较小,与正常区域灰度差异难以分辨,导致文本生成时关键词的缺失,报告不够准确。对此提出一种面向医学影像报告生成的门归一化编解码网络,通过门控通道变换单元优化视觉特征提取,加强特征间的差异,自动筛选关键特征;提出门归一化算法,沿通道维度整合上下文信息,在浅层网络激活、深层网络抑制通道间神经元活性,过滤无效特征,使文本和视觉语义充分交互,提高报告生成质量。在2种广泛使用的基准数据集IU X-Ray和MIMIC-CXR上的试验结果表明,模型能够取得先进的性能,生成的影像报告也具有更好的视觉语义一致性。 展开更多
关键词 医学影像处理 文本处理 特征提取 信息融合 通道编码 深度学习 报告生成器 灰度差异
下载PDF
基于AI的高校报修系统设计研究
11
作者 袁海峰 胡锐 《苏州科技大学学报(自然科学版)》 CAS 2024年第2期71-76,共6页
为了提高校园报修系统的信息利用效率和用户体验,降低校园报修管理的成本和客诉率,研究结合了苏州科技大学校园报修系统现状,并应用了自然语言处理(NLP)技术来改进系统。改进后的算法应用于语音输入报修内容,有助于改善报修文本分类和... 为了提高校园报修系统的信息利用效率和用户体验,降低校园报修管理的成本和客诉率,研究结合了苏州科技大学校园报修系统现状,并应用了自然语言处理(NLP)技术来改进系统。改进后的算法应用于语音输入报修内容,有助于改善报修文本分类和回复、维修管理与分配等功能。语音识别使得报修过程更加智能和高效,提升了用户体验和报修效率。通过综合应用机器学习和NLP技术,校园报修系统实现了智能化、自动化的维修管理,为校内学生和教职员工提供了更加便捷和高质量的维修服务。 展开更多
关键词 校园报修 人工智能 自然语言处理 智能文本分类 机器学习
下载PDF
机械装配工艺文本的实体关系抽取方法研究
12
作者 尹昱东 王保建 +2 位作者 李珂嘉 王紫平 刘洁 《计算机测量与控制》 2024年第6期198-205,219,共9页
机械装配过程常常需要人工阅读并理解大量装配工艺文本,从而耗费大量时间,并且由于装配工艺文本书写人员和装配人员能力的差异,可能会导致装配人员错误理解装配文本,产生零部件错装、漏装等问题;机械装配矩阵以矩阵形式存储零部件的装... 机械装配过程常常需要人工阅读并理解大量装配工艺文本,从而耗费大量时间,并且由于装配工艺文本书写人员和装配人员能力的差异,可能会导致装配人员错误理解装配文本,产生零部件错装、漏装等问题;机械装配矩阵以矩阵形式存储零部件的装配实体关系,可以直接、有效表达装配关系,不仅易于工人理解装配关系,也便于计算机识别,可以显著提高装配效率。自然语言处理作为研究计算机理解人类语言的工具,在根据装配文本生成装配矩阵的任务中可以起到关键的作用;文章采用自然语言处理的方法,对装配文本进行断句、分词、词性标注等文本预处理操作,采用机械装配名词语料库辅助以提高对装配零件的分词、词性标注时的准确率;用语法依存关系分析和语法模板匹配两种方法生成每个句子的主语、谓语、宾语三元组,其中采用机械装配名词语料库进行匹配,以判断其中的装配零部件名;之后提取出主语及宾语都为装配零件的三元组作为一个装配关系,对其进行去除冗余词、实体对齐等后处理操作;最后根据零部件数量组成一个空矩阵,将装配关系填入接触矩阵,并根据零部件类型判断生成装配关系的接触-连接矩阵。 展开更多
关键词 装配工艺文本 实体关系 自然语言处理 词性标注 三元组 装配关系矩阵
下载PDF
基于深度学习的文本分类研究综述
13
作者 汪家伟 余晓 《电子科技》 2024年第1期81-86,共6页
与传统的机器学习模型相比,深度学习模型试图模仿人的学习思路,通过计算机自动进行海量数据的特征提取工作。文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中具有关键作用。过去几年,使用深度学习方法进行文本分类的研究... 与传统的机器学习模型相比,深度学习模型试图模仿人的学习思路,通过计算机自动进行海量数据的特征提取工作。文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中具有关键作用。过去几年,使用深度学习方法进行文本分类的研究激增并取得了较好效果。文中简要介绍了基于传统模型的文本分类方法和基于深度学习的文本分类方法,回顾了先进文本分类方法并重点关注了其中基于深度学习的模型,对近年来用于文本分类的深度学习模型的研究进展以及成果进行介绍和总结,并对深度学习在文本分类领域的发展趋势和研究的难点进行了总结和展望。 展开更多
关键词 深度学习 自然语言处理 文本分类 机器学习 神经网络 预训练模型 注意力机制 长短期记忆网络
下载PDF
基于深度学习的场景文字识别技术研究
14
作者 陈志宇 司占军 朱新雨 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第3期237-243,291,共8页
基于深度学习的场景文字识别技术(Scene Text Recognition,STR)应用广泛但性能尚需提升。针对现有的STR技术对小目标文字识别不准确和中文、中英文混合准确率低的问题,通过改进模型增加104×104的特征尺度,用Focal Loss和GIOU Loss... 基于深度学习的场景文字识别技术(Scene Text Recognition,STR)应用广泛但性能尚需提升。针对现有的STR技术对小目标文字识别不准确和中文、中英文混合准确率低的问题,通过改进模型增加104×104的特征尺度,用Focal Loss和GIOU Loss作为损失函数来优化目标检测框,将卷积块注意力模块(Convolutional Block Attention Module,CBAM)嵌入到卷积层中,使网络在特定位置和通道上更加关注目标,抑制其余复杂背景信息以此来提高模型的文字检测能力;分析中文的文字特征,对CRNN的特征提取网络改进优化,提高了原有模型对中文、中英文混合识别的准确性。实验结果表明,通过对文字检测与识别模型和算法的改进优化,大大提高了场景文字识别技术的准确性和鲁棒性。 展开更多
关键词 深度学习 场景文字识别技术 图像处理 目标检测 文字识别
下载PDF
基于HITS算法的商务英语文本语域特征研究
15
作者 徐秋萍 《江苏经贸职业技术学院学报》 2024年第3期89-92,共4页
在分析文本语域特征时,由于缺乏对文本信息之间关系的分析,导致特征分析结果的可靠性较低,为此,提出基于HITS算法的商务英语文本语域特征研究。利用HITS算法建立商务英语文本信息之间的链接关系,并借助中心值和权威值对文本中的型符信... 在分析文本语域特征时,由于缺乏对文本信息之间关系的分析,导致特征分析结果的可靠性较低,为此,提出基于HITS算法的商务英语文本语域特征研究。利用HITS算法建立商务英语文本信息之间的链接关系,并借助中心值和权威值对文本中的型符信息和类符信息进行综合表述。在语域特征分析阶段,以最大信息链接关系强度为基础,对信息交互关联性进行归一化处理,根据信息关联强度与对应语域特征子库的匹配程度,实现对商务英语文本语域特征的分析。在测试结果中,设计方法对于语域特征分析的t检验结果表明,其可以实现对文本语域特征的准确分析。 展开更多
关键词 HITS算法 商务英语文本 语域特征 链接关系 归一化处理
下载PDF
官方新闻对人民币汇率变动的影响——基于TVP-VAR模型的研究
16
作者 王倩 郝文倩 廖泽芳 《管理现代化》 北大核心 2024年第2期38-51,共14页
以中国官方发布的汇率新闻为对象的研究,从文本措辞角度对2010年至2023年中国央行和外汇局的官方网站新闻进行分类,构建“汇率升贬”、“汇率弹性”、“汇率制度”、“人民币国际化”和“美元相关”五种新闻措辞指数,进而利用TVP-VAR模... 以中国官方发布的汇率新闻为对象的研究,从文本措辞角度对2010年至2023年中国央行和外汇局的官方网站新闻进行分类,构建“汇率升贬”、“汇率弹性”、“汇率制度”、“人民币国际化”和“美元相关”五种新闻措辞指数,进而利用TVP-VAR模型研究官方新闻对人民币汇率的影响。研究表明,官方新闻对人民币汇率存在明显时变特征,产生的冲击效应在短期尤为明显,长期趋近于零;官方新闻中不同措辞类型对人民币汇率的影响存在异质性;在进一步研究中发现,官方新闻指数对人民币汇率有升值影响,对汇率波动有增强效果,且离岸市场受到的影响更大。 展开更多
关键词 官方新闻 人民币汇率 文本处理 TVP-VAR模型
下载PDF
基于文本图神经网络的小样本文本分类技术研究
17
作者 安相成 刘保柱 甘精伟 《河北科技大学学报》 CAS 北大核心 2024年第1期52-58,共7页
为了解决文本图神经网络小样本文本分类精度较差的问题,设计了基于文本图神经网络的原型网络,采用预训练语言模型,利用文本级图神经网络为每个输入文本构建图并共享全局参数,将文本图神经网络的结果作为原型网络的输入,对未标注文本进... 为了解决文本图神经网络小样本文本分类精度较差的问题,设计了基于文本图神经网络的原型网络,采用预训练语言模型,利用文本级图神经网络为每个输入文本构建图并共享全局参数,将文本图神经网络的结果作为原型网络的输入,对未标注文本进行分类,并验证新模型在多个文本分类数据集上的有效性。实验结果表明,与需要大量标注文档的监督学习方法相比,所采用的方法未标注文本的分类精度提高了1%~3%,在多个文本分类数据集上验证了新模型性能先进,内存占用更少。研究结果可为解决小样本文本分类问题提供参考。 展开更多
关键词 自然语言处理 小样本文本分类 预训练模型 图神经网络 原型网络
下载PDF
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:4
18
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 TF-IDF算法 Transformer模型
下载PDF
基于在线翻译的中文文本数据增强技术
19
作者 王小天 奚彩萍 《计算机与数字工程》 2024年第3期791-794,共4页
数据增强是少样本学习领域中的一种常见方法,对于文本数据,一种通用的增强方式是反译,通过神经翻译机,将数据翻译为某种中间语言,再翻译为原语言。但受限于公开平行语料库的数量与质量,个人研究者很难训练出符合要求的神经翻译机。为了... 数据增强是少样本学习领域中的一种常见方法,对于文本数据,一种通用的增强方式是反译,通过神经翻译机,将数据翻译为某种中间语言,再翻译为原语言。但受限于公开平行语料库的数量与质量,个人研究者很难训练出符合要求的神经翻译机。为了解决反译法对平行语料库的依赖,论文提出了一项基于在线翻译的文本数据增强技术。该文以百度翻译为例,研究了不同中间语言带来的收益,以及不同数据量下,最适合的增强倍数,并通过可视化的方式研究了增强数据的标签有效性。实验表明,基于在线翻译的中文文本数据增强技术,在四个中文分类任务中获得了一致提升,提升在小数据集上更为明显。平均而言,使用增强技术使F1值提升超过了5%。同时该文指出了以往评估数据增强收益的不合理之处,并提出了改进的评估设置。 展开更多
关键词 数据增强 自然语言处理 反译 文本分类
下载PDF
基于NLP的股票选择策略的优化研究
20
作者 吴彦昕 李宏滨 胡冠真 《现代计算机》 2024年第3期76-82,共7页
由于股评、新闻对股票价格变化有巨大影响,为选出优质股票以提高投资的收益率,采用了自然语言处理NLP技术对股评数据和新闻数据进行分析,基于朴素贝叶斯模型建立了文本情感倾向分类模型,模型预测准确率达到84%,生成了股评因子。基于LDA... 由于股评、新闻对股票价格变化有巨大影响,为选出优质股票以提高投资的收益率,采用了自然语言处理NLP技术对股评数据和新闻数据进行分析,基于朴素贝叶斯模型建立了文本情感倾向分类模型,模型预测准确率达到84%,生成了股评因子。基于LDA主题模型对新闻文本进行话题建模,快速获取新闻文本主题,并引入困惑度寻找文档最优主题数,生成了新闻因子,将股评因子和新闻因子作为筛选股票的依据,从股评和新闻信息中获取对股市带来的影响因素,从而优化选股策略。对于股票基本面数据,采用决策树模型进行因子的重要性分析,选出重要性最高的前5个因子,模型预测准确率达到88%。通过决策树模型,可以更准确地确定哪些因子在影响股价变化方面发挥着关键作用,这种改进的方法能够提高选股策略的有效性和准确性。最终使用主成分分析(PCA)对数据进行降维处理,依据主成分数值的高低来进行股票选择。 展开更多
关键词 自然语言处理 文本情感倾向分类模型 LDA主题模型 决策树模型 主成分分析
下载PDF
上一页 1 2 56 下一页 到第
使用帮助 返回顶部