期刊文献+
共找到1,127篇文章
< 1 2 57 >
每页显示 20 50 100
Text-to-SQL文本信息处理技术研究综述 被引量:1
1
作者 彭钰寒 乔少杰 +5 位作者 薛骐 李江敏 谢添丞 徐康镭 冉黎琼 曾少北 《无线电工程》 2024年第5期1053-1062,共10页
信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无... 信号与信息处理的需求日益增加,离不开数据处理技术,数据处理需要数据库的支持,然而没有经过训练的使用者会因为不熟悉数据库操作产生诸多问题。文本转结构化查询语言(Text to Structured Query Language,Text-to-SQL)的出现,使用户无需掌握结构化查询语言(Structured Query Language,SQL)也能够熟练操作数据库。介绍Text-to-SQL的研究背景及面临的挑战;介绍Text-to-SQL关键技术、基准数据集、模型演变及最新研究进展,关键技术包括Transformer等主流技术,用于模型训练的基准数据集包括WikiSQL和Spider;介绍Text-to-SQL不同阶段模型的特点,详细阐述Text-to-SQL最新研究成果的工作原理,包括模型构建、解析器设计及数据集生成;总结Text-to-SQL未来的发展方向及研究重点。 展开更多
关键词 文本转结构化查询语言 解析器 文本信息处理 数据库 深度学习
下载PDF
基于BERT和TextCNN的智能制造成熟度评估方法 被引量:1
2
作者 张淦 袁堂晓 +1 位作者 汪惠芬 柳林燕 《计算机集成制造系统》 EI CSCD 北大核心 2024年第3期852-863,共12页
随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,... 随着智能制造2025目标的临近,企业为了解自身能力水平纷纷加入到智能制造成熟度评估的行列中。然而,由于智能制造成熟度评估标准的复杂性,企业缺乏其对行业水平的了解,导致企业贸然申请,浪费自身时间的同时又占用大量评估资源。鉴于此,设计了一种新的评估流程,采用文本处理算法对整个评估过程进行了重构,通过利用国标文件中智能制造成熟度评估标准,将其作为训练集,采用基于预训练语言模型与文本神经网络(BERT+TextCNN)相结合的智能评估算法代替人工评估。在真实的企业智能制造数据集上的验证表明,当BERT+TextCNN评估模型在卷积核为[2,3,4]、迭代次数为6次、学习率为3e-5时,对智能制造成熟度进行评估,准确率达到85.32%。这表明所设计的评估方法能够较准确地帮助企业完成智能制造成熟度自评估,有助于企业了解自身智能制造能力水平,制定正确的发展方向。 展开更多
关键词 智能制造成熟度模型 BERT预训练语言模型 文本卷积神经网络 评估过程重构
下载PDF
Smart Approaches to Efficient Text Mining for Categorizing Sexual Reproductive Health Short Messages into Key Themes
3
作者 Tobias Makai Mayumbo Nyirenda 《Open Journal of Applied Sciences》 2024年第2期511-532,共22页
To promote behavioral change among adolescents in Zambia, the National HIV/AIDS/STI/TB Council, in collaboration with UNICEF, developed the Zambia U-Report platform. This platform provides young people with improved a... To promote behavioral change among adolescents in Zambia, the National HIV/AIDS/STI/TB Council, in collaboration with UNICEF, developed the Zambia U-Report platform. This platform provides young people with improved access to information on various Sexual Reproductive Health topics through Short Messaging Service (SMS) messages. Over the years, the platform has accumulated millions of incoming and outgoing messages, which need to be categorized into key thematic areas for better tracking of sexual reproductive health knowledge gaps among young people. The current manual categorization process of these text messages is inefficient and time-consuming and this study aims to automate the process for improved analysis using text-mining techniques. Firstly, the study investigates the current text message categorization process and identifies a list of categories adopted by counselors over time which are then used to build and train a categorization model. Secondly, the study presents a proof of concept tool that automates the categorization of U-report messages into key thematic areas using the developed categorization model. Finally, it compares the performance and effectiveness of the developed proof of concept tool against the manual system. The study used a dataset comprising 206,625 text messages. The current process would take roughly 2.82 years to categorise this dataset whereas the trained SVM model would require only 6.4 minutes while achieving an accuracy of 70.4% demonstrating that the automated method is significantly faster, more scalable, and consistent when compared to the current manual categorization. These advantages make the SVM model a more efficient and effective tool for categorizing large unstructured text datasets. These results and the proof-of-concept tool developed demonstrate the potential for enhancing the efficiency and accuracy of message categorization on the Zambia U-report platform and other similar text messages-based platforms. 展开更多
关键词 Knowledge Discovery in text (KDT) Sexual Reproductive Health (SRH) text Categorization text Classification text Extraction text Mining Feature Extraction Automated Classification process Performance Stemming and Lemmatization Natural Language processing (NLP)
下载PDF
Fast Data Processing of a Polarimeter-Interferometer System on J-TEXT
4
作者 刘煜锴 高丽 +3 位作者 刘海庆 杨曜 高翔 J-TEXT Team 《Plasma Science and Technology》 SCIE EI CAS CSCD 2016年第12期1143-1147,共5页
A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversio... A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversion method, evolution of the density profile analyzed by this method can quickly offer important information. This method has the advantage of fast calculation speed with the order of ten milliseconds per normal shot and it is capable of processing up to 1 MHz sampled data, which is helpful for studying density sawtooth instability and the disruption between shots. In the duration of a flat-top plasma current of usual ohmic discharges on J-TEXT, shape factor u is ranged from 4 to 5. When the disruption of discharge happens, the density profile becomes peaked and the shape factor u typically decreases to 1. 展开更多
关键词 fast data processing polarimeter-interferometer J-text
下载PDF
基于主题模型的通用文本匹配方法
5
作者 黄振业 莫淦清 余可曼 《计算机应用与软件》 北大核心 2024年第5期310-318,349,共10页
检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹... 检测长文本和短文本相似性的应用场景越来越多,文本对的一致性检测大多可以统一抽象成文本相似性的比较问题。该问题的难点在于短文本是零散的,从而很难判断其属于哪个领域及其背景知识,也难以引入词嵌入来解决在通用场景的具体文本匹配问题。基于这个问题,提出一种新的基于文本聚类主题模型的轻量方法,不需要利用额外的背景知识来匹配通用文本相似性。在两个经典测试样本数据集上的实验结果表明,该方法的文本相似性检测效率非常高。 展开更多
关键词 自然语言处理 文本匹配 主题模型 吉布斯采样
下载PDF
以对比学习与时序递推提升摘要泛化性的方法
6
作者 汤文亮 陈帝佑 +2 位作者 桂玉杰 刘杰明 徐军亮 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第2期170-180,共11页
为了有效缓解基于交叉熵损失函数训练的传统文本摘要模型所面临的推理过程中性能下降、泛化性较低、生成过程中曝光偏差现象严重、生成的摘要与参考摘要文本相似度较低等问题,提出了一种新颖的训练方式,一方面,模型本身以beamsearch的... 为了有效缓解基于交叉熵损失函数训练的传统文本摘要模型所面临的推理过程中性能下降、泛化性较低、生成过程中曝光偏差现象严重、生成的摘要与参考摘要文本相似度较低等问题,提出了一种新颖的训练方式,一方面,模型本身以beamsearch的方式生成候选集,以候选摘要的评估分数选取正负样本,在输出的候选集中以“argmax-贪心搜索概率值”和“标签概率值”构建2组对比损失函数;另一方面,设计作用于候选集句内的时序递推函数引导模型在输出每个单独的候选摘要时确保时序准确性,并缓解曝光偏差问题。实验表明,所提方法在CNN/DailyMail和Xsum公共数据集上的泛化性得到提升,Rouge与BertScore在CNN/DailyMail上达到47.54和88.51,在Xsum上达到了48.75和92.61。 展开更多
关键词 自然语言处理 文本摘要 对比学习 模型微调
下载PDF
基于语义上下文感知的文本数据增强方法研究
7
作者 张军 况泽 李钰彬 《现代电子技术》 北大核心 2024年第17期159-165,共7页
在文本分类任务中,数据的质量和数量对分类模型的性能有着重要影响,而在现实场景中获取大规模标记数据往往是昂贵和困难的。数据增强作为一种解决数据匮乏问题的低成本方法,已在各种深度学习和机器学习任务中取得了显著效果。由于文本... 在文本分类任务中,数据的质量和数量对分类模型的性能有着重要影响,而在现实场景中获取大规模标记数据往往是昂贵和困难的。数据增强作为一种解决数据匮乏问题的低成本方法,已在各种深度学习和机器学习任务中取得了显著效果。由于文本语言具有离散性,在语义保留的条件下进行数据增强具有一定困难。因此,提出基于语义上下文感知的数据增强方法,采用由WordNet 3.0中的词义定义(Gloss)和预训练模型BERT进行整合的Gloss选择模型,进一步识别上下文中目标词(尤其是多义词)的实际词义;然后根据下一个句子预测策略,将目标词的实际词义与被遮盖目标词的句子结合为一个句子对,使用掩码语言模型对句子对进行预测采样;最后计算语义文本相似度,并在三个基准分类数据集上对文中方法进行验证。实验结果表明,提出的方法在语义保留条件下,与选取的基线数据增强方法相比,在三个数据集的平均准确率指标上都有所提升,证明了文中方法的有效性。 展开更多
关键词 人工智能 自然语言处理 文本分类 数据增强 GLOSS 低资源
下载PDF
结合双头蛇算法的文字加工轮廓优化方法
8
作者 廖小平 陈晓晖 +1 位作者 鲁娟 马俊燕 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第9期91-99,共9页
在文字的数控加工过程中,文字轮廓离散会得到大量微线段构成的加工轨迹,产生冗余的G01命令,降低加工性能和效率。为优化冗余的G01命令,对转换成大量微线段的文字图形进行重新拟合优化后再生成工艺轨迹。通过解析文字离散特征,基于提出... 在文字的数控加工过程中,文字轮廓离散会得到大量微线段构成的加工轨迹,产生冗余的G01命令,降低加工性能和效率。为优化冗余的G01命令,对转换成大量微线段的文字图形进行重新拟合优化后再生成工艺轨迹。通过解析文字离散特征,基于提出的双头蛇算法思想,按照工艺规划思路,将文字离散的微线段形成的点云数据拟合成包含直线段和圆弧的文字图形,由此形成的顺序路径规划直接创成工艺规划,使拟合的路径规划与工艺规划达到完全统一。试验结果表明,对于采用双头蛇算法对文字的每个封闭轮廓进行重新拟合后获得的刀具加工轨迹,在轮廓精度和加工质量与现有CAD/CAM系统基本相同的情况下,显著降低了代码长度,进一步提高了表面光顺程度。 展开更多
关键词 刀具轨迹 文字加工 DXF文件 数控加工
下载PDF
预训练大语言模型发展对中国数字创意产业的启示
9
作者 魏晓 陈茂清 +1 位作者 曹小琴 许芳婷 《科技管理研究》 CSSCI 2024年第12期123-129,共7页
预训练大语言模型与数字创意产业的结合,一方面可以促进预训练大语言模型技术研发和应用,推动自然语言处理相关产业发展,另一方面也可以为数字创意产业提供更高效、精准的解决方案,促进产业数字化转型升级。然而,目前中国预训练大语言... 预训练大语言模型与数字创意产业的结合,一方面可以促进预训练大语言模型技术研发和应用,推动自然语言处理相关产业发展,另一方面也可以为数字创意产业提供更高效、精准的解决方案,促进产业数字化转型升级。然而,目前中国预训练大语言模型在数字创意产业的运用主要侧重于文本识别生成和语音生成等领域。为此,通过阐述预训练大语言模型以及中国数字创意产业的发展现状,梳理预训练大语言模型在数字创意产业的应用范畴和商业布局,综合分析作为新质生产力引擎的预训练大语言模型在中国数字创意产业发展中的机遇与挑战,并为中国数字创意产业的发展提出建议。研究发现:融合发展是中国数字创意产业的重要趋势,网络文学、动漫游戏、短视频等细分产业开始发展出完整的产业链条;预训练大语言模型可提升数字创意产业的内容生成效率、丰富艺术创意、拓展数字娱乐形式,也可以加强社交媒体分析监测、提高跨语言应用的效率、辅助科研教育,带来提升数字创意产业的智能化水平、增强用户黏性、数字创意生产者身份多元化等机遇,但同时也面临数据成本、隐私安全、知识产权等问题。提出未来在预训练大语言模型应用于数字创意产业的发展中,重视构建相关监管评估框架和知识产权保护体系,提升多模态技术水平,强化智能算力体系建设,以推动数字创意产业的智能化发展。 展开更多
关键词 大语言模型 预训练模型 数字创意产业 自然语言处理技术 文本生成 人工智能 产业智能化 融合发展
下载PDF
一种多特征融合的加密流量快速分类方法
10
作者 谭阳红 罗琼辉 钟豪 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2024年第6期98-107,共10页
网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加... 网络流量识别是网络管理和安全服务的基础.随着互联网的不断扩展及其复杂性的增加,传统基于规则的识别方法或流行为特征的方法正在面临着巨大挑战.受自然语言处理(Nature Language Processing, NLP)启发,本文提出了一种多特征融合的加密流量快速分类方法 .该方法通过融合数据包和字节序列特征来完成网络流的特征表示,采用双元字节编码将所选特征扩展为双字节序列,增加了字节的上下文语义特征;通过与数据包特征处理相适应的池化方法来最大限度保留数据包的特征信息,从而使所提模型具有更强的抗噪能力和更精确的分类能力.本文方法分别在ISCX-2016和一个包含66个热门应用程序的私有数据集(ETD66)上进行验证,并与其他模型展开比较.结果表明:本文所提方法在ISCX-2016及ETD66上的测试精度和性能都明显优于其他流量分类模型,分别取得了98.2%和98.6%的识别准确率,从而证明了所提方法的特征提取能力和强泛化能力. 展开更多
关键词 加密流量识别 自然语言处理 深度学习 文本分类 卷积神经网络
下载PDF
面向业务的资源按需解析模型构建研究
11
作者 刘耀 秦迅 刘天吉 《计算机科学》 CSCD 北大核心 2024年第10期178-186,共9页
针对在项目开发过程中新需求来临时,需要对自然语言处理工具和资源解析插件进行重新需求分析、重复开发等问题,提出了一套面向业务的资源按需解析方案。首先,提出了一种从需求到代码的资源按需解析方法,针对需求文本本身进行需求概念标... 针对在项目开发过程中新需求来临时,需要对自然语言处理工具和资源解析插件进行重新需求分析、重复开发等问题,提出了一套面向业务的资源按需解析方案。首先,提出了一种从需求到代码的资源按需解析方法,针对需求文本本身进行需求概念标引模型的构建。构建的需求概念标引模型的准确率、召回率、F1值等指标均高于其他分类模型。然后,针对需求文本与代码的关联,建立从需求文本到代码库类别的映射机制。对于模型的映射结果,使用前K准确率(percision@K)作为评价指标,最终准确率达到60%,具有一定的实用价值。综上所述,探索了一套具有需求解析能力、实现需求与代码关联的资源按需解析关键技术,并贯穿需求文本分类、需求代码库分类、代码库检索到插件生成的整个流程,形成了完整的“需求-代码-插件-解析”的业务闭环,通过实验验证了所提方法对于资源按需解析的有效性,为业务需求分析与软件复用提供了思路,与现有用于业务需求的解析和代码生成的大语言模型相比,所提方法聚焦于具体业务领域内的含有业务特点的插件代码复用全流程的实现。 展开更多
关键词 自然语言处理 需求模型 代码复用 文本解析 代码分类 代码检索
下载PDF
基于深度学习的文本分类研究综述 被引量:2
12
作者 汪家伟 余晓 《电子科技》 2024年第1期81-86,共6页
与传统的机器学习模型相比,深度学习模型试图模仿人的学习思路,通过计算机自动进行海量数据的特征提取工作。文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中具有关键作用。过去几年,使用深度学习方法进行文本分类的研究... 与传统的机器学习模型相比,深度学习模型试图模仿人的学习思路,通过计算机自动进行海量数据的特征提取工作。文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中具有关键作用。过去几年,使用深度学习方法进行文本分类的研究激增并取得了较好效果。文中简要介绍了基于传统模型的文本分类方法和基于深度学习的文本分类方法,回顾了先进文本分类方法并重点关注了其中基于深度学习的模型,对近年来用于文本分类的深度学习模型的研究进展以及成果进行介绍和总结,并对深度学习在文本分类领域的发展趋势和研究的难点进行了总结和展望。 展开更多
关键词 深度学习 自然语言处理 文本分类 机器学习 神经网络 预训练模型 注意力机制 长短期记忆网络
下载PDF
基于AI的高校报修系统设计研究 被引量:1
13
作者 袁海峰 胡锐 《苏州科技大学学报(自然科学版)》 CAS 2024年第2期71-76,共6页
为了提高校园报修系统的信息利用效率和用户体验,降低校园报修管理的成本和客诉率,研究结合了苏州科技大学校园报修系统现状,并应用了自然语言处理(NLP)技术来改进系统。改进后的算法应用于语音输入报修内容,有助于改善报修文本分类和... 为了提高校园报修系统的信息利用效率和用户体验,降低校园报修管理的成本和客诉率,研究结合了苏州科技大学校园报修系统现状,并应用了自然语言处理(NLP)技术来改进系统。改进后的算法应用于语音输入报修内容,有助于改善报修文本分类和回复、维修管理与分配等功能。语音识别使得报修过程更加智能和高效,提升了用户体验和报修效率。通过综合应用机器学习和NLP技术,校园报修系统实现了智能化、自动化的维修管理,为校内学生和教职员工提供了更加便捷和高质量的维修服务。 展开更多
关键词 校园报修 人工智能 自然语言处理 智能文本分类 机器学习
下载PDF
融合文本摘要和情绪感知的抑郁倾向识别
14
作者 季浩然 林鸿飞 +1 位作者 杨亮 徐博 《中文信息学报》 CSCD 北大核心 2024年第5期146-154,共9页
抑郁症作为世界第四大疾病,严重影响着人们的生理和心理健康。随着互联网的发展,社交媒体的发布内容已经成为研究精神疾病的重要数据源,研究者开始应用自然语言处理技术自动检测抑郁倾向。现存算法无法充分捕捉到长文本中的关键信息,忽... 抑郁症作为世界第四大疾病,严重影响着人们的生理和心理健康。随着互联网的发展,社交媒体的发布内容已经成为研究精神疾病的重要数据源,研究者开始应用自然语言处理技术自动检测抑郁倾向。现存算法无法充分捕捉到长文本中的关键信息,忽略了对用户情绪状态的时序性建模,进而造成抑郁倾向识别性能不佳。该文提出一种融合文本摘要和情绪感知的抑郁倾向识别模型,首先利用文本摘要算法抽取用户历史文本的全局语义特征,在压缩文本长度的同时保留了与用户真实意图强相关的内容;然后利用词汇增强算法计算句子级的细粒度情绪表示,并结合深度神经网络捕获了用户的情绪变化特征。实验结果表明,该文提出的模型取得了更佳的识别效果,在抑郁倾向识别数据集上将检测结果的正类F 1值提升至75.61%。 展开更多
关键词 抑郁倾向识别 自然语言处理 文本摘要 情绪感知
下载PDF
基于业务过程模型的刑事案件裁判文书过程信息自动梳理技术
15
作者 张源 邹文涛 +3 位作者 袁豪 李传艺 葛季栋 骆斌 《计算机集成制造系统》 EI CSCD 北大核心 2024年第8期2968-2980,共13页
在信息时代,大量过程信息被隐藏在由自然语言写成的文档中,从中自动抽取过程模型并可视化将有助于对过程信息的查看和管理。在中国刑事案件裁判文书中,存在着以下两个挑战:①事件在文本中的描述未严格按照时间顺序;②存在大量噪声信息... 在信息时代,大量过程信息被隐藏在由自然语言写成的文档中,从中自动抽取过程模型并可视化将有助于对过程信息的查看和管理。在中国刑事案件裁判文书中,存在着以下两个挑战:①事件在文本中的描述未严格按照时间顺序;②存在大量噪声信息。尽管该特征广泛存在于不同领域的文本中,相关的研究却很少。为此,提出一种具有可移植性的文本过程挖掘算法,通过结合领域知识和机器学习建立名为“事件框架”的新型数据结构,从而解决上述难点并最终自动构建业务过程模型。通过人工构建的大量过程模型与自动生成的过程模型在结构、文本相似度上的实验对比,证明该算法能有效地解决上述挑战。 展开更多
关键词 过程挖掘 过程文本 自然语言处理 事件抽取 裁判文书
下载PDF
基于内在质量约束的文本生成和评价综述 被引量:1
16
作者 兰玉乾 饶元 +3 位作者 李冠呈 孙菱 夏昺灿 辛婷婷 《电子学报》 EI CAS CSCD 北大核心 2024年第2期633-659,共27页
近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的... 近年来,以ChatGPT为代表的能够适应复杂场景、并能满足人类的各种应用需求为目标的文本生成算法模型成为学术界与产业界共同关注的焦点.然而,ChatGPT等大规模语言模型(Large Language Model,LLM)高度忠实于用户意图的优势隐含了部分的事实性错误,而且也需要依靠提示内容来控制细致的生成质量和领域适应性,因此,研究以内在质量约束为核心的文本生成方法仍具有重要意义.本文在近年来关键的内容生成模型和技术对比研究的基础上,定义了基于内在质量约束的文本生成的基本形式,以及基于“信、达、雅”的6种质量特征;针对这6种质量特征,分析并总结了生成器模型的设计和相关算法;同时,围绕不同的内在质量特征总结了多种自动评价和人工评价指标与方法.最后,本文对文本内在质量约束技术的未来研究方向进行了展望. 展开更多
关键词 自然语言处理 语言模型 文本生成 文本质量 文本评价
下载PDF
官方新闻对人民币汇率变动的影响——基于TVP-VAR模型的研究 被引量:1
17
作者 王倩 郝文倩 廖泽芳 《管理现代化》 北大核心 2024年第2期38-51,共14页
以中国官方发布的汇率新闻为对象的研究,从文本措辞角度对2010年至2023年中国央行和外汇局的官方网站新闻进行分类,构建“汇率升贬”、“汇率弹性”、“汇率制度”、“人民币国际化”和“美元相关”五种新闻措辞指数,进而利用TVP-VAR模... 以中国官方发布的汇率新闻为对象的研究,从文本措辞角度对2010年至2023年中国央行和外汇局的官方网站新闻进行分类,构建“汇率升贬”、“汇率弹性”、“汇率制度”、“人民币国际化”和“美元相关”五种新闻措辞指数,进而利用TVP-VAR模型研究官方新闻对人民币汇率的影响。研究表明,官方新闻对人民币汇率存在明显时变特征,产生的冲击效应在短期尤为明显,长期趋近于零;官方新闻中不同措辞类型对人民币汇率的影响存在异质性;在进一步研究中发现,官方新闻指数对人民币汇率有升值影响,对汇率波动有增强效果,且离岸市场受到的影响更大。 展开更多
关键词 官方新闻 人民币汇率 文本处理 TVP-VAR模型
下载PDF
结合语法规则和图神经网络的文本分类方法
18
作者 郑诚 肖双 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2594-2601,共8页
图神经网络被广泛应用于文本分类任务,并取得了显著的效果.然而,现有基于图的文本分类模型存在全局上下文信息和局部特征信息提取不充分的问题.此外,现有方法在构建文本图时,仅在原始文本上使用滑动窗口建立单词之间的边,使模型无法捕... 图神经网络被广泛应用于文本分类任务,并取得了显著的效果.然而,现有基于图的文本分类模型存在全局上下文信息和局部特征信息提取不充分的问题.此外,现有方法在构建文本图时,仅在原始文本上使用滑动窗口建立单词之间的边,使模型无法捕捉到远距离的单词交互信息.针对上述问题,提出一种结合语法规则和图神经网络的文本分类模型.首先,在构建文本图时,除了使用滑动窗口在原始文本上建立单词间的边之外,还根据预定义的语法规则提取短语,以捕捉到远距离的单词交互信息;其次,利用Transformer编码器提取上下文信息,以丰富全局语义信息;同时,采用门控图神经网络提取文本的局部特征信息,以增强局部特征的表达能力.最后,将提取到的单词特征进行融合.在4个基准数据集上的实验结果验证了该模型相比于基线模型有较好的分类效果. 展开更多
关键词 文本分类 图神经网络 文本表示 深度学习 自然语言处理
下载PDF
面向医学影像报告生成的门归一化编解码网络
19
作者 谭立玮 张淑军 +2 位作者 韩琪 郭淇 王鸿雁 《智能系统学报》 CSCD 北大核心 2024年第2期411-419,共9页
医学影像报告的自动生成可以减轻医生的工作强度,减少误诊或漏诊的情况发生。由于医学影像的独特性,通常病灶比较小,与正常区域灰度差异难以分辨,导致文本生成时关键词的缺失,报告不够准确。对此提出一种面向医学影像报告生成的门归一... 医学影像报告的自动生成可以减轻医生的工作强度,减少误诊或漏诊的情况发生。由于医学影像的独特性,通常病灶比较小,与正常区域灰度差异难以分辨,导致文本生成时关键词的缺失,报告不够准确。对此提出一种面向医学影像报告生成的门归一化编解码网络,通过门控通道变换单元优化视觉特征提取,加强特征间的差异,自动筛选关键特征;提出门归一化算法,沿通道维度整合上下文信息,在浅层网络激活、深层网络抑制通道间神经元活性,过滤无效特征,使文本和视觉语义充分交互,提高报告生成质量。在2种广泛使用的基准数据集IU X-Ray和MIMIC-CXR上的试验结果表明,模型能够取得先进的性能,生成的影像报告也具有更好的视觉语义一致性。 展开更多
关键词 医学影像处理 文本处理 特征提取 信息融合 通道编码 深度学习 报告生成器 灰度差异
下载PDF
Word Embeddings and Semantic Spaces in Natural Language Processing 被引量:1
20
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language processing Vector Space Models Semantic Spaces Word Embeddings Representation Learning text Vectorization Machine Learning Deep Learning
下载PDF
上一页 1 2 57 下一页 到第
使用帮助 返回顶部