期刊文献+
共找到8,266篇文章
< 1 2 250 >
每页显示 20 50 100
自然语言处理领域中的词嵌入方法综述 被引量:5
1
作者 曾骏 王子威 +2 位作者 于扬 文俊浩 高旻 《计算机科学与探索》 CSCD 北大核心 2024年第1期24-43,共20页
词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的... 词嵌入作为自然语言处理任务的第一步,其目的是将输入的自然语言文本转换为模型可以处理的数值向量,即词向量,也称词的分布式表示。词向量作为自然语言处理任务的根基,是完成一切自然语言处理任务的前提。然而,国内外针对词嵌入方法的综述文献大多只关注于不同词嵌入方法本身的技术路线,而未能将词嵌入的前置分词方法以及词嵌入方法完整的演变趋势进行分析与概述。以word2vec模型和Transformer模型作为划分点,从生成的词向量是否能够动态地改变其内隐的语义信息来适配输入句子的整体语义这一角度,将词嵌入方法划分为静态词嵌入方法和动态词嵌入方法,并对此展开讨论。同时,针对词嵌入中的分词方法,包括整词切分和子词切分,进行了对比和分析;针对训练词向量所使用的语言模型,从概率语言模型到神经概率语言模型再到如今的深度上下文语言模型的演化,进行了详细列举和阐述;针对预训练语言模型时使用的训练策略进行了总结和探讨。最后,总结词向量质量的评估方法,分析词嵌入方法的当前现状并对其未来发展方向进行展望。 展开更多
关键词 词向量 词嵌入方法 自然语言处理 语言模型 分词 词向量评估
下载PDF
弱共识与语境复义:人工智能自然语言大模型重塑文艺美学 被引量:1
2
作者 刘方喜 《社会科学辑刊》 北大核心 2024年第1期201-208,共8页
实质语义的弱共识性是人工智能自然语言大模型自动生成文本的基本特性,也是文学文本的基本特性。科学与文学文本语元组合运动生成的形式语义都要在个人的直观理解中转化为实质语义。形式语义概念化的单义决定着科学文本实质语义的强共识... 实质语义的弱共识性是人工智能自然语言大模型自动生成文本的基本特性,也是文学文本的基本特性。科学与文学文本语元组合运动生成的形式语义都要在个人的直观理解中转化为实质语义。形式语义概念化的单义决定着科学文本实质语义的强共识,有利于汇聚物化在语言符号中的社会力量,以认识、改造自然物元组合运动而造福人类;形式语义实例性的语境复义决定着文学文本实质语义的弱共识,有助于个人心元组合运动的和谐化、文明化和个人性与社会性相统一的非强制性交往。大模型颠覆了传统科学文化概念化强共识公理系统,对于重新认识科学文化与人文文化两者之间的关系及价值、重塑传统文艺美学和人类文化等有重要启示。 展开更多
关键词 弱共识 语境复义 实质语义 形式语义 自然语言大模型
下载PDF
基于AI算法的自然语言信息提取-翻译-校对系统设计 被引量:1
3
作者 崔丹 李舒淇 《现代电子技术》 北大核心 2024年第10期111-116,共6页
自20世纪90年代起,随着人工智能(AI)的飞速发展及其与深度学习等机器学习方法的广泛融合,自然语言处理(NLP)作为人工智能的核心,也取得了令人瞩目的进步。而随着国际学术交流、世界文化交融愈加频繁,人们搜寻、阅读他国网络信息的现实... 自20世纪90年代起,随着人工智能(AI)的飞速发展及其与深度学习等机器学习方法的广泛融合,自然语言处理(NLP)作为人工智能的核心,也取得了令人瞩目的进步。而随着国际学术交流、世界文化交融愈加频繁,人们搜寻、阅读他国网络信息的现实需求也随之增多。当信息搜寻者在搜寻非母语信息时,不仅会出现语言障碍问题,还会因错综复杂、层次不齐的各色信息而产生诸多不便。为了便于信息搜寻者快速高效地获取有用信息,文中基于人工智能算法(PageRank/TextRank)设计一种信息提取-翻译-校对(ETP)系统。系统通过AI自动搜索阅读页面上的重要信息和文本摘取,生成摘要,并基于机器翻译API模块完成翻译;其次,采用智能校对系统完成校对审核后,将信息呈现给搜寻者,以供其对全部信息高效且准确地进行预筛选,从而节省阅读时间和精力。最后对系统算法所实现的功能进行实验测试,结果达到预期。 展开更多
关键词 AI算法 自然语言处理 信息提取 机器翻译 翻译校对 PAGERANK算法 TextRank算法
下载PDF
一种基于多层次语言信息的自然语言推理方法
4
作者 张振寰 李琳 +3 位作者 张梦静 钟珞 陈云 程庆贺 《软件导刊》 2024年第4期38-45,共8页
随着网络深度逐层加深,提取特征时表层信息和浅层特征或多或少被遗失,而一些推理场景需要浅层特征来作出推理判断。为此,提出一种融入多层语言信息的自然语言推理方法,通过学习多层深度神经网络的不同层对结果的贡献权重,有效结合不同... 随着网络深度逐层加深,提取特征时表层信息和浅层特征或多或少被遗失,而一些推理场景需要浅层特征来作出推理判断。为此,提出一种融入多层语言信息的自然语言推理方法,通过学习多层深度神经网络的不同层对结果的贡献权重,有效结合不同层学习到的语言信息对结果进行预测。在SNLI数据集上的实验结果和对多个样例的分析表明,多层神经网络的不同层捕获到了不同的语言信息,不同的网络层擅长不同的推理任务,合理融入不同层次的语言信息有助于方法性能的提升。 展开更多
关键词 自然语言处理 多层语言信息 自然语言推理 注意力机制
下载PDF
基于图神经网络的人工自然语言语义挖掘仿真
5
作者 周显春 喻佳 《计算机仿真》 2024年第1期344-348,共5页
语义挖掘工具可从批量非结构化人工自然语言文本数据中准确提取有用信息,但是由于网络环境文本具备半结构化、多尺度、海量、复杂关联等属性,导致文本数据通常维度较高,且仅有小部分节点存在明确标签,因此语义挖掘难度较大。提出基于图... 语义挖掘工具可从批量非结构化人工自然语言文本数据中准确提取有用信息,但是由于网络环境文本具备半结构化、多尺度、海量、复杂关联等属性,导致文本数据通常维度较高,且仅有小部分节点存在明确标签,因此语义挖掘难度较大。提出基于图神经网络的人工自然语言语义挖掘方法。结合多头注意力机制和半监督图卷积神经网络对人工自然语言文本降维处理。联合改进的模糊C均值聚类算法和免疫单亲遗传算法,构建人工自然语言语义挖掘算法。实验结果表明,研究方法的聚类纯度、准确率和召回率均高于95%,说明上述方法的应用性能较优。 展开更多
关键词 图神经网络 人工自然语言 语义挖掘 多头注意力机制
下载PDF
基于人工神经网络的自然语言处理技术研究 被引量:1
6
作者 陈运财 《工程技术研究》 2024年第8期93-95,共3页
文章探讨了基于人工神经网络的自然语言处理技术,首先,阐述了人工神经网络的定义、结构、工作原理,以及与深度学习的关系。其次,详细研究了基于人工神经网络的自然语言处理技术,包括神经网络模型、词嵌入技术、循环神经网络、长短期记... 文章探讨了基于人工神经网络的自然语言处理技术,首先,阐述了人工神经网络的定义、结构、工作原理,以及与深度学习的关系。其次,详细研究了基于人工神经网络的自然语言处理技术,包括神经网络模型、词嵌入技术、循环神经网络、长短期记忆网络、转换器模型与自注意力机制等,并分析了这些技术面临的挑战。最后,通过实验设计与结果分析验证了所提出方法的有效性。文章研究内容对于推动自然语言处理技术的发展和应用具有重要意义。 展开更多
关键词 自然语言处理技术 人工神经网络 循环神经网络 长短期记忆网络 转换器模型 自注意力机制
下载PDF
基于本体和自然语言处理的土石坝险情知识图谱构建方法研究
7
作者 张继勋 王虞清 +1 位作者 焦修明 张玉贤 《水利学报》 EI CSCD 北大核心 2024年第9期1071-1083,1097,共14页
土石坝在运维阶段可能受施工质量低、极端环境灾害等因素的影响,从而发生滑坡、裂缝、洪水漫顶等一系列险情。现阶段与土石坝险情相关的大量数据存储分散、结构多样,难以直接转化为经验和知识得到有效利用,快速指导险情处置。本研究针... 土石坝在运维阶段可能受施工质量低、极端环境灾害等因素的影响,从而发生滑坡、裂缝、洪水漫顶等一系列险情。现阶段与土石坝险情相关的大量数据存储分散、结构多样,难以直接转化为经验和知识得到有效利用,快速指导险情处置。本研究针对土石坝险情领域提出了基于本体和自然语言处理(NLP)的知识图谱(KG)构建方法,分别采用自顶向下与自底向上法,构建图谱的模式层和数据层。模式层围绕险情类型、险情原因、险情措施三大概念,从土石坝结构、过程、环境、材料4方面建立领域本体库,搭建KG的概念结构。数据层通过数据预处理、知识抽取、语义对齐等操作,运用NLP对文本进行处理并根据语料的特征建立相应的提取规则,获得数据层的具体知识内容。最后以三元组形式存储不同类型的实例和相互关系,运用Neo4j图数据库进行土石坝险情领域KG的可视化表达及查询应用,使领域内分散数据向集成知识转化,为土石坝安全管理和险情处置提供技术和理论支持。 展开更多
关键词 土石坝险情 知识图谱 本体 自然语言处理
下载PDF
自然语言处理技术在智能客服系统中的应用与优化 被引量:1
8
作者 包永红 《互联网周刊》 2024年第2期21-23,共3页
随着科技的不断发展,人工智能已经逐渐应用到人们生活的各个领域,其中自然语言处理(natural language processing,NLP)技术的发展尤为引人注目,其被广泛应用于智能客服系统中,极大地提升了客户服务的效率和质量。本文将探讨自然语言处... 随着科技的不断发展,人工智能已经逐渐应用到人们生活的各个领域,其中自然语言处理(natural language processing,NLP)技术的发展尤为引人注目,其被广泛应用于智能客服系统中,极大地提升了客户服务的效率和质量。本文将探讨自然语言处理技术在智能客服系统中的应用以及如何优化其性能。 展开更多
关键词 自然语言处理技术 智能客服系统
下载PDF
基于神经网络和自然语言处理的智能对话机器人技术专利现状
9
作者 朱哲 张晓玲 《中国科技信息》 2024年第17期56-59,共4页
本文针对神经网络和自然语言处理的智能对话机器人专利技术分析,分析了神经网络和自然语言处理的智能对话机器人技术国内外发展情况。在智能对话机器人行业起到借鉴作用。近年来,随着人工智能和大数据技术的发展,聊天机器人的热度越来越... 本文针对神经网络和自然语言处理的智能对话机器人专利技术分析,分析了神经网络和自然语言处理的智能对话机器人技术国内外发展情况。在智能对话机器人行业起到借鉴作用。近年来,随着人工智能和大数据技术的发展,聊天机器人的热度越来越高,聊天机器人(Chatbot)是可以通过语音或文字与用户进行对话交流的计算机程序,其能够模仿人类对话,它不仅仅是一个简单的问答系统,而是一个能够理解自然语言的平台,比如百度的小度、苹果的Siri、微软的小冰、IBM的Waston等,在不同的场景下,聊天机器人有着不同的定位和功能,为了使聊天机器人能理解用户的问题,机器人需要使用文本或者语音对人类进行对话,这需要自然语言处理(Nature Language processing,NLP),而为了可以使得机器人更智能地与用户进行聊天,这需要基于神经网络进行大模型数据训练,使其具有自主学习能力;人工智能(Artificial Intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门的综合学科,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,可以对人的意识、思维的信息过程的模拟。 展开更多
关键词 自然语言处理 聊天机器人 机器人技术 人工智能 神经网络 计算机程序 智能机器 问答系统
下载PDF
基于自然语言处理(NLP)的医学知识挖掘探索与实践
10
作者 沈红 崔子禕 +5 位作者 曾淑君 金小蕾 盛妤 朱思燕 张莹 吴佳倩 《健康教育与健康促进》 2024年第2期155-157,217,共4页
目的通过对医学健康知识的挖掘,为人工智能等的健康科普知识支撑提供实践经验。方法采用基于自然语言处理(NLP)技术对徐汇区疾病预防控制中心2010年1月—2021年1月积累的科普文章进行结构拆分、阅读理解、实体识别等,处理流程包括文档... 目的通过对医学健康知识的挖掘,为人工智能等的健康科普知识支撑提供实践经验。方法采用基于自然语言处理(NLP)技术对徐汇区疾病预防控制中心2010年1月—2021年1月积累的科普文章进行结构拆分、阅读理解、实体识别等,处理流程包括文档预处理、特征提取、段落筛选、阅读理解、答案排序、审核和发布。结果通过直接文档结构拆分,得到5395条问答;通过阅读理解,得到857条问答;通过抽取数字问答,得到1668条,初步形成问答形式的医学健康知识库。结论自然语言处理(NLP)技术为人工智能技术需要的大量语料素材提供了有效制作方法。 展开更多
关键词 自然语言处理 医学知识 语料 人工智能
下载PDF
基于人工智能的自然语言处理技术辅助写作应用研究
11
作者 荣蓉 《科学技术创新》 2024年第11期96-99,共4页
人工智能领域中自然语言处理技术占据重要的一席之地,运用专业计算机技术实现对人类语言的理解、处理与生成。自然语言处理技术在语言信息处理、智能交互中展现出巨大的优势,应用于辅助写作方面其作用也比较突出。基于人工智能的自然语... 人工智能领域中自然语言处理技术占据重要的一席之地,运用专业计算机技术实现对人类语言的理解、处理与生成。自然语言处理技术在语言信息处理、智能交互中展现出巨大的优势,应用于辅助写作方面其作用也比较突出。基于人工智能的自然语言处理技术具有广阔的研究前景。本文首先对人工智能及自然语言处理技术进行了解分析,对自然语言处理关键技术进行了剖析,旨在为自然语言处理技术辅助写作的具体应用提供依据。 展开更多
关键词 人工智能 自然语言处理 计算机辅助写作
下载PDF
基于深度学习的自然语言处理鲁棒性研究综述 被引量:5
12
作者 桂韬 奚志恒 +5 位作者 郑锐 刘勤 马若恬 伍婷 包容 张奇 《计算机学报》 EI CAS CSCD 北大核心 2024年第1期90-112,共23页
近年来,基于深度神经网络的模型在几乎所有自然语言处理任务上都取得了非常好的效果,在很多任务上甚至超越了人类.展现了极强能力的大规模语言模型也为自然语言处理模型的发展与落地提供了新的机遇和方向.然而,这些在基准测试集合上取... 近年来,基于深度神经网络的模型在几乎所有自然语言处理任务上都取得了非常好的效果,在很多任务上甚至超越了人类.展现了极强能力的大规模语言模型也为自然语言处理模型的发展与落地提供了新的机遇和方向.然而,这些在基准测试集合上取得很好结果的模型在实际应用中的效果却经常大打折扣.近期的一些研究还发现,在测试数据上替换一个相似词语、增加一个标点符号,甚至只是修改一个字母都可能使得这些模型的预测结果发生改变,效果大幅度下降.即使是大型语言模型,也会因输入中的微小扰动而改变其预测结果.什么原因导致了这种现象的发生?深度神经网络模型真的如此脆弱吗?如何才能避免这种问题的出现?这些问题近年来受到了越来越多的关注,诸多有影响力的工作都不约而同地从不同方面讨论了自然语言处理的鲁棒性问题.在本文中,我们从自然语言处理任务的典型范式出发,从数据构建、模型表示、对抗攻防以及评估评价等四个方面对自然语言处理鲁棒性相关研究进行了总结和归纳,并对最新进展进行了介绍,最后探讨了未来的可能研究方向以及我们对自然语言处理鲁棒性问题的一些思考. 展开更多
关键词 自然语言处理 鲁棒性 深度学习 预训练语言模型 对抗攻防
下载PDF
基于自然语言处理的肿瘤专科病历质控系统建设 被引量:1
13
作者 刘伟伟 王立军 +2 位作者 庞娟 王丹 衡反修 《医学信息学杂志》 CAS 2024年第2期77-81,91,共6页
目的/意义通过建立电子病历内涵质控系统,实现病历书写标准化与规范化,提高医院病历质量。方法/过程基于医院医疗数据搭建智能中台,结合自然语言处理、机器学习技术形成具有肿瘤专科特色的知识库、规则库,实现电子病历“前置审核、全面... 目的/意义通过建立电子病历内涵质控系统,实现病历书写标准化与规范化,提高医院病历质量。方法/过程基于医院医疗数据搭建智能中台,结合自然语言处理、机器学习技术形成具有肿瘤专科特色的知识库、规则库,实现电子病历“前置审核、全面覆盖、过程监管、闭环管理”的全新质控模式。结果/结论应用基于自然语言处理的肿瘤专科病历质控系统后,质控覆盖率由1%提升至100%,甲级病案率提升至96%以上,具有较好的实时性与准确率,为医院病历高质量发展奠定坚实的信息化基础。 展开更多
关键词 内涵质控 自然语言处理 肿瘤知识库 电子病历
下载PDF
自然语言处理中的探针可解释方法综述 被引量:3
14
作者 鞠天杰 刘功申 +1 位作者 张倬胜 张茹 《计算机学报》 EI CAS CSCD 北大核心 2024年第4期733-758,共26页
随着大规模预训练模型的广泛应用,自然语言处理的多个领域(如文本分类和机器翻译)取得了长足的发展.然而,受限于预训练模型的“黑盒”特性,其内部的决策模式以及编码的知识信息被认为是不透明的.以Open AI发布的Chat GPT和GPT-4为代表... 随着大规模预训练模型的广泛应用,自然语言处理的多个领域(如文本分类和机器翻译)取得了长足的发展.然而,受限于预训练模型的“黑盒”特性,其内部的决策模式以及编码的知识信息被认为是不透明的.以Open AI发布的Chat GPT和GPT-4为代表的先进预训练模型为例,它们在多个领域取得重大性能突破的同时,由于无法获知其内部是否真正编码了人们期望的知识或语言属性,以及是否潜藏一些不期望的歧视或偏见,因此仍然无法将其应用于重视安全性和公平性的领域.近年来,一种新颖的可解释性方法“探针任务”有望提升人们对预训练模型各层编码的语言属性的理解.探针任务通过在模型的某一区域训练辅助语言任务,来检验该区域是否编码了感兴趣的语言属性.例如,现有研究通过冻结模型参数并在不同层训练探针任务,已经证明预训练模型在低层编码了更多词性属性而在高层编码了更多语义属性,但由于预训练数据的毒性,很有可能在参数中编码了大量有害内容.该文首先介绍了探针任务的基本框架,包括任务的定义和基本流程;然后对自然语言处理中现有的探针任务方法进行了系统性的归纳与总结,包括最常用的诊断分类器以及由此衍生出的其他探针方法,为读者提供设计合理探针任务的思路;接着从对比和控制的角度介绍如何解释探针任务的实验结果,以说明探测位置编码感兴趣属性的程度;最后对探针任务的主要应用和未来的关键研究方向进行展望,并讨论了当前探针任务亟待解决的问题与挑战. 展开更多
关键词 探针任务 可解释 自然语言处理 预训练模型 深度学习 人工智能安全
下载PDF
自然语言处理在医疗设备采购参数制订中的应用价值研究 被引量:1
15
作者 车雪松 张敏 +1 位作者 卢东生 刘达洋 《中国医学装备》 2024年第6期161-166,共6页
目的:构建智能化医疗设备采购参数生成系统,实现医疗设备采购参数制订表达清晰和需求匹配精准,提高招标结果的认可度和招标效率。方法:基于自然语言处理(NLP)、网络爬虫和机器学习方法,构建自动化数据更新机制,实现海量采购参数数据提取... 目的:构建智能化医疗设备采购参数生成系统,实现医疗设备采购参数制订表达清晰和需求匹配精准,提高招标结果的认可度和招标效率。方法:基于自然语言处理(NLP)、网络爬虫和机器学习方法,构建自动化数据更新机制,实现海量采购参数数据提取,并将实体识别方法用于既往采购参数数据分析,实现医疗设备信息及参数名称等实体自动化提取,基于相似性设备推荐及医疗设备模板派生方法,采用向导式交互工具构建智能化医疗设备采购参数生成系统。对比采用智能化医疗设备采购参数生成系统与4名具有3年采购经验的招标采购人员进行10份医疗设备采购参数文件制订的差异。结果:采用智能化医疗设备采购参数生成系统的医疗设备采购参数文件平均生成时长为15.23min,而招标采购人员制订医疗设备采购参数文件平均时长为173.40min。经招标采购专家评估,采用智能化医疗设备采购参数生成系统生成医疗设备采购参数文件效率及质量均优于3年采购经验招标采购人员制订的医疗设备采购参数文件。结论:智能化医疗设备采购参数生成系统应用于医疗设备采购参数制订,可实现医疗设备采购参数的专业信息采集、存储和管理,缩短医疗设备采购参数制订周期,为医疗设备招标采购从业人员提供智能化辅助生成工具,提高采购参数制订效能,提升医疗设备采购效率。 展开更多
关键词 自然语言处理(NLP) 医疗设备 招标采购 参数制订 命名实体识别
下载PDF
面向国产深度学习平台的自然语言处理模型迁移研究 被引量:2
16
作者 葛慧斌 王德鑫 +2 位作者 郑涛 张婷 熊德意 《计算机科学》 CSCD 北大核心 2024年第1期50-59,共10页
深度学习平台在新一代人工智能的发展中扮演着重要的角色。近年来,以昇腾平台为代表的国产人工智能软硬件系统快速发展,为国产深度学习平台的发展开辟出了新的道路。与此同时,为了发现并解决昇腾系统存在的潜在漏洞,昇腾平台积极开展常... 深度学习平台在新一代人工智能的发展中扮演着重要的角色。近年来,以昇腾平台为代表的国产人工智能软硬件系统快速发展,为国产深度学习平台的发展开辟出了新的道路。与此同时,为了发现并解决昇腾系统存在的潜在漏洞,昇腾平台积极开展常用深度学习模型的迁移工作。从自然语言处理算法角度切入,针对机器阅读理解、神经机器翻译、序列标注和文本分类四大自然语言处理任务,以昇腾平台的高性能硬件芯片为基础,探究迁移ALBERT,RNNSearch,BERT-CRF和TextING这4类典型的自然语言处理模型。基于以上迁移研究,发现和整理了昇腾平台架构设计在自然语言处理研究与业务上的主要不足,即计算图节点动态空间的分配特性、资源算子下沉设备侧、图算融合以及混合精度训练4个方面的问题,并为以上问题提出了相应的解决方案,并进行了实验验证。最后,为国产深度学习平台的发展提出未来优化的方向和相关建议。 展开更多
关键词 自然语言处理 昇腾 深度学习 模型迁移 平台构架
下载PDF
医学影像与自然语言处理多模态探索研究 被引量:1
17
作者 龚宇新 向菲 应葵 《医学信息学杂志》 CAS 2024年第1期33-38,共6页
目的/意义实现医学影像报告的自动生成对减轻放射科医生工作负担、促进临床工作流程标准化具有重要意义。方法/过程重点查找近几年公开源代码的胸部报告生成模型,开发一种基于CDGPT 2模型的医学影像报告自动生成方法。结果/结论大参数... 目的/意义实现医学影像报告的自动生成对减轻放射科医生工作负担、促进临床工作流程标准化具有重要意义。方法/过程重点查找近几年公开源代码的胸部报告生成模型,开发一种基于CDGPT 2模型的医学影像报告自动生成方法。结果/结论大参数量的语言模型在报告生成方面的优势仍有待挖掘,对模型的解码器输入进行修改后生成报告的质量不高。未来研究可采用大型数据集并结合更多临床信息来提高模型性能。 展开更多
关键词 胸片 多模态 报告自动生成 注意力机制 自然语言处理
下载PDF
Navi:基于自然语言交互的数据分析系统 被引量:1
18
作者 谢宇鹏 骆昱宇 冯建华 《软件学报》 EI CSCD 北大核心 2024年第3期1194-1206,共13页
随着大数据时代的到来,数据分析的作用日益显著.它能够从海量数据中发现有价值的信息,从而更有效地指导用户决策.然而,数据分析流程中存在三大挑战:分析流程高耦合、交互接口种类多和探索分析高耗时.为了应对上述挑战,提出了基于自然语... 随着大数据时代的到来,数据分析的作用日益显著.它能够从海量数据中发现有价值的信息,从而更有效地指导用户决策.然而,数据分析流程中存在三大挑战:分析流程高耦合、交互接口种类多和探索分析高耗时.为了应对上述挑战,提出了基于自然语言交互的数据分析系统Navi.该系统采用模块化的设计原则,抽象出主流数据分析流程的3个核心功能模块:数据查询、可视化生成和可视化探索模块,从而降低系统设计的耦合度.同时,Navi以自然语言作为统一的交互接口,并通过一个任务调度器实现了各功能模块的有效协同.此外,为了解决可视化探索中搜索空间指数级和用户意图不明确的问题,提出了一种基于蒙特卡洛树搜索的可视化自动探索方法,并设计了基于可视化领域知识的剪枝算法和复合奖励函数,提高了搜索效率和结果质量.最后,通过量化实验和用户实验验证了Navi的有效性. 展开更多
关键词 数据分析 数据查询 可视化 自然语言 蒙特卡洛树搜索
下载PDF
GPT系列大语言模型在自然语言处理任务中的鲁棒性 被引量:1
19
作者 陈炫婷 叶俊杰 +3 位作者 祖璨 许诺 桂韬 张奇 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1128-1142,共15页
大语言模型(large language models,LLMs)所展现的处理各种自然语言处理(natural language processing,NLP)任务的能力引发了广泛关注.然而,它们在处理现实中各种复杂场景时的鲁棒性尚未得到充分探索,这对于评估模型的稳定性和可靠性尤... 大语言模型(large language models,LLMs)所展现的处理各种自然语言处理(natural language processing,NLP)任务的能力引发了广泛关注.然而,它们在处理现实中各种复杂场景时的鲁棒性尚未得到充分探索,这对于评估模型的稳定性和可靠性尤为重要.因此,使用涵盖了9个常见NLP任务的15个数据集(约147000个原始测试样本)和来自TextFlint的61种鲁棒的文本变形方法分析GPT-3和GPT-3.5系列模型在原始数据集上的性能,以及其在不同任务和文本变形级别(字符、词和句子)上的鲁棒性.研究结果表明,GPT模型虽然在情感分析、语义匹配等分类任务和阅读理解任务中表现出良好的性能,但其处理信息抽取任务的能力仍较为欠缺,比如其对关系抽取任务中各种关系类型存在严重混淆,甚至出现“幻觉”现象.在鲁棒性评估实验中,GPT模型在任务层面和变形层面的鲁棒性都较弱,其中,在分类任务和句子级别的变形中鲁棒性缺乏更为显著.此外,探究了模型迭代过程中性能和鲁棒性的变化,以及提示中的演示数量和演示内容对模型性能和鲁棒性的影响.结果表明,随着模型的迭代以及上下文学习的加入,模型的性能稳步提升,但是鲁棒性依然亟待提升.这些发现从任务类型、变形种类、提示内容等方面揭示了GPT模型还无法完全胜任常见的NLP任务,并且模型存在的鲁棒性问题难以通过提升模型性能或改变提示内容等方式解决.通过对gpt-3.5-turbo的更新版本、gpt-4模型,以及开源模型LLaMA2-7B和LLaMA2-13B的性能和鲁棒性表现进行对比,进一步验证了实验结论.鉴于此,未来的大模型研究应当提升模型在信息提取以及语义理解等方面的能力,并且应当在模型训练或微调阶段考虑提升其鲁棒性. 展开更多
关键词 鲁棒性 GPT模型 语言模型 自然语言处理 可靠性
下载PDF
什么类型的机构合作会产生更高的学术影响力?--以自然语言处理领域为例 被引量:1
20
作者 杨裕楷 赵毅 章成志 《图书馆论坛》 北大核心 2024年第5期40-53,共14页
研究特定领域中机构合作类型与学术影响力之间的关系,能深入了解不同合作类型所产生的学术影响力差异,以识别出哪种类型的合作可能更具生产力或效率。文章以自然语言处理(NLP)领域为例探究机构合作类型与学术影响力之间的关系。通过与... 研究特定领域中机构合作类型与学术影响力之间的关系,能深入了解不同合作类型所产生的学术影响力差异,以识别出哪种类型的合作可能更具生产力或效率。文章以自然语言处理(NLP)领域为例探究机构合作类型与学术影响力之间的关系。通过与工业界进行合作,可以将学术界的研究成果转化为实际应用,但不同合作模式对合作效果的影响有所不同,因此文章研究不同类型的机构合作与学术影响力之间的关系,从而帮助机构更好地规划合作策略,提高合作效果。首先,将机构分为学术界机构和工业界机构;然后,将合作类型分为学术界机构间合作、学术界机构内合作、学术界与工业界机构间合作、工业界机构间合作和工业界机构内合作;最后,从谷歌学术获取5种合作类型发表的论文被引频次信息,同时定义高被引论文,采用这两个指标衡量学术影响力,并将论文归属到NLP领域不同任务,发现学术界与工业界的机构间合作往往能产生更大的学术影响力,且在不同任务中学术影响力最高的机构合作类型存在差异。 展开更多
关键词 科学合作 机构合作类型 合作绩效 自然语言处理
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部