期刊文献+
共找到195篇文章
< 1 2 10 >
每页显示 20 50 100
大规模生成式语言模型在医疗领域的应用:机遇与挑战 被引量:5
1
作者 肖仰华 徐一丹 《医学信息学杂志》 CAS 2023年第9期1-11,共11页
目的/意义以ChatGPT为代表的大规模生成式语言模型带动了通用人工智能技术快速发展。大规模生成式语言模型能否在医疗领域应用取得成功是学术界和工业界密切关心的问题。本文旨在深入研究大规模生成式语言模型在我国医疗领域应用中的机... 目的/意义以ChatGPT为代表的大规模生成式语言模型带动了通用人工智能技术快速发展。大规模生成式语言模型能否在医疗领域应用取得成功是学术界和工业界密切关心的问题。本文旨在深入研究大规模生成式语言模型在我国医疗领域应用中的机遇与挑战。方法/过程从知识容器、能力引擎和自治智能体3方面出发,分析大模型在医疗提质增效、解决我国医学发展不平衡问题、慢性病智能管理与决策、人口老龄化应对以及医学科研加速等方面的新机遇,同时指出大模型在医疗领域应用所存在的局限。结果/结论大模型驱动有望成为智能医疗的新范式,针对大模型在医疗应用中的不足,提出具体发展建议。 展开更多
关键词 大规模生成式语言模型 医疗 人工智能
下载PDF
基于生成式预训练语言模型的学者画像构建研究
2
作者 柳涛 丁陈君 +2 位作者 姜恩波 许睿 陈方 《数字图书馆论坛》 2024年第3期1-11,共11页
大数据时代,互联网中以多源异构、非结构化形式存在的学者信息在实体抽取时伴有属性混淆、长实体等问题,严重影响学者画像构建的精准度。与此同时,学者属性实体抽取模型作为学者画像构建过程中的关键模型,在实际应用方面还存在较高的技... 大数据时代,互联网中以多源异构、非结构化形式存在的学者信息在实体抽取时伴有属性混淆、长实体等问题,严重影响学者画像构建的精准度。与此同时,学者属性实体抽取模型作为学者画像构建过程中的关键模型,在实际应用方面还存在较高的技术门槛,这对学者画像的应用推广造成一定阻碍。为此,在开放资源的基础上,通过引导句建模、自回归生成方式、训练语料微调等构建一种基于生成式预训练语言模型的属性实体抽取框架,并从模型整体效果、实体类别抽取效果、主要影响因素实例分析、样例微调影响分析4个方面对该方法进行验证分析。与对比模型相比,所提出的方法在12类学者属性实体上均达到最优效果,其综合F1值为99.34%,不仅能够较好地识别区分相互混淆的属性实体,对“研究方向”这一典型长属性实体的抽取准确率还提升了6.11%,为学者画像的工程化应用提供了更快捷、有效的方法支撑。 展开更多
关键词 生成式预训练语言模型 样例微调 学者画像 GPT-3
下载PDF
语言资源视角下的大规模语言模型治理 被引量:7
3
作者 饶高琦 胡星雨 易子琳 《语言战略研究》 北大核心 2023年第4期19-29,共11页
近半年来,柴语生(ChatGPT)等大规模生成式语言模型的应用,引发了全社会的关注和反思。对这种大模型,应以工具观加以正视,认可其技术发展带来的益处,同时尽量规避其风险。对它们的治理,应减少对技术本身的干预,将目标定位于大模型赖以研... 近半年来,柴语生(ChatGPT)等大规模生成式语言模型的应用,引发了全社会的关注和反思。对这种大模型,应以工具观加以正视,认可其技术发展带来的益处,同时尽量规避其风险。对它们的治理,应减少对技术本身的干预,将目标定位于大模型赖以研发的语言资源和投放之后的使用。对大模型研发中的语言资源治理,应着力打破中文数据孤岛:发展以联邦学习为代表的分布式模型构建技术,建立国家知识数据开放机制,尽快健全开放、高效的语言数据交换市场;提倡世界知识中文表达,助推中文大模型研发:尽快实现中文精华知识资源面向网络开放,完善中文概念、术语资源,做大、做全领域中文资源。对大模型使用领域的治理,则因大模型本身也是一种重要的语言资源,故应强调其基础资源地位,从标准化、评测和伦理规制的角度进行。 展开更多
关键词 柴语生 语言资源 大规模语言模型 语言治理
下载PDF
生成式人工智能对高校图书馆的影响及应对策略——以ChatGPT大型语言模型为例
4
作者 邱瑾 黄茂汉 《图书馆工作与研究》 北大核心 2024年第3期58-66,共9页
文章分析ChatGPT模型的优势和不足,从对话式资源检索、智能咨询与智慧空间服务、嵌入式个性化阅读推广、探讨式知识获取、虚拟馆员与馆员助理服务、人工智能素养教育、AI学习伙伴训练指导七方面分析生成式人工智能为高校图书馆带来的机... 文章分析ChatGPT模型的优势和不足,从对话式资源检索、智能咨询与智慧空间服务、嵌入式个性化阅读推广、探讨式知识获取、虚拟馆员与馆员助理服务、人工智能素养教育、AI学习伙伴训练指导七方面分析生成式人工智能为高校图书馆带来的机遇,指出其将面临阅读吸引力减弱、错误知识传播、学习动力下降、已有技能退化、版权问题凸显等挑战,并提出具体应对策略,即参与制定人工智能商用标准和使用规范;探索人工智能实践应用,积极应对风险挑战;开展人工智能素养教育,创新考核评价方式;提升馆员综合素养,组建人工智能服务团队;建立监测反馈机制,持续提高服务质量。 展开更多
关键词 高校图书馆 ChatGPT 生成式人工智能 大型语言模型 人工智能
下载PDF
基于大规模语言模型的知识图谱可微规则抽取 被引量:1
5
作者 潘雨黛 张玲玲 +3 位作者 蔡忠闽 赵天哲 魏笔凡 刘均 《计算机科学与探索》 CSCD 北大核心 2023年第10期2403-2412,共10页
知识图谱上的推理是预测不完整三元组中缺失的实体或关系,对结构化知识进行补全,并用于不同下游任务的过程。不同于被普遍研究的黑盒方法,如基于表示学习的推理方法,基于规则抽取的推理方法通过从知识图谱中泛化出一阶逻辑规则,实现一... 知识图谱上的推理是预测不完整三元组中缺失的实体或关系,对结构化知识进行补全,并用于不同下游任务的过程。不同于被普遍研究的黑盒方法,如基于表示学习的推理方法,基于规则抽取的推理方法通过从知识图谱中泛化出一阶逻辑规则,实现一种可解释的推理范式。为解决离散的符号空间与连续的嵌入空间之间的鸿沟,提出一种基于大规模预训练语言模型的知识图谱可微规则抽取方法DRaM,将离散的一阶逻辑规则与连续的向量空间进行融合。针对规则中的原子公式顺序对推理过程产生的影响,通过引入大规模预训练语言模型对推理过程进行编码来解决。融合一阶逻辑规则的可微推理方法DRaM,在三个知识图谱数据集Family、Kinship和UMLS上进行的链接预测任务获得了较好的结果,尤其针对链接预测指标Hits@10,DRaM获得了最佳的推理结果。实验结果表明,DRaM能够有效地解决知识图谱上可微推理存在的问题,并且可以从推理过程中抽取带有置信度的一阶逻辑规则。DRaM不仅通过一阶逻辑规则增强了推理效果,同时增强了方法的可解释性。 展开更多
关键词 知识图谱上的推理 一阶逻辑规则 大规模语言模型(LLM) 可解释推理
下载PDF
人工智能大规模语言模型的运行逻辑与传媒应对 被引量:4
6
作者 汤代禄 《中国传媒科技》 2023年第2期19-24,共6页
【目的】以ChatGPT为代表的智能聊天机器人,呈现出的具备内在逻辑的内容自动生成能力,突破特定局限而扩展到更广泛领域的普适能力,引发了传媒业的广泛关注和隐忧。【方法】为理清智能聊天机器人对传媒业的影响,及早谋划应对,文章探究了... 【目的】以ChatGPT为代表的智能聊天机器人,呈现出的具备内在逻辑的内容自动生成能力,突破特定局限而扩展到更广泛领域的普适能力,引发了传媒业的广泛关注和隐忧。【方法】为理清智能聊天机器人对传媒业的影响,及早谋划应对,文章探究了其背后的人工智能大规模语言模型技术的发展逻辑和运行逻辑,梳理分析了传媒在助力采访、辅助创作等方面的应用方式。【结果】随着逐步迭代完善,人工智能大规模语言模型技术将重塑媒体内容生产传播模式,消解媒体人的创作能力,导致舆论环境更为复杂,形成媒体深度融合发展的新形势。【结论】基于此,文章提出增强相关感知能力、辨别能力、应用能力、安全意识,推进融合共生,健全责任体系的应对新策。 展开更多
关键词 ChatGPT 人工智能 大规模语言模型 智能聊天机器人
下载PDF
大规模语言模型的跨云联合训练关键技术 被引量:1
7
作者 潘囿丞 侯永帅 +2 位作者 杨卿 余跃 相洋 《中兴通讯技术》 2023年第4期49-56,共8页
模型参数规模的不断增加使模型训练所需的算力资源变得更加庞大,导致很多情况下单个算力集群难以满足大规模语言模型的训练需求。大规模语言模型的跨云联合训练成为解决这一问题的有效方式。以自然语言处理大模型的跨云预训练和微调为例... 模型参数规模的不断增加使模型训练所需的算力资源变得更加庞大,导致很多情况下单个算力集群难以满足大规模语言模型的训练需求。大规模语言模型的跨云联合训练成为解决这一问题的有效方式。以自然语言处理大模型的跨云预训练和微调为例,介绍了大规模语言模型跨云训练的主要挑战和关键技术,并探讨了这些技术在跨云训练过程中的具体应用、实际效果和未来场景。这些技术将为智能化应用和人机交互等提供有力支持。 展开更多
关键词 大规模语言模型 算力资源 跨云训练 自然语言处理
下载PDF
基于对比学习的大型语言模型反向词典任务提示生成方法
8
作者 田思成 黄少滨 +2 位作者 王锐 李熔盛 杜治娟 《计算机科学》 CSCD 北大核心 2024年第8期256-262,共7页
反向词典任务是一种新兴的任务,目的是根据给定的定义来查找对应的单词。大规模语言模型为这一任务提供了新的可能性,但是提示语句的质量会影响大模型的性能。为此,提出了一种基于对比学习的提示生成方法。该方法在从多个语义层面上理... 反向词典任务是一种新兴的任务,目的是根据给定的定义来查找对应的单词。大规模语言模型为这一任务提供了新的可能性,但是提示语句的质量会影响大模型的性能。为此,提出了一种基于对比学习的提示生成方法。该方法在从多个语义层面上理解定义语义的同时,还利用对比学习的原理在训练过程中引入了负例,提升了模型的泛化能力。通过这种方法,可以将目标单词缩小到一个小范围内,然后用大模型从这个范围内选择最符合定义语义的单词。实验结果表明,该方法可以有效地提升大规模语言模型在反向词典任务上的表现。提示生成模型有94.7%的概率生成包含目标词的范围,大规模语言模型有58.03%的概率直接选出目标单词,有74.55%的概率在给出5个候选单词时包含目标单词。 展开更多
关键词 反向词典 大规模语言模型 对比学习 多个语义层面 对比损失
下载PDF
广布局、重应用:生成式大语言模型的新进展 被引量:4
9
作者 郭全中 朱燕 《新闻爱好者》 北大核心 2023年第8期21-25,共5页
ChatGPT的上线掀起了大语言模型的热潮,除了谷歌、微软、OpenAI、百度、阿里巴巴等科技巨头,创业公司和其他互联网企业也纷纷布局大模型。目前,生成式大语言模型在搜索引擎、办公软件和诸多垂直领域有了初步应用,加快了产业智能化发展... ChatGPT的上线掀起了大语言模型的热潮,除了谷歌、微软、OpenAI、百度、阿里巴巴等科技巨头,创业公司和其他互联网企业也纷纷布局大模型。目前,生成式大语言模型在搜索引擎、办公软件和诸多垂直领域有了初步应用,加快了产业智能化发展的步伐,未来,大语言模型将探索更多垂类应用场景,产业结构将进一步分化。但大模型在落地应用过程中也面临着技术和社会层面的问题,需要各国在生成式人工智能的管理方面进行规范与治理。 展开更多
关键词 语言模型 ChatGPT 生成式 广布局 重应用
下载PDF
SemFA:基于语义特征与关联注意力的大规模多标签文本分类模型
10
作者 王振东 董开坤 +1 位作者 黄俊恒 王佰玲 《计算机科学》 CSCD 北大核心 2023年第12期270-278,共9页
大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势... 大规模多标签文本分类(XMTC)是从一个庞大且复杂的标签集合中查找与文本样本最相关标签的一项具有挑战性的任务。目前,基于Transformer模型的深度学习方法在XMTC上取得了巨大的成功。然而,现有方法都没能充分利用Transformer模型的优势,忽略了文本不同粒度下细微的局部语义信息,同时标签与文本之间的潜在关联尚未得到稳健的建立与利用。对此,提出了一种基于语义特征与关联注意力的大规模多标签文本分类模型SemFA(An Extreme Multi-Label Text Classification Model Based on Semantic Features and Association-Attention)。在SemFA中,首先拼接多层编码器顶层输出作为全局特征。其次,结合卷积神经网络从多层编码器浅层向量中获取局部特征。综合丰富的全局信息和不同粒度下细微的局部信息获得更丰富、更准确的语义特征。最后,通过关联注意力机制建立标签特征与文本特征之间的潜在关联,引入关联损失作为潜在关联不断优化模型。在Eurlex-4K和Wiki10-31K两个公开数据集上的实验结果表明,SemFA优于大多数现有的XMTC模型,能有效地融合语义特征与关联注意力,提升整体的分类性能。 展开更多
关键词 自然语言处理 大规模多标签文本分类 语义特征 预训练模型 注意力机制
下载PDF
生成式大语言模型在医疗领域的潜在典型应用与面临的挑战 被引量:5
11
作者 颜见智 何雨鑫 +3 位作者 骆子烨 胡晗 范士喜 汤步洲 《医学信息学杂志》 CAS 2023年第9期23-31,共9页
目的/意义为快速适应新型人工智能技术发展,精准把握医疗人工智能发展方向,亟须系统地分析和梳理生成式大语言模型在医疗领域的潜在典型应用和面临的挑战。方法/过程调研分析文献与公开报道,梳理总结生成式大语言模型在医疗领域不同任... 目的/意义为快速适应新型人工智能技术发展,精准把握医疗人工智能发展方向,亟须系统地分析和梳理生成式大语言模型在医疗领域的潜在典型应用和面临的挑战。方法/过程调研分析文献与公开报道,梳理总结生成式大语言模型在医疗领域不同任务中的应用尝试和评估结果。结果/结论生成式大语言模型在医疗领域的应用逐渐增多,为医疗服务、医学研究和教育等方面提供智能辅助,同时也面临诸多挑战,如其本身存在的幻觉问题,以及数据隐私保护、伦理、结果可控性和算法可解释性等问题。 展开更多
关键词 生成式语言模型 医疗 人工智能
下载PDF
大规模预训练模型在太空态势感知领域的应用思考
12
作者 尹港港 张峰 郭继光 《空天预警研究学报》 CSCD 2023年第5期355-363,共9页
随着航天科技和人类太空活动的快速演进,太空态势感知(SSA)的需求愈发突出.近些年,大规模预训练模型(LPTMs)在自然语言处理、图像处理、模式识别等领域表现卓越,在SSA中,这些技术也展现出巨大的应用潜力.为有效应对不断演变的太空环境... 随着航天科技和人类太空活动的快速演进,太空态势感知(SSA)的需求愈发突出.近些年,大规模预训练模型(LPTMs)在自然语言处理、图像处理、模式识别等领域表现卓越,在SSA中,这些技术也展现出巨大的应用潜力.为有效应对不断演变的太空环境带来的挑战,首先分析了SSA领域存在的瓶颈问题;然后针对SSA领域中的应用需求,提出了一系列潜在优势和应用方向;最后探讨了大规模预训练模型在SSA领域应用过程中所面临的关键挑战及可能的解决方案. 展开更多
关键词 太空态势感知 大规模预训练模型 自然语言处理 图像处理
下载PDF
生成式预训练语言模型安全风险及评估方法研究 被引量:2
13
作者 李致 陈曲 《电脑知识与技术》 2023年第20期54-56,共3页
生成式预训练语言模型(GPT模型)在自然语言处理领域已得到广泛应用,取得显著成果。然而,GPT类模型在预训练阶段使用大量的未标记数据,可能带来偏见歧视和错误虚假信息;在应用阶段,可能带来泄露隐私及犯罪辅助风险。该文构建了一套从GPT... 生成式预训练语言模型(GPT模型)在自然语言处理领域已得到广泛应用,取得显著成果。然而,GPT类模型在预训练阶段使用大量的未标记数据,可能带来偏见歧视和错误虚假信息;在应用阶段,可能带来泄露隐私及犯罪辅助风险。该文构建了一套从GPT模型项目管理七个维度及模型工程实现三个阶段出发,多角度多维度开展评估,发现安全风险并治理的方法,为完善GPT模型安全治理机制、厘清相关方责任、确保模型应用安全提供了有效途径。 展开更多
关键词 生成式预训练语言模型 GPT 安全风险 治理机制
下载PDF
生成式人工智能影响下的新闻生产创新:实践与挑战 被引量:4
14
作者 周葆华 陆盈盈 《青年记者》 2024年第3期4-11,共8页
本文聚焦生成式人工智能影响下的新闻生产创新实践,通过一系列代表性调查展示了生成式人工智能在国际新闻界的基本采纳状况,重点关注生成式人工智能技术在新闻生产关键领域中的具体实践和创新,包括辅助新闻内容创作、新闻选题与角度、... 本文聚焦生成式人工智能影响下的新闻生产创新实践,通过一系列代表性调查展示了生成式人工智能在国际新闻界的基本采纳状况,重点关注生成式人工智能技术在新闻生产关键领域中的具体实践和创新,包括辅助新闻内容创作、新闻选题与角度、数据新闻、调查与监督报道以及事实核查等,进而分析了生成式人工智能应用于新闻生产创新面临的主要挑战(包括质与量的权衡、新闻文化的挑战以及技术“幻觉”与伦理问题等)。生成式人工智能之于新闻创新的发展,取决于技术和行业的实践、新闻从业者与人工智能的协作调适以及对于新闻业基本价值的始终追求。 展开更多
关键词 生成式人工智能 新闻生产 新闻创新 语言模型
下载PDF
2023 年度十大科技名词揭晓 大语言模型、生成式人工智能入选
15
《中国教育网络》 2023年第11期31-31,共1页
近日,“2023年度十大科技名词”在京发布。“大语言模型”“生成式人工智能”作为前两个名词入选。大语言模型(LLM)大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然... 近日,“2023年度十大科技名词”在京发布。“大语言模型”“生成式人工智能”作为前两个名词入选。大语言模型(LLM)大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。 展开更多
关键词 语言模型 科技名词 人工智能 参数量 自然语言 生成式 文本摘要
下载PDF
生成式语言模型对大学课程论文写作的影响
16
作者 英郑欣 《中文科技期刊数据库(全文版)教育科学》 2023年第11期72-75,共4页
本论文探讨了生成式语言模型(如ChatGPT等)在大学课程论文写作中的教学改革潜力和影响。传统的课程论文写作模式通常侧重于学生的独立思考和研究能力,但随着生成式语言模型的出现,学术写作的方法和要求发生了变化。文章分析了生成式语... 本论文探讨了生成式语言模型(如ChatGPT等)在大学课程论文写作中的教学改革潜力和影响。传统的课程论文写作模式通常侧重于学生的独立思考和研究能力,但随着生成式语言模型的出现,学术写作的方法和要求发生了变化。文章分析了生成式语言模型对学生写作技能、创造性思维和教育实践的影响,同时讨论了如何在教学中充分利用这一技术,以提高学生的写作质量和效率。通过结合理论探讨和实际案例分析,文章旨在为教育领域提供有关教学改革和技术整合的新思路。 展开更多
关键词 课程论文 生成式语言模型 独立思考
下载PDF
JADE-DB:基于靶向变异的大语言模型安全通用基准测试集
17
作者 张谧 潘旭东 杨珉 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1113-1127,共15页
提出大语言模型安全通用基准测试集—JADE-DB,该数据集基于靶向变异方法自动化构建,能够将经验丰富的大语言模型安全测试员和多学科专家学者手工撰写的测试问题转化为高危通用问题,保持语言自然性的同时不改变其核心语义,且能够攻破十... 提出大语言模型安全通用基准测试集—JADE-DB,该数据集基于靶向变异方法自动化构建,能够将经验丰富的大语言模型安全测试员和多学科专家学者手工撰写的测试问题转化为高危通用问题,保持语言自然性的同时不改变其核心语义,且能够攻破十余款国内外知名大语言模型的安全防护机制.根据语言复杂性差异,JADE-DB包含基础、进阶、高危3个安全测试等级,共计上千条覆盖违法犯罪、侵犯权益、歧视偏见和核心价值观4大类违规主题、30多种违规主题的通用测试问题,其中针对国内开源(中文,8款)、国内商用(中文,6款)和国外商用大语言模型(英文,4款)这3组大语言模型分别构建的3款通用高危测试集,可造成每组模型在高危测试集上的平均违规率均超过70%,测试问题均可同时触发多款模型违规生成.这表明,语言的复杂性导致现有大语言模型难以学习到人类无穷多种表达方式,因此无法识别其中不变的违规本质. 展开更多
关键词 生成式人工智能安全 语言模型 语言模型安全评测 人工智能安全 自然语言处理
下载PDF
鹏程·盘古:大规模自回归中文预训练语言模型及应用 被引量:5
18
作者 曾炜 苏腾 +2 位作者 王晖 田永鸿 高文 《中兴通讯技术》 2022年第2期33-43,共11页
在鹏城云脑Ⅱ上训练了全球首个拥有全开源2000亿参数的自回归中文预训练语言大模型——鹏程·盘古。鹏程·盘古模型基于1.1 TB高质量中文训练数据,采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略,从... 在鹏城云脑Ⅱ上训练了全球首个拥有全开源2000亿参数的自回归中文预训练语言大模型——鹏程·盘古。鹏程·盘古模型基于1.1 TB高质量中文训练数据,采用全场景人工智能计算框架MindSpore自动并行技术实现了五维并行训练策略,从而可将训练任务高效扩展到4096个处理器上。对比实验表明,在少样本或零样本情况下,鹏程·盘古模型在多个中文自然语言理解或生成任务上都具有较优的性能。在此基础上,鹏程·盘古模型在大模型压缩、提示微调学习、多任务学习以及持续学习等方面也取得了很好的应用效果。 展开更多
关键词 大规模预训练语言模型 鹏城云脑Ⅱ 大规模分布式训练 中文理解与生成 提示微调学习
下载PDF
大语言模型“数据为王”:训练数据的价值、迷思与数字传播的未来挑战
19
作者 胡泳 刘纯懿 《西北师大学报(社会科学版)》 北大核心 2024年第3期43-54,共12页
伴随着ChatGPT的问世和流行,关于生成式人工智能的意涵和影响迅速成为学界和业界的关注焦点。在这场由大语言模型引领的非监督性深度学习浪潮中,一个核心议题就是训练数据。对训练数据的规模和质量的追求,演绎了“万模大战”形势下的“... 伴随着ChatGPT的问世和流行,关于生成式人工智能的意涵和影响迅速成为学界和业界的关注焦点。在这场由大语言模型引领的非监督性深度学习浪潮中,一个核心议题就是训练数据。对训练数据的规模和质量的追求,演绎了“万模大战”形势下的“数据为王”法则。而在训练数据的价值、功能和误读的背后,是对数据概念的改写、对数据可供性的迷信和对数据所有权的争夺。训练数据的具体架构和内部机制引发了智能传播生态的重建和信息生产秩序的重构,在这一变革之中也蕴藏着大语言模型时代的数字危机,其具体体现为蒸馏式传播的偏见再生产、过滤式传播的信息保守化和随机性传播的意义之消散。大语言模型及其训练数据急需破除规模迷思,着重思考如何让数据切实成为社会技术系统的一部分。 展开更多
关键词 语言模型 训练数据 生成式AI ChatGPT 智能传播
下载PDF
基于生成式逻辑的古籍文献自动化置标语义框架构建与应用研究
20
作者 文玉锋 赵悦言 《图书与情报》 北大核心 2024年第2期126-134,共9页
目前,我国古籍文献的数字化以文献扫描、粗粒度文件管理等浅层知识服务为主,生成式人工智能技术的发展为古籍文献数字化的深度化提供了新的机遇。文章基于框架语义学理论构建置标语义逻辑结构框架,以生成式逻辑向大语言模型提出问题,递... 目前,我国古籍文献的数字化以文献扫描、粗粒度文件管理等浅层知识服务为主,生成式人工智能技术的发展为古籍文献数字化的深度化提供了新的机遇。文章基于框架语义学理论构建置标语义逻辑结构框架,以生成式逻辑向大语言模型提出问题,递归提取古籍语料中深层语义内容,并将其输出为符合置标语义框架的结构化数据,使古籍文本在基础语义层面获得统一的处理逻辑。古籍自动置标语义框架能够实现大规模自动化古籍文献内容结构生成式表征,为古籍整理智能化转型提供一种自动可行的技术方案。 展开更多
关键词 古籍文本 生成式表征 自动置标语义框架 语言模型
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部