大型语言模型:原理、实现与发展被引量：8

Large Language Models:Principles,Implementation,and Progress

下载PDF

导出

摘要近年来,大型语言模型的出现和发展对自然语言处理和人工智能领域产生了变革性影响.随着不断增大模型参数量和训练数据量,语言模型的文本建模困惑度以可预测的形式降低,在各类自然语言处理任务上的表现也持续提升.因此,增加语言模型的参数和数据规模成为提升系统智能水平富有前景的途径.首先回顾了大型语言模型的基本定义,从模型表现和算力需求的角度给出了“大型”语言模型的界定标准.其次,从数据、算法、模型3个维度梳理了大型语言模型的发展历程及规律,展示了不同阶段各个维度的规模化如何推动语言模型的发展.接着,考察了大型语言模型所表现出的涌现能力,介绍了思维链、情景学习和指令遵循等关键涌现能力的相关研究和应用现状.最后,展望了大型语言模型的未来发展和技术挑战. In recent years,the emergence and development of large language models(LLMs)have revolutionized the field of natural language processing and even artificial intelligence.With the increasing number of model parameters and training data,the perplexity of language models decreases in a predictable manner,which implies the improvement of performance on various natural language processing tasks.Therefore,scaling up language models has been a promising way to improve the system intelligence.In this survey,we first review the definition and scope of LLMs and provide a scale standard to distinguish“large”language models from the perspectives of performance and computing.Then,we review the development and representative work of LLMs in three dimensions:data,algorithm,and model architecture,showing how up-scaling in these dimensions drives the development of LLMs at different stages.Next,we discuss the emergent abilities of LLMs and possible interpretations behind them.We highlight three key emergent abilities,i.e.,chain-of-thought prompting,in-context learning,and instruction-following,introducing their related advances and applications.Finally,we outline some potential directions and challenges of LLMs.

作者舒文韬李睿潇孙天祥黄萱菁邱锡鹏 Shu Wentao;Li Ruixiao;Sun Tianxiang;Huang Xuanjing;Qiu Xipeng(School of Computer Science,Fudan University,Shanghai 200433)

机构地区复旦大学计算机科学技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2024年第2期351-361,共11页 Journal of Computer Research and Development

关键词自然语言处理神经网络大型语言模型预训练对齐 natural language processing neural networks large language models pre-training alignment

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1陈宇飞,沈超,王骞,李琦,王聪,纪守领,李康,管晓宏.人工智能系统安全与隐私风险[J].计算机研究与发展,2019,56(10):2135-2150. 被引量：51

二级参考文献2

1范正光,屈丹,闫红刚,张文林.基于深层神经网络的多特征关联声学建模方法[J].计算机研究与发展,2017,54(5):1036-1044. 被引量：6
2王娟娟,乔颖,王宏安.基于图模型的自动驾驶推理任务调度[J].计算机研究与发展,2017,54(8):1693-1702. 被引量：4

共引文献50

1Anmin Li,Xiaohui Yao,Haiying Gu,Yungeng Zhang,Yuan Chang.Towards building a firm metaverse security base[J].Security and Safety,2023,2(2):57-71. 被引量：1
2贺奕静,杨智勇,刘晓倩.人工智能环境下数字档案资源共享的SWOT分析[J].山西档案,2022(4):95-103. 被引量：4
3赵宏,常有康,王伟杰.深度神经网络的对抗攻击及防御方法综述[J].计算机科学,2022,49(S02):662-672. 被引量：8
4杨蓉.从信息安全、数据安全到算法安全——总体国家安全观视角下的网络法律治理[J].法学评论,2021(1):131-136. 被引量：65
5王嘉凯,刘艾杉,李思民,刘祥龙,吴文峻.智能系统全生命周期安全测试理论与方法[J].智能安全,2023,2(1):27-36.
6林彬.试论基于人工智能系统的安全及其隐私风险探析[J].数码设计,2019,8(20):26-26.
7徐大海.人工智能系统安全与隐私风险[J].电子技术与软件工程,2020(6):230-231.
8李辉,王迎春.人工智能与国家安全:主要内涵及美国的战略认知[J].全球科技经济瞭望,2020,35(2):21-25. 被引量：1
9罗长银,陈学斌,宋尚文,刘洋.数据预处理技术在异构数据中的应用[J].软件,2020,41(5):6-13. 被引量：5
10胡启实,余卫星.基于人工智能的多媒体数据库在线整合系统设计[J].现代电子技术,2021,44(2):127-130. 被引量：1

同被引文献60

1方师师,郑亚楠.计算知识:人工智能参与知识生产的逻辑与反思[J].新闻与写作,2018,0(12):40-47. 被引量：19
2蓝江.后真相时代意味着客观性的终结吗[J].探索与争鸣,2017(4):10-13. 被引量：99
3钟义信.人工智能:概念·方法·机遇[J].科学通报,2017,62(22):2473-2479. 被引量：155
4克劳斯.迈因策尔,贾积有.人工智能与机器学习:算法基础和哲学观点[J].上海师范大学学报（哲学社会科学版）,2018,47(3):13-24. 被引量：21
5李伦.“楚门效应”:数据巨机器的“意识形态”——数据主义与基于权利的数据伦理[J].探索与争鸣,2018(5):29-31. 被引量：36
6高兆明.“数据主义”的人文批判[J].江苏社会科学,2018(4):162-170. 被引量：34
7郭凯明.人工智能发展、产业结构转型升级与劳动收入份额变动[J].管理世界,2019,35(7):60-77. 被引量：518
8林建武.数据主义与价值重估:数据化的价值判断[J].云南社会科学,2020(3):45-51. 被引量：15
9李晓理,张博,王康,余攀.人工智能的发展及应用[J].北京工业大学学报,2020,46(6):583-590. 被引量：72
10肖峰.人工智能与认识论的哲学互释:从认知分型到演进逻辑[J].中国社会科学,2020(6):49-71. 被引量：53

引证文献8

1魏楚元,王昕,周小平,赵光哲,黄明.大型语言模型及其在建筑行业应用研究综述[J].北京建筑大学学报,2024,40(2):1-14. 被引量：1
2王晓璐,杨云轩,谢阳斌.创造人机对话式学习新形态--大语言模型的教育应用现状与展望[J].中小学信息技术教育,2024(5):15-17. 被引量：1
3庞进喜.大模型在汽车国际化多语言处理中的应用[J].中国汽车,2024(5):14-20.
4马伟民.自然语言大模型技术在政务服务智能客服系统建设中的应用[J].信息与电脑,2024,36(8):86-88. 被引量：1
5曾白凌.“被中介的真理”:Sora对媒介相合性的追问[J].现代传播（中国传媒大学学报）,2024,46(5):1-10. 被引量：2
6童俊杰,申佳,赫罡,张奎.运营商智算中心建设思路及方案[J].邮电设计技术,2024(9):68-73.
7刘同军.生成式人工智能革新数学教学:场景与案例[J].中学数学杂志,2024(10):1-4.
8朱嘉琳,常永波,陈俊琰.上海大模型产业发展现状、优势及建议[J].电子商务评论,2024,13(2):986-990.

二级引证文献5

1黄兆旭,宣蔚.多维参数组合的建筑形态生成方法及应用——以低层办公建筑为例[J].北京建筑大学学报,2024,40(3):77-85.
2胡燕,胡义姗.生成式人工智能赋能初中语文跨学科主题教学——以“茶文化”主题为例[J].中小学信息技术教育,2024(9):8-10.
3姜华.何种媒介,哪类知识:试析作为知识媒介的生成式人工智能[J].现代出版,2024(9):26-37. 被引量：1
4王雷.有意义人类控制(MHC)在AI影视创作中的探索与应用[J].现代电影技术,2024(9):12-17.
5李娟.自然语言处理在智能客服系统中的应用[J].信息记录材料,2024,25(11):85-87.

1赖鸣姝.基于Transformer的自然语言处理模型综述[J].人工智能与机器人研究,2023,12(3):219-225.
2贾敏,高丹青.高职思政教师职业能力提升路径研究[J].中国科技期刊数据库科研,2024(1):0083-0086.
3李华东,程馨蕊,段德罡,丁春梅,王彦辉,熊祥瑞,王志刚,张崟,胡彬彬,范哲林,刘卫红,赵晓梅,但文红,李亮,李传欢.笔谈:遗产活态保护传承与乡村可持续发展[J].中国文化遗产,2023(5):4-31. 被引量：7
4郑雨杭,蒋松,周奇,廖慧敏,李玉和,曾明.3DP打印砂型(芯)的研究及应用进展[J].热加工工艺,2023,52(23):29-34.
5刘伊玲,王胡燕,杨本富,王聪杰,赵样.智能小档:基于深度学习的智能化科技档案管理的应用研究[J].山西档案,2023(5):136-142. 被引量：3
6杜艳霞,赵飞燕,李小燕,王强,马越.我国低爆速铵油炸药研究和应用现状[J].火工品,2024(1):91-96.
7鲁星月.人工智能技术在城镇燃气管道工程管理中的应用研究[J].中国科技期刊数据库工业A,2024(1):0164-0167.
8董晓娜,胡荣俊,游胜勇,孙复钱,王书芬,程梓瑶.新型环保型建筑节能材料的研究进展[J].生物化工,2023,9(6):152-155. 被引量：1
9邢至晖.新学习宣言:成就网络化时代的T型人才[J].教育,2024(2):1-1.
10任宗强,刘庆晗,陈婷.留学生创业课程的情景嵌入式教学设计[J].宁波教育学院学报,2023,25(6):67-70.

计算机研究与发展

2024年第2期

浏览历史

内容加载中请稍等...

大型语言模型:原理、实现与发展被引量：8

参考文献1

二级参考文献2

共引文献50

同被引文献60

引证文献8

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

大型语言模型:原理、实现与发展 被引量：8

参考文献1

二级参考文献2

共引文献50

同被引文献60

引证文献8

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

大型语言模型:原理、实现与发展被引量：8