ChatGPT大模型技术发展与应用被引量：6

Large Language Model ChatGPT:Evolution and Application

下载PDF

导出

摘要通过回顾深度学习、语言模型、语义表示和预训练技术的发展历程,全面解析了ChatGPT的技术渊源和演进路线。在语言模型方面,从早期的N-gram统计方法逐步演进到神经网络语言模型,通过对机器翻译技术的研究和影响也催生了Transformer的出现,继而又推动了神经网络语言模型的发展。在语义表示和预训练技术发展方面,从早期的TF-IDF、pLSA和LDA等统计方法发展到Word2Vec等基于神经网络的词向量表示,继而发展到ELMo、BERT和GPT-2等预训练语言模型,预训练框架日益成熟,为模型提供了丰富的语义知识。GPT-3的出现揭示了大语言模型的潜力,但依然存在幻觉问题,如生成不可控、知识谬误及逻辑推理能力差等。为了缓解这些问题,ChatGPT通过指令学习、监督微调、基于人类反馈的强化学习等方式在GPT-3.5上进一步与人类进行对齐学习,效果不断提升。ChatGPT等大模型的出现,标志着该领域技术进入新的发展阶段,为人机交互以及通用人工智能的发展开辟了新的可能。 This paper comprehensively analyzes the technical origins and evolution of ChatGPT by reviewing the development of deep learning,language models,semantic representation and pre-training techniques.In terms of language models,the early N-gram statistical method gradually evolved into the neural network language models.Researches and advancements on machine translation also led to the emergence of Transformer,which in turn catalyzed the development of neural network language models.Recording semantic representation and pre-training techniques,there has been an evolution from early statistical methods such as TF-IDF,pLSA and LDA,to neural network-based word vector representations like Word2Vec,and then to pre-trained language models,like ELMo,BERT and GPT-2.The pre-training frameworks have become increasingly sophisticated,providing rich semantic knowledge for models.The emergency of GPT-3 revealed the potential of large language models,but hallucination problems like uncontrollable generation,knowledge fallacies and poor logical reasoning capability still existed.To alleviate these problems,ChatGPT aligned further with humans on GPT⁃3.5 through instruction learning,supervised fine-tuning,and reinforcement learning from human feedback,continuously improving its capabilities.The emergency of large language models like ChatGPT signifies this field entering a new developmental stage,opening up new possibilities for human-computer interaction and general artificial intelligence.

作者夏润泽李丕绩 XIA Runze;LI Piji(College of Computer Science and Technology,Nanjing University of Aeronautics&Astronautics,Nanjing 211106,China;MIIT Key Laboratory of Pattern Analysis and Machine Intelligence(Nanjing University of Aeronautics&Astronautics),Nanjing 211106,China)

机构地区南京航空航天大学计算机科学与技术学院模式分析与机器智能工业和信息化部重点实验室(南京航空航天大学)

出处《数据采集与处理》 CSCD 北大核心 2023年第5期1017-1034,共18页 Journal of Data Acquisition and Processing

关键词自然语言处理语言模型预训练技术 ChatGPT natural language processing language model pre-training technique ChatGPT

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献36

1石中英.论教育实践的逻辑[J].教育研究,2006,27(1):3-9. 被引量：358
2王红军,迟忠先.编队干扰方案协同决策研究[J].系统工程理论与实践,2007,27(4):171-176. 被引量：22
3刘金星,佟明安.多智能体作战飞机协同空战指挥控制的若干技术问题[J].电光与控制,2007,14(3):154-157. 被引量：9
4包林波,季新源,陈希林,杨小亮.空中异常情况网络计划处置方法[J].兵工自动化,2015,34(7):24-27. 被引量：3
5胡晓峰,郭圣明,贺筱媛.指挥信息系统的智能化挑战——“深绿”计划及AlphaGo带来的启示与思考[J].指挥信息系统与技术,2016,7(3):1-7. 被引量：49
6曹培杰.智慧教育:人工智能时代的教育变革[J].教育研究,2018,39(8):121-128. 被引量：208
7张庆海,陈霖.基于规则引擎的事件集成框架[J].指挥信息系统与技术,2016,7(5):90-95. 被引量：2
8张维明,黄松平,朱承,刘俊先,孙立健.指挥控制的新范式:边缘指挥控制[J].指挥信息系统与技术,2021,12(1):1-7. 被引量：21
9岳增营,叶霞,刘睿珩.基于语言模型的预训练技术研究综述[J].中文信息学报,2021,35(9):15-29. 被引量：41
10余跃,刘欣,蒋芳清,张晗,王晖,曾炜.支持鹏程系列开源大模型应用生态演化的可持续学习能力探索[J].智能科学与技术学报,2022,4(1):97-108. 被引量：1

引证文献6

1陶炜,沈阳.从ChatGPT到Sora:面向AIGC的四能教育和范式革新[J].现代教育技术,2024,34(4):16-27.
2林晖,郭庆浪,王迎雪,黄虎.大模型在社会治理应用中的偏见性检测方法[J].中国电子科学研究院学报,2024,19(1):69-75.
3李荣涵,浦荣成,沈佳楠,李栋栋,苗启广.基于思维链的大语言模型知识蒸馏[J].数据采集与处理,2024,39(3):547-558.
4吴晓宁,李瑞欣,王浪,刘文杰,王宏伟,朱新立,宋江帆,袁梦.基于大模型的联动处置多智能代理协同框架[J].数据采集与处理,2024,39(3):559-576.
5谢思静,文鼎柱.基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法[J].数据采集与处理,2024,39(3):577-587.
6崔翛龙,高志强,姬纬通,沈佳楠,张敏,邱鑫源.“艾武大模型+”:一种军事大模型系统的开发与实证[J].数据采集与处理,2024,39(3):588-597.

1吴丹,陈铭炯.项目化教学在《工业产品设计》Solid Works软件教学中的应用[J].中国科技期刊数据库科研,2023(7):78-81.
2谭建军.深度学习视域下的高中历史课堂文化重构[J].中学历史教学,2023(6):25-27.
3宫昀.基于Transformer模型的神经机器翻译改进方法研究[J].自动化与仪器仪表,2023(8):257-261. 被引量：1
4张雨乐,庄夏,戴敏.基于Transformer架构的GPT系列模型训练技术分析[J].中国民航飞行学院学报,2023,34(5):16-18. 被引量：2
5余文涛,陈梦鑫.中国自贸试验区的历史逻辑、发展实践及未来展望——自贸试验区设立10周年的研究述评与实践回顾[J].财经问题研究,2023(9):3-16. 被引量：3
6叶水欢,葛寅辉,陈波,于泠.基于ELMo-TextCNN的网络欺凌检测模型[J].信息安全研究,2023,9(9):868-876. 被引量：1
7贺兴,李琳琳.青少年正念心理健康课程的设计与实施[J].辽宁教育,2023(18):60-63.
8董建斌.中职院校技能大赛训练技术分析与探索[J].新智慧,2023(20):78-80.
9刘降斌,祃玉帅.黑龙江省经济高质量发展与生态环境保护耦合协调发展研究[J].商业经济,2023(9):1-5.
10蒯望舒.“三全育人”视域下的外语课程思政教学模式探索——评《外语课程“三全育人”的理论与实践研究》[J].中国教育学刊,2023(8). 被引量：1

数据采集与处理

2023年第5期

浏览历史

内容加载中请稍等...

ChatGPT大模型技术发展与应用被引量：6

同被引文献36

引证文献6

相关作者

相关机构

相关主题

浏览历史

ChatGPT大模型技术发展与应用 被引量：6

同被引文献36

引证文献6

相关作者

相关机构

相关主题

浏览历史

ChatGPT大模型技术发展与应用被引量：6