大语言模型评测综述

Evaluating Large Language Models:A Survey of Research Progress

下载PDF

导出

摘要大语言模型(Large Language Models, LLMs)在多种自然语言处理(Natural Language Processing, NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。 Large Language Models(LLMs)have demonstrated exceptional performance in various Natural Language Processing(NLP)tasks,providing a potential for achieving general language intelligence.However,their expanding application necessitates more accurate and comprehensive evaluations.Existing evaluation benchmarks and methods still have many short-comings,such as unreasonable evaluation tasks and uninterpretable evaluation results.With increasing attention to robustness,fairness and so on,the demand for holistic,interpretable evaluations is impressing.This paper delves into the current landscape and challenges of LLM evaluation,summarizes existing evaluation paradigms,analyzes limitations,introduces pertinent evaluation metrics and methodologies for LLMs and discusses the ongoing advancements and future directions in the evaluation of LLMs.

作者罗文王厚峰 LUO Wen;WANG Houfeng(School of Computer Science,Peking University,Beijing 100871,China)

机构地区北京大学计算机学院

出处《中文信息学报》 CSCD 北大核心 2024年第1期1-23,共23页 Journal of Chinese Information Processing

基金新一代人工智能国家科技重大专项(2022ZD0116308)。

关键词自然语言处理大语言模型模型评测 natural language processing large language models model evaluation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1董青秀,穗志方,詹卫东,常宝宝.自然语言处理评测中的问题与对策[J].中文信息学报,2021,35(6):1-15. 被引量：9

共引文献8

1饶高琦,王诚文.面向语言智能的语言资源标准化[J].语言规划学研究,2023(1):20-27.
2詹卫东,孙春晖,岳朋雪,唐乾桐,秦梓巍.空间语义理解能力评测任务设计的新思路—SpaCE2021数据集的研制[J].语言文字应用,2022(2):99-110. 被引量：1
3林晓兰,梁铭标,王浩,张志辉,江之晗,麻硕,钱鹏,谷祥拓,陈秀娟,黄帅,梁会营.面向中文医学文本的知识图谱通用评测系统设计[J].医疗卫生装备,2023,44(1):13-18. 被引量：1
4陈果,姚游倩.情报学研究的可靠性评估:内涵、进展与对策[J].情报理论与实践,2023,46(4):74-81.
5金独亮,范永胜,张琪.文本摘要评测方法的语义损失度[J].计算机与现代化,2023(3):84-89.
6王诚文,董青秀,穗志方,詹卫东,常宝宝,王海涛.自然语言处理评测数据集质量评估研究[J].中文信息学报,2023,37(2):26-40. 被引量：2
7岳朋雪,王诚文,孙春晖,詹卫东,穗志方.中文空间语义理解评测数据集质量评估研究[J].语言文字应用,2023(1):101-113.
8饶高琦,胡星雨,易子琳.语言资源视角下的大规模语言模型治理[J].语言战略研究,2023,8(4):19-29. 被引量：4

1本刊.北京重卡荣膺“2024中国年度卡车(CTOY 2024)”[J].商用汽车,2023(6):14-16.
2王嵩立,荆一楠,何震瀛,张凯,王晓阳.支持混合事务和分析处理的数据库管理系统综述[J].软件学报,2024,35(1):405-429.
3Xin-Qiao Liu,Zi-Ru Zhang.Potential use of large language models for mitigating students’problematic social media use:ChatGPT as an example[J].World Journal of Psychiatry,2024,14(3):334-341.
4刘帅,乔颖,罗雄飞,赵怡婧,王宏安.时序数据库关键技术综述[J].计算机研究与发展,2024,61(3):614-638.
5丁琳琳,胡永亮,李昱达,王凯璐,王慧颖.基于条件对抗增强的Transformer煤矿微震定位方法[J].计算机与数字工程,2024,52(1):1-8.
6韩鹏军,曹慧,曹文桥.基于计算机网络安全技术的态势感知防御方法[J].信息技术,2024,48(3):188-194.
7阳振坤,杨传辉,韩富晟,王国平,杨志丰,成肖君.OceanBase分布式关系数据库架构与技术[J].计算机研究与发展,2024,61(3):540-554.
8何炜琪,陈蓉,陆智翔,马旭,吴志杰.基于工况数据的烟尘排放异常检测[J].环境工程,2024,42(1):79-84.
9林立涛,吴梦成,刘畅,胡蝶,王东波,黄水清.文本主题视角下多标签分类技术驱动的网络学术社区答案排序研究[J].图书情报工作,2024,68(5):121-131.
10孙莉莉,安外尔·约麦尔阿卜拉,刘富中,布尔兰·叶尔肯别克,迪丽娜尔·叶尔夏提,郭文佳.基于肿瘤相关成纤维细胞基因构建乳腺癌预后预测模型及免疫浸润分析[J].生物技术进展,2024,14(2):312-322.

中文信息学报

2024年第1期

浏览历史

内容加载中请稍等...

大语言模型评测综述

参考文献1

共引文献8

相关作者

相关机构

相关主题

浏览历史