期刊文献+

大语言模型评测综述

Evaluating Large Language Models:A Survey of Research Progress
下载PDF
导出
摘要 大语言模型(Large Language Models, LLMs)在多种自然语言处理(Natural Language Processing, NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。 Large Language Models(LLMs)have demonstrated exceptional performance in various Natural Language Processing(NLP)tasks,providing a potential for achieving general language intelligence.However,their expanding application necessitates more accurate and comprehensive evaluations.Existing evaluation benchmarks and methods still have many short-comings,such as unreasonable evaluation tasks and uninterpretable evaluation results.With increasing attention to robustness,fairness and so on,the demand for holistic,interpretable evaluations is impressing.This paper delves into the current landscape and challenges of LLM evaluation,summarizes existing evaluation paradigms,analyzes limitations,introduces pertinent evaluation metrics and methodologies for LLMs and discusses the ongoing advancements and future directions in the evaluation of LLMs.
作者 罗文 王厚峰 LUO Wen;WANG Houfeng(School of Computer Science,Peking University,Beijing 100871,China)
出处 《中文信息学报》 CSCD 北大核心 2024年第1期1-23,共23页 Journal of Chinese Information Processing
基金 新一代人工智能国家科技重大专项(2022ZD0116308)。
关键词 自然语言处理 大语言模型 模型评测 natural language processing large language models model evaluation
  • 相关文献

参考文献1

共引文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部