摘要
近日,由剑桥大学领导的一个由计算机科学家、工程师、数学家和认知科学家组成的科研团队开发了一个名为CheckMate的开源评估平台,该平台能帮助用户与ChatGPT等人工智能聊天机器人进行交互并评估其性能。以定量的方式评估大语言模型的性能非常重要,而且还需要评估这些系统与人们之间的配合和支持程度。目前,人们还没有全面的方法来评估大语言模型在与人类互动时的表现。虽然大语言模型变得越来越强大,但它们也可能犯错误并提供不正确的信息,随着这些系统越来越融入人们的日常生活,这可能会产生负面影响。
出处
《数据分析与知识发现》
EI
CSSCI
CSCD
北大核心
2024年第8期178-178,共1页
Data Analysis and Knowledge Discovery