期刊文献+

新的开源平台帮助用户评估人工智能聊天机器人的性能

原文传递
导出
摘要 近日,由剑桥大学领导的一个由计算机科学家、工程师、数学家和认知科学家组成的科研团队开发了一个名为CheckMate的开源评估平台,该平台能帮助用户与ChatGPT等人工智能聊天机器人进行交互并评估其性能。以定量的方式评估大语言模型的性能非常重要,而且还需要评估这些系统与人们之间的配合和支持程度。目前,人们还没有全面的方法来评估大语言模型在与人类互动时的表现。虽然大语言模型变得越来越强大,但它们也可能犯错误并提供不正确的信息,随着这些系统越来越融入人们的日常生活,这可能会产生负面影响。
作者 本刊
机构地区 不详
出处 《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第8期178-178,共1页 Data Analysis and Knowledge Discovery
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部