新的开源平台帮助用户评估人工智能聊天机器人的性能

导出

摘要近日,由剑桥大学领导的一个由计算机科学家、工程师、数学家和认知科学家组成的科研团队开发了一个名为CheckMate的开源评估平台,该平台能帮助用户与ChatGPT等人工智能聊天机器人进行交互并评估其性能。以定量的方式评估大语言模型的性能非常重要,而且还需要评估这些系统与人们之间的配合和支持程度。目前,人们还没有全面的方法来评估大语言模型在与人类互动时的表现。虽然大语言模型变得越来越强大,但它们也可能犯错误并提供不正确的信息,随着这些系统越来越融入人们的日常生活,这可能会产生负面影响。

作者本刊

机构地区不详

出处《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第8期178-178,共1页 Data Analysis and Knowledge Discovery

关键词智能聊天机器人开源平台计算机科学家语言模型用户评估科研团队需要评估评估平台

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

1任腾云.智能聊天机器人在财务咨询领域的应用实践[J].商业会计,2024(19):27-31.
2方舟.用机器人观察海洋生物[J].海洋世界,2024(10):88-91.
3贾建鑫.学习《论党的自我革命》的感悟[J].冶金企业文化,2024(5):37-38.
4征文主题预告[J].快乐语文,2024(29):13-13.
5物理奇才.智慧伙伴,引领沟通新时代[J].天天爱科学,2024(20):39-43.
6张立东.上海轨道交通智慧视觉实验室建设方案[J].城市轨道交通研究,2024,27(12):291-295.
7孙怡然.神秘的三全音错觉[J].大众心理学,2024(11):34-36.
8张麒.ChatGPT在“生物医学传感器及测量”课程中的教学实践[J].电气电子教学学报,2024,46(4):139-141.
9陈丽琴.聚焦“四个转变”做深做实做细监督预防[J].政工学刊,2024(12):60-61.
10Dmitri Shek,Bo Gao,Hema Mahajan,Adnan Nagrial,Matteo S.Carlino,Fabio Luciani,Scott A.Read,Golo Ahlenstiel.In-depth profiling of tumor tissue derived from malignant pleural mesothelioma patients identifies potential biomarkers predicting response to immune-checkpoint inhibitor therapy[J].Genes & Diseases,2024,11(6):28-31.

数据分析与知识发现

2024年第8期

浏览历史

内容加载中请稍等...

新的开源平台帮助用户评估人工智能聊天机器人的性能

相关作者

相关机构

相关主题

浏览历史