-
题名面向大语言模型的越狱攻击与防御综述
- 1
-
-
作者
梁思源
何英哲
刘艾杉
李京知
代朋纹
操晓春
-
机构
中国科学信息工程研究所信息安全重点实验室
新加坡国立大学
华为北京研究所
北京航空航天大学
中山大学
-
出处
《信息安全学报》
CSCD
2024年第5期56-86,共31页
-
基金
国家自然科学基金项目(No.62306308,No.62025604)资助。
-
文摘
大语言模型(LargeLanguageModels,LLMs)由于其出色的性能表现而在各个领域被广泛使用,但是它们在面对精心构建的越狱提示时,往往会输出不正确的内容,由此引发了人们对其伦理问题和道德安全的担忧。攻击者可以在没有了解模型内部结构及安全机制的情况下,通过设计特定的提示语句引发模型生成不恰当的内容。相关领域的专业研究者在分析LLMs的潜在脆弱性后,甚至可以产生人类难以发现,并且越狱成功率极高的自动化越狱攻击方法。为了阻止LLMs的恶意越狱攻击,研究者们提出覆盖LLMs训练到部署全生命周期的防御方法以加强模型的安全性。然而,目前对于大语言模型的综述工作主要集中在越狱攻击方法,并且没有对这些技术手段的特性及关系进行详细分析。此外,对评测基准总结的忽视也限制了该领域的蓬勃发展。因此,本文拟对现有的越狱攻击与防御方法进行全面的回顾。具体而言,我们首先介绍了大语言模型与越狱攻击的相关概念及原理,解释了越狱攻击在模型安全领域的重要性和它对大型语言模型的潜在威胁。接着,从攻击的生成策略回顾了现有的越狱攻击方法,并分析了他们的优缺点,如这些攻击策略如何利用模型的漏洞来实现攻击目标。然后,本文总结了围绕LLMs各个阶段的防御策略,并提供了一个全面的评测基准,详细介绍了如何评估这些防御策略的有效性。最后结合当前面临的挑战,我们对LLMs越狱攻防的未来研究方向进行了总结和展望,指出了未来研究中需要关注的关键问题和潜在的研究方向,以促进大模型的安全与可靠性发展。
-
关键词
越狱攻击
越狱防御
大语言模型
深度学习
可信人工智能
-
Keywords
jailbreak attack
jailbreak defense
large language model
deep learning
trustworthy artificial intelligence
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-