近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力.然而,越狱攻击正成为大语言模型的新兴威胁.越狱攻击能够绕过大语言模型的安全机制,削弱价值观对...近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力.然而,越狱攻击正成为大语言模型的新兴威胁.越狱攻击能够绕过大语言模型的安全机制,削弱价值观对齐的影响,诱使经过对齐的大语言模型产生有害输出.越狱攻击带来的滥用、劫持、泄露等问题已对基于大语言模型的对话系统与应用程序造成了严重威胁.对近年的越狱攻击研究进行了系统梳理,并基于攻击原理将其分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类.详细总结了相关研究的基本原理、实施方法与研究结论,全面回顾了大语言模型越狱攻击的发展历程,为后续的研究提供了有效参考.对现有的安全措施进行了简略回顾,从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术,并对不同方法的利弊进行了罗列与比较.在上述工作的基础上,对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨,并结合多模态、模型编辑、多智能体等方向进行研究展望.展开更多
目的系统评价精神分裂症患者攻击暴力行为风险预测模型。方法通过PubMed、Web of Science、EBSCO、Embase、The Cochrane Library、中国知网、维普数据库、万方数据库以及中国生物医学文献数据库等数据库,对精神分裂症攻击暴力行为有关...目的系统评价精神分裂症患者攻击暴力行为风险预测模型。方法通过PubMed、Web of Science、EBSCO、Embase、The Cochrane Library、中国知网、维普数据库、万方数据库以及中国生物医学文献数据库等数据库,对精神分裂症攻击暴力行为有关风险预测模型的文献进行全面检索,时限为2000年1月~2024年4月。由2名研究者独立进行文献筛选、资料提取和质量评价。结果纳入17篇文献,共包括48个风险预测模型,17个代表模型受试者工作特征曲线下面积(AUC)介于0.630~0.955之间。纳入模型的总体偏倚风险较高,主要原因为数据多来自单中心且样本量较小、缺失数据处理不当、存在过度拟合问题以及将连续性变量转换为二分类变量等。结论精神分裂症患者攻击暴力行为风险预测模型存在一定偏倚风险、适用性水平和整体预测性能较好,部分预测模型已经深入探索了机器学习算法的应用,并显示出相较于传统风险预测模型更优的预测效能。展开更多
文摘近年来,大语言模型(large language model,LLM)在一系列下游任务中得到了广泛应用,并在多个领域表现出了卓越的文本理解、生成与推理能力.然而,越狱攻击正成为大语言模型的新兴威胁.越狱攻击能够绕过大语言模型的安全机制,削弱价值观对齐的影响,诱使经过对齐的大语言模型产生有害输出.越狱攻击带来的滥用、劫持、泄露等问题已对基于大语言模型的对话系统与应用程序造成了严重威胁.对近年的越狱攻击研究进行了系统梳理,并基于攻击原理将其分为基于人工设计的攻击、基于模型生成的攻击与基于对抗性优化的攻击3类.详细总结了相关研究的基本原理、实施方法与研究结论,全面回顾了大语言模型越狱攻击的发展历程,为后续的研究提供了有效参考.对现有的安全措施进行了简略回顾,从内部防御与外部防御2个角度介绍了能够缓解越狱攻击并提高大语言模型生成内容安全性的相关技术,并对不同方法的利弊进行了罗列与比较.在上述工作的基础上,对大语言模型越狱攻击领域的现存问题与前沿方向进行探讨,并结合多模态、模型编辑、多智能体等方向进行研究展望.
文摘目的系统评价精神分裂症患者攻击暴力行为风险预测模型。方法通过PubMed、Web of Science、EBSCO、Embase、The Cochrane Library、中国知网、维普数据库、万方数据库以及中国生物医学文献数据库等数据库,对精神分裂症攻击暴力行为有关风险预测模型的文献进行全面检索,时限为2000年1月~2024年4月。由2名研究者独立进行文献筛选、资料提取和质量评价。结果纳入17篇文献,共包括48个风险预测模型,17个代表模型受试者工作特征曲线下面积(AUC)介于0.630~0.955之间。纳入模型的总体偏倚风险较高,主要原因为数据多来自单中心且样本量较小、缺失数据处理不当、存在过度拟合问题以及将连续性变量转换为二分类变量等。结论精神分裂症患者攻击暴力行为风险预测模型存在一定偏倚风险、适用性水平和整体预测性能较好,部分预测模型已经深入探索了机器学习算法的应用,并显示出相较于传统风险预测模型更优的预测效能。