近日,第三十八届神经信息处理系统年会(NeurIPS 2024)特设官方赛——大语言模型和智能体安全竞赛(CLAS)圆满落幕。本次竞赛由加利福尼亚大学伯克利分校、伊利诺伊大学厄巴纳-香槟分校、Salesforce等国际知名研究机构与企业联合命题组织,吸引了来自剑桥大学、芝加哥大学、密歇根大学、微软、三星、亚马逊等研究机构的人工智能安全领域研究人员组成的超过30支队伍参与角逐。由浙江大学区块链与数据安全全国重点实验室人工智能数据安全团队独立组成的参赛队伍“W0r1d 0ne”和“LlaXa”荣获该项赛事全部三个赛道中的两个赛道冠军、一个赛道亚军以及赛事最佳黑盒越狱攻击方法特别奖,展现了团队卓越的专业素养、创新的思维能力和扎实的技能基础。
神经信息处理系统年会大语言模型和智能体安全竞赛
赛事介绍
NeurIPS是机器学习领域三大旗舰会议之一,也是中国计算机学会A类推荐会议。大语言模型和智能体安全竞赛(CLAS)是本届NeurIPS的特设官方竞赛。竞赛聚焦大语言模型(LLM)和智能体(Agent)的安全性,汇聚全球顶尖的研究人员、开发人员和从业人员,共同面对并解决人工智能安全领域面临的重大挑战。
参赛者的任务是设计与实现创新解决方案,诱导LLM和Agent的有害输出,并恢复LLM和Agent的后门触发机制。竞赛不仅能够激发技术创新,还将促进业界对人工智能安全影响的深入理解,有助于推动整个领域向构建更加安全、可靠的AI系统目标前进。
赛道介绍
CLAS竞赛于2024年7月底开始,设有大模型越狱、大模型后门触发器恢复、网络智能体后门触发器恢复三个赛道,每个赛道都设置了极具挑战性的任务和评测指标,旨在全面考察参赛团队在LLM安全应用方面的技术实力和创新能力。
赛道一:大模型越狱
该赛道模拟真实世界中LLM与用户互动的场景,针对LLM需遵循的安全要求——避免产生有害、误导性或不恰当内容,要求参赛者开发自动化方法,通过优化给定的原始有害提示,成功越狱给定的经过安全对齐的LLM,即针对主办方提供的Llama3-8B-Instruct、Gemma-2b-it模型以及另一未公开的黑盒目标模型(赛后公布为Qwen2.5-7B-Instruct),使其输出有害内容。赛道对越狱效果的评估,采用了包括越狱成功率、模型输出危害程度以及原始提示修改幅度在内的多项综合指标,并设定了三个不同架构与规模的越狱目标LLM。
赛道二:大模型后门触发器恢复
该赛道专注于代码生成LLM,模拟实际应用中LLM可能遭受恶意后门注入的情形,要求参赛者针对主办方部署的基于CodeQwen1.5-7B微调后已植入多个后门的模型,开发算法识别每个目标代码对应的触发字符串。
赛道三:网络智能体后门触发器恢复
该赛道聚焦于由LLM驱动的Web Agent,模拟实际应用中Agent在遭受后门攻击后可能执行有害操作的实际场景,针对主办方部署的基于Llama3-8B微调的后门植入LLM Agent,要求参赛者设计一种针对Web Agent应用相关任务的后门触发器恢复算法,预测给定的后门目标及其关联网页的触发字符串。
团队介绍
获奖成员来自浙江大学区块链与数据安全全国重点实验室的人工智能数据安全团队,其中参赛学生为陈禹坤、杨亦齐、何宇、付弘烨、朱奕帆,牟芷仪,指导教师为任奎教授、秦湛研究员、巴钟杰研究员、王庆龙研究员、褚志轩研究员、郑天航研究员、李一鸣研究员。
人工智能安全理论及验证平台AIcert
团队成员长期聚焦人工智能安全评测,依托浙江大学区块链与数据安全全国重点实验室,构建了人工智能安全理论及验证平台AIcert,为AI系统周期各阶段提供安全评测与防御加固。AIcert围绕AI系统数据空间三域(源域、表征域、目标域)提出全新安全评测方法论与超过40种安全评测创新方法,针对三组九大类人工智能模型,制定首个覆盖14个核心安全指标维度的86项评测指标的自动化测评体系,全面涵盖人工智能安全的各项应用场景,并通过自主构建和系统化汇总,建立了覆盖5类传统模型的包含超3000万条数据的评测数据集、面向大语言和多模态大模型的1000个高质量的越狱攻击评测模版集以及超1600万条覆盖各模态模型内容安全的评测数据集。当前,AIcert针对数据空间的三域安全威胁,已经对管理部门注册大模型、智能车AI模型、华为昇腾环境下AI模型以及多个垂域大模型的超过130种AI模型,完成模型鲁棒性能分析、大模型生成内容安全等多维度安全评测分析任务,生成相应报告与榜单。团队参与本次竞赛三个赛道的大模型安全检测技术均来自AIcert平台并已落地部署。