【A31】大语言模型安全风险检测和防御系统【君同智能】
发布时间: 2023-12-27 14:58:58

1.命题方向

人工智能

2.题目类别

应用类

3.题目名称

大语言模型安全风险检测和防御系统

4.背景说明

【整体背景】

 近期,大语言模型(Large Language Model,简称LLM)研究取得了一系列突破性进展,多家技术企业相继推出商业大模型,如OpenAI的ChatGPT、GPT4,GooglePaLM2,Meta的LLaMA、阿里的通义千问、百度的文心一言等。随着参数量突破千亿级别,大语言模型在处理众多文本任务表现出极强的能力,包括代码生成、文档分析、智能对话等。

大语言模型在快速推动各应用领域变革的同时也衍生出多种安全风险,越狱攻击、提示词泄露等多种针对大模型的攻击方法,能够导致大语言模型生成不良有害内容、信息泄露、恶意指令执行等严重危害。为此,构建一套可落地的大模型风险检测和防御系统,培养一批优秀的大语言模型安全专业人员,对保障大模型的安全合规发展具有重要意义。

【公司背景】

浙江君同智能科技有限责任公司(简称:君同智能)是依托浙江大学建立的智能科技企业,作为一家卓越的人工智能治理服务提供商,面向包括大模型在内的人工智能发展,君同智能致力于提供面向未来社会人工智能风险一站式评测和保障服务,加速各个产业及国家的人工智能发展。

君同智能聚焦于包括大模型在内的人工智能自身安全的评测和增强技术研究,致力于构建人工智能安全的防火墙,为国家和企业提供智能算法的安全保障。君同智能当前的解决方案及应用案例已经获得了包括全国网络安全优秀创新成果奖、CCF首届卓越之星、杭州市十佳数据安全实践案例等诸多认可和成绩。其所研制的智能安全评测与增强平台已陆续服务于工信部、公安部、中国人民银行、字节跳动、海康威视、奇安信等多个部委和大型企业,产生了巨大的社会经济效益。

君同智能研制的相关技术和解决方案,获得了全国网络安全优秀创新成果奖、浙江省网络安全十佳成果奖、工信部试点示范推荐优秀典型解决方案、杭州市十佳数据安全实践案例奖等诸多荣誉。

【业务背景】

大语言模型系统作为人工智能最成熟的应用领域之一,已经大规模落地并服务于人们的日常生活,例如智能客服、个性化创作等。但是,在大模型在商业化落地的同时,大模型本身技术也面临更多方面的威胁。攻击者通过运用一些指令绕过的攻击方式使得大模型输出特定的违规内容,破坏大模型本身的安全系统,将会给社会造成重大的损失。如何监测大模型本身存在的安全漏洞,同时构建安全防御体系正变得越来越重要。

5.项目说明

【问题说明】

大模型技术已在现实生活中大量使用,采用大模型技术可以提高用户的工作效率,改善用户的操作体验。但是,大模型技术本身也面临严峻的安全问题,大模型在服务过程中可能被用户输入特定的指令,从而输入恶意违规的内容。针对大模型的安全攻击包含提示词注入攻击、越狱攻击等。其中提示注入攻击是最为常见的攻击类型,通过使用恶意指令作为输入提示的一部分,操控大语言模型输出特定的内容。

【用户期望】

开发一套大语言模型的安全漏洞查找和安全防御系统,能及时发现大模型自身存在的安全漏洞,并针对检测出的漏洞构建防御体系。

6.任务要求

【开发说明】

算法面向大语言模型在落地应用过程中,要充分考虑大语言模型在落地面临的安全风险,程序应便于部署和使用。

大语言模型安全风险检测和防御系统包含以下两个子模块:

1)大模型漏洞检测模块:针对指定的大语言模型进行全面的安全漏洞检测(包括但不限于提示词注入攻击、Jailbreaking攻击等),生成漏洞检测报告。漏洞检测报告包含:漏洞类型,漏洞说明,漏洞案例等内容。如:存在越狱攻击漏洞:共攻击x次,有效攻击x次,攻击案例:x。

2)大模型安全防御模块:针对大模型存在的安全风险,构建大模型安全防御体系。该模块可以搭载在对应模型输入侧或者输出侧,对模型本身具有安全保障功能。模块能够防御外部利用攻击手段生成的攻击提示词,包括但不限于提示词注入攻击、Jailbreaking攻击。

【技术要求与指标】

1)开发过程中不限制开发语言,开发完可适配CentOS7或者更高版本系统;

2)支持通用性大语言模型检测;

3)模型漏洞检测的准确率不低于80%;

4)防御成功率不低于80%;

5)开发预研与工具不限,可采用开源技术。

【提交材料】

1) 项目概要介绍;

2) 项目简介PPT;

3) 项目详细方案;

4) 项目演示视频;

5) 企业要求提交的材料:

①项目用户使用说明手册;

②如运用了人工智能技术训练数据集,提供详细的数据集介绍与来源说明;

③关键模块的概要设计和创新要点(不超过3个)说明文档;

④完整测试案例文档(大模型测试前后对比)。

6)团队自愿提交的其他补充材料。

【任务清单】

1)需求调研与分析与数据集搜索;

2)软件系统设计,包含概要设计与详细设计;

3)测试案例编写;

4)编码;

5)部署测试环境测试。

【开发工具与数据接口】

7. 其他

8.参考信息

1)Greshake, K., et al. "Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection, May 2023." URL http://arxiv. org/abs/2302.12173.

2) https://github.com/llm-attacks/llm-attacks

9.评分要点

赛题评分要点见附件一:A 类企业命题初赛统一评分标准。

订阅号