“矛”与“盾”角逐努力构建AIGC安全边界-中新社上海

　　中新网上海新闻7月12日电（记者缪璐）7月6日至8日，以“智联世界，生成未来”为主题的2023世界人工智能大会WAIC在上海世博中心举行。此次大会由国家发展和改革委员会、工业和信息化部、科学技术部、国家互联网信息办公室、上海市人民政府等共同主办。

　　大会期间，博特智能分别入选工信部中国信通院《2023大模型和AIGC产业图谱》以及亿欧智库发布的《高投资价值垂直场景服务商榜单》、《人工智能全产业链图谱》、《AIGC原子能力产业图谱》。

　　博特智能联合创始人、副总裁、AI算法负责人周诗林受邀出席“AI商业落地论坛”，并发表《机遇伴随风险，博特智能为AIGC构建安全边界》主题演讲。以下为整理后节选：

　　发展人工智能大模型和应用，不是100米短途冲刺赛，而是5公里耐力赛，要求企业在数据语料、内容风控、场景入口、多模态能力、核心技术算法、语言模型等多领域有深入的能力储备。而生成式AI服务的大规模出现，推动科技向星辰大海探索的同时，也在挑战一系列颠覆现有认知之外的伦理、内容、数据安全问题。

　　以ChatGPT 为代表的生成式人工智能(AIGC)技术快速演进迭代，也在助推网络安全行业的发展。从攻击者的角度来看，恶意攻击代码和钓鱼攻击变得“唾手可得”，大大降低了网络犯罪的门槛，同时加剧了数据泄露以及个人隐私泄露等问题。

　　从防御者的角度来看，生成式人工智能(AIGC)技术浪潮又加快了安全知识与经验的大规模复制速度，提升了安全代码生成、智能研判等领域的实现效率，且为数据安全防护的实现路径提供了新的解决思路。

　　在“矛”与“盾”角逐中，对人工智能领域的安全规范化监管要求也迫在眉睫，从而催生了涵盖生成式人工智能(AIGC)内容鉴伪、安全评估与咨询服务等为代表的一系列AI安全治理相关的全新市场机遇。

　　机遇往往伴随风险同时存在，在大模型加持的AI服务和产品的时代，每天在网络上产生的信息量以指数级爆炸式增加，人工智能创造的内容也越来越频繁地充斥到网络当中。

　　当人工创作与机器创作的内容再也无法轻易区分时，这些起初源于人类的信息，经过机器的理解和整合，又反过来对人类的思维和行为方式产生深刻的影响。人类更弱的控制能力使得内容的风险更多，从技术框架、深度学习框架、开源框架有非常多的代码漏洞。训练数据的异常、人为造成的异常、输出的异常是现在面临的更大风险。具体表现在模型、算法、数据、内容这4个方面构成了AIGC的安全边界。

　　建立在如今的大模型之上的人工智能，与大家在影视作品中所接受的形象有所不同。在影视作品中，人工智能往往被呈现为可以模拟人类的思维、情感和记忆方式的人造生命。然而，现实中的人工智能还远没有达到这种程度，而仅仅是通过模拟人类语言组织习惯来进行交互和处理信息。

　　由于对话式模型对齐微调的过程中以人类评分为奖励目标，使得实现机器与人类的积极交互的过程中，出现的第一个副作用就是模型更多的关注于服从人类指令，顺应人类指令的重要性超过了回答本身，使得用户可以随时命令模型按照自己的意志扭曲回答方式，从而导致人工智能的响应内容缺乏可靠性、真实性、甚至存在偏见和误导。

　　所以，当前的人工智能在以下场景具有明显缺陷：

　　1. 人工智能缺乏承认未知或不确定性的能力，这使得它即使在偏离事实的情况下也会努力完成回答。

　　2. 人工智能倾向于不否认用户输入。不否认输入的前提，使得人对模型的攻击极易奏效。

　　3. 人工智能倾向于承认已发生的错误输出。当它输出了违背事实的内容之后，为保持前后逻辑的顺畅性，它难以违背历史输出，这就是我们通常所说的没有思考能力。

　　在这里分享两个案例，一名执业30年的资深律师，在向法庭提供的文件中引用了6个ChatGPT提供的不存在的案例，面临法庭惩罚。另一位大学教授怀疑学生利用人工智能完成作业，在向ChatGPT询问是否由它写作，得到肯定答复后，试图给所有学生打出不及格成绩。

　　这两个案例中的使用人都在不了解新兴技术原理的情况下，在对人工智能这一概念根深蒂固的传统期望下，误以为机器具有了人的认知和记忆能力以及对自身行为的判断能力，这恰巧反而落入了大模型幻觉的圈套。所以，错误地使用方式将带来难以预料的恶果。

　　如果说大模型幻觉是当前技术发展路线上的缺陷，那对人工智能应用的蓄意攻击则是网络安全威胁在新时代的又一次蜕变。

　　人工智能模型是利用自然语言进行操作的，对其攻击的方式与传统方式大不相同。传统的网络攻击方式通常是发掘和利用技术漏洞，而自然语言的灵活性和不确定性使得攻击者可以通过组织语言向人工智能服务发起攻击，由于模型不能严格遵循人类指令输出，这种攻击方式更加难以防范和杜绝。

　　前不久，AIGC安全实验室发布了国内首份《AIGC安全报告》，总结了10种AIGC技术框架攻击方式，比如，提示注入攻击，数据投毒攻击、模型投毒攻击、模型萃取攻击、拜占庭攻击。希望这份报告能给国内的AIGC研发公司一个指引，引起足够的安全边界的重视。

　　最为普遍有效的攻击方式是诱导模型输出或绕过自己的预设指令及角色，精心构造prompt,来诱导模型产生出乎开发者意料的输出结果，从而绕过开发者对模型输出能力的限制。攻击者还可通过引导模型执行根据用户指令生成的代码，可导致用户敏感文件、密钥等信息泄露。总之，这些攻击方式对于人工智能模型的可信度和安全性提出了极大的挑战。

　　大模型易受攻击的根源在于其最初的训练方式。获得一个具备良好的文字能力的大型语言模型，需要极大规模的参数数量和优质训练语料数量。为满足训练数据的数量要求，开发者会最大化利用所有获取数据的方式，但又无法对训练数据内容进行完整的甄别和清洗。包含隐私、恶意、违规、版权的内容将不可避免的进入训练过程中，也不可避免地出现在模型的输出中。

　　即使我们在后续的强化学习或指令微调中，人为向模型引入对异常输出的回避能力，仍然无法彻底解决模型输出的合规性问题。因为模型在最初的训练步骤中就已经获得了生成和合成不合规内容的能力。

　　这些不合规内容可能是从训练数据中学习到的，也可能是对不同信息模仿或合并获得。由于人工智能模型的复杂性和随机性，我们无法精确控制模型的输出结果，因此也无法完全消除不合规内容的生成。

　　大模型输出不可控的另一个更令人担忧的问题，是用户将大模型应用在不符合设计意图的领域上，深度合成的另一面是深度伪造。随着AIGC应用的持续火爆，对人工智能的滥用现象的担忧也开始兴起。

　　世界各国开始进行了法律法规方面的工作，一方面要求人工智能服务提供商规避有害输出，另外从版权角度，则要求训练不能包含对版权方面违规的信息。我们国家网信办提出的《生成式人工智能服务管理办法》，则更多地关注对深度合成内容的标记、溯源，确保能够避免民众被虚假的伪造内容欺骗。从国内各类监管案例来看，内容安全问题就是0 和1的游戏，一旦出现严重的内容违规问题，面临的处罚也是十分严重。

　　博特智能AIGC安全实验室发布的国内首份《AIGC安全报告》中，有这样一组数据，希望能给大家提供一个参考，AIGC安全实验室对市面上9大领域主流AIGC应用进行了抽样评测(应用类型涵盖Al聊天、Al写作、Al绘画、Al图像、Al文案、Al设计、Al办公、Al音频和Al视频)。评测结果发现97%的应用已经部署内容安全机制，能够对中文提示词和违规内容进行拦截过滤，但通过提示词调整(例如，采用英文提示词或其它描述方式)，99%的AIGC应用仍然会生成违规内容。

　　报告里面还呈现出了一个新的的变化，传统的Al内容识别方式对AIGC内容识别率大幅度降低，尤其在Al写作内容的真实性和Al图像二次创作后的违规识别上表现更为突出。

　　但目前AIGC领域专业的安全产品还非常少。今年3月，微软推出的Microsoft Security Copilot,也是目前市面上唯一一个生成式Al安全产品。回归到国内，“AIGC应用安全评测”和“AIGC内容安全合规评测”两个方向，未来会成为这个领域非常强劲的安全需求方向。

　　一方面需要对AI应用回答的图片、文字、视频进行是否符合道德标准、遗漏的屏蔽词和屏蔽词的变形体、数据质量、数据来源和数据的准确性的审核。

　　另一方面要用AI模型的能力在对内容产生过程中的版权、内容审查和合规性难题进行针对性排查。

　　鉴于大模型的训练特点，想要在训练时就排除全部隐私、违规或其他类型数据，以目前技术水平仍然无法实现，而检测输出数据中的隐私等信息，也同样困难重重。目前，GPT-4的内容过滤准确率也仅有85%左右。所以，AIGC模型和应用在内容合规领域的重点应该是在内容输入和最终输出方面过滤机制的建立和完善，而非只是单独严格阻止模型输出相关信息。

　　最后，大语言模型的时代，新的应用模式会带来一些新型的审查要求，安全合规治理也迫切需要对症解决。（完）

注：请在转载文章内容时务必注明出处!

编辑：缪露