谁来为智能体“上保险”？上海邮电经济研究会学术研讨聚焦评测标准-中新社上海

　　中新网上海新闻4月10日电(郝俊慧郑莹莹)上海邮电经济研究会近日举办的2026年一季度学术研讨会上，一群来自高校、科研院所、电信运营商等的参与者热议一个关键问题——“龙虾”是否安全？智能体的能力与安全又该如何评测？

　　“如果AI的可信度不高，它是不是依旧是一个玩具，抑或只是大家的谈资？评测结果能否成为智能体产品化的前提？”上海邮电经济研究会会长、中国电信上海公司副总经理马明抛出“灵魂拷问”。

　　上海人工智能实验室安全可信AI中心青年研究员汪旭鸿称，智能体安全评测分为L1至L5五个等级，现在大部分机构做的都是L1和L2的测评，突破L3需要各行各业共同搭建基础设施，单个测评机构很难凭一己之力完成。

　　具身智能领域的失衡更为明显。“不是他们不重视，而是AI一旦落入物理世界，遇到的场景复杂度远高于文本大模型，相应的安全风险更是无法‘穷举’。”汪旭鸿说。

　　这让很多公司的智能体安全策略陷入两难：如果限制它的权限，那AI将可能变成“智障”；如果不限制权限，一旦被攻击，后果更严重。

　　当前，阿里、字节、百度等传统“大厂”，和智谱、MiniMax等AI“新贵”，都在推出不同形态的Agent和“龙虾”，借“龙虾”进入垂直赛道的创业公司更不胜枚举。

　　上海计算机软件技术开发中心人工智能治理研究所副所长陈敏刚透露，上海多方参与的“智能体评测指标与方法”的团体标准正在内测中，最快将于今年上半年正式发布。

　　这项标准覆盖了智能体的基础能力、可靠性和安全性、伦理与对齐和应用效能等多维度指标，其中对应用效能的测评尤其值得关注。

　　陈敏刚认为，边界清晰、功能受限的专用智能体可以率先落地，因为风险可控，但可以帮你订外卖、管邮件、操控手机屏幕、处理文件的通用智能体，也就是类似“龙虾”的智能体，功能边界太宽泛，意外发生的路径太多，应该还没有哪个测试机构能给它发通行证。

　　AI从“玩具”向“产品”的跃迁，本质上还是一场关于信任的长跑。“龙虾”热潮的背后，只有构建更严格的安全“栅栏”，智能体才能成为各行各业真正可及的生产力工具。(完)

注：请在转载文章内容时务必注明出处!

编辑：谢梦圆