
中新网上海新闻7月29日电(记者 李佳佳)未来,人形机器人最早会落地在哪些场景?通用视频模型何时能够出现?大模型的使用成本也打“价格战”?近日,中国AI领域最早投资且布局丰富的投资机构启明创投在2025世界人工智能大会上发布的AI十大展望或许能够找到答案。
——未来,人形机器人最早会落地在哪些场景?
启明创投在AI十大展望中认为,具身智能机器人将率先在拣选、搬运、组装等场景实现规模化部署,积累大量机器人第一视角数据与带触觉的操作数据,构建“模型-本体-场景数据”的闭环飞轮。这一飞轮将驱动模型能力迭代,最终推动通用机器人迈向大规模落地。
在今年的世界人工智能大会上, 人形机器人毫无疑问是最亮眼的存在。与上一届大会“十八金刚”的人形机器人相比,今年可谓量质齐升,超150台人形机器人齐聚,成为中国国内人形机器人有史以来最大规模的一次亮相。
银河通用 Galbot机器人基于团队自研端到端具身大模型 GroceryVLA 正在全天候开展商超运营工作,精准取送商品;梅卡曼德的双臂机器人则在快速完成“取-叠-放”的全流程叠衣操作;“天工”机器人则在通过一段流畅的舞蹈动作,展示其在全身协调性和动态控制能力上的技术实力。
在不久的将来,中国的人形机器人有望在生成式人工智能、软件和硬件创新的共同推动下,化身“职业技能高手”,更加“聪明”地完成工作与互动。
——大模型也打价格战吗?
AI十大展望中认为,未来12-24个月,Token消耗量将提高1至2个数量级,集群推理优化、终端推理优化、软硬协同推理优化成为AI Infra侧降低Token成本的核心技术。
启明创投主管合伙人周志峰表示,今年1月,DeepSeek V3/R1模型发布,震惊全球。它在“推理成本”上仅为OpenAI对应模型的5%。此后,全球大模型团队都在压低成本。谷歌比DeepSeek又降了不少,本月,阶跃星辰最新模型的推理成本比DeepSeek更低。“现在主流的大模型,即使没有做蒸馏,完整尺寸大模型的推理成本也已降到每百万Token约1美元,比去年下降了近100倍。”
“目前来看模型使用成本,持续每年至少下降5-10倍,起码能看五年以上的时间。”周志峰认为,这是一个大范式或底层规律所决定的,以后每个手机、电脑上都要用到AI,这样算力肯定要用更优化、更便宜的方式才能跑起来,否则应用落地无从说起。“成本下降,这个不是恶意的,而是技术驱动的。”
——通用视频模型何时能够出现?
AI十大展望中认为,通用视频模型有望在12个月-24个月内出现,该模型可处理视频模态下的生成、推理与任务理解,促进视频内容生成与交互的革新。
有人认为,今年是具身智能或者说是人形机器人爆发的元年,而大模型已归于沉寂。其实不然,启明创投执行董事胡奇指出,其实行业内“水上”和“水下”都有很多动作,“如果说大模型沉寂了,实际上是感知上的误会”。
在本次世界人工智能大会(WAIC)“启明创投·创业与投资论坛——创业投资开启AI技术与应用共振周期”分论坛上,前腾讯杰出科学家、混元大模型技术负责人,Video Rebirth首席执行官刘威指出,视频生成模型是构建世界模型的最佳路径,这一技术方向有望成为AI从感知向认知跃迁的关键突破口。
除了上述外界关注的热点之外,此次发布的AI十大展望还有:
——未来12-24个月,200万Token的上下文窗口将成为顶级AI模型的标配。围绕更大上下文窗口展开的更精细、更智能的上下文工程,会成为推动AI模型及应用发展的核心驱动力之一。
——未来12-24个月,Agent形态将从“工具辅助”走向“任务承接”,首批真正意义上的“AI员工”将进入企业,广泛参与客户服务、销售、运营、研发等核心流程,不再仅作为助手存在,而是具备协同作业、主动反馈、承担OKR等能力,推动从成本工具向价值创造转变。
——多模态Agent将不断走向实用化,能够融合视觉、语音、传感器等多源输入,进行复杂推理、工具调用与任务执行,在医疗、金融、法律等行业率先实现突破。
——AI芯片领域,将有更多“国设”且“国造”的GPU开启批量交付;与此同时,在3D DRAM堆叠、通算融合发力创新的新一代AI云端芯片,也将在市场中崭露头角。
——AI 交互范式转移将在未来两年内加速到来,伴随用户对手机屏幕依赖的减弱与语音等自然交互方式的重要性上升,将推动AI原生超级应用的诞生。
——垂直场景中的AI应用潜力巨大,越来越多初创公司将凭借行业认知深耕细分领域、快速实现产品与市场匹配,以“Go Narrow and Deep”的策略与大厂形成差异化竞争。
——AI BPO(业务外包)模式将在未来12-24个月实现商业化突破,从“交付工具”走向“交付结果”,并通过“按结果付费”的方式,在金融、客服、营销、电商等流程标准化行业快速扩张。(完)
注:请在转载文章内容时务必注明出处!
编辑:李秋莹