中国新闻网-上海新闻
上海分社正文
聚焦“超长文本输入” MiniMax发布新一代开源模型
2025年01月15日 19:25   来源:中新网上海  

  中新网上海新闻1月15日电(记者 郑莹莹)在大模型领域,前沿技术日新月异。15日,上海稀宇科技有限公司 (MiniMax)发布并开源新一代01系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。

(图片说明:MiniMax新一代开源模型架构)

  MiniMax-01系列模型首次将线性注意力机制扩展到商用模型级别。据介绍,受益于此次架构创新,该系列模型在处理长输入的时候具有高效率,将有效替代一些传统架构并开启“超长文本输入时代”。

  在应用创新架构之外,MiniMax还大规模重构了01系列模型的训练和推理系统,致力于使其模型能力可与知名闭源模型相媲美。

  眼下,AI Agent的发展备受业界关注。智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文变得越来越长。因此,AI Agent若要为各行业带来更丰富、高效、智能的解决方案,需要长上下文能力与多模态处理能力的提升。

  (图片说明:MiniMax-01系列模型凭借对超长上下文的理解和处理能力,在上述任务中取得“全绿”。)

  据介绍,MiniMax在GitHub上开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者开展有价值、有突破性的研究。

  通过开源模型激发AI产业的创新活力,正成为赋能新质生产力发展的引擎之一。

  MiniMax相关负责人说:“我们认为这有可能启发更多长上下文的研究和应用,从而更快地促进Agent时代的到来。另外,开源也能驱动我们努力创新,更高质量地开展后续模型研发工作。”(完)

注:请在转载文章内容时务必注明出处!   

编辑:郑莹莹  

本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
常年法律顾问:上海金茂律师事务所