聚焦“超长文本输入” MiniMax发布新一代开源模型-中新社上海

　　中新网上海新闻1月15日电(记者郑莹莹)在大模型领域，前沿技术日新月异。15日，上海稀宇科技有限公司 (MiniMax)发布并开源新一代01系列模型，包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。

(图片说明：MiniMax新一代开源模型架构)

　　MiniMax-01系列模型首次将线性注意力机制扩展到商用模型级别。据介绍，受益于此次架构创新，该系列模型在处理长输入的时候具有高效率，将有效替代一些传统架构并开启“超长文本输入时代”。

　　在应用创新架构之外，MiniMax还大规模重构了01系列模型的训练和推理系统，致力于使其模型能力可与知名闭源模型相媲美。

　　眼下，AI Agent的发展备受业界关注。智能体处理的任务变得越来越复杂，涉及的数据量也越来越大，单个智能体的记忆以及多个智能体协作间的上下文变得越来越长。因此，AI Agent若要为各行业带来更丰富、高效、智能的解决方案，需要长上下文能力与多模态处理能力的提升。

　　(图片说明：MiniMax-01系列模型凭借对超长上下文的理解和处理能力，在上述任务中取得“全绿”。)

　　据介绍，MiniMax在GitHub上开源了Text-01模型、VL-01模型的完整权重，以便于更多开发者开展有价值、有突破性的研究。

　　通过开源模型激发AI产业的创新活力，正成为赋能新质生产力发展的引擎之一。

　　MiniMax相关负责人说：“我们认为这有可能启发更多长上下文的研究和应用，从而更快地促进Agent时代的到来。另外，开源也能驱动我们努力创新，更高质量地开展后续模型研发工作。”(完)

注：请在转载文章内容时务必注明出处!

编辑：郑莹莹