中新网上海新闻6月2日电(谢梦圆)随着人工智能大模型全面进入产业落地阶段,全球算力架构正迎来结构性调整,面向深度学习定制化优化的TPU路线,凭借更高的算力效率与更低的部署成本,逐步成为国产高端算力自主可控的重要突破口。
当前,大模型产业快速扩张,使得算力供给从“追求通用”转向“讲求高效”。算力芯片是驱动人工智能演进的核心底座,相关技术路线与产业格局已成为全球科技竞争的关键领域。当前,中国半导体产业正由“追赶者”向并行发展的参与者转变。
从行业趋势来看,谷歌等全球科技产业纷纷加大专用算力投入,释放出AI产业化落地的明确信号。此外,芯片设计与存储两大领域的协同发力,推动国内AI算力市场快速增长。
具体而言,在AI芯片领域,呈现出GPU、ASIC、TPU多条路线并行态势。其中,摩尔线程、沐曦、壁仞等企业践行GPU路线,持续推进产品迭代,主攻通用计算与图形渲染场景;而华为昇腾、寒武纪、百度昆仑芯等企业则选择ASIC路线,目前已形成规模化落地。其中,寒武纪作为国内较早专注AI芯片设计的企业,其思元系列产品在云端智能计算场景中积累了丰富落地经验;华为昇腾依托昇腾910等芯片构建了从硬件到框架的完整生态;百度昆仑芯在搜索、推荐等自有业务中大规模部署并向外输出。
存储芯片领域,国内企业也实现了关键突破。其中,长江存储作为国内唯一的NAND闪存原厂,已实现294层3D NAND的量产,核心指标跻身全球第一梯队;长鑫存储则在DRAM领域持续攻关,已量产多款DDR4、LPDDR4X及DDR5产品,逐步缩小与国际领先企业的代际差距。
作为国内深耕TPU全栈自研赛道的先行者,中昊芯英通过七年技术攻坚,已实现芯片量产与生态适配,在专用算力赛道走出一条差异化突围路径,为构建多元、安全、高效的AI算力体系提供了实践样本。
该企业创始人、董事长杨龚轶凡判断,“当行业进入规模化落地期,大家关心的不再只是芯片好不好用,而是业务的经济效率能不能得到保障。” 专用化、定制化的算力芯片将逐步成为市场主流,若不能及时布局,未来中国仍可能面临新的技术瓶颈。
他认为,国产算力体系已具备初步基础,未来3到5年是产业发展的黄金期,随着芯片迭代、生态完善与场景落地,设计层面的自主可控体系将逐步成型。
近日,杨龚轶凡在采访中直言:“传统GPU架构对大模型高并发场景的支持存在冗余,芯片实际利用率并不理想,我们需要面向大模型做定制化的DSA架构,而TPU正是业界公认的主流方向之一。”
目前,中昊芯英已完成从架构设计、流片量产到软件生态的全链条突破。公司从第一行代码起步,搭建完整模拟系统验证指令集有效性,逐步完成芯片设计、后端验证与流片,最终实现TPU芯片的规模化量产。
杨龚轶凡介绍,团队始终坚持核心技术自主可控,“我们的指令架构、片上与片间网络、所有数字逻辑IP,都是从0到1自主构建,没有外部依赖。” 依托专用架构优势,其TPU芯片在相同功耗、制程与面积条件下,在主流大模型训练与推理场景中具备性能优势。
另一方面,生态适配与软件栈建设,是国产专用算力芯片走向实用的关键环节。长期以来,复杂的软件生态壁垒制约着新架构芯片的普及,而中昊芯英选择聚焦大模型核心场景,大幅降低适配难度。
杨龚轶凡表示,GPU生态需要支持上万种算子,而面向大模型优化的TPU仅需适配三百余个核心算子,开发周期与工程难度显著降低。目前,公司自研软件栈已实现对DeepSeek、智谱、通义千问等国内主流大模型的稳定支持,同时兼容主流深度学习框架,在软件生态构建与大模型适配领域取得了显著突破。
面向产业生态构建,中昊芯英正推进“芯模联动”策略,与大模型厂商、算法团队深度协同,打造从芯片到模型的端到端优化方案,希望通过深度融合,把大模型落地的成本降下来,让AI真正成为各行业的核心生产力。
在产业发展与政策支持层面,杨龚轶凡建议,应将TPU纳入与GPU平行的独立品类,在算力基础设施建设、科研攻关、标准制定中给予同等支持,同时优化资本环境,加强产学研协同,吸引更多年轻人才加入专用算力赛道。
大模型时代的算力竞争,早已超越单一芯片性能比拼,而是架构、生态、成本与供应链安全的综合较量。国内涌现的科技企业用实践证明,国产TPU路线具备清晰的产业化前景,能够有效补齐国产算力结构短板,降低对单一技术路线的依赖。随着专用算力生态持续完善、产业协同不断深化,以TPU为代表的定制化算力方案,将与通用路线形成互补支撑,共同筑牢中国AI产业自主可控的算力底座。(完)
注:请在转载文章内容时务必注明出处!
编辑:李秋莹






