2023 GAIR开幕优刻得季昕华：中立云服务助力AIGC发展-中新社上海

UCloud董事长兼CEO季昕华在第七届GAIR全球人工智能与机器人大会上发表演讲

　　中新网上海新闻8月15日电(谢梦圆)14日，UCloud董事长兼CEO季昕华在第七届GAIR全球人工智能与机器人大会上发表演讲，分享了对大模型的关注与思考、剖析了大模型发展的痛点，并全面展示了UCloud在AIGC领域的算力底座和工程实践。据悉，该大会邀请了全球产业领袖、业内大咖共话大模型和生成式AI的技术突破和商业创新。

　　GPT的横空出世引领着人工智能产业新机遇，“百模大战”正在国内打响。季昕华总结了当前国内做通用和垂直大模型的企业已有130余家，团队构成可划分为五大方阵，分别是互联网巨头、上市公司、AI团队、科学家创业、互联网高管创业，这些企业呈现出了资金、人才、数据、算力密度高的特点，也构成了大模型的四大核心要素。

　　据介绍，大模型的生命周期包括前期的数据清洗、预训练、有监督微调、奖励建模、强化学习，以及后续的部署运营六个阶段，而在对应的过程中往往会面临着多样合规数据如何获取，计算、存储、网络能否满足训练需求，模型的稳定性和安全性又如何保障等一系列难题。UCloud拥有超过10年的公有云技术沉淀并积累了全面的系统工程能力，具备从数据中心、计算平台，到管理平台、网络服务、应用服务、生态接口等一站式产品和解决方案。

　　季昕华首先分享了大模型在功耗和电力方面的挑战，大模型所需的机房电量消耗大且功率更高。UCloud乌兰察布数据中心电力充分、电价低廉、可自然制冷且距离北京更近，具备高可靠性、高性价比等优势，可有效满足大模型的训练要求。相较上海、北京等同等质量的数据中心，成本下降40%；采用双路不间断电源供电，更加安全可靠；模块化的设计布局，支持机房模块、基础设施配置的深度灵活定制。

　　当前大规模集群算力仍存在较大的缺口，UCloud基于自建数据中心所打造的AIGC解决方案可充分满足大模型企业对于底层算力基础设施的需求，同时UCloud可为客户提供后续的维护服务。自建数据中心内提供专为GPU集群建设的高电机柜，并上线了多款GPU算力资源，推出了“训练专区+推理专区+存储专区+管理专区”的分区建设方案，企业可根据实际的训练、推理、数据处理等应用场景进行灵活可扩展的算力选择。

　　其次是大模型的存储挑战，存储性能会直接影响大模型的训练时间。大模型计算的工作负载大多是读密集型的，UCloud从大量列表元数据操作、高吞吐读需求、大量顺序写入这三个方面针对基于US3对象存储的文件系统进行升级改造，提升元数据性能、读缓存和写吞吐的能力。经测试，优化后的读性能有70%左右的性能提升，达到5GBps；写吞吐10%左右的吞吐提升，达到2.2GBps，可充分满足大模型客户在单点挂载时吞吐的性能需求，大幅提升训练效率。后续，UCloud会在和kernel交互的方式上进一步优化并发来提升写吞吐的能力。此外，UCloud研发中的GPUDirect Storage，将会有更高的存储性能。

　　大模型训练依赖于大规模分布式并行集群，还面临着网络层面的挑战。一方面是因为模型本身非常大，需要拆分到多个GPU上来存储；另一方面，模型参数量越大就越需要更多的计算量，千张GPU甚至几千张GPU并行训练是大模型成功的基础。

　　谈到目前国内的场景应用，季昕华表示，按照对大模型输出内容准确性的容忍度来分类，游戏NPC、社交辅助、电商、游戏/设计的画图、翻译、客服支持、文字和编程辅助、教育、法律、医疗这10大行业场景有较为广泛的落地。同时，大模型发展还将持续面临数据安全、政府对于合规性的要求、国际关系对于中国AI发展的限制等挑战。(完)

注：请在转载文章内容时务必注明出处!

编辑：谢梦圆