喜马拉雅珠峰语音生成技术亮相云栖大会-中新社上海

　　中新网上海新闻10月31日电(晓东于俊)喜马拉雅于10月31日至11月2日亮相聚集全球科技和数字领域精英的2023云栖大会，展示其创新研制的的珠峰语音生成式大模型和第二代智能语音交互系统。

　　作为珠峰语音生成技术成果之一的珠峰语音生成式大模型，具备快速实现语音音色和风格定制的能力。该技术支持丰富场景下的音色实时转换，为声音赋予了创造性的“变声”能力，宛如给声音涂上不同的“画皮”。此前，专注于语音合成、语音识别、语音信号处理、编解码和智能音效研究和开发的珠峰实验室团队已通过AIGC方式创作了超过3.7万部有声书专辑，而AIGC作品的每日播放时长已超过250万小时。

　　珠峰语音生成式大模型由珠峰实验室团队与西北工业大学aslp lab展开合作，实现音频与文本在统一框架下的稠密训练，用于语音生成任务，能够实现语音风格和音色的zero shot的学习和迁移，实现风格和音色的任意组合。喜马拉雅基于阿里云数据湖3.0构建的云原生大数据平台为语音大模型训练提供了海量高质量数据，是喜马拉雅语音大模型不可或缺的“数据引擎”。

图：参观者在2023云栖大会现场体验“5秒极速克隆”。

　　据喜马拉雅首席科学家、珠峰实验室负责人卢恒披露，“珠峰语音生成式大模型已取得显著突破，在音色定制方面实现5秒内的‘极速克隆’声音。通过极少量的数据，该模型能够克隆出具有90%相似度的基本音色，并在短短的10秒内快速生成定制音频。这项技术在短视频创作、数字人配音、人机交互对话、名人IP复刻等领域有望发挥出巨大的潜在价值，有效解决商业场景中的沟通需求痛点。”

　　珠峰实验室资深产品专家吕睿韬介绍：该语音大模型采用基于语音向量和语义标记的新型语音编解码器，其中语音向量包含用于高保真语音重建的声学细节，而语义标记(LLM)则侧重于语言建模的语音的语言内容，最终实现高效生成最富有语言表现力和最高保真度的语音(对话)内容。该语音大模型可应用于语音内容生成、口语对话、语音音色实时转换、说话风格迁移、语音到语音跨语种翻译、说话人匿名化等各种任务。

　　喜马拉雅还展示了其第二代智能语音交互系统，这一系统以阿里云的“通义千问”大模型为基础，以喜马拉雅儿童形象代言人“波波”为中心，增强了他的自然连贯对话能力，凸显“波波”IP形象的特征。该智能语音交互系统已通过喜马拉雅儿童APP和喜马拉雅提供服务，波波球为家庭亲子用户提供陪伴对话功能。

　　作为深受用户喜爱的在线音频平台，喜马拉雅坚持以科技赋能文化，已在多模态AIGC、软硬件结合等AI语音技术领域取得卓越成就。

　　此前，珠峰实验室运用AIGC技术还原已故评书大师单田芳先生的声音，并使用他的AI合成音来全新演绎经典之作。单田芳先生之子单瑞林对AIGC的表现赞不绝口，形容“宛如父亲在世”。此次云栖大会期间，通过语音对话大模型训练的AI单田芳用英文向现场观众问好。目前，AIGC制作的“单田芳声音重现”系列专辑已突破100张，在喜马拉雅平台收获总播放量超1亿次。(完)

注：请在转载文章内容时务必注明出处!

编辑：于俊