上海市网信办近日公布了最新一批生成式人工智能大模型备案通过名单,其中,喜马拉雅音频大模型凭借优秀的表现,与知名游戏公司米哈游、文学巨头阅文集团的筑梦岛等文本大模型并肩成功通过备案,成为全国范围内首个获得官方认可的音频生成类大模型,标志着我国音频生成技术迈入了一个全新的发展阶段。
喜马拉雅音频大模型作为全球首个迈入第四代的音频生成解决方案,以其独特的“多情感演绎、超自然表达”能力,在音频创作领域树立了新的标杆。该模型由喜马拉雅旗下的珠峰AI团队倾力打造,基于自主研发的文本音频联合建模LLM(Large Language Model)框架,实现了音频与文本在深度语义层面的无缝融合与高效训练。这一技术突破,使得模型能够在同一向量空间内,精准捕捉并再现人类声音的细微差别与情感波动,为用户带来前所未有的听觉盛宴。
值得一提的是,喜马拉雅音频大模型展现了惊人的音色克隆与声音转换能力,仅需15秒样本即可精准复刻目标音色,同时支持超拟人化、多情感表达的语音生成,以及高度可控的语音风格和副语言特征,如笑声、叹息等,极大地丰富了音频内容的情感层次与表现力。在严苛的评估测试中,该模型在长音频内容创作,特别是复杂场景下的有声小说演绎中,展现出了对角色风格的高可控性、音素表现的极致稳定性和语流韵律的自然流畅,显著超越了当前市场上广泛应用的第三代音频生成模型。
喜马拉雅音频大模型致力于将先进的人工智能技术与丰富的音频产业生态深度融合,该模型在AIGC(人工智能生成内容)有声书、Chat对话式交互等多个业务场景实现了广泛应用,不仅提升了内容生产效率与质量,也为用户带来了更加个性化、沉浸式的音频体验。以近期风靡市场的有声书《我的阿勒泰》为例,其背后正是喜马拉雅音频大模型技术力量的支撑,展现了AI赋能文化产业的无限可能。
为了让更多用户能够亲身体验这一技术革新带来的乐趣,喜马拉雅已在其母公司珠峰AI的官方网站上开放了音频大模型的体验入口,鼓励广大用户发挥创意,利用这一强大工具创作属于自己的音频作品,共同推动音频内容创作的繁荣与发展。
声明:本站转载此文目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容,本网站对此声明具有最终解释权。