国产AI音乐大模型的“三足鼎立”

发布时间：2024-12-04 11:30:05 浏览量：64

在各大科技企业不断尝试“AI+万物”的当下，AI能做什么、做到什么程度，成为了行业激烈辩论的话题。

11月20日，国外音乐创作平台Suno发布V4版本，允许用户生成音质更高、最长4分钟的音乐作品。

Suno的不断迭代让广大网友“玩”了起来。把表情包、自拍、现场Live图，甚至聊天记录丢给Suno，就可以生成一段背景音乐；如果用上Persona功能，用户就可以复用喜欢歌曲中的人声、风格和节奏。用上图片和视频，再加几句提示词，就能提高生成音乐的准确率，合理地向Suno表达“我想创作什么样的音乐”。

有人说，AI能让生活中的一切元素，都变成歌曲。事实上，在国内市场乃至全球所有华语地区，已然开始出现“Suno平替”甚至在中文人声等领域超越Suno的产品了。

一、“AI音乐三巨头”格局初现

技术水平上看，昆仑天工的SkyMusic、趣丸科技的天谱乐、字节旗下的海绵音乐，可以被看做“国产AI音乐三巨头”。

今年4月，昆仑万维推出了中国首款对外开放的AI音乐生成工具天工SkyMusic，基于全球最大的开源 MoE 大模型——天工 3.0 超级大模型的支持，SkyMusic能够做到发音清晰、无异响，在高音演唱技巧等方面表现优秀。

在自研大模型的支撑下，昆仑万维也于今年8月发布了AI流媒体音乐平台Melodio和AI音乐商用创作平台 Mureka。前者用户只需要根据场景或心情输入Prompt（提示词），便会持续生成相应风格的定制化音乐。在生成音乐或播放过程中，还可以修改文案，改变音乐生成内容、实时查询生成的歌词，并对喜欢的片段进行保存、分享。

此外，字节跳动旗下的智能AI助手豆包也上线了音乐生成功能，字节跳动也推出了其AI音乐产品——海绵音乐，用户只需在豆包中输入主题或歌词，设定音乐风格、情绪及音色，便能快速生成一首约1分钟的词曲。

当然，解决了词曲和音乐的生成，仅仅是AI音乐的第一步。在产品具备更加全面的功能之前，音乐大模型还需要解决歌曲中的一个重要部分——人声。

在前不久结束的36氪WISE大会上，现场播放的主题曲、暖场、串场等音乐，都是在AI音乐创作平台天谱乐的支持下特别创作的。在这其中，天谱乐不仅通过“AI生曲”为歌曲提供了音乐“骨架”，还通过专业级别的人声效果，为歌曲填充了“血肉”，让AI能够完整演唱一首优秀的原创作品。

据悉，不同于大部分大规模研发团队，天谱乐团队的核心研发成员构成多为技术和音乐背景的复合型人才，更懂得人类情感想要表达的好音乐是什么样子，再通过技术创作去呈现更有音乐审美与应用价值的产品。

二、AI技术的突破，正在改变音乐行业

全球音乐市场的规模不容小觑，并持续呈现增长状态。《2024中国音乐产业发展总报告》显示，2023年中国数字音乐产业规模达到893.45亿元，中国网络音乐用户规模达到7.26亿。

事实上，中国市场是AI应用有更多可能性的地方。“相对于美国硅谷巨头，中国AI大模型优势在于更快更低成本实现商业落地”李开复曾在公开场合表示。

从技术和产品的角度来看，国内头部产品和海外产品有着不同的侧重点。

Suno的技术路线则更侧重于音频模型，端到端直接生成完整音乐，这使得生成的作品整体性强，但编辑/分轨较为困难，且在中文区的AI学习和生成能力相对较弱，对国内用户来说有一定门槛。

国内以天谱乐为例，其背后是全球首个多模态音乐生成大模型，集成了图片理解算法、旋律生成算法、视频理解算法、配器识别算法等技术，为了实现这样的的效果，天谱乐大模型在长序列音乐语意建模和高质量音频空间建模方面，完成了技术突破，还原了音乐音频在高维空间的连续信号表征。

相比之下，天谱乐大模型的多模态输入能力更强，它不仅支持文生音乐、音频生音乐，还首创了图片、视频生成音乐功能，是全球第一个尝试的AI产品，比Suno还要早了3个月。用户仅需上传相册中的一张图片或一段不超过60秒的视频，便可以生成曲风丰富、歌词与人声兼备的歌曲。

不同的侧重点，使得Suno和天谱乐所覆盖的用户圈层也有所不同，后者由于在人声方面更具优势，无论是普通用户还是专业人士，都能利用这一功能为Vlog、家庭录像添加背景音乐或创作个性化歌曲，表达情感态度。

在今年WISE大会上，独立音乐人曾翊雄现场演唱了原创歌曲《堵》，天谱乐则根据原歌词进行二创，生成了三首风格各异且质量优良的新歌，这三首AI新歌都具备较高的完成度。天谱乐负责人贾朔在现场表示，对于专业音乐人来说，AI能够帮助他们迅速将自己的创意生成各种风格版本，提高创意验证的效率，来帮助音乐人去完成作品。

每个人都有自己与世界交流的介质，音乐是人类表达情感的载体之一。然而，音乐创作又因门槛较高，而限制了更多人的表达的可能性，因此，AI音乐工具的本质，是通过技术创新降低音乐创作门槛，让用户不再受限于专业的乐理知识，就可以轻松通过音乐创作记录生活的切片，是一种技术平权的追求。

AI音乐技术的突破，也将在科技发展史上留下浓墨重彩的一笔。

三、我们仍需不断寻找AI落地的正确答案

技术的发展带来了新产品、新生态和新的用户习惯，对AI来说，技术成熟只是发展的第一步，体验场景才是落地的关键。

ChatGPT的出现，让AI Agent成为了可能，同时也大幅提升了代码优化、数据提炼、资料检索等工作的效率。那么就AI音乐来说，最先落地应用的领域，可能不是消费音乐，而是游戏、短剧、影视剧等有着大量音乐需求的场景。

比如，在影视与广告等内容行业，AI 音乐能够快速生成定制化音乐，节省制作成本和时间，且可根据具体场景、情节和情感氛围精准创作适配音乐。布乐科技CEO 、知名游戏监制杨晟认为，在艺术创作的过程中，艺术家可以指挥AI，就像指挥一个乐团一样，让作品更好地呈现，这也是整个行业努力的重要方向。

当然，无论是To B还是To C，也无论工具型还是社交型产品，AI大模型都需要找到合适的落地场景，这已经成为行业的普遍共识。

对于大模型的发展，零一万物CEO、创新工场董事长李开复认为，与当年的AI四小龙类似，今天的AI企业需要从大模型起家，打造出可持续的商业模式，并在商业赛道中证明自己能够接受二级市场的考验——即公司必须有收入、在增长且可盈利，才能最终走向成功。

而AI音乐作为其中的重要细分赛道，也已经开始展现其强劲的发展能力。相关报告显示，2023年AI音乐产业已价值3亿美元，预计到2028年可能突破30亿美元，平均每年增长率将达到60%左右。

或许我们仍需不断寻找AI音乐在不同场景中最适配的方式，不断探索技术的极限，解决作品可能涉及的版权、文化冲突等问题，但至少AI带来的创意已经让我们感到惊叹。

“就像AlphaGo击败顶级棋手时棋坛的感受相似，”一名音乐人告诉36氪。“也许未来更加成熟的AI真的会改变音乐乃至更多行业，但我依然相信人和AI是各有分工的。”

国产AI音乐大模型的“三足鼎立”

相似文章