英伟达推出“世界上最灵活的声音机器” 利用AI融合音乐
更新时间:2024-11-27 01:01 浏览量:12
#头条精品计划#
Nvidia 最近推出了名为 Fugatto 的革命性生成式 AI 音频工具,被誉为“世界上最灵活的声音机器”。Fugatto 能够生成多种音频内容,包括音乐和语言,结合文本提示与音频样本进行创作。用户可以简单描述所需音效,AI 可以将火车声音转化为管弦乐编曲,或将班卓琴与雨声结合,甚至创造出会吠叫的萨克斯风。尽管目前尚未对公众开放使用,Nvidia 通过宣传视频展示了该工具的潜力,包括生成情感丰富的语音片段。Nvidia Fugatto 团队的愿景是创建一个能够像人类一样理解和生成声音的模型,Fugatto 代表了音频合成领域的重要进展,依赖于大规模的数据和模型。
Nvidia 最近推出了一款开创性的生成式 AI 音频工具,名为 Fugatto,它被称为“世界上最灵活的声音机器”。这一创新工具能够生成多种音频内容,包括音乐、语言以及前所未闻的独特声音。Fugatto 的全名是基础生成音频变换器 Opus 1,它结合了文本提示和音频样本,以多样的方式创造和混合音频。
借助 Fugatto,用户只需简单描述他们想要听到的内容,或者指示 AI 模型修改或组合现有的音频片段。例如,用户可以将火车的声音转化为丰富的管弦乐编曲,或者将班卓琴的旋律与雨声交融。创造力并不止于此;用户甚至可以要求 AI 生成一只会吠叫的萨克斯风,或一只会喵叫的长笛,展示了可供操作的广泛音效。此外,Fugatto 还能够从音轨中提取人声,改变声音的表达风格,甚至从零开始生成语言。通过输入现有的旋律,用户可以选择在任何乐器上演奏,并以各种风格呈现。
遗憾的是,这款工具目前尚未对公众开放使用。有兴趣的用户暂时需要依靠 Nvidia 的宣传视频和一系列音频样本,因为尚未公布任何公共测试阶段。Nvidia 分享的一些引人注目的样本包括女性声音吠叫、工厂机器尖叫、打字机低语,以及大提琴表达愤怒。这些演示突显了 AI 生成带有各种情感的口语片段的能力——从愤怒到快乐,甚至带有不同的口音。Nvidia Fugatto 团队的成员拉斐尔·瓦列表达了这一工具背后的愿景:“我们希望创建一个能够理解和生成声音的模型,就像人类一样。”Fugatto 代表了在音频合成和转换领域实现高级无监督多任务学习的重要一步,依托于数据和模型的规模。