温馨提示:本站为狂欢票务官方授权演出订票中心,请放心购买。
你现在的位置:首页 > 演出资讯  > 演唱会 >  Seed-VC 支持人声和歌曲的零样本声音转换模型 实现音质与音色的高保真转换

Seed-VC 支持人声和歌曲的零样本声音转换模型 实现音质与音色的高保真转换

更新时间:2024-10-07 11:32:48  浏览量:3

seed-vc 是一个基于 SEED-TTS 架构的开源的声音转换模型,能够实现零样本的声音转换

无需任何训练,它能够根据 1~30 秒的参考语音来克隆声音

该技术在音频质量和音色相似性方面表现出色,且具有很高的研究和应用价值。

大家可在GitHub上找到该项目,并下载到本地部署使用。

今天我们就基于Huggingface空间的演示,来实质性操作体验一下这款模型。

我们在左侧分别上传源音频以及参考音频,注意参考音频的时长要控制在25秒内,

如果大于25秒则会自动裁剪至此长度

源音频就是拿它作为一个样本,下面的参考音频则是以源音频为参考对象,把它克隆到这个源音频上面。

接下来我们来看它的参数设置。上方的扩散步数默认是25,但是一般把它调到50为最佳

语速默认为1,属于正常语速不用调整。CFG默认0.7也不用动。

如果你是以声音为对象来克隆的话,下面的码本数量参数设置为1,其他保持不变。

如果以歌声为参考克隆,那么就需要把码本数量参数值调整为最大,而且需要勾选F0输入选项

该项目完全无需训练,而且对资源的占用率不是太高4G就可以跑。转换速度也非常快

seed-vc 适合语音技术研究者、声音合成工程师、以及对声音转换技术感兴趣的开发者

它可以帮助他们进行声音转换技术的研究和开发,或者在语音合成、声音识别等领域进行应用。

对此模型感兴趣的小伙伴,可自行下载到本地部署或在线体验

GitHub仓库:

HuggingFace在线地址: https://huggingface.co/spaces/Plachta/Seed-VC