【技术讨论】使用vits技术制作JR发车音乐

州周发表于 2024-5-20 21:03:56

本帖最后由州周于 2024-5-20 21:20 编辑

起因：B站刷到了用Ai蚊子唱See you again的视频，正好我也用过这类Ai，又正好不会调音就想出来用Ai技术训练JR发车音乐，在理论上是可以这么做的。

首先，选择哪种开源的vits。纯Vtis只能生成文本，对与音频方面无帮助。SVC（So-vits）音频生成音频。GPT-VITS也是音频生成音频，但是目前只能用中文训练，由于输入是纯音乐，所以大概率是不行的。综上我们选择So-vits。
SVC和大部分模型一样使用Diffusion（扩散）的方式进行训练还有推理，大体方式：将例子音频加噪，用模型再一点点的去噪，生成出音频。

准备音频环节，使用RVC5将发车音乐的主旋律提取出来，避免其他乐器影响主旋律音色导致模型质量下降，同时Adobe Audition做后期处理时控制电平、处理混响，避免不必要的东西音响模型质量。
训练步骤：
step0~1600 FP32 1e-5 控制ir值在30以下
step1600~3200 FP16 5e-4 模型基础已经打好，使用半精度加快训练进度，学习率降低补一点点缺失的内容，代价是ir率的上升
step3200~4000 FP321e-3 最后调大学习率巩固内容，同时调回单精度不让模型质量下降，ir率下降到23~28时见好就收噪声公式及学习率相关

Harlotte 发表于 2024-5-20 21:09:13

看着好厉害期待成品！

页: [1]

MTRBBS 我的世界铁路中文论坛's Archiver

【技术讨论】使用vits技术制作JR发车音乐