本帖最后由 州周 于 2024-5-20 21:20 编辑
" Z0 X' S9 H0 ?. J. D" M {+ j5 B: g- I0 @: ~0 ?2 x2 R# B' R$ ]
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
) @- d0 W4 k$ T' ], E- A. Q. }! W# k; |: L
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
- {7 W7 B x7 X Q. VSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
b" `7 A! J o3 m8 O# ^8 s) U+ i; e+ n; S% L
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
6 @8 q3 Y$ L) @* s4 O6 |" A训练步骤:
" {) P% r3 V4 m! V/ v" l4 i# Tstep0~1600 FP32 1e-5 控制ir值在30以下: r2 X$ b: m6 _' q
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
' u4 q* j6 o+ g! Estep3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 $ @ E3 ]& e3 o. E% k, ^+ l( W
) [! q) N& y0 y8 f9 L$ I
- O) R0 b7 J- S1 h% G8 A0 Y: I& ^& Y% i# Q
& H# _+ M: A4 i: a( `! \0 A/ j
8 w6 d! R; P7 J2 `# o
. b( _7 T/ R% x! ]; R5 U+ \: V2 S7 \' i) `6 b
|