本帖最后由 州周 于 2024-5-20 21:20 编辑 : z. |4 n* g, P; J I% j
& ~( V! S$ r; q/ n起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。9 d* p) Q# j3 E" S! p
9 X" |9 n! e. b) K5 [首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
! y& a' C2 K' r: bSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
5 B+ r6 d6 |- \, w- } M! O* Q( b" l b
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。( |( F3 ^/ N& ~, V! _/ _
训练步骤:/ P- o) B5 a& J! K
step0~1600 FP32 1e-5 控制ir值在30以下* s8 v3 T5 I4 h- S3 e. v0 t( @
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 & U& p- {2 d5 Y0 s% I
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
, a; K' I7 ^ Y) }$ ^: k q+ i9 f, |9 {, j
, J3 ^2 u: C: f j; ~
# O* h( D+ F( O6 r |+ M2 m
" R) Q- X- T! ^. K7 W) B: j
; h+ d1 ^( @$ {1 c8 G* \7 ?, M) S$ y9 P9 e" G" I; {: t" k
% m) k" J. R/ q1 ^2 k; { |