本帖最后由 州周 于 2024-5-20 21:20 编辑 / `6 O8 e" P0 _- ]
* I s$ ?& {( f3 T: G
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
z9 p5 d( R$ x+ h
# x% K3 q7 R# t$ V% W/ S5 H: H首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。 S |% y7 q- r* N
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
6 d* e7 e: n" w* F4 I& e. r
& u# _# ^$ ?/ G准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。) L; q4 d- g5 o; c( l( ~) i2 K
训练步骤:
% A+ S7 k4 s. N( n8 b5 ]step0~1600 FP32 1e-5 控制ir值在30以下6 W" S5 ]( @) O( W: P# T) L
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
, t( L% p* g( i+ E# Dstep3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 % S' Z& R, e- w" q* E6 Z
3 E' E& z* [/ @- ^
4 p4 u/ l1 b! o( J, [' `3 w+ j. J+ v8 _8 r# |
, }# p0 B/ h9 q+ O9 P+ j% P% g1 _( u7 ?+ R! r O
+ _3 M6 A: M' e% F, \
; |# R* P( K5 ^5 d* T |