本帖最后由 州周 于 2024-5-20 21:20 编辑 1 o5 y5 `. \* S9 w. X( F4 [+ H
' P+ y' o+ C& k( W- e4 c/ G+ p
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。& L; `' z+ l8 e' L
) | r- h% y _# q3 o
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。5 f# R. f. I1 Q7 P5 W$ S1 t
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
5 ^7 I+ D! ^9 {4 j% z1 R, [$ x) t6 K% x) l/ C0 l. ]3 \& K6 h& X
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
6 z( l: ]* b7 Z- Q* e6 ` q8 |训练步骤:1 M& ~# }$ Y$ `$ [! \; a
step0~1600 FP32 1e-5 控制ir值在30以下
% s( L& s9 w2 W" |7 pstep1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 & M+ C0 m3 G! H6 M" n
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
& v9 V5 z+ m3 e* G' [( M) m ' n: ^& b6 R7 M3 T- P- {7 h G
, e0 W: W, c. G
" S- U9 m. T! w0 A3 g" {' ^6 e h
! {& O' q! }, d* V- k9 E3 |0 x/ X l; o1 Q# t0 B+ t
% k6 j* `& S3 r7 F; W" T
1 Z5 Q* K( g3 _, O5 E. r
|