本帖最后由 州周 于 2024-5-20 21:20 编辑
+ q; W& S* R, H. K7 A
( q/ t+ B* }0 ^; M起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。' T0 o; Z. f5 m
/ _5 G7 d" J X+ f" T
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。
+ r$ Q8 W( F* o4 Z) P; kSVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。4 j5 J0 _1 v9 f6 @7 G# \0 z
9 i4 B* S; G$ M准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。9 L5 I8 ?* \9 [' _/ K2 s# m! D
训练步骤:, A5 M ]! T" Z+ N0 T
step0~1600 FP32 1e-5 控制ir值在30以下
$ H% U8 v( o5 W9 `5 `, m8 I% X% xstep1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
$ P B6 Y7 j/ z. n+ \, mstep3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关
4 Y/ J4 ~0 Z& Q, O6 N* g1 F m/ D 6 D. _( Z3 G1 H9 x% v$ O4 ]" j* g* l3 _1 w
( X' n* d( \$ V3 l6 z) @) h$ G" b9 D
1 U |# K9 r# U& I* |, O
8 a3 v7 E1 ?5 d. D$ d9 k# N8 q' o. n2 j& c
) f7 b8 Y4 |- _; V |