本帖最后由 州周 于 2024-5-20 21:20 编辑
+ r; K" `& {! O; |6 h! G
2 L$ N" j" `9 R7 i1 p6 f/ C, J起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。 A# A4 V# Q$ Z) h
( F/ l2 p, e' b) F6 G; M: D. F4 E
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。; Q1 _- Y0 {4 S( ?- y
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。* i* x7 U& a$ H e) W/ I7 V
3 {) |) U1 }1 G3 h E
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。
$ o* [- G% v1 _" T' v/ J, |训练步骤:
* A0 x- z) g7 k- f) U; g5 \step0~1600 FP32 1e-5 控制ir值在30以下) t3 Q& J8 Y: E# t) I
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升
7 h% K. g9 ?' [+ |step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 + j# m8 A* w. I1 |! \" m9 q; d
' {7 Z" Z! N F \3 v. V2 n! z
+ I5 a* L9 e- z" X! X
' _) ^' ` p2 V/ `* u/ C
- w% N& S6 h1 S' Y5 F' A/ Z- o8 B% n3 f* @. R0 N9 k
5 A5 R; r: a- M$ |
5 y- F6 N5 F& p& M' n5 Q- j |