本帖最后由 州周 于 2024-5-20 21:20 编辑
$ y* }9 ]7 N# H9 X5 p/ {* v- k5 Z" t
起因:B站刷到了用Ai蚊子唱See you again的视频,正好我也用过这类Ai,又正好不会调音就想出来用Ai技术训练JR发车音乐,在理论上是可以这么做的。
# |6 h* Y; s$ ~- j( P' X& |4 K. A3 D
首先,选择哪种开源的vits。纯Vtis只能生成文本,对与音频方面无帮助。SVC(So-vits)音频生成音频。GPT-VITS也是音频生成音频,但是目前只能用中文训练,由于输入是纯音乐,所以大概率是不行的。综上我们选择So-vits。1 h, ?! t8 g8 R0 m1 {1 M6 B
SVC和大部分模型一样使用Diffusion(扩散)的方式进行训练还有推理,大体方式:将例子音频加噪,用模型再一点点的去噪,生成出音频。
1 ~. S8 V9 x+ y$ R; o! i9 X$ J0 Q5 E4 E7 K- g& ]
准备音频环节,使用RVC5将发车音乐的主旋律提取出来,避免其他乐器影响主旋律音色导致模型质量下降,同时Adobe Audition做后期处理时控制电平、处理混响,避免不必要的东西音响模型质量。$ f( Q6 h' T$ t5 l
训练步骤:
/ P1 S& y* t$ \& J5 C' j8 astep0~1600 FP32 1e-5 控制ir值在30以下6 P4 ?& `) l& @7 b& {5 @! x" s x
step1600~3200 FP16 5e-4 模型基础已经打好,使用半精度加快训练进度,学习率降低补一点点缺失的内容,代价是ir率的上升 ( q$ f; f. h0 G, }8 z
step3200~4000 FP32 1e-3 最后调大学习率巩固内容,同时调回单精度不让模型质量下降,ir率下降到23~28时见好就收 噪声公式及学习率相关 3 ~+ Z: E0 Q! O6 C
1 Y9 t/ X7 l$ h6 Z) u6 B6 x" }0 _; k+ q% `% t5 b3 _
1 o# ] C8 p( J
; T( N& [) u' V1 }
5 u# r/ c' d8 t7 R8 a! U W# S$ D1 W# n
( ]- ?9 M7 L3 `7 D9 H$ A |