Другая игра Делали уже ИИ-модели голоса?

Кем же я могу быть? · 1 Ноя 2023

Добрый день! Мне бы хотелось рассказать вам, господа, мою историю:

Многие знают, что канал Glitch резко стал популярным. Эта новость не прошла мимо меня, поэтому я посмотрел сериал "Дроны-убийцы". Мне показалось хорошей идеей сделать модель голоса N, потому что, во-первых, он у него очень приятный и драйвовый, во-вторых, я уже давно желал сделать хотя бы какую-нибудь качественную модель. "Качественную" - ключевое слово.

Так я собрал датасет, который состоит из 36 аудио-файлов с первого выпуска, начал машинное обучение на основе RVC v2. 500 эпох тренировок спустя я решил проверить, всё ли получилось. И понял, что ничего не получилось: голос совсем не похож на голос самого персонажа.

Теперь я сижу и думаю, что могло пойти не так: вроде бы, всё обрезал, отделил от тихой музыки. Есть ли здесь те, кто как бы "шарит" в этой теме? Вам вопросы:
1) Могло ли на ИИ повлиять то, что N очень часто менял свою интонацию (то он говорил шёпотом, то взволновано и т.д.)? Т.е. стоит ли мне оставить лишь те аудио, где N говорит более-менее обычно? Или вообще создать новый датасет, основываясь на другие серии?
2) Правильно я ли сделал, что каждую речь героя обрезал на несколько частей, состоящих из 3-5 секунд?
3) Мне кажется, что 36 файлов как-то многовато. Какое количество аудио было бы вполне достаточно для тренировки нейросети?

Жду не дождусь услышать вашего мнения, эксперты.

Ниже сама модель и датасет (можете проверить, если интересно).

.pth
.index

Поиск

Поиск

Другая игра Делали уже ИИ-модели голоса?

Кем же я могу быть?

Участник

Вложения

Similar threads