[Глубоко в глубине.. Статья] AdaSpeech2: адаптивное преобразование текста в речь с использованием нетранскрибированных данных — DeepBrainAI
Как и модель AdaSpeech, которую мы рассмотрели в прошлый раз, существующий метод адаптации TTS использует данные пар текста и речи для синтеза голосов конкретного говорящего. Однако, поскольку готовить данные парами практически сложно, гораздо эффективнее будет адаптировать модель TTS только к речевым данным, которые не транскрибируются. Самый простой способ доступа — использовать систему автоматического распознавания речи (ASR) для транскрипции, но в некоторых ситуациях ее трудно применять, а точность распознавания недостаточно высока, что может снизить эффективность окончательной адаптации. И были предприняты попытки решить эту проблему путем совместного обучения конвейеру TTS и модуля адаптации. Недостаток этого метода заключается в том, что его нелегко комбинировать с другими коммерческими моделями TTS.