[Глубоко в глубине.. Статья] AdaSpeech: адаптивное преобразование текста в речь для персонализированного голоса — DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
January 25, 2022
Команда глубокого обучения: Колин
Аннотация

Возможно, вы сталкивались с изменением голоса гида при использовании динамиков искусственного интеллекта или навигации. Я задал голос говорящего голосом моего любимого актера Ю Ин-на, и мне стало очень важно синтезировать речь разными голосами, поскольку технология синтеза речи используется в различных сферах жизни, таких как работа с персональными ассистентами, новостные передачи и голосовые инструкции. Кроме того, растет спрос на использование не только чужих голосов, но и их голосов в качестве голоса искусственного интеллекта. В области исследований синтеза речи это называется синтезом голоса на заказ.

Сегодня мы рассмотрим модель преобразования текста в речь (TTS) под названием AdaSpeech, которая появилась для пользовательского синтеза голоса. Технология генерации собственного голоса в основном осуществляется путем адаптации предварительно обученной исходной модели TTS к голосу пользователя. Большая часть используемых в настоящее время речевых данных пользователя невелика для удобства, а поскольку их количество невелико, очень сложно сделать сгенерированный голос естественным и похожим на исходный голос. При обучении нейронных сетей с помощью настраиваемого голоса есть две основные проблемы.

Во-первых, акустические условия голоса некоторых пользователей часто отличаются от речевых данных, полученных из исходной модели TTS. Например, существует множество рифм, стилей, эмоций, сильных сторон и условий записи говорящих, и возникающие в результате различия в речевых данных могут препятствовать обобщению исходной модели и привести к ухудшению качества адаптации.

Во-вторых, при адаптации исходной модели TTS к новому голосу приходится идти на компромисс между точной настройкой параметров и качеством голоса. Другими словами, чем больше адаптивных параметров вы используете, тем лучше качество воспроизведения, но тем выше потребление памяти и стоимость развертывания модели.

В рамках существующих исследований был определен метод точной настройки всей модели или части (особенно декодера), доработки только встраивания динамиков, используемых для различения динамиков при синтезе речи с несколькими динамиками, обучения модуля кодирования динамиков и предположения, что область исходной речи и адаптивных данных одинакова. Однако с реальным использованием существует проблема, поскольку слишком много параметров или качество не обеспечивает удовлетворительного качества.

AdaSpeech — это модель TTS, которая позволяет эффективно генерировать голоса новых пользователей (или спикеров) с высоким качеством при решении вышеуказанных проблем. Конвейер был в основном разделен на три этапа: предварительное обучение, доработка и вывод. Для решения существующих проблем использовались два метода. Отныне мы рассмотрим их вместе! 🙂

 

Резюме для занятых людей
  • Эффективность обобщения модели была улучшена за счет извлечения акустических характеристик в различных областях из речевых данных и добавления их к существующим векторам кодирования фонем с помощью моделирования акустических условий.
  • Они эффективно улучшили процесс адаптации исходной модели к данным нового динамика с помощью условной нормализации уровней.
  • Стало возможным создавать высококачественные собственные голоса с меньшим количеством параметров и меньшим количеством новых речевых данных, чем традиционные базовые модели.

 

Структура модели

Базовой моделью AdaSpeech является модель FastSpeech 2. Она состоит в основном из фонемных кодеров, адаптеров дисперсии и декодера mel. Он включает два новых элемента (розовые области на рис. 1), разработанные авторами.

 

Моделирование акустического состояния

В целом важно повысить эффективность обобщения модели, поскольку исходный голос, используемый при обучении модели, не может охватить все акустические характеристики голоса нового пользователя. Поскольку эти акустические характеристики трудно включить в текст, введенный моделью в TTS, модель имеет тенденцию запоминать акустические особенности в обучающих данных, что препятствует эффективности обобщения при создании собственных голосов. Самый простой способ решить эту проблему — ввести в модель акустические характеристики, разделенные на уровень громкоговорителя, уровень высказывания и уровень фонем. Это называется моделированием акустического состояния, которое включает в себя множество звуковых характеристик, от широкоугольной до периферийной информации. Каждый уровень содержит следующую информацию.

  • Уровень громкоговорителя: уровень, отражающий общие характеристики динамика и представляющий наибольший диапазон акустических характеристик (например, встраивание динамиков).
  • Уровень произнесения: уровень, который улавливает особенности, возникающие при произнесении предложения. В качестве входных данных используется мел-спектрограмма опорного голоса, а на ее основе выводится вектор признаков. При обучении модели целевой голос становится эталонным, а в качестве опорного голоса выбирается случайным образом один из голосов говорящего, который вы хотите синтезировать.
  • Уровень фонем: наименьший диапазон уровней, отражающий особенности единиц фонем в предложении (например, силу определенной фонемы, высоту тона, рифму и временный окружающий шум). В этом случае вводится спектрограмма уровня фонем (mel), выраженная путем замены mel-кадров, соответствующих той же фонеме, средним значением в секции. И для вывода, несмотря на то, что структура одинакова, мы используем акустический предиктор, который получает на вход скрытый вектор от кодировщика фонем и предсказывает вектор уровня фонемы.

 

Нормализация условного слоя

 

Mel-декодер AdaSpeech состоит из самовнимания и сети прямой связи, основанной на модели Transformer, и поскольку в ней используется множество параметров, процесс точной настройки на новый голос не будет эффективным. Поэтому авторы применили условную нормировку уровней к сети самовнимания и прямой связи на каждом уровне и уменьшено количество параметров, обновляемых во время тонкой настройки, за счет изменения шкалы и смещения, используемых здесь, в соответствии с требованиями пользователя. А используемые здесь масштаб и смещение называются условными, поскольку они проходят через линейный слой, как показано на рисунке выше, и эти векторы рассчитываются на основе встраивания динамиков.

 

Процесс обучения и вывода

Процесс обучения AdaSpeech и передачи голоса новым спикерам можно резюмировать с помощью приведенного выше алгоритма. Сначала предварительно обучите исходную модель, используя как можно больше текстовых и речевых данных, а затем обновите параметры, используемые для нормализации условного слоя и встраивания динамиков, с помощью точной настройки речевых данных нового говорящего. Таким образом, можно увидеть, что значение параметра, которое необходимо рассчитать на основе информации, полученной от говорящего, и значение параметра, которое не было доработано в ходе обучения, используются вместе для создания спектрограммы Меля.

 

Результаты эксперимента
Индивидуальная оценка качества голоса

 

В качестве вокодера использовался MelGaN, естественность синтезированного собственного голоса оценивалась как MOS, а сходство оценивалось по метрике SMOS. Видно, что AdaSpeech может синтезировать высококачественные голоса с меньшим количеством параметров или с аналогичными параметрами, чем у базового уровня. А поскольку исходная модель TTS была предварительно подготовлена для набора данных под названием LibrITTS, она, конечно, получила наивысшую оценку, если она была адаптирована в качестве нового динамика LibrITTS.

 

Исследование абляции

Используя CMOS (сравнительный MOS), который позволяет оценить относительное качество, они провели исследование абляции по методам, которые, как утверждается, являются полезными в этой статье. Поскольку показатели CMOS в AdaSpeech, в которых были удалены некоторые детали, оказались ниже, чем у базовой модели AdaSpeech, показанной в таблице 2, можно сделать вывод, что все методы способствуют улучшению качества.

 

Моделирование акустического состояния Анализ

На рисунке 4 (а) показан акустический вектор уровня высказывания изученных говорящих в t-SNE. Видно, что разные предложения, произнесенные одним и тем же оратором, классифицируются в один и тот же кластер, и на основании этого можно сделать вывод, что модель учла уникальные характеристики одного говорящего при произнесении предложения. Есть некоторые исключения, но эти предложения обычно короткие или эмоциональные, поэтому их трудно отличить от высказываний других ораторов.

Нормализация условного слоя Анализ

По сравнению с CMOS видно, что качество голоса является лучшим при использовании нормализации условного уровня. Поэтому при нормализации слоев лучше изменять масштаб и смещение, отражая характеристики динамика, и можно резюмировать, что только их обновление положительно влияет на адаптивность модели.

Объем адаптивного анализа данных

Наконец, авторы провели эксперимент, чтобы проверить, сколько новых речевых данных пользователя необходимо, чтобы определить, практична ли эта модель. Как видно из рисунка 4 (b), качество синтезированного голоса быстро улучшается до тех пор, пока не будет использовано 10 сэмплов, но с тех пор никаких существенных улучшений не произошло, поэтому можно точно настроить AdaSpeech, используя только 10 сэмплов для каждого динамика.

 

Заключение а также Мнение

AdaSpeech — это модель TTS, которая способна адаптироваться к новым пользователям, эффективно используя преимущества FastSpeech, скорость которой ранее была улучшена за счет параллельного синтеза речи. Моделирование акустических условий повышает эффективность обобщения модели за счет улавливания характеристик голоса, а в случае дальнейшего разделения голоса можно создать искусственный интеллект, более похожий на характеристики пользователя. Кроме того, я думаю, что ценность использования безгранична, поскольку эта модель может удовлетворить потребности пользовательского голосового TTS всего 10 сэмплов, но, тем не менее, с практической точки зрения, к сожалению, голос пользователя и соответствующий текст следует использовать в качестве данных для точной настройки. На самом деле, даже если вы сможете записать свой голос среди тех, кто пользуется услугами искусственного синтеза голоса, будет больше пользователей, которые будут утруждать себя набором текста вместе. Итак, в следующем сеансе мы представим модифицированную версию AdaSpeech, которая позволяет настраивать синтез голоса без сопряжения данных между текстом и речью.

 

Справка

(1) [Быстрая речь 2] FastSpeech 2: быстрый и высококачественный сквозной синтез текста в речь

(2) [Рекламная речь] AdaSpeech: адаптивное преобразование текста в речь для настраиваемого голоса

(3) [Рекламная речь] https://speechresearch.github.io/adaspeech/

Справка

(1) [Документ «Быстрая речь 2»] FastSpeech 2: быстрый и высококачественный сквозной синтез текста в речь

(2) [Речевой документ ADA] AdaSpeech: адаптивное преобразование текста в речь для настраиваемого голоса

(3) [Демонстрация выступления Ada] https://speechresearch.github.io/adaspeech/

Most Read

Most Read

Оставайтесь на связи

Наша команда готова поддержать вас в вашем виртуальном человеческом путешествии. Нажмите ниже, чтобы связаться с нами, и в ближайшее время с вами свяжутся.