Equipo de aprendizaje profundo: Colin

Resumen

Al igual que el modelo AdaSpeech que analizamos la última vez, el método de adaptación TTS existente ha utilizado datos de pares de texto y voz para sintetizar las voces de un hablante específico. Sin embargo, dado que es prácticamente difícil preparar los datos en pares, será una forma mucho más eficiente de adaptar el modelo TTS solo con datos de voz que no estén transcritos. La forma más sencilla de acceder es utilizar el sistema de reconocimiento automático de voz (ASR) para la transcripción, pero es difícil de aplicar en determinadas situaciones y la precisión del reconocimiento no es lo suficientemente alta, lo que puede reducir el rendimiento de la adaptación final. Además, se ha intentado resolver este problema mediante la formación conjunta del sistema TTS y del módulo de adaptación, lo que tiene la desventaja de que no se puede combinar fácilmente con otros modelos comerciales de TTS.

AdaSpeech2 diseña un módulo adicional que puede combinar cualquier modelo de TTS para permitir el aprendizaje con voz no transcrita (conectable) y, a partir de ahí, propone un modelo que puede producir resultados equivalentes al rendimiento del modelo TTS totalmente adaptado con datos de texto y voz (efectivos).

Resumen para personas ocupadas

Se adjuntaron módulos adicionales a la estructura de AdaSpeech para inducir la adaptación a hablantes específicos utilizando solo datos de voz.
El espacio latente de Mel Encoder está diseñado para ser similar al espacio latente de Phoneme Encoder, por lo que Mel Decoder puede recibir las mismas funciones independientemente de si la entrada viene en texto o voz. Esto es adecuado para situaciones en las que solo se deben introducir datos de voz en el modelo TTS previamente entrenado.
El método de adaptación de AdaSpeech2 se puede utilizar conectando cualquier modelo de TTS y puede producir un rendimiento similar al de los modelos que han adaptado ciertos altavoces con datos de pares de texto y voz.

Estructura del modelo

AdaSpeech2 utiliza AdaSpeech, que consiste en un codificador de fonemas y un decodificador de espectrogramas Mel, como modelo troncal. El modelado de condiciones acústicas y la normalización de capas condicionales se utilizan como el AdaSpeech existente, pero no se expresan en la figura anterior por motivos de simplicidad. En este caso, añada un codificador de espectrogramas MEL que reciba y codifique los datos de voz, y aplique la pérdida L2 para que sea similar a la salida del codificador de fonemas. El proceso de aprendizaje detallado se explicará a continuación.

Proceso de formación e inferencia

Paso 1. Entrenamiento sobre el modelo fuente

En primer lugar, es importante entrenar bien el modelo TTS fuente. Entrene el codificador de fonemas y el decodificador de espectrogramas MEL del modelo AdaSpeech con una cantidad suficiente de pares de texto y voz, de modo que la información sobre la duración necesaria para extender la salida del codificador de fonemas a la longitud del espectrograma MEL se obtenga mediante la alineación forzada de Montreal (MFA).

Paso 2. Alineación del codificador Mel

Si tiene un modelo fuente bien entrenado, conecte un codificador de espectrograma MEL para una adaptación de voz sin transcribir. Por último, desempeña un papel importante a la hora de crear elementos que se introduzcan en el decodificador del espectrograma MEL mientras codifican automáticamente la voz. Además, es necesario hacer que coincida con el espacio latente del codificador de fonemas, ya que tiene que emitir el mismo resultado que el elemento de los datos de transcripción (texto). Por lo tanto, a medida que volvemos a aprender el TTS utilizando datos de texto y voz, obtenemos y minimizamos la pérdida de L2 entre la secuencia del codificador de fonemas y la secuencia del codificador de espectrogramas Mel, lo que lleva a la alineación de los espacios latentes entre los dos. En este momento, este método se puede expresar como conectable porque no reentrena toda la estructura, sino que corrige los parámetros del modelo fuente y actualiza solo los parámetros del codificador de espectrogramas MEL.

Paso 3. Adaptación de voz no transcrita

Ahora ajuste el modelo utilizando únicamente los datos de voz (sin transcribir) del hablante específico que desea sintetizar. Dado que la voz de entrada se vuelve a sintetizar para convertirla en voz mediante un codificador y un decodificador de espectrogramas MEL, se trata de un método de restauración de la voz mediante codificación automática, en el que el modelo fuente actualiza únicamente la normalización de la capa condicional del decodificador de espectrogramas MEL y minimiza los cálculos.

Paso 4. Inferencia

Una vez que se hayan completado todos los procesos de adaptación anteriores, el modelo ahora puede imitar la voz de un hablante en particular a través de un codificador de fonemas que no se ha ajustado con precisión y un decodificador de espectrograma MEL parcialmente ajustado cuando se introduce texto.

Resultados del experimento

Calidad de voz de adaptación

En la Tabla 1, el entrenamiento conjunto es un entorno utilizado como base en este experimento al aprender tanto los codificadores de fonemas como los codificadores de espectrogramas Mel al mismo tiempo, y la estrategia para aprender los codificadores de fonemas y los espectrogramas Mel en orden se considera superior.

Además, se consideró que el rendimiento de los modelos basados en Adaspech y PPG utilizados como red troncal era el límite superior del rendimiento de AdaSpeech2, por lo que realizamos un experimento para compararlos. A partir de los resultados de MOS y SMOS, podemos ver que AdaSpeech2 sintetiza voces con casi la misma calidad que los modelos considerados de límites superiores.

Análisis sobre la estrategia de adaptación

Se realizó un estudio de ablación para evaluar si las estrategias mencionadas anteriormente en el proceso de aprendizaje contribuyeron a mejorar el desempeño del modelo. Como resultado, la calidad de la voz se deteriora si se elimina la pérdida de nivel 2 entre la salida del codificador de fonemas y el codificador del espectrograma Mel, o si el codificador del espectrograma Mel también se actualiza en la etapa de ajuste fino.

Datos de adaptación variables

Cuando el número de muestras de datos de voz adaptativos es inferior a 20, la calidad de la síntesis mejora significativamente a medida que aumenta la cantidad de datos, pero si va más allá, no habrá una mejora significativa de la calidad.

Conclusión y opinión

Los ingenieros de aprendizaje automático que entrenan modelos TTS saben que la calidad de los datos es de calidad sintética, por lo que se esfuerzan mucho en recopilar y preprocesar los datos. Además, para sintetizar voces con altavoces nuevos, los archivos de voz de los nuevos hablantes y el texto transcrito se recopilan en pares para volver a entrenar el modelo TTS desde cero. Sin embargo, con el método ADASpeech2, solo es necesario recopilar datos y ajustar el modelo. Otra ventaja es que es fácil de aplicar en la realidad porque se puede combinar con cualquier modelo de TTS.

Si continuamos investigando en ADaSpeech2, podría ser un tema interesante observar los cambios de rendimiento resultantes utilizando nuevas funciones de distancia, como la similitud de cosenos, como restricciones en lugar de la pérdida de L2.

La próxima vez, tendremos tiempo de presentar el último artículo de la serie AdaSpeech.