[Deep.In. Articolo] AdaSpeech2: sintesi vocale adattiva con dati non trascritti - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
March 2, 2022
Team di deep learning: Colin
Astratto

Come il modello AdaSpeech che abbiamo esaminato l'ultima volta, il metodo di adattamento TTS esistente ha utilizzato dati di coppia testo-voce per sintetizzare le voci di uno specifico oratore. Tuttavia, poiché è praticamente difficile preparare i dati in coppia, sarà un modo molto più efficiente per adattare il modello TTS solo con dati vocali non trascritti. Il modo più semplice per accedervi è utilizzare il sistema di riconoscimento vocale automatico (ASR) per la trascrizione, ma è difficile da applicare in determinate situazioni e la precisione del riconoscimento non è sufficientemente elevata, il che può ridurre le prestazioni di adattamento finale. E si è cercato di risolvere questo problema addestrando congiuntamente la pipeline TTS e il modulo di adattamento, il che presenta lo svantaggio di non poter essere facilmente combinato con altri modelli TTS commerciali.

AdaSpeech2 progetta un modulo aggiuntivo in grado di combinare qualsiasi modello TTS per consentire l'apprendimento con voce non trascritta (collegabile) e da questo propone un modello in grado di produrre risultati equivalenti alle prestazioni del modello TTS completamente adattato con dati vocali di testo (efficaci).

Riepilogo per Persone occupate
  • Moduli aggiuntivi sono stati collegati alla struttura di AdaSpeech per indurre l'adattamento a altoparlanti specifici utilizzando solo dati vocali.
  • Lo spazio latente di Mel Encoder è addestrato per essere simile allo spazio latente di Phoneme Encoder, quindi Mel Decoder può ricevere le stesse funzionalità indipendentemente dal fatto che l'input sia di testo o vocale. Ciò è adatto per situazioni in cui è necessario immettere solo dati vocali nel modello TTS preaddestrato.
  • Il metodo di adattamento di AdaSpeech2 può essere utilizzato collegando qualsiasi modello TTS e può produrre prestazioni simili ai modelli che hanno adattato determinati altoparlanti con dati di coppia testo-voce.

Struttura del modello

AdaSpeech2 utilizza AdaSpeech, che consiste in un codificatore di fonemi e un decodificatore di spettrogrammi mel, come modello backbone. La modellazione delle condizioni acustiche e la normalizzazione dello strato condizionale vengono utilizzate come l'AdaSpeech esistente, ma non sono espresse nella figura precedente per semplicità. Qui, aggiungete un codificatore a spettrogramma MEL che riceve e codifica i dati vocali e applicate la perdita L2 per renderla simile all'uscita del codificatore fonemico. Il processo di apprendimento dettagliato verrà spiegato di seguito.

Processo di formazione e inferenza

Fase 1. Formazione sul modello sorgente

Prima di tutto, è importante addestrare bene il modello TTS sorgente. Addestra il codificatore fonemico e il decodificatore dello spettrogramma mel del modello AdaSpeech con una quantità sufficiente di coppie testo-voce, in cui le informazioni sulla durata per estendere l'uscita del codificatore fonemico alla lunghezza dello spettrogramma mel sono ottenute tramite il Montreal Forced Alignment (MFA).

Fase 2. Allineamento dell'encoder Mel

Se disponi di un modello sorgente ben addestrato, collega un codificatore a spettrogramma mel per l'adattamento vocale non trascritto. Infine, svolge un ruolo nella creazione di funzionalità che entreranno nel decodificatore dello spettrogramma mel durante la codifica automatica del parlato e deve essere uguale allo spazio latente del codificatore del fonema perché deve emettere lo stesso output della funzione dai dati di trascrizione (testo). Quindi, mentre procediamo con l'apprendimento di TTS utilizzando dati vocali di testo, otteniamo e minimizziamo la perdita di L2 tra la sequenza dell'encoder del fonema e la sequenza dell'encoder dello spettrogramma mel, portando all'allineamento degli spazi latenti tra i due. Al momento, questo metodo può essere espresso come collegabile perché non riqualifica l'intera struttura, ma fissa i parametri del modello sorgente e aggiorna solo i parametri dell'encoder mel-spectrogram.

Fase 3. Adattamento vocale non trascritto

Ora ottimizzate il modello utilizzando solo i dati vocali (non trascritti) dello specifico altoparlante che desiderate sintetizzare. Poiché il parlato in ingresso viene sintetizzato nuovamente in voce tramite codificatore mel-spectrogram e decoder mel-spectrogram, si tratta di un metodo di ripristino vocale tramite codifica automatica, in cui il modello sorgente aggiorna solo la normalizzazione del livello condizionale del decodificatore mel-spettrogramma e riduce al minimo il calcolo.

Fase 4. Inferenza

Una volta completati tutti i processi di adattamento di cui sopra, il modello può ora imitare la voce di un particolare altoparlante attraverso un codificatore di fonemi che non è stato ottimizzato e un decodificatore di spettrogramma MEL parzialmente ottimizzato quando si inserisce il testo.

Risultati dell'esperimento
Adattamento della qualità vocale

Nella Tabella 1, l'allenamento congiunto è un'impostazione utilizzata come base in questo esperimento imparando contemporaneamente sia i codificatori di fonemi che i codificatori dello spettrogramma mel e la strategia per apprendere i codificatori di fonemi e lo spettrogramma mel in ordine è giudicata superiore.

Inoltre, le prestazioni dei modelli basati su Adaspech e PPG utilizzati come backbone sono state considerate il limite massimo per le prestazioni di AdaSpeech2, quindi abbiamo condotto un esperimento per confrontarle insieme. Dai risultati di MOS e SMOS, possiamo vedere che AdaSpeech2 sintetizza voci quasi della stessa qualità dei modelli considerati limiti superiori.

Analisi sulla strategia di adattamento

 

È stato condotto uno studio di ablazione per valutare se le strategie menzionate in precedenza nel processo di apprendimento abbiano contribuito al miglioramento delle prestazioni del modello. Di conseguenza, la qualità della voce si deteriora se si elimina la perdita di L2 tra l'uscita del codificatore del fonema e l'encoder dello spettrogramma MEL, oppure se anche l'encoder dello spettrogramma MEL viene aggiornato nella fase di messa a punto.

 

Dati di adattamento variabili

Quando il numero di campioni di dati vocali adattivi è inferiore a 20, la qualità della sintesi migliora notevolmente all'aumentare della quantità di dati, ma se si supera questo limite, non ci sarà alcun miglioramento significativo della qualità.

 

Conclusione e opinione

Gli ingegneri di machine learning che addestrano i modelli TTS sanno che la qualità dei dati è di qualità sintetica, quindi si impegnano molto nella raccolta e nella preelaborazione dei dati. E per sintetizzare le voci con i nuovi oratori, i file vocali e il testo trascritto dei nuovi oratori vengono raccolti in coppia per riaddestrare il modello TTS da zero, ma utilizzando il metodo AdaSpeech2, è sufficiente raccogliere i dati e perfezionare il modello. Un altro vantaggio è che è facile da applicare nella realtà perché può essere combinato con qualsiasi modello TTS.

Se procediamo con ulteriori ricerche in AdaSpeech2, potrebbe essere un argomento interessante osservare i cambiamenti delle prestazioni risultanti utilizzando nuove funzioni di distanza come la somiglianza del coseno come vincoli invece della perdita di L2.

La prossima volta avremo tempo per presentare l'ultimo articolo della serie AdaSpeech.

Riferimento

(1) [articolo AdaSpeech2] AdaSpeech 2: sintesi vocale adattiva con dati non trascritti

(2) [demo di AdaSpeech2] https://speechresearch.github.io/adaspeech2/

 

Most Read

Most Read

Restiamo connessi

Il nostro team è pronto a supportarti nel tuo viaggio umano virtuale. Fai clic qui sotto per contattarci e qualcuno ti contatterà a breve.