[Deep.In. Articolo] AdaSpeech: sintesi vocale adattiva per voce personalizzata - DeepBrainAI

Updated on
July 5, 2024
|
Technology
Published
January 25, 2022
Team di deep learning: Colin
Astratto

Potresti aver provato a cambiare la voce della voce guidata durante l'utilizzo degli altoparlanti AI o della navigazione. Ho impostato la voce dell'altoparlante con la voce del mio attore preferito Yoo In-na ed è diventato importante sintetizzare il parlato con varie voci poiché la tecnologia di sintesi vocale è stata incorporata in vari aspetti della vita, come assistenti personali, trasmissioni di notizie e indicazioni vocali. E c'è una crescente richiesta di utilizzare non solo le voci di altre persone, ma anche le loro voci come voce AI, che viene chiamata sintesi vocale personalizzata nel campo della ricerca sulla sintesi vocale.

Oggi esamineremo un modello di sintesi vocale (TTS) chiamato AdaSpeech che è apparso per la sintesi vocale personalizzata. La tecnologia per generare una voce personalizzata avviene principalmente attraverso il processo di adattamento del modello TTS sorgente pre-addestrato alla voce dell'utente. La maggior parte dei dati vocali dell'utente utilizzati in questo momento sono ridotti per motivi di praticità e, poiché la quantità è ridotta, è molto difficile rendere la voce generata naturale e simile alla voce originale. Esistono due problemi principali nell'addestramento delle reti neurali con voce personalizzata.

Innanzitutto, le voci di alcuni utenti hanno spesso condizioni acustiche diverse dai dati vocali appresi dal modello TTS di origine. Ad esempio, esistono una varietà di rime, stili, emozioni, punti di forza e ambienti di registrazione degli oratori e le differenze nei dati vocali che ne derivano possono ostacolare le prestazioni di generalizzazione del modello sorgente, con conseguente scarsa qualità di adattamento.

In secondo luogo, quando si adatta il modello TTS sorgente a una nuova voce, c'è un compromesso tra i parametri di regolazione fine e la qualità della voce. In altre parole, maggiore è il numero di parametri adattivi utilizzati, migliore è la qualità ottenuta, ma maggiore è l'utilizzo della memoria e maggiori sono i costi di implementazione del modello.

Gli studi esistenti si sono orientati specificando un metodo per mettere a punto l'intero modello o parte (in particolare il decodificatore), ottimizzare solo l'incorporamento degli altoparlanti utilizzato per distinguere gli altoparlanti nella sintesi vocale a più altoparlanti, addestrare il modulo codificatore degli altoparlanti e supporre che il dominio del parlato sorgente e dei dati adattivi sia lo stesso. Tuttavia, c'è un problema con l'uso effettivo perché ci sono troppi parametri o non produce una qualità soddisfacente.

AdaSpeech è un modello TTS in grado di generare in modo efficiente le voci di nuovi utenti (o parlanti) con alta qualità risolvendo al contempo i problemi di cui sopra. La pipeline è stata in gran parte suddivisa in tre fasi: pre-formazione, messa a punto e inferenza e vengono utilizzate due tecniche per risolvere le difficoltà esistenti. D'ora in poi, li esamineremo insieme! 🙂

 

Riepilogo per Persone occupate
  • Le prestazioni di generalizzazione del modello sono state migliorate estraendo le caratteristiche acustiche in base a vari ambiti dai dati vocali e aggiungendole ai vettori di codifica dei fonemi esistenti attraverso la modellazione delle condizioni acustiche.
  • Hanno migliorato in modo efficiente il processo di adattamento del modello sorgente ai dati del nuovo altoparlante utilizzando la normalizzazione del livello condizionale.
  • È diventato possibile creare voci personalizzate di alta qualità con meno parametri e meno nuovi dati vocali rispetto ai modelli di base tradizionali.

 

Struttura del modello

Il modello portante di AdaSpeech è FastSpeech 2. È costituito in gran parte da codificatori fonematici, adattatori di varianza e decodificatore mel. Include due nuovi elementi (aree rosa nella Figura 1) ideati dagli autori.

 

Modellazione delle condizioni acustiche

In generale, è importante aumentare le prestazioni di generalizzazione del modello perché la voce sorgente utilizzata nell'addestramento del modello non può coprire tutte le caratteristiche acustiche della voce del nuovo utente. Poiché è difficile contenere queste caratteristiche acustiche nel testo inserito dal modello in TTS, il modello tende a ricordare le caratteristiche acustiche nei dati di addestramento, il che costituisce un ostacolo alle prestazioni di generalizzazione quando si generano voci personalizzate. Il modo più semplice per risolvere questo problema è fornire le caratteristiche acustiche come input del modello, che è suddiviso in livello degli altoparlanti, livello di enunciato e livello di fonema e si chiama modellazione delle condizioni acustiche, che include una varietà di caratteristiche sonore dalle informazioni ad area estesa a quelle periferiche. Ogni livello contiene le seguenti informazioni.

  • Livello dell'altoparlante: un livello che cattura le caratteristiche generali di un diffusore, rappresentando la più ampia gamma di caratteristiche acustiche (ad esempio, l'incorporamento degli altoparlanti).
  • Livello di enunciato: un livello che cattura le caratteristiche che appaiono quando si pronuncia una frase e uno spettrogramma mel di una voce di riferimento viene utilizzato come input e da esso viene emesso un vettore di caratteristiche. Durante l'addestramento del modello, la voce bersaglio diventa una voce di riferimento e, di conseguenza, una delle voci dell'altoparlante che si desidera sintetizzare viene selezionata casualmente e utilizzata come voce di riferimento.
  • Livello fonema: la gamma più piccola di livelli che catturano le caratteristiche in unità di fonemi in una frase (ad esempio, intensità di un particolare fonema, altezza, rima e rumore ambientale temporaneo). In questo caso, viene immesso lo spettrogramma mel a livello di fonema espresso sostituendo i frame mel corrispondenti allo stesso fonema con la media all'interno della sezione. In inferenza, sebbene la struttura sia la stessa, utilizziamo un predittore acustico che riceve il vettore nascosto dal codificatore del fonema come input e predice il vettore a livello di fonema.

 

Normalizzazione dello strato condizionale

 

Il decoder mel di AdaSpeech è costituito da una rete di autoattenzione e feed-forward basata sul modello Transformer e, poiché in esso vengono utilizzati molti parametri, il processo di ottimizzazione della nuova voce non sarà efficiente. Quindi gli autori hanno applicato la normalizzazione del livello condizionale alla rete di autoattenzione e feed-forward su ogni livello e ha ridotto il numero di parametri aggiornati durante la messa a punto aggiornando la scala e il bias utilizzati qui per adattarli all'utente. E la scala e il bias usati qui sono denominati condizionali perché attraversano lo strato lineare come nella figura precedente e questi vettori sono calcolati dall'incorporamento degli altoparlanti.

 

Processo di formazione e inferenza

Il processo di addestramento di AdaSpeech e di inferenza vocale ai nuovi oratori può essere riassunto con l'algoritmo sopra riportato. Innanzitutto, preaddestrate il modello sorgente con il maggior numero possibile di dati vocali di testo, quindi aggiornate i parametri utilizzati per la normalizzazione del livello condizionale e l'incorporamento degli altoparlanti con i dati vocali del nuovo oratore mediante una messa a punto. In conclusione, si può vedere che il valore del parametro che deve essere calcolato in base alle informazioni del relatore e il valore del parametro non ottimizzato mediante l'apprendimento vengono utilizzati insieme per creare uno spettrogramma mel.

 

Risultati dell'esperimento
Valutazione personalizzata della qualità vocale

 

MelGaN è stato utilizzato come vocoder e la naturalezza della voce personalizzata sintetizzata è stata valutata come MOS e la somiglianza è stata valutata su una metrica chiamata SMOS. Si può vedere che AdaSpeech è in grado di sintetizzare voci di alta qualità con solo parametri inferiori o simili rispetto alla linea di base. E poiché il modello TTS sorgente è stato preaddestrato per un set di dati chiamato LibRITTS, ovviamente, sembra ricevere il punteggio più alto se adattato come nuovo altoparlante di LibRITTS.

 

Studio di ablazione

Utilizzando il CMOS (MOS di confronto), che può valutare la qualità relativa, hanno condotto uno studio di ablazione sulle tecniche dichiarate come contributo in questo articolo. Poiché il CMOS di AdaSpeech, che ha rimosso alcune parti, era inferiore all'AdaSpeech di base della Tabella 2, possiamo concludere che tutte le tecniche contribuiscono al miglioramento della qualità.

 

Modellazione delle condizioni acustiche Analisi

La Figura 4 (a) mostra il vettore acustico a livello di enunciato degli oratori appresi in t-SNE. Si può vedere che frasi diverse pronunciate dallo stesso oratore sono classificate nello stesso gruppo e da ciò si ritiene che il modello abbia appreso le caratteristiche uniche di un oratore quando pronuncia una frase. Sono state fatte alcune eccezioni, ma queste frasi sono generalmente frasi brevi o emotive, il che rende difficile distinguerle dalle espressioni degli altri oratori.

Normalizzazione dello strato condizionale Analisi

Rispetto al CMOS, si può vedere che la qualità della voce è la migliore quando si utilizza la normalizzazione del livello condizionale. Pertanto, quando si esegue la normalizzazione dei livelli, è preferibile modificare la scala e la distorsione riflettendo le caratteristiche dell'altoparlante e si può riassumere che l'aggiornamento solo di essi ha un effetto positivo sull'adattabilità del modello.

Quantità di analisi adattiva dei dati

Infine, gli autori hanno condotto un esperimento per verificare la quantità di dati vocali dei nuovi utenti necessari per determinare se questo modello è pratico. Come si può vedere dalla Figura 4 (b), la qualità della voce sintetizzata migliora rapidamente fino a quando non vengono utilizzati 10 campioni, ma da allora non ci sono miglioramenti significativi, quindi è possibile mettere a punto l'AdaSpeech utilizzando solo 10 campioni per ogni altoparlante.

 

Conclusione e Opinione

AdaSpeech è un modello TTS che ha la capacità di adattarsi ai nuovi utenti sfruttando al contempo i vantaggi di FastSpeech, che in precedenza ha migliorato la velocità con la sintesi vocale parallela. La modellazione acustica delle condizioni migliora le prestazioni di generalizzazione del modello catturando le caratteristiche della voce e, se ulteriormente suddivisa, può essere creata un'intelligenza artificiale che parli in modo più simile alle caratteristiche dell'utente. Inoltre, penso che il valore d'uso sia infinito in quanto si tratta di un modello in grado di soddisfare il TTS vocale personalizzato con soli 10 campioni, ma nonostante ciò, è deplorevole in termini pratici che la voce dell'utente e il testo corrispondente vengano utilizzati come dati per la messa a punto insieme. Infatti, anche se riuscirete a registrare la vostra voce tra coloro che utilizzano i servizi di sintesi vocale AI, ci saranno più utenti che si prenderanno la briga di digitare testo insieme. Quindi, nella prossima sessione, introdurremo una versione modificata di AdaSpeech che consente la sintesi vocale personalizzata senza dati associati testo-voce.

 

Riferimento

(1) [FastSpeech 2] FastSpeech 2: sintesi vocale end-to-end veloce e di alta qualità

(2) [AdaSpeech] AdaSpeech: sintesi vocale adattiva per voce personalizzata

(3) [AdaSpeech] https://speechresearch.github.io/adaspeech/

Riferimento

(1) [Documento su FastSpeech 2] FastSpeech 2: sintesi vocale end-to-end veloce e di alta qualità

(2) [Documento vocale ADA] AdaSpeech: sintesi vocale adattiva per voce personalizzata

(3) [Demo AdaSpeech] https://speechresearch.github.io/adaspeech/

Most Read

Most Read

Restiamo connessi

Il nostro team è pronto a supportarti nel tuo viaggio umano virtuale. Fai clic qui sotto per contattarci e qualcuno ti contatterà a breve.