Text-To-Speech (TTS) è la tecnologia del giorno per la maggior parte degli assistenti vocali. Non fa differenza se qualcuno interagisce con Alexa, Siri, Google o altri; le risposte sono in genere audio TTS riprodotto da un altoparlante intelligente, da un telefono cellulare o da un altoparlante di un'automobile. L'attuale paradigma dell'assistente vocale che consiste nel parlare a una scatola nera e ricevere una risposta vocale disincarnata funziona con i modelli di interazione odierni, ma questo non si traduce bene nel metaverso che vediamo all'orizzonte.

Partecipa a una serie di nuove start-up tutte in gara per sviluppare «umani virtuali» o «gemelli digitali». Stanno creando quella che molto probabilmente sarà la prossima generazione di interfacce conversazionali basate su interazioni digitali più naturali, autentiche e umanistiche. Allora perché Virtual Humans e perché adesso? Alcuni fattori tecnologici e socioeconomici hanno creato la tempesta perfetta per la sintesi video in tempo reale e gli umani virtuali.

DRIVER TECNOLOGICI
Rispetto alle risposte TTS conversazionali, non c'è dubbio che le soluzioni di sintesi video richiedano carichi di lavoro più elevati (CPU+GPU) per generare video e payload più elevati (dimensioni del file) per fornire video. Tuttavia, l'aumento costante delle prestazioni di CPU e GPU e la maggiore disponibilità velocizzano il processo di sintesi video nel cloud e sull'edge. Inoltre, i progressi nell'elaborazione in batch e nella cache intelligente hanno consentito una sintesi video in tempo reale che rivaleggia con le soluzioni TTS per la velocità di conversazione. Quindi, il problema principale della generazione istantanea di video ultra realistici è stato risolto. Ciò porta alla distribuzione di video in tempo reale, che, grazie alla velocità della banda larga tramite Wi-Fi e 5G, è ora facilmente disponibile per la maggior parte delle case, delle aziende e delle scuole. Puoi vedere il confronto nel video qui sotto.

AIUTO (E CONTENUTO) RICERCATO
Le aziende che richiedono ai dipendenti di interagire con i clienti, come hotel, banche o ristoranti con servizio rapido, hanno difficoltà ad assumere e trattenere nuovi dipendenti. La mancanza di dipendenti disponibili e qualificati può danneggiare la percezione del marchio da parte del cliente e creare una reale perdita di entrate. Inserisci i Virtual Humans in grado di gestire le richieste di base in modo rapido e coerente. In Corea, sia 7-11 che KB Bank hanno installato chioschi AI che si affidano a un Virtual Human per interagire con i clienti. L'implementazione 7-11 supporta un'operazione senza uomo (o senza donne).

Un altro verticale promettente per Virtual Humans sono i media, sia i media radiotelevisivi che i social media (influencer). Che si tratti di trasmettere notizie in streaming 24 ore al giorno o di rimanere pertinenti su TikTok, la necessità è la stessa: generare più contenuti video e renderli più veloci. Ancora una volta, l'Asia ha preso l'iniziativa con Virtual Humans. Le emittenti televisive come MBN e LG HelloVision integrano entrambe le loro trasmissioni in diretta con versioni Virtual Human dei loro conduttori principali che forniscono aggiornamenti di notizie regolari durante il giorno. Utilizzando chiamate API o un'interfaccia web intuitiva «ciò che digiti è ciò che ottieni», i video con Virtual Humans possono essere realizzati in pochi minuti senza bisogno di telecamera, troupe, luci, trucco, ecc. Uno strumento che consente di risparmiare tempo e costi che può essere combinato durante il giorno per mantenere i contenuti aggiornati.

«Qual è la nostra strategia per il Metaverse?» Questa domanda viene posta nelle sale conferenze di tutti i settori. È facile immaginare come i marchi che sfruttano gli umani virtuali 2D di oggi per prendere ordini, aiutare e condividere notizie si evolveranno rapidamente fino a diventare i primi pionieri del mondo 3D e del metaverso. Seguiteci nel corso dell'anno per scoprire alcuni importanti annunci in questo ambito.