Text-To-Speech (TTS) — это технология, используемая большинством голосовых помощников. Не имеет значения, взаимодействует ли кто-либо с Alexa, Siri, Google или другими; обычно в ответ на это звук в формате TTS воспроизводится через динамик смартфона, мобильного телефона или автомобильного динамика. Нынешняя парадигма голосового помощника, заключающаяся в том, чтобы говорить с черным ящиком и получать бестелесный голосовой ответ, соответствует современным моделям взаимодействия, но это не очень хорошо подходит для метавселенной, которую мы видим на горизонте.

Присоединяйтесь к множеству новых стартапов, которые стремятся создать «виртуальных людей» или «цифровых двойников». Они создают, скорее всего, диалоговые интерфейсы нового поколения, основанные на более естественных, аутентичных и гуманистических цифровых взаимодействиях. Так почему же виртуальные люди и почему сейчас? Несколько технологических факторов и социально-экономических факторов создали идеальную среду для синтеза видео в реальном времени и использования виртуальных людей.

ТЕХНОЛОГИЧЕСКИЕ ДРАЙВЕРЫ
По сравнению с диалоговыми ответами TTS, нет никаких сомнений в том, что решения по синтезу видео требуют более высоких рабочих нагрузок (CPU+GPU) для генерации видео и большей полезной нагрузки (размера файла) для доставки видео. Однако постоянно растущая производительность процессоров и графических процессоров, а также повышение доступности ускоряют процесс синтеза видео в облаке и на периферии. Кроме того, достижения в области пакетной обработки и интеллектуального кэширования позволили синтезировать видео в реальном времени, не уступающую решениям TTS по скорости разговора. Таким образом, проблема создания сверхреалистичного видео «на лету» была в первую очередь решена. Это приводит к передаче видео в режиме реального времени, которое благодаря скоростям широкополосного доступа по Wi-Fi и 5G теперь доступно большинству домов, предприятий и школ. Вы можете увидеть сравнение в видео ниже.

ТРЕБУЕТСЯ ПОМОЩЬ (И КОНТЕНТ)
Предприятия, которым требуются сотрудники для взаимодействия с клиентами, например отели, банки или рестораны быстрого обслуживания, сталкиваются с трудностями при найме и удержании новых сотрудников. Отсутствие доступных и квалифицированных сотрудников может испортить восприятие бренда клиентами и привести к реальному снижению доходов. Познакомьтесь с виртуальными людьми, которые могут быстро и последовательно обрабатывать основные запросы. В Корее и 7-11, и KB Bank установили киоски искусственного интеллекта, в которых виртуальный человек взаимодействует с клиентами. Внедрение модели 7-11 поддерживает операции без мужчин (или женщин).

Еще одна многообещающая вертикаль для виртуальных людей — средства массовой информации, как вещательные, так и социальные сети (влиятельные лица). Независимо от того, транслируете ли вы новости 24 часа в сутки или оставайтесь актуальными в TikTok, необходимость одна и та же: создавайте больше видеоконтента и делайте его быстрее. В очередной раз Азия взяла на себя инициативу по созданию виртуальных людей. Телевизионные станции, такие как MBN и LG HelloVision, дополняют свои прямые трансляции версиями своих ведущих в формате Virtual Human, которые регулярно обновляют новости в течение дня. Используя вызовы API или интуитивно понятный веб-интерфейс «что напечатаешь, то и получишь», можно снимать видео с виртуальными людьми за считанные минуты без использования камеры, съемочной группы, освещения, грима и т. д. Это экономичный и экономичный инструмент, который можно смешивать в течение дня, чтобы контент оставался свежим.

«Какова наша стратегия в отношении Метавселенной?» Этот вопрос задают в конференц-залах во всех секторах. Нетрудно себе представить, как бренды, использующие современных двумерных виртуальных людей для приема заказов, помощи, обмена новостями, быстро превратятся в первопроходцев трехмерного мира и метавселенной. В течение года следите за важными анонсами в этом разделе.