создание виртуальных лиц будущего

Впервые я столкнулся с базирующейся в Эдинбурге Речевая графика вдали от улиц Шотландии, в Остине, штат Техас, на выставке SXSW Interactive 2014. Однако поклонники рэп-музыки, возможно, знают компанию лучше по работе над видео Канье Уэста 2014 года «Black Skinhead».

Это стало отличной демонстрацией технологии компании, которая создает реалистичную лицевую анимацию на основе аудиоанализа. Проект – трехминутное видео с 3D-анимацией и кадрами фильма, где Канье Уэст ходит по полу – содержал некоторые противоречивые образы, но для Speech Graphics это был прежде всего увлекательный проект, над которым нужно было работать.

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Майкл Бергер, соучредитель и технический директор Speech Graphics, объясняет: «Они связались с нами в пятницу, попросив ко вторнику получить анимацию для трехминутного видео с непрерывной рэп-музыкой – и они хотели, чтобы вся эта анимация была синхронизирована с рэп. Так что это был быстрый поворот и действительно большое давление, но мы это сделали».

Благодаря акустическому анализу голосовой дорожки Канье технология Speech Graphics смогла автоматически идентифицировать активации лицевых мышц, используемые при создании звука, и использовать эту информацию для анимации 3D-модели лица рэпера; Конечный результат показался зрителю особенно грубым и эмоциональным.

Студийное начало

Путь Speech Graphics начался в Эдинбургском университете, где соучредители Бергер и доктор Грегор Хофер были аспирантами. Пара разделяла интерес к аудио-анимации, но подошла к этой задаче с разных точек зрения: академическая карьера Бергера началась со степени лингвиста, а Хофер имел опыт работы в области психологии и информатики.

Вместе они пришли к идее, которая сэкономит время и деньги игровых и анимационных студий, предоставив возможность брать звук, произнесенный актером, и автоматически создавать соответствующую анимацию, вместо того, чтобы кропотливо анимировать речь вручную. Хофер считает, что ключом к их успеху является то, что при разработке своих технологий они продолжали уделять внимание потребностям целевой отрасли.

«Если вы разрабатываете что-то самостоятельно и не получаете никакой обратной связи, вы можете не нажать нужные кнопки», — говорит Хофер. «Главное — как можно быстрее поговорить с представителями промышленности, даже если они не будут покупать у вас сразу».

Разговоры шли нормально в 2009 году, когда Бергер и Хофер еще были студентами, но им нужен был перерыв, чтобы превратить технологию в жизнеспособный бизнес. Это произошло в начале 2010 года: «Однажды к нам обратилась крупная студия разработки игр», — объясняет Хофер. «Это был ключевой момент, когда мы начали говорить: хорошо, это то, чем мы можем заниматься».

«Главное — как можно быстрее поговорить с промышленностью»

К концу года они зарегистрировали компанию, разместив ее штаб-квартиру в своей существующей базе в Эдинбурге. «У нас здесь хорошая сеть контактов, поэтому у нас есть ценные контакты для найма людей», — говорит Хофер. Университет сыграл свою роль, организовав курсы и связав их с людьми, которые могли помочь, включая доступ к юристам.

«Погода ужасная», — признает Бергер. «Но это красивый город, и многие люди хотят здесь работать и жить, что помогает при наборе персонала».

Зарабатывание денег

В компании Speech Graphics сейчас работают десять человек в Эдинбурге и имеется сеть подрядчиков по всей стране; большое количество данных выгружается в облако для контроля качества специалистами по всему миру.

Как и в случае с большинством молодых компаний, на пути к успеху были свои препятствия. Speech Graphics начала получать контракты в 2011 и 2012 годах, но первый крупный проект компании закончился не совсем так, как они надеялись. «К сожалению, первая игра, над которой мы работали, была отменена», — говорит Хофер. «Мы проделали большую работу над этим, но это был наш прием в игровой индустрии – до этого мы не осознавали, сколько вещей отменяется. Отменяется больше игр, чем выпускается». Это были не все плохие новости. За работу команде заплатили в полном объеме, а в конце 2012 года технология была номинирована на премию игровой индустрии.

Затем, в 2013 году, компания заключила «очень крупный» контракт с обеспечьте лицевую анимацию в Средиземье: Тени Мордора (опубликовано Warner Bros Games). Компания Speech Graphics предоставила двухчасовую анимацию для игры, выпущенной в сентябре 2014 года, так что если вас впечатлили реалистичные лица уруков, то вы знаете, кому следует отдать должное.

Такие контракты имеют ключевое значение для бизнеса, но улучшение основной технологии остается критически важным. «Мы выполняем работу двух компаний», — говорит Бергер. «Мы анимационная компания, создающая анимацию на основе нашей технологии, и это наш основной источник дохода; но в то же время мы все еще разрабатываем технологию, которую используем в этом процессе».

В последние несколько месяцев, пока производственная часть компании была сосредоточена на игре, команда разработчиков Speech Graphics работала над улучшением синтезатора движений — компонента, который преобразует аудиоданные в движения лица.

«Мы анимационная компания… но в то же время мы все еще разрабатываем технологии, которые используем в этом процессе».

«Мы делаем механизмы, которые производим, более органичными и реалистичными», — объясняет Бергер. «Теперь мы анимируем все лицо. Когда вы анализируете звук, вы получаете фонетическое представление речи, но он также позволяет прогнозировать невербальное поведение верхней части лица, включая брови, моргание и метание глаз».

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Как, спросил я, вы выводите одно из другого? «Это один из наших секретов, — застенчиво отвечает Бергер, — но мы извлекаем из аудиосигнала особенности, которые имеют тенденцию коррелировать с определенными выражениями лица. Например, если вы говорите что-то на высоком тоне – например, когда вы дошли до конца предложения и ваш голос повышается, – тогда ваши брови будут иметь тенденцию подниматься вверх с увеличением тона». Есть и другие сигналы: чем интенсивнее наша речь, тем чаще мы моргаем. Бергер уверен, что ситуация и дальше будет улучшаться. «Я думаю, что до фотореалистичной лицевой анимации, в которой невозможно отличить настоящее лицо от анимированного, осталось пять лет – я говорю об автоматизированной анимации; а не ручная анимация».

В Китай

Возможно, это удивительно, но технология Speech Graphics не зависит от языка: поскольку анализ основан на структуре костей и мышц, она работает так же хорошо для китайского языка, как и для английского языка в графствах проживания. Так случилось, что в другом крупном проекте, который взяла на себя компания, эта технология использовалась, чтобы помочь китайцам улучшить свое произношение на английском языке.

«Проект Saundz в 2012 и 2013 годах был предназначен для компании, которая разрабатывала веб-сайт и приложение, чтобы научить китайский рынок произносить английский без акцента», — говорит Бергер. «Они попросили нас создать большой набор анимаций — изображение женщины, произносящей слова как спереди, так и изнутри рта и речевого тракта. Мы создали внутреннюю модель речевого тракта, подвергшуюся значительной адаптации художника, и управляли этой моделью с помощью того же алгоритма, который мы используем для управления внешними мышцами лица».

Результаты вы можете увидеть на saundz.com или загрузив приложение компании. «На сегодняшний день это самая подробная анимация процесса человеческой речи», — утверждает Бергер, отмечая, что технология, лежащая в основе анимации, является собственностью их компании.

На горизонте

Так что же будет дальше с речевой графикой? Бергер делает паузу. «Осенью выйдет еще один игровой проект», — уклончиво говорит он. Имена? «Это станет известно в будущем», — сказал Хофер с извиняющимся смехом. «Мы сотрудничаем с крупными компаниями и соблюдаем NDA (соглашения о неразглашении) по многим вопросам».

Эта пара более откровенна, когда дело касается их собственных технологий. Один из проектов, который компания разрабатывает совместно с департаментом правительства Японии, — это интерактивный аватар, который реагирует, когда вы с ним говорите.

«Он уже используется в Японии в аниме, — говорит Хофер, — но они хотят перенести его в Европу». Speech Graphics имеет возможность воплотить его в жизнь с помощью реалистичной анимации лица и заключила сделку на предоставление персонажей и модели синтеза речи для управления движениями лица.

Первая демонстрация технологии состоится позднее в этом году в Эдинбургском университете, где посетители смогут напрямую разговаривать с аватаром. Хофер видит такие приложения, как виртуальные продавцы: «Вы можете быть в магазине и спросить: «Где я могу найти этот конкретный парфюм?», или игрушку, и аватар может направить вас или показать на карте. ».

«Мы также работаем над аналогичной технологией для мобильных устройств», — говорит Бергер. «Но мы еще разрабатываем приложение — я пока ничего не хочу говорить!»

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *