Воссоздать лицо по голосу стало возможным (1 фото)

Американская нейросетевая модель Speech2Face, анализируя спектограмму речи человека, научилась создавать более менее-похожее изображение лица, учитывая три параметра: расу, пол и возраст.
Ученые Массачусетского технологического института обучили нейросеть, используя набор данных AVSpeech, состоящий из более миллиона коротких видео с изображением людей. Каждое такое видео разделено на аудио- и видеодорожку.

Воссоздать лицо по голосу стало возможным-1 фото-


Только по голосу человека можно определить достаточно точно несколько его особенностей: его пол, возраст и национальную принадлежность. Несмотря на то, что Speech2Face далека от совершенства и все еще не определяет возраст, возможно примерно представить, как выглядит говорящий человек.

Изначально «натренированный» алгоритм VGG-Face, который раньше работал над проектом по определению сексуальной ориентации человека, использует особенные черты человека из определенного кадра для того, чтобы создать изображение лица в анфас с нейтральным выражением. Другая же часть алгоритма, используя аудиодорожки видео и результаты из параллельной нейросети, генерирующей изображение, создает спектограмму речи и выдает примерное изображение лица человека.

Цель исследования состояла в выделении точных параметров возраста, пола и этнической принадлежности. При этом станет возможным создавать анимационные аватары человека по голосу, но далеко не настоящее изображение со 100% точностью.

Опубликовать в Фейсбук  Опубликовать в Вконтакте  Добавить в Twitter  Поделиться в Одноклассниках 
Загрузка...

Добавить комментарий

logo