Нейросеть Google DeepMind научилась превращать 2D-изображения в трехмерные объекты

22:30 19 июня 2018

Посмотрев на фото, любой человек без труда сможет представить то, что изображено на нем как трехмерное изображение. И даже если часть предметов остается за кадром (например, мы видим лишь переднюю часть спинки стула, но не видим заднюю), нам совсем несложно предположить, как будет выглядеть предмет с обратной стороны. Для ИИ же подобные трюки сложны, но недавно группа инженеров проекта DeepMind не только научила искусственный разум проделывать вышеописанное, но и переводить 2D-изображение в полноценное 3D.

Новая система получила название «Генерирующая сеть запросов» (Generative Query Network — GQN). Чтобы обучить искусственный разум анализировать двухмерные сцены, команда исследователей показывала ему изображения одной сцены с разных точек обзора. Эту цепь изображений ИИ использовал для того, чтобы понять принцип изменения объектов при смене ракурса. Более того, этот подход позволил научиться прогнозировать то, как будет выглядеть сцена с другого угла обзора, учитывая не только положение объектов, но и освещение. Как сообщил один из авторов работы Али Эслами,

«Представьте, что вы смотрите на гору Эверест и передвигаетесь на метр. Гора не изменит своего размера, что даст вам информацию о расстоянии до нее и ее размере. А если вы посмотрите на кружку и проделаете то же самое – ее положение изменится. Приблизительно так и работает наша технология.»

«Более того, алгоритм обучается так же, как и человек. Увидев один и тот же объект множество раз, ИИ анализирует его характеристики, запоминает и потом использует при повторном взаимодействии. Сейчас искусственный интеллект может воссоздать целый лабиринт, просканировав всего несколько фотографий, сделанных изнутри.»