Как научить искусственный интеллект делать всё в цифровой вселенной?

Многие из нас помнят и знают, какими бывают детские сады. Комнаты для обучения напичканы игрушками и пазлами, музыкой и книгами, цветами и даже иногда котами, являя таким образом богатый и пышный мир, с которым дети могут играть и учиться играя. Но вопреки расхожему мнению, игра детей далеко не проста. Они не просто веселятся — они обучаются, приобретают понимание мира. За счет игры в разнообразной и восхитительной вселенной мы лелеем многогогранный интеллект ребенка.

Почему бы не учить ИИ таким же образом?

Не так давно некоммерческий институт OpenAI открыл виртуальный мир для ИИ, чтобы он его исследовал и играл с ним. Цель проекта Universe (Вселенная) такая же большая, как и его название: научить отдельный ИИ выполнять любую задачу, которую человек может выполнить при помощи компьютера.

Обучая отдельных агентов ИИ преуспевать в различных задачах реального мира, OpenAI надеется привести нас на шаг ближе к по-настоящему разумным ботам — которые обладают гибкими навыками рассуждения вроде тех, которые имеем мы.

Интеллект общего уровня

Нет никаких сомнений в том, что ИИ становится пугающе умным.

Теперь компьютеры могут точно видеть, слышать и переводить языки, иногда даже опережая людей. Только в начале этого года, в серии громких игр в го, AlphaGo от DeepMind разгромил 18-кратного чемпиона мира Ли Седоля, на десять лет раньше, чем ожидали некоторые эксперты.

Но правда в том, что ИИ хороши ровно настолько, насколько их научили. Попросите AlphaGo сыграть в шахматы, и программа вероятнее всего по-машинному растеряется, даже если вы объясните ей правила в мельчайших подробностях.

Пока что наши системы ИИ — сверхэффективные лошадки для одного трюка. Виновен в этом отчасти метод обучения: исследователи начинают с чистого листа ИИ, проводя его через миллионы испытаний, пока он не преуспеет в одной задаче и не решит ее. ИИ никогда не испытывает что-то еще, так как он узнает, как решить любую другую проблему?

Чтобы добраться до интеллекта общего уровня — способного на человеческом уровне использовать полученный опыт для решения новых проблем — ИИ нужно переносить свой опыт в решение других задач. И вот в этом им поможет Universe. Испытывая мир, полный различных сценариев, ученые OpenAI надеются, что ИИ получит знание о мире и гибкие навыки решения проблем, которые позволят ему «думать», а не застревать навечно в единственной петле.

Дивный новый мир

По своей сути, Universe это мощная платформа, которая включает тысячи сред, обычно обеспечивающих стандартные методы для обучения агентов ИИ. Будучи программной платформой, Universe обеспечивает площадку для запуска чужого программного обеспечения, чтобы программы обучались в разных средах — Atari и флеш-игры, приложения и веб-сайты, например, уже приняты.

Впереди будут и другие.

В теории Universe может запустить любое программное обеспечение под любой компьютер, позволяя ученым вставлять и обучать свои ИИ по желанию. Это как отправить ребенка в летний лагерь: выбираешь свою нишу, тип деятельности, ждешь, пока он ее освоит, затем другую и так далее, искупаться и повторить.

В Universe ИИ взаимодействует с виртуальным миром так, как люди используют компьютер: он «видит» пиксели на экране и использует виртуальную клавиатуру и мышь, чтобы вводить команды.

Это стало возможным благодаря Virtual Network Computing (VNC), по сути, систему совместного использования рабочего стола, которая позволяет передавать движения клавиатуры и мыши с одного компьютера (ИИ) другому (среда обучения). При изменении окружающей среды, VNC отправляет обновленные скриншоты обратно ИИ, что позволяет ему выполнять следующий шаг. VNC выступает как глаза и руки ИИ.

Как происходит обучение?

Все ИИ, что подключены к Universe, обучаются при помощи так называемого обучения с подкреплением, мощного метода, который привел к успеху AlphaGo. Под этим термином скрывается, впрочем, то, как мы, люди, тренируем дельфинов, собак и даже детей. Это обучение методом проб и ошибок: выберите действие, и если вас за него вознаградили, продолжайте в том же духе. Если нет, попробуйте что-нибудь еще.

Вместо того чтобы начинать с совершенно пустого ИИ, исследователи иногда дают им импульс, позволяя им «смотреть», как люди решают задачу. Это позволяет ИИ сформировать первое впечатление и иметь более полное представление о том, как оптимизировать свои решения.

Обучение с подкреплением уже используется во многих приложениях ИИ. Внутри Universe, впрочем, сила этой технологии раскрывается на полную. Поскольку ИИ может перескакивать между играми и приложениями, он может взять изученное в одном приложении и запросто использовать его, чтобы разобраться в другом — это назвали «трансферное обучение» или «обучение с переносом». Этот навык непросто освоить, но он необходимо на дороге к разумным машинам.

По данным OpenAI, мы медленно туда движемся: некоторые из их агентов уже показывают признаки переноса обучения от одной игры с вождением в другую.

От игр к миру битов

Как и многие другие разработчики ИИ, OpenAI использует игры, чтобы подтолкнуть Universe, не просто так: их просто оценить с позиции успеха. Поскольку игры измеряются различными статистиками и оценками, система может запросто использовать эти цифры, чтобы оценить прогресс ИИ и вознаградить его соответствующим образом. Это крайне важно для обучения с подкреплением.

Поскольку Universe полагается на пиксели и клавиатуры, люди тоже могут играть в игры на платформе. Эти сеансы записываются и обеспечивают базовый уровень для оценки выступлений ИИ (неплохая работенка, согласитесь).

Но игры — это лишь малая часть нашего взаимодействия с цифровым миром, и Universe уже выходит за свои ограничения с проектом Mini World of Bits («Мини-мир битов»). Биты — это собрание различных взаимодействий с браузерами, с которыми мы сталкиваемся, бороздя пучины Интернета: когда вводим текст или выбирает опции из выпадающих меню, нажимая «отправить».

Эти задачи, хоть и простые, формируют фундамент того, как мы подключаемся к сокровищнице под названием Сеть. OpenAI хочет, чтобы ИИ свободно перемещался по Интернету — например, мог заказать билет на самолет. В одной из сред Universe исследователи уже дают ИИ желаемое расписание букинга и учат его искать рейсы на различных авиалиниях.

И это только начало.

Universe только растет и ширится. Платформа Malmo от Microsoft, которая использует Minecraft для обучения ИИ, должна интегрироваться с Universe. Популярная игра со складыванием белка fold.it, приложения для Android, игры на HTML5 и многое другое стоят в очереди.

Призрак в машине

Итак, теперь мы можем учить ИИ играть в различные игры и просматривать веб. Великое дело, подумаешь. Приведет ли это нас к интеллекту общего уровня?

Возможно, и дорога будет долгой.

Но ИИ, который знает, как выиграть в любую игру, которую вы ему подбросите, умеет только думать логически и в несколько шагов добиваться победы. ИИ, который может передвигаться по хаотическому миру GTA V, уже должен понимать основы физики реального мира, жестокости и ответных мер. ИИ, который может работать в Интернете, уже знает, как люди обычно общаются друг с другом и может использовать эти знания, чтобы получить информацию, создать свою собственную веб-идентичность или даже заглянуть в вашу.

Каждый день мы учимся, играем, работаем и растем в цифровом царстве. Для многих мир нулей и единичек так же реален, как и тот, в котором мы родились. Теперь, когда ИИ имеет доступ к этому цифровому миру, пришла его очередь расти. Давайте посмотрим, как далеко он сможет зайти.