Журнал Кванта | Виноградная лоза, ООО

1 февраля 2023 г.

Джеффри Фишер для журнала Quanta

Соавтор

1 февраля 2023 г.

Представьте, что ваш сосед звонит и просит об одолжении: не могли бы вы накормить его домашнего кролика кусочками моркови? Достаточно легко, можно подумать. Вы можете представить себе их кухню, даже если никогда там не были — морковь в холодильнике, ящик с разными ножами. Это абстрактное знание: ты не знаешь, как именно выглядят морковка и ножи твоего соседа, но ложку к огурцу не поднесешь.

Программы искусственного интеллекта не могут конкурировать. То, что вам кажется легкой задачей, на самом деле является огромной задачей для современных алгоритмов.

Робот, обученный ИИ, может найти указанный нож и морковку, спрятанные на знакомой кухне, но на другой кухне ему не хватит абстрактных навыков, чтобы добиться успеха. «Они не распространяются на новые условия», — сказал Виктор Чжун, аспирант факультета компьютерных наук Вашингтонского университета. Машина терпит неудачу, потому что слишком многому нужно научиться и слишком обширно пространство для исследования.

Проблема в том, что у этих роботов – и агентов ИИ в целом – нет фундамента концепций, на которых можно было бы основываться. Они не знают, что такое на самом деле нож или морковка, а тем более, как открыть ящик, выбрать один и нарезать ломтики. Это ограничение отчасти связано с тем, что многие продвинутые системы искусственного интеллекта обучаются с помощью метода, называемого обучением с подкреплением, который, по сути, представляет собой самообучение методом проб и ошибок. Агенты ИИ, обученные с помощью обучения с подкреплением, могут очень хорошо выполнять работу, которой они были обучены, в той среде, в которой они были обучены это делать. Но измените работу или среду, и эти системы часто выходят из строя.

Чтобы обойти это ограничение, ученые-компьютерщики начали обучать машины важным понятиям, прежде чем выпустить их на свободу. Это похоже на чтение руководства перед использованием нового программного обеспечения: вы можете попробовать изучить его без него, но с ним вы научитесь гораздо быстрее. «Люди учатся, сочетая действия и чтение», — сказал Картик Нарасимхан, ученый-компьютерщик из Принстонского университета. «Мы хотим, чтобы машины делали то же самое».

Новая работа Чжуна и других показывает, что такое внедрение модели обучения может ускорить обучение в смоделированных средах, как онлайн, так и в реальном мире с использованием роботов. И это не просто ускоряет обучение алгоритмов — оно направляет их к навыкам, которым иначе они никогда бы не научились. Исследователи хотят, чтобы эти агенты стали универсалами, способными научиться чему угодно: от шахмат до шоппинга и уборки. И поскольку демонстрации становятся все более практичными, ученые полагают, что этот подход может даже изменить то, как люди могут взаимодействовать с роботами.

«Это был довольно большой прорыв», — сказал Брайан Ичтер, научный сотрудник Google в области робототехники. «Совершенно невообразимо, как далеко он продвинулся за полтора года».

На первый взгляд, машинное обучение уже добилось значительных успехов. Большинство моделей обычно используют обучение с подкреплением, при котором алгоритмы учатся, получая вознаграждение. Они начинают с полного невежества, но метод проб и ошибок в конечном итоге превращается в метод проб и триумфа. Агенты обучения с подкреплением могут легко освоить простые игры.

Рассмотрим видеоигру «Змея», в которой игроки управляют змеей, которая становится длиннее, поедая цифровые яблоки. Вы хотите, чтобы ваша змея съела больше яблок, не выходила за рамки и не натыкалась на ее все более громоздкое тело. Такие четкие правильные и неправильные результаты дают машинному агенту положительную обратную связь, поэтому достаточное количество попыток может превратить его из «нуба» в «Высший балл».

Но предположим, что правила меняются. Возможно, один и тот же агент должен играть на более крупной сетке и в трех измерениях. В то время как человек-игрок может быстро адаптироваться, машина не может этого сделать из-за двух критических недостатков. Во-первых, большее пространство означает, что змее требуется больше времени, чтобы наткнуться на яблоки, а обучение замедляется в геометрической прогрессии, когда награды становятся скудными. Во-вторых, новое измерение дает совершенно новый опыт, и обучение с подкреплением с трудом поддается обобщению для решения новых задач.