8 ноября 2018 Живой журнал
3. «Когнитивное десятиборье» и тест Возняка
Увы, современные алгоритмы пока не способны написать новую «Войну и мир» или задавить в беседе аргументами Германа Грефа. Может быть, тогда есть смысл снизить планку? Причем, глядя на скромность нынешних достижений, понятно, что планку надо опускать низко, совсем низко. Но какой уровень нам стоит считать минимально приемлемым?
Давайте попробуем зайти со стороны уже рассмотренных тестов. С какого возраста ребенок начинает осмысленно отвечать на обращенные к нему вопросы? С какого возраста он способен рисовать на бумаге примитивные формы? В первом случае это возраст 2-3 года, во втором — 3-4 года.
Да, это самые простые ответы на самые простые вопросы. Да, это весьма небрежные каракули. Но если нам не под силу сразу создать мощный искусственный разум, не лучше ли сначала реализовать то, с чего начинал каждый, появившись на этот свет?
Подобный подход к построению ИИ мы можем найти еще у Тьюринга: ”Пытаясь имитировать ум взрослого человека, мы вынуждены много размышлять о том процессе, в результате которого человеческий интеллект достиг своего нынешнего состояния. <...> Почему бы нам вместо того, чтобы пытаться создать программу, имитирующую ум взрослого, не попытаться создать программу, которая бы имитировала ум ребенка?”
Одно дело — предложить подход, и совсем другое — получить с его помощью какие-то результаты на практике. С результатами пока всё слабенько. Тем не менее, начинать с чего-то надо. И в первую очередь стоит начинать с создания системы целей в рамках данного подхода.
Именно этим и занялась в 2005 году группа под руководством Шейна Мюллера. Американское агентство перспективных разработок DARPA в рамках исследований по ИИ запустило проект BICA - “Biologically-Inspired Cognitive Architectures”, “Когнитивные архитектуры, вдохновленные биологией”. Суть проекта совпадала с приведенной цитатой Тьюринга: создать машины, способные обучаться так же, как обучаются люди.
Шейн Мюллер
Команде Мюллера предстояло определить, что именно должны будут уметь ИИ-агенты, разработанные в рамках проекта. Как можно догадаться из названия, при выборе требований к ИИ-разработкам исследователи ориентировались на умения биологических систем. На уровень «планки» повлиял масштаб проекта: изначально предполагалось, что он продлится 5 лет. Команда решила, что за это время ИИ можно научить способностям, которые демонстрируют 2-хлетние дети.
Скромно? Скромно. И в то же время, цитируя исследователей, «к 24 месяцам дети овладевают большим числом когнитивных, лингвистических и моторных навыков». В числе которых, например, «поиск и добывание спрятанных объектов» и «решение простых проблем при помощи [ручных] инструментов». При всей скромности этого набора умений до сих пор, спустя 11 лет после публикации данной работы, не существует ни одной машины, в которой удалось бы их реализовать.
Тем не менее, «когнитивное десятиборье» Мюллера — самые близкие к реализации критерии оценки ИИ, более того, вполне достижимые в обозримой перспективе. Очень вероятно, что еще через 11 лет эта планка уже будет взята. Итак, что же требуется от машины?
На самом деле «десятиборье» не стоит понимать буквально: команда Мюллера предлагает более 20 задач, объединенных в 6 функциональных доменов. Связи между доменами и отдельными задачами показаны на схеме выше. Как видим, в данном случае актуальны домены гораздо более низкого, базового уровня, чем те, которые мы упоминали в разговоре о машинном творчестве.
Как правило, задачи в рамках домена выстроены с нарастающей сложностью. Разберем это на примере домена «Поиск и ориентирование». Первая задача - «Визуальный поиск». В поле зрения агента находится ряд объектов, среди них может быть и цель (например, загорающаяся лампочка). Агент, уже знакомый с тем, как выглядит цель, должен ответить на вопрос, присутствует ли цель, «да» или «нет».
Следующая задача - «Простое ориентирование». Агент находится в помещении, наполненном препятствиями различных форм и размеров. После вербальной команды «найди цель» агент должен приблизиться к искомой цели. Цель будет видна агенту в стартовой точке, но может быть скрыта препятствиями на пути к ней. В качестве усложнения некоторые препятствия могут быть сдвигаемыми либо разбираемыми, и успешное выполнение задания будет требовать преодоления данных мест.
Подобные задачи продолжают активно разрабатываться. Иллюстрация из работы от 2014 г.
«Задача коммивояжера» - широко известный вид комбинаторных задач. Исследователей он заинтересовал потому, что с точки зрения математики/алгоритмов поиск оптимального решения требует очень больших объемов вычислений, но люди каким-то образом достаточно легко находят близкие к оптимуму варианты. Постановка эксперимента здесь аналогична предыдущей задаче с той разницей, что целей будет множество, и они будут исчезать (лампочки — гаснуть) после того, как агент их достигнет.
Следующая задача - «Осуществленный поиск». В помещении разбросано множество контейнеров, и цель находится в одном из них. Цель заметна только в непосредственной близости. Сложность здесь — запоминать, какие контейнеры уже обследованы, чтобы не искать по нескольку раз в одном и том же месте.
Наконец, «Обучение с подкреплением». Задача здесь по-прежнему не выходит за рамки домена, но среда усложняется. Постановка эксперимента аналогична «Осуществленному поиску», но размещение цели в том или ином контейнере не полностью случайно, а задается определенной вероятностью. От агента требуется усвоение этих закономерностей и их последующая эксплуатация. Вероятности могут поменяться в середине задания, и агент должен отреагировать на это, переключившись с эксплуатации на более исследовательскую стратегию.
«Когнитивное десятиборье» разбивает интеллектуальные функции на простейшие, самые базовые элементы, «кирпичики», из которых можно попытаться построить фундамент для обучаемого ИИ. Важно, что только для такой элементарной базы мы можем в общих чертах понять механизмы реализации. В этом привлекательность критериев Мюллера: они не просто тестируют абстрактную «разумность» - они указывают путь, очень реальный путь к более интеллектуальным машинам.
Мы уже достигли многого из требуемого, но в рамках отдельных систем. Например, в рамках домена «Зрение» самая сложная задача теста - «Распознавание событий», где агенту надо усвоить простую последовательность движений для разных объектов. Это вполне реализуемо существующими технологиями.
В «Контроле моторики и обучении» самый сложный тест предполагает демонстрацию агенту контролируемого устройства, выполняющего определенную задачу (например, радиоуправляемая машинка, проезжающая через последовательность ворот). Агент должен повторить выполнение задачи, сам разобравшись в интерфейсе управления контролируемым устройством. Подобное реализовано, но в более простой среде: 2D-видеоиграх, где сложность демонстрируемых событий и интерфейса управления качественно ниже. Еще более важная оговорка - число необходимых демонстраций для имеющихся методов слишком высоко.
Лучше дела обстоят с доменом «Обучение языку/концепциям». Небольшое число примеров всё еще является проблемой, но прогресс в машинном описании сцен обнадеживает.
В «Обучении знаниям» самый высокий уровень — обучение категоризации. Инструктор обозначает произвольный признак для набора из несложных геометрических форм и группирует этот набор в соответствии с ним. Затем агенту показывается новый предмет, и он должен поместить его в одну из групп в соответствии с признаком, объявленным инструктором. Здесь требования к универсальности и гибкости формирования новых понятий являются самыми серьезными. Такие программные архитектуры еще предстоит создать.
Проект BICA имел четкую «дорожную карту» реализации задач. Y1-Y5 – годы с момента старта проекта.
Как понятно из описания задач, ИИ-агентам необходимо физически взаимодействовать с окружающей их обстановкой. Специалисты называют такие навыки умным словом «сенсомоторные». Требования к ним отличает «десятиборье» от ранее рассмотренных тестов, где субъекту достаточно иметь только информационную природу. Так что «когнитивное десятиборье» имеет и практическую ценность - для разработки роботов, взаимодействующих с людьми в привычном людям окружении.
Другая очевидная особенность «десятиборья» - широкий и разнообразный набор испытаний, призванный проверить достижения в каждом из запланированных доменов. Конечно, с точки зрения лаконичности формулировок и изящества такой подход проигрывает тестам Тьюринга и Лавлейс. С другой стороны, заявленные рамки — навыки 2-хлетнего ребенка — не располагают к особым изыскам. Комплексный подход и тщательная детализация имеют свои плюсы. И, выбирая между утилитарностью и красотой замысла, разумно всё-таки остановиться на первом.
Однако в таком случае мы упускаем из вида другую проблему: необходимости интеграции навыков из разных доменов в единое целое. Именно такая интеграция является ключевой предпосылкой для создания полноценного ИИ. И именно такую интеграцию нам до сих пор чрезвычайно сложно осуществить на практике. Конечно, Шейн Мюллер с коллегами были прекрасно осведомлены об этой проблеме. Их предложение — использовать более сложные «вызовы», испытания, сценарий которых задействует сразу несколько доменов.
Исследователи детально описывают три таких вызова, располагая их в порядке возрастания сложности. Первый - «Поиск объекта». Экзаменатор показывает ИИ-агенту определенный предмет, причем им может быть что-то, чего агент до этого еще не видел. Затем агенту дается команда найти такой же объект в соседних, связанных между собой помещениях, и доставить его экзаменатору. Помещения могут быть заполнены препятствиями, как в тестах домена «Поиск и ориентирование». От агента требуется запомнить окружение и учитывать его при последующих попытках поиска. Экзаменатор может давать агенту устные подсказки либо ограничивать действия агента.
Кстати, этот вызов хорошо перекликается с другой разработкой DARPA того же периода. Научная организация MITRE подготовила для агентства свои версии вызовов для ИИ примерного такого же уровня, как и BICA. Одним из них стала «Большая охота за сокровищем» - сценарий, тестирующий те же навыки, что и «Поиск объекта».
Сценарий от MITRE прописан гораздо более подробно и имеет свои нюансы. Тестовая площадка представляет собой «дом», с привычными помещениями вроде кухни и ванной, и соответствующей обстановкой. Роботу будут даны инструкции в виде текста, аудиозаписи речи либо фото, описывающие тот или иной предмет (книга, телевизор, ложка и т.п.). По ним робот должен найти и сфотографировать, один за другим, 10 предметов.
За некоторые из правильно найденных предметов полагаются «подсказки», описывающие, что представляет собой «сокровище» (еще один специфический предмет в конкретном месте). «Сокровище» - итоговую цель испытания - надлежит искать, только когда 10 «простых» предметов уже найдены. На всё испытание роботу дается только 20 минут.
По количеству промежуточных целей и временным ограничениям этот тест выглядит труднее, чем «Поиск объекта». Однако ряд особенностей снижают требования к участникам «Большой охоты за сокровищем». Так, список искомых предметов известен заранее и невелик (50 объектов). Формат инструкций также формализован. То есть, по сути, речь идет о замене «качества» (генерализации) на «количество».
Вернемся к «когнитивному десятиборью» и более сложным задачам. Второй вызов - «Наблюдаемый язык и обучение процедурам». Инструктор демонстрирует ИИ-агенту определенные действия с предметами, рассказывая то, что он делает (например, «я ударяю по чашке молотком»). И затем просит агента повторить эти действия, оценивая устно его попытку. В более сложном варианте инструктор может давать только устные описания действий, а от агента может потребоваться описывать, каким образом он выполняет задачу.
Выглядит интересно? Более чем, и перспективы использования машин с такими способностями огромны. Но посмотрим на следующий, еще более сложный вызов: «Самостоятельный поиск и конструирование».
Здесь уже нет инструктора и четко задаваемой им цели. В нескольких комнатах находятся некие составные части, из которых могут быть собраны разные готовые объекты. За собранные объекты полагается награда, для каждого варианта — своя. Например, за объекты, которые собрать легко, она может быть низкой, за более трудные — высокой. Агенту требуется понять, сколько он может получить за собранные объекты, и найти наиболее выигрышную стратегию. Предполагалось, что для сборки некоторых вариантов могли требоваться инструменты, более того, сами инструменты тоже могли быть собраны из составных частей. Агенты должны были быть способны «подглядывать» стратегии друг у друга (см. предыдущий вызов).
И вы можете со мной не соглашаться, но с учетом заданной планки я тоже вижу здесь несколько красивых идей. Как быстро нам удастся создать системы, способные справиться с более требовательными из этих идей — конечно, никто не скажет. Но... Но суровая правда в том, что разработку таких систем попросту отложили «в долгий ящик». Была профинансирована только организационно-«бумажная» стадия проекта BICA. А дальше DARPA сказало: «денег нет, но вы держитесь»... Как обычно в таких ведомствах, вокруг грантов идёт аппаратная возня, и в итоге начальство решило вместо BICA финансировать нейроморфные вычисления (SyNAPSE).
Конечно, оглядываясь назад, те задачи в тех временных рамках, что ставил проект BICA, не могли быть выполнены полностью. Но, скажем, за 100 c лишним млн. долл., потраченных на SyNAPSE, было бы сделано очень многое. Впрочем, не стоит жалеть об упущенных возможностях. Сценарии тестов, созданные командой Мюллера, остаются очень актуальными и по сей день.
А мы дополним эти сценарии еще одним, не совсем серьезным, но очень хорошо вписывающимся в те рамки, которые устанавливает проект BICA. Кстати, очередной раз источником идеи стал скепсис в отношении машин. В роли скептика в этом случае оказался один из сооснователей “Apple” Стив Возняк. В интервью от 2007 года он заявил, что машина никогда, никогда-никогда не сможет справиться с таким заданием: войти в незнакомый дом, найти кухню и приготовить чашечку кофе.
При всём уважении к г-ну Возняку, ставить его в один ряд с Рене Декартом и леди Лавлейс было бы несколько опрометчиво. Но всё же идея хороша, а принцип «никогда не говори никогда» справедлив для всех эпох. Так что рассмотрим тест Возняка подробнее.
Наверное, трудно представить, чтобы двухлетний ребенок справился с этим сценарием. И всё же, анализируя набор умений, необходимых для теста Возняка, мы придем к выводу, что он во многом пересекается с навыками «когнитивного десятиборья» и не слишком отличается от них по сложности.
Более детальные и формализованные условия теста Возняка приводятся в работе «Mapping the Landscape of Human-Level Artificial General Intelligence». Итак, тест начинается с того, что робот помещается перед дверью обычного дома или квартиры. Он должен найти дверной звонок или просто постучаться. Когда хозяева ответят, робот должен объяснить цель своего визита и, после приглашения, войти внутрь.
Ну или как-то так... :)
А дальнейшие действия понятны. Робот должен пройти на кухню, разыскать необходимое оборудование, посуду и ингредиенты для приготовления кофе и сделать напиток по вкусу хозяев. Роботу может понадобится задать несколько вопросов хозяевам («В каком шкафчике лежит кофе?»), но в остальном он должен справиться самостоятельно.
С одной стороны, эти задачи требуют более тонкой моторики и более развитых способностей ориентироваться в незнакомой обстановке жилых помещений. Требования к обработке естественного языка здесь тоже несколько выше. С другой стороны, тест Возняка — узкоспециализированный сценарий, и от машины не требуются настолько высокая универсальность и автономия, какой требует «открытый» характер более сложных вызовов «когнитивного десятиборья».
Так что скептики вправе сомневаться, но машины, умеющие подавать кофе в постель, не так уж и далеки от реальности. А насколько — можно понять, посмотрев на сегодняшние разработки в области многофункциональных роботов. И здесь первым делом, конечно, мы упомянем контору “Boston Dynamics”.
По части PR ей точно нет равных — видеоролики компании набирают миллионы просмотров на YouTube. Посмотреть действительно есть на что, в том числе на достижения “Boston Dynamics” в области ИИ. Их киноид SpotMini (на видео выше) обладает полуавтономоной навигацией (изначально маршруты прокладывает оператор, затем робот двигается по ним самостоятельно) и умеет открывать ручки дверей.
Но достижения “Boston Dynamics” - далеко не самые впечатляющие. Так, швейцарский киноид ANYmal может помочь человеку нести тяжелый груз, а также перемещать мелкие предметы (степень автономии в последней задаче понять трудно).
Хорошо, перемещаться туда-сюда и бросать бутылки в урну роботы уже умеют. Как насчет более сложных действий? Посмотрим на японского HRP-5P. Этот робот может полностью автономно закрепить на стене лист гипсокартона. HRP-5P пользуется обычным шуруповертом и, в принципе, его последовательность действий не отличается от таковой для человека.
Ну и наконец робот, представляющий самую большую угрозу предсказанию Стива Возняка — еще не получившая названия робо-горничная от фирмы «Aeolus Robotics». По уверениям разработчика, подать горячий кофе в постель — для нее совершенно не проблема. Хотя я подозреваю, что лестница для этого робота будет непреодолимым препятствием, да и к полному тесту Возняка эта машина вряд ли готова.
Набор обещаемых навыков робо-горничной вполне утилитарен и в то же время весьма продвинут с точки зрения ИИ. Она может управляться с пылесосом, собирать вещи с пола и класть их на место, убирать со стола посуду и двигать мебель (видимо, речь идёт о стульях). Машина будет иметь систему распознавания лиц (чем сейчас никого не удивишь) и объектов — так что разбросанные по полу носки отправятся в корзину для грязного белья, а игрушки — в детскую комнату. Робо-горничная способна запоминать расположение предметов и в случае чего подсказать его хозяевам («где я оставил свои очки?»).
«Aeolus Robotics» обещал выпустить эту машину на рынок к концу года, но ожидание может и затянуться. Пока складывается впечатление, что стартап толком не знает, какой функционал удовлетворит потенциального потребителя и в то же время не потребует гигантских усилий на этапе разработки (несмотря на кажущуюся обыденность задач, достичь удовлетворительных результатов здесь очень нелегко). А для потребителя робот будет недешевым — манипулятор с 8-ю степенями свободы, прочие сервоприводы и электроника, в реальном времени обсчитывающая стерео-картинку, стоят немало сами по себе. Если робо-горничная всё-таки выйдет на рынок, цена может составить 7-10 тыс. долларов.
Если же «Aeolus Robotics» не справится (а вероятность этого существенна) — по крайней мере, у нескольких людей останется полезный опыт. И, когда этого опыта накопится достаточно, мы всё-таки преодолеем планку создания коммерческого робота-горничная. Эта планка еще ниже, чем планка, задаваемая «когнитивным десятиборьем» - но опыта у нас пока хватает только на такие скромные «рекорды».
Чтобы создавать машины, способные учиться, нам, людям, необходимо еще многому научиться самим. В двухлетнем возрасте мы с легкостью преодолели эту планку. И вот, спустя много лет, мы подошли к этой планке с другой стороны. Отметка осталась той же самой — и тем не менее, задача теперь выглядит неимоверно сложнее.
Да, следующий шаг предстоит сделать уже машине. Но сейчас машина не умеет даже ползать — и только мы сможем научить ее ходить. Когда-нибудь. Когда мы научимся справляться с этой планкой, такой низкой и такой недосягаемой...
/ (C) Источник
Не является индивидуальной инвестиционной рекомендацией | При копировании ссылка обязательна | Нашли ошибку - выделить и нажать Ctrl+Enter | Отправить жалобу