10 тестов, которые должен пройти каждый уважающий себя ИИ (8)

13 ноября 2018 Живой журнал

8. Общеобразовательные тесты

10 тестов, которые должен пройти каждый уважающий себя ИИ (8)

Хорошо, допустим, что наш ИИ уже вырос из коротких штанишек «детского сада». И к компьютерным «игрушкам» интерес тоже пропал: они уже не дают машине ничего нового. Какие задачи теперь мы поставим перед поумневшим ИИ?

Если продолжать аналогию с развитием ребенка, то самым логичным шагом выглядит школа, в которую отправляют учиться всех детишек, достигших определенного возраста. В частности, авторы «детского сада для общего ИИ» завершают свой анализ именно этим предложением (отметим, что подобные идеи предлагались и раньше).

Действительно, почему бы и нет? По крайней мере, мало кто будет отрицать, что школа призвана развивать интеллект детей и давать учащимся новые знания. Соответственно, здесь разработан целый комплекс методик и материалов, которые оценивают уровень компетенции учеников в разных областях. Причем областях, имеющих очень прямое прикладное значение — будь то физика, биология или владение родным языком. И, безусловно, мы найдем много применений для ИИ, который сможет разбираться в этих областях, пускай даже на уровне школьной программы.

Такому ИИ, скорее всего, потребуется полный набор функциональных доменов, хорошо развитых и плотно интегрированных между собой. Конечно, стандартные школьные методики проверки знаний охватывают не все сферы: например, ими не проверить способности машины к диалогу или сенсомоторные навыки. Но тестируемые «профильные» навыки тоже чрезвычайно важны с точки зрения развития ИИ.

Так, одним из требований при ответе на многие вопросы школьной программы является подробное обоснование или объяснение решения. Особенно важен этот момент в свете сегодняшнего преобладания алгоритмов, работающих по принципу «черного ящика», т. е. принимающих непрозрачные решения.

Другое очевидное требование — способность извлекать новые знания из прочитанных учебных материалов и встраивать их во внутреннюю модель окружающего мира. Контрольные тесты по школьной программе ставят перед испытуемым новые, ранее не виденные задачи, которые требуется преодолеть при помощи приобретенных знаний. Это означает, что ИИ нужно новаторским образом комбинировать функциональные домены и базу знаний, чтобы найти решение. В свою очередь, это невозможно без достаточной гибкости и глубокого понимания тестируемой области.

Многие наборы школьных тестов содержат большое количество графических материалов: схем и диаграмм. Вопросы, задействующие их, требуют от ИИ не только обработки естественного языка, но и интерпретации визуальной информации. Как правило, речь идет о способностях к абстракции. Конечно, эти способности будут нужны не только в случае с графикой — многие задачки по физике, скажем, без них тоже не одолеть.

Давайте приведем пример — одно из заданий New York Regents 4th Grade Science exams, теста для 4-классников.

«Школьница посадила два одинаковых растения, использовав тот же самый грунт и одинаковое его количество. Она поливает их одинаковым количеством воды. Она поставила одно из растений возле солнечного окна, а второе — в тёмную комнату. Этот эксперимент показывает, как растения реагируют на:
A) свет
B) воздух
C) воду
D) почву».

Для того, чтобы ответить на этот вроде незамысловатый вопрос, нужно, во-первых, иметь представление о самой концепции «эксперимента». В рамках этой концепции надо наполнить модель эксперимента вводными данными (два образца, помещенные в различные условия, разница в условиях определяет цель эксперимента). Наконец, нужно определить, разница в каких именно условиях возникает. А для этого нужно понимать, что возле солнечного окна света много, а в тёмной комнате его практически нет.

[img]https://www.sciencesource.com/Doc/SCS/Media/TR1_WATERMARKED/3/e/b/0/SS2399217.jpg?d63642095271[/img]

Вот такой сложный ответ на простой вопрос. По крайней мере, он является сложным для сегодняшних алгоритмов. Впрочем, всё не настолько плохо (или по крайней мере, не так однозначно). Давайте посмотрим на практику. В конце 2015 года институт Allen AI организовал открытый конкурс “The Allen AI Science Challenge”. В нем команды соревновались, создавая системы, способные отвечать на вопросы стандартных тестов по естественным наукам для 8-классников.

Результаты? Результаты вполне достойные. Победитель правильно ответил на 59,3% из более чем двух тысяч вопросов финального этапа конкурса. То есть, вполне твердая «тройка». Значит ли это, что машины уже настолько умны и сравнялись со средним восьмиклассником-троечником? Вот тут самое время поговорить о неоднозначности. И в основном эта неоднозначность проистекает из недостатков общеобразовательных тестов. Причем далеко не в каждом случае их достоинства могут перевесить эти недостатки.

Во-первых, конечно, вопросы теста. Самая его суть. Немалая часть вопросов “The Allen AI Science Challenge” была предельно тривиальной для машин. Например, «Сколько хромосом содержит клетка человека?». Подобную фактологическую информацию научились запасать в базах знаний задолго до 2015 - вспомнить тот же IBM Watson, который соперничал далеко не со школьниками-троечниками.

Аналогично дело обстоит со многими вычислительными задачами из школьного курса, прежде всего математики. А вообще, проблема гораздо шире. «То, что вызывает трудности у людей и то, что вызывает трудности у ИИ — абсолютно разные вещи, почти противоположные», - отмечает Эрнест Дэвис, один из противников использования школьных тестов для машин.

Действительно, сегодня человек и машина обрабатывают информацию принципиально разными способами. Мечтой уже нескольких поколений специалистов в области ИИ является создание машины, обладающей интеллектом человеческого уровня. Но значит ли это, что машина должна идти по пути прямого копирования человеческого разума, со всеми его недостатками и ограничениями? И если мы преодолели их с помощью альтернативных инструментов, не лучше ли сосредоточиться на более релевантных проблемах?

Стандартизированные школьные тесты десятки лет разрабатывались и совершенствовались для того, чтобы самым лучшим образом оценивать знания людей. Это очень специализированное решение, призванное за небольшой отрезок времени проверить все «слабые места» человеческого знания в определенной области. И именно в силу своей предельной специализации это решение никогда не будет идеальным для машин.

Далеко не идеален и формат ответов, которые должна давать машина. В “The Allen AI Science Challenge” задания имели форму закрытого теста, в котором на каждый вопрос было 4 варианта ответа. Отметим, что это мейнстримный формат оценки знаний в западном общем образовании, разве что количество вариантов иногда может быть больше 4-ёх.

Если организаторы сделали бы тестирование с ответами открытого типа, то результаты конкурсантов провалились бы очень сильно. Ни о каких 59% угаданных ответов не могло бы идти и речи. Готовые варианты кардинально сокращают пространство поиска для алгоритма, на порядки повышая точность ответа.

И если вам уже не терпится написать в комментариях своё мнение о ЕГЭ — большая просьба воздержаться, для обсуждения этой темы есть более подходящие места. Заметьте, я не тороплюсь ругать институт Allen AI и сейчас объясню, почему. Дело в том, что самой прогрессивным направлением в ИИ сейчас является машинное обучение. Это направление предъявляет ряд требований к созданию алгоритмов. Одно из этих требований выглядит так: оценка результата работы алгоритма должна быть автоматизирована.

Автоматизация не представляет проблем, если у задачи есть эталонное решение. Или несколько его вариантов, хотя на практике такое уже применяется очень редко. Но что, если требованиям отвечает очень большое число полностью корректных решений, описать все из которых невозможно в силу абсурдно высокой трудоёмкости?

В качестве примера посмотрим на один из вопросов “The Allen AI Science Challenge”. Вопрос, довольно трудный для нынешних алгоритмов (пожалуй, и для восьмиклассников тоже):

«Городские власти могут стимулировать сбережение энергии путём
(А) уменьшения тарифов на парковку
(B) строительства более вместительных парковок
(С) снижения стоимости бензина
(D) уменьшения стоимости билета в автобусах и метро»

Как сформулировать это задание, чтобы оно имело открытый ответ и при этом задействовало все те знания, которые проверяет оригинальная версия? Ну, например так:

«Как городские власти могут стимулировать сбережение энергии при помощи тарифов на парковку, числа парковочных мест, стоимости бензина и проезда в общественном транспорте?»

И теперь представьте, сколько вариантов верных ответов в принципе на него может существовать. Учитывая все возможные синонимы, различные построения фраз, стилистику и т. п. Здесь не может быть единственно верного эталона — а значит, автоматическая оценка может быть осуществлена только какими-то вспомогательными техниками, что ведет к потере точности оценки. Это, в свою очередь, прямо отражается на качестве алгоритмов, полученных с помощью машинного обучения.

Иллюстрация из области машинного перевода

Получается, что тест закрытого типа с вариантами ответов — это необходимый компромисс. Он хотя бы позволяет предлагать машине более-менее сложные, развернутые ответы и точно оценивать правильность её выбора. Иначе с возрастанием сложности будет уменьшаться точность.

Всё это напрямую соотносится с тем, что мы упоминали в ходе обсуждения теста на полноту понимания. Там тоже главной загвоздкой была развернутость ответа. А широта возможных интерпретаций в случае с художественным произведением намного больше, чем в школьных задачках.

В целом, это очень фундаментальная проблема машинного обучения. Мы пока не в состоянии научить алгоритм всему богатству правильных решений, жёстко требуя от него находить эталонные ответы. Однако подлинный ИИ должен быть гибок и уметь справляться с нестандартными, совершенно новыми ситуациями.

Наконец, стоит посмотреть на то, что представляют собой системы «уровня восьмиклассника-троечника». Самой показательной, на мой взгляд, является разработка компании «Talkwalker», занявшая в конкурсе второе место и лишь немного уступившая победителю. Их система располагала просто гигантской базой знаний — размером 180 гигабайт.

Для понимания масштаба: страница текстового материала из учебника — это 1,5-2 килобайта, весь учебник — примерно 300 килобайт. База знаний системы от «Talkwalker» эквивалентна 600 тысячам томов образовательной литературы. Стеллажами с таким количеством книг можно целиком заставить хоккейную площадку. Прочитать столько невозможно не только за 8 классов — но и за всю жизнь. А ведь прочитать мало, нужно еще и запомнить всё с идеальной точностью...

И, тем не менее, система способна отвечать только на самые незамысловатые вопросы. Это очень хорошая иллюстрация различий машинного и человеческого интеллектов. Машина абсолютно преобладает в «количественных» характеристиках. Но, как видим, этого совершенно недостаточно — и человек легко превосходит гигабайты машинной памяти за счет «качества». Конкурс, организованный институтом Allen AI, показывает, что возможности «количественного» роста в области ИИ практически исчерпаны. Нужен «качественный» рост, и достичь его гораздо, гораздо сложнее, чем закачать в информационную базу всю «Википедию».

Возможно, стандартные общеобразовательные тесты — не самый лучший способ оценки «качественного» роста, и ИИ в целом. Но именно этот вид испытания, скорее всего, является самым понятным для широкой публики — все мы когда-то учились в школах, у многих есть учащиеся дети и внуки. А наука, будем честными, редко упускала шанс привлечь внимание публики, если на кону стоит вопросы приоритетного финансирования того или иного направления.

Вот и проект «Todai Robot» от японских разработчиков вполне закономерно стал «горячей» медийной темой. Команда поставила цель создать систему, способную пройти вступительный экзамен в Университет Токио к 2021 году. В прошлом году эта система уже показала на экзамене результаты лучше, чем у 80% абитуриентов.

Руководитель проекта Норико Араи встретила этот успех со смешанными чувствами. По её мнению, такие результаты свидетельствуют не только о совершенстве алгоритма, но и о слабости знаний выпускников, и, соответственно, глубоких проблемах в школьном образовании. Араи считает, что школьники всё больше полагаются на механическое заучивание фактов, без подлинного понимания сути. Другими словами, они делают упор на «количественном» аспекте знания — там, где у них нет никаких шансов тягаться с машинами

Тревоги Араи разделяет большое число экспертов в области образования. Развитие технологий сильно изменяет наши требования к располагаемым знаниям — та же «Википедия» сейчас всегда и везде находится на расстоянии нескольких касаний экрана смартфона. Особенно радикальными могут быть перемены, которые несёт прогресс в ИИ. Эксперты считают, что образовательные программы надо пересматривать, ставя целью развитие «качественных» характеристик интеллекта учащихся. В противном случае молодёжь окажется попросту невостребованной в будущей экономике.

«Некоторые из ключевых навыков, которые потребуются рабочей силе в будущем, включают способность к критическому мышлению, решению проблем, эффективным коммуникациям и совместной деятельности...» - отмечает профессор Скотт МакЛеод. Если мы действительно признаём большую важность этих качеств, их проверка должна стать центральным элементом стандартизированных общеобразовательных экзаменов.

Конечно, такую проверку уже будет сложно «запихнуть» в формат теста с выбором из готовых вариантов ответов. Главное препятствие даже не в этом, а в большой консервативности системы образования. Очень может быть, что этот консерватизм сыграет плохую роль в нынешнем динамичном мире, и какие-то подвижки пойдут только после того, как «жареный петух клюнет».
Но хочется верить в лучшее — и, если такое направление тестирования всё-таки будет реализовано вовремя, у нас в руках окажется действительно интересный инструмент для оценки ИИ.

/ (C) Источник

Не является индивидуальной инвестиционной рекомендацией | При копировании ссылка обязательна | Нашли ошибку - выделить и нажать Ctrl+Enter | Отправить жалобу