Подростки учатся лучше всего, на положительный опыт, чем отрицательный

Известно, что подростки более склонны к принятию рискованных решений, чем взрослые. Согласно одной из гипотез, это может быть связано с тем, что подростки используют другие (более простые) алгоритмы обработки информации о результатах своих действий. Эксперимент, который проводится в великобритании и итальянской психологов и нейроэкономистами, подтвердил это предположение. Оказалось, что подростки не хуже взрослых, чтобы узнать о положительном опыте, но намного уступают им в способности учиться на отрицательный. Кроме того, взрослые люди эффективно используют имеющиеся сведения о том, какой результат приведет альтернативой, и подростки принимают во внимание только реальные результаты своих действий. Возможно, эти различия связаны с тем, что те участки мозга, которые отвечают за образование в положительный опыт, созревают раньше, чем компоненты, которые обеспечивают более сложные алгоритмы обучения.

С точки зрения нейробиологии, образование в положительный и отрицательный опыт, процессы совершенно разные. В первой главную роль играют “эмоциональные” подкорковые структуры (как прилежащее ядро), а вторая не обходится без участия отделов коры, связанных с сознательным контролем (дорзальные и дорзолатеральные области префронтальной коры, островок, ростральная часть поясной коры).

Что касается алгоритмы, лежащие в основе обучения, картина аналогичная: в положительный опыт, учиться легче. Самый простой алгоритм обучения с подкреплением — так называемый Q-learning (Q-обучение) — оценивает результат своих решений, в единой шкале, в зависимости от благоприятности результат. Этот алгоритм не требует понимания ситуации: для его использования не нужно создавать модель реальности и принимать во внимание контекст, в котором принимается решение. Из-за своей простоты алгоритм обеспечивает образование в положительный опыт, более эффективной, чем на отрицательный. Не может “понять”, что в одной ситуации может получить ноль очков так же хорошо, как в никаком другом случае, чтобы получить одно очко (так будет, например, если в первом случае альтернатива-это потеря очков, а во втором — получить ноль очков). Результат оценивается по абсолютной шкале, в которой единица это всегда лучше, чем ноль, и, следовательно, решения, которые приносят очко, выучиваются самых надежных решений, которые позволят вам не потерять очко.

Для того, чтобы эффективно учиться, чтобы избежать проблем, нужны более сложные калькуляции. Здесь желательно, чтобы понять контекст задачи и оценивать результат не “вообще”, а в связи с тем, что произошло в этом случае, в случае принятия альтернативных решений.

Группа британских и итальянских психологов и нейроэкономистов опубликовал в журнале PLoS Computational Biology результаты остроумного эксперимента, проливающего свет на механизмы обучения у подростков и взрослых. Дело, что проверяли авторы, было то, что тенденция подростков к рискованному поведению объясняется более медленно развитие тех частей мозга, которые необходимы для сложных алгоритмов обучения, и, таким образом, подростки полагаются, главным образом, в наиболее примитивном, но рано достигнуто алгоритм, рядом с Q-обучения.

В эксперименте приняли участие 18 подростков (то, что считалось, что люди в возрасте 12-17 лет) и 20 взрослых (от 18 до 32 лет). Схема опыта представлена на рисунке 1. Каждому участнику пары показали персонажей, из которых вы должны выбрать. Персонажей было всего 8, и пары, соответственно, 4. В каждой паре один символ приносил удачу с вероятностью 75%, а другой — с вероятностью 25%. Каждая пара символов совпадает с одним из четырех “средах”, которые отличаются характером подкрепления (вознаграждения или наказания) и доступность информации о том, что результат принес бы такой альтернативный вариант. Эффективность обучения оценивалась по частоте, с которой люди выбрали “правильный” персонажей после обучения сессии.

Результаты подтвердили ожидания исследователей. Взрослые участники показали одинаковую эффективность обучения для положительного и отрицательного опыта. После образования они уверены, что предпочитает символ, который приносит ветер, спаренный с этим символом, он производит ноль очков, и так уверены, выбрать символ, который приносит ноль очков, либо в сочетании с, это был символ, отнимающий очко. У подростков результаты обучения были различными в этих двух ситуациях. В первом случае, когда выбор стал между 1 и 0, подростков учили делать правильный выбор, не хуже, чем взрослые, а во втором, когда выбрать нужно было между 0 и -1, эффективность обучения подростков был значительно ниже.

Кроме того, взрослые выгоду от дополнительной информации о результате альтернатива: в версии для получения дополнительной информации, обучение прошло успешно. Подростки были не в состоянии использовать эту информацию: эффективность обучения-это то же самое в версиях с полным и неполным данным (рис. 2).

Рис. 2. Увеличение частоты “правильные” решения в процессе обучения. На горизонтальной оси — порядковый номер испытания (от 1 до 20, так как каждая пара символов демонстрировалась в 20 раз). На вертикальной оси — процент правильных решений. Слева подростки (подростков и их семей), справа взрослых (Adults). Различными цветами выделены четыре “рамка”; цветовые обозначения те же, рис. 1 (зеленый: положительное подкрепление, неполная информация о кофе: отрицательное подкрепление, неполной информации? сине-зеленый: положительное подкрепление, полная информация? фиолетовый: отрицательное подкрепление, полную информацию). Сплошные линии с серым цветом области — экспериментальных данных ± стандартная ошибка; линии с интервалами доверия — результаты моделирования. Для моделирования обучения подростков использовалась самая простая модель 1 (см. рис. рис. 3), для взрослых — более сложная модель 3. Изображение из обсуждаемой статьи в PLoS Computational Biology

Авторы попытались интерпретировать результаты, полученные в рамках представлений для алгоритмов обучения. Для этого они сделали три компьютерные модели (рис. 3). Первая модель соответствует простейшему Q-обучения. Второй способен быть приняты во внимание, также, для получения дополнительных сведений о результатах альтернативной (не выбрано) решения, чтобы улучшить свои идеи о “ценности” этого решения. Третья модель, помимо того, что знают первые два, он использует данные о результаты обоих решений, чтобы положить полученную прибыль в достаточных рамках. Этот процесс позволяет алгоритм “понимает”, что для того, чтобы получить ноль очков в ситуации, когда под угрозой потери очков, это точно так же хорошо, как получить 1 очко в ситуации, когда альтернативой было бы получить ноль очков.

Рис. 3. Три модели обучения, с которыми сравнивались полученные результаты. Модель состоит из трех разделов. Первый из них (Factual module) соответствует простейшему алгоритм обучения с подкреплением — Q-обучения. Он изменяет количество Q(s, c) — “значение” или “удачность” выбранного решения c в режиме s — в зависимости от результата R(c). Второй раздел (Counterfactual module) использует данные о результате альтернативной (не выбрано) решение u для того чтобы повысить количество Q(s, u). Третий раздел (Contextual module) использует данные о результаты обоих решений, выбранный (c) и не установлен (u), чтобы положить полученную прибыль в достаточных рамках, соотнеся с тем, что в принципе может получить в этой ситуации s (V(s) — средняя стоимость рамка, или среднее значение решений c и u). Использование третьего модуля приводит к замене абсолютной шкалы оценки получает соответствующую. Из этих трех модулей были разработаны три модели. Первая модель включает в себя только раздел 1, во вторую — разделы 1 и 2, третий — все три модуля. Изображение из обсуждаемой статьи в PLoS Computational Biology

Эти три модели имеют точно такое же обсуждение “обучения”, как и живые участники эксперимента. Оказалось, что ход и конечный результат обучения подростков или, скорее, описывается самый простой, первая модель (Q-learning). Что касается взрослых, их обучение, или, скорее, воспроизводится более продвинутая модель № 3.

Таким образом, результаты согласуются с предположением, что подростки используют более простой алгоритм обучения с подкреплением, рядом с Q-обучения. Это объясняет, почему подростки хуже учатся, отрицательное подкрепление, положительное. Взрослые используют более сложный алгоритм обучения, включает в себя дополнительные модули. Это позволяет, во-первых, использовать для получения информации о стоимости не выбранного решения, во-вторых, интерпретировать полученную прибыль в достаточном контексте, оценивая его “вообще”, а в связи с тем, что в принципе может получить в этой ситуации. Благодаря тому, что взрослые учатся на отрицательный опыт так же эффективно, как и в положительном.

Упрощенный алгоритм обучения, характерным для подростков, согласуется с данными о более позднем созревании отделов мозга, которые необходимы для реализации более сложных и эффективных алгоритмов. С другой стороны, использование у детей и подростков, именно этот простой алгоритм, скорее всего, имеет важное приспособительное значение. Очень правильно прокомментировал обсуждаемую статью в моем блоге молодая мать, заметив, что если ребенок сразу же перестал делать то, что и наполняет ударов, еще и ходить не научился.

Источник: Стефано Palminteri, Эмма Дж. Kilford, Giorgio Coricelli, Сара-<адрес> Blakemore. The Computational Development of Reinforcement Learning during Adolescence // PLoS Computational Biology. V. 12. P. e1004953.

См. также:
1) Склонность к наркомании и азартным играм связана с неспособностью учиться на своих ошибках, “Элементы”, 10.12.2007.
2) Дофаминовые нейроны нужны мухам, чтобы учиться на своих ошибках, “Элементы”, 10.09.2012.
3) В “системе вознаграждения” найдены нейроны, возбуждающиеся от хороших предчувствий, “Элементы”, 10.02.2012.
4) Мыши-мутанты не становятся наркоманами, “Элементы”, 26.05.2008.

Александр Марков

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.