Шрифт:
Закладка:
Инструментальные и оперантные
Следовое обусловливание - лишь один из примеров того, как понимание различий между разными формами обучения, которые обычно не выделяются тщательно теми, кто находится вне области обучения животных, может помочь в разработке теорий сравнительного познания животных. Другим примером может служить различие, о котором я уже писал (Allen et al. 2009) и которое я позаимствовал у Джима Грау (Grau and Joynes 2005). Это различие между инструментальным обучением и оперантным обусловливанием - различие, которое часто вообще не проводится, даже в учебниках по психологии. А там, где оно проводится, оно часто рассматривается только как методологическое различие. В любом случае инструментальное или оперантное обусловливание касается способности животных учиться связывать поведенческую реакцию с результатом. Так, например, Эдвард Торндайк стал пионером в использовании коробок-головоломок - приспособлений, из которых животные могли выбраться к пищевому вознаграждению, если определяли правильную последовательность действий, а Б. Ф. Скиннер изобрел коробку Скиннера - пространство, в котором животных можно было обучить с помощью вознаграждения или наказания проявлять поведение спонтанно или в ответ на определенные стимулы. Когда психологи различают инструментальные и оперантные процедуры, это иногда делается на основании того, что инструментальная процедура Торндайка (инструментальная) определяет именно один ответ для получения вознаграждения, тогда как оперантная процедура Скиннера (оперантная) позволяет животному давать любой доступный ответ (например, нажимать на рычаг или стучать по клавише) с любой частотой. Большинство психологов, однако, рассматривают "инструментальное" и "оперантное" обучение как синонимы.
С более механистической точки зрения Грау и Джойнс различают инструментальное обучение по принципу "реакция - результат" и более сложное оперантное обучение по принципу "реакция - результат". Обе формы обучения удовлетворяют методологическим критериям обусловливания "ответ-результат", но только оперантное обучение удовлетворяет дополнительным функциональным критериям, касающимся относительно неограниченной природы поведенческих реакций и эффективных подкреплений, сродни тому, что я выше назвал "открытой" природой следового обусловливания. Базовое инструментальное научение сильно ограничено в отношении того, какие реакции могут быть связаны с теми или иными результатами. В отличие от этого оперантное обучение позволяет использовать разнообразные подкрепления - например, пищу, воду, доступ к самцу, доступ к отдыху и даже деньги (или жетоны, которые можно использовать для обмена) - для формирования разнообразных форм поведения. Исследования, проведенные в лаборатории Грау (обзор сделан в Allen et al. 2009), показывают, что более ограниченная форма инструментального обучения может быть обнаружена даже в спинном мозге. Более продвинутая форма оперантного обучения, по-видимому, требует мозговой схемы, функциональность которой не воспроизводится в спинном мозге млекопитающих; но это совместимо с тем, что некоторые мозговые схемы столь же ограничены в своей способности ассоциировать реакции и результаты.
Важно отметить, что в случаях полного оперантного обусловливания поведение и вознаграждение относительно взаимозаменяемы и ориентированы на достижение цели. Например, Румбо и Уошберн (2003) описывают работу Румбо и его коллег, в которой показано, что обезьяны, обученные выполнению задания с помощью компьютера, используя джойстик, до которого они могли дотянуться только ногами, переходили на использование рук и справлялись с заданием более эффективно, когда оборудование переставлялось. Подобная гибкость оперантного поведения, направленная на достижение цели (соответствующая тому, что Rumbaugh et al. 1996 называют "эмерджентностью"), представляет собой полезное измерение, по которому можно сравнивать способности разных видов и разных особей. Для этого требуется ассоциативная кора или ее функциональный эквивалент (хотя для полного описания необходимо сказать гораздо больше), включающий механизмы, совершенно отличные от тех, которые достаточны для более простых форм инструментального обучения.
Современный ассоцианизм
Феномены ассоциативного обучения, описанные первоначально в рамках парадигмы бихевиористской психологии, остаются весьма актуальными для сравнительного познания, но ранние модели таких явлений были слишком ограниченными, во всех отношениях. Переход к более интегрированному взгляду на ассоциативное обучение и познание уходит корнями в раннюю работу Толмена о латентном обучении и когнитивных картах у крыс (1948). Но вызов ранним представлениям об обучении животных был ускорен открытием различных феноменов обучения, которые было трудно объяснить строгим павловцам и скиннерианцам. К таким явлениям относятся латентное торможение (более длительное время, необходимое для обучения ассоциации после предварительного воздействия стимула; Lubow and Moore 1959), эффект Гарсии (однократное обучение избеганию пищи после введения эметика (индуктора рвоты) с большой задержкой; Garcia et al. 1966) и блокирование (неспособность узнать о предсказуемом стимуле, когда он предъявляется в контексте ранее выученной ассоциации; Kamin 1969).
В каком-то смысле Хомский (1959) был прав, считая, что теория обучения, которую отстаивал Скиннер, не справляется с задачей учета всего поведения. Но Чомски (1967) ошибался, считая, что взгляды Скиннера представляют собой вершину ассоциативной теории научения. Описанные выше явления привели и продолжают приводить моделистов к разработке все более сложных теорий, применяющих идеи обработки информации к формированию представлений о мире. Например, чтобы объяснить эффект блокировки, Рескорла и Вагнер (1972) описали модель классического обусловливания, основанную на коррекции ошибок, в которой обучение пропорционально количеству "удивления", вызванного результатом. Понятие "неожиданности" здесь может быть раскрыто в информационно-теоретических терминах, касающихся вероятности исхода с учетом предыдущего опыта. Но в отличие от строгого бихевиоризма, который отвергает идею когнитивных или ментальных репрезентаций, модель Рескорла-Вагнера предлагает метод различения и представления наиболее предсказуемых подсказок в процессе конкуренции подсказок, а не просто ассоциирования совпадающих стимулов. Оригинальная модель Рескорла-Вагнера имеет свои ограничения, и впоследствии она была по-разному развита (например, Van Hamme and Wasserman 1994). Тем не менее, наивная способность базовой модели к дискриминативному обучению имеет многообещающее применение, даже в изучении человеческого языка (Baayen et al. 2016).
Переход от классификации обучения по методологическим параметрам обучающих процедур, используемых в лабораторных препаратах, к моделям обучения и описанию механизмов, необходимых для поддержания различных видов поведенческой гибкости, несет в себе потенциал для лучшего понимания эволюции обучения и познания. Эрик Кандель и его коллеги (Castellucci et al. 1970; Hawkins et al. 1983) уже рассматривали классическое обусловливание у Aplysia как развитие сенсибилизации к одному стимулу. Грау и Джойнс (Grau and Joynes, 2005, p. 4) выступают за так называемый "нейрофункциональный" подход, указывая, что "один механизм может быть задействован для решения различных экологических задач", и предполагая, что один механизм может быть задействован в различных случаях обучения, которые классифицируются совершенно по-разному с помощью методологических критериев. Методологические соображения важны, но сейчас, более века спустя после того, как Торндайк (1911) изобрел экспериментальный подход к обучению животных, мы находимся в лучшем положении, чем когда-либо, чтобы признать, что детальное внимание ко всем аспектам обучения - методологии, обработке информации, нейронным