Для дизайнера Делаем дизайн удобным и привлекательным Выработка инструментального условного рефлекса (Operant conditioning)

Выработка инструментального условного рефлекса (Operant conditioning)

Метод, используемый для изменения поведения путем усиления желаемых стиле поведения и игнорирования нежелательных видов поведения или наказания за них.

Выработка инструментального условного рефлекса является, вероятно, самым исследованным и известным методом, используемым для изменения поведения. Метод включает усиление или ослабление определенного поведения путем его связывания с положительными или отрицательными условиями (например, награды или наказания).

Методика выработки условного рефлекса (оперантное обучение) применяется для дрессировки животных, для учебных методик, при разработке видеоигр, в программах стимулирования, в игровых автоматах, психологическом консультировании и поведенческой терапии.

Также она находит все большее применение в создании искусственного интеллекта. Существуют три основных метода оперантного обучения: позитивное подкрепление, негативное подкрепление и наказание.

Позитивное подкрепление увеличивает вероятность поведения, увязывая поведение с позитивным условием: перемещение рычага игрового автомата приводит к позитивной визуальной и слуховой обратной связи, а также возможному денежному вознаграждению.

Негативное подкрепление увеличивает вероятность поведения, увязывая это поведение с удалением негативного условия: если водитель, сев в автомобиль, пристегивается ремнем безопасности, то раздражающая его звуковая сигнализация не включается.

Наказание снижает вероятность нежелательного поведения, связывая это поведение с негативным условием: в компьютерной игре касание ядовитого гриба влечет за собой уменьшение счета.

При любой возможности следует применять позитивное и негативное подкрепление вместо наказания. Наказание следует держать в резерве и применять только для быстрой нейтрализации поведения.

Подкрепление и наказание применяют после того, как поведение повторилось. Когда существует четкая и прогнозируемая взаимосвязь между частотой поведения и результатом, данное поведение стимулируют, чтобы человек или получил подкрепление, или избежал наказания.

Когда не существует четкой и прогнозируемой взаимосвязи между частотой поведения и результатом, данное поведение будет повторяться чаще, и человек будет больше сопротивляться подавлению такого поведения (потеря желаемого поведения).

Оптимальный план изменения поведения обычно включает в себя прогнозируемое подкрепление на начальной стадии обучения (режим обучения с определенным количеством реакций и подкреплений) и в дальнейшем менее прогнозируемое подкрепление при обучении (режим обучения с варьируемым количеством реакций и подкреплений).

Используйте выработку инструментального условного рефлекса в контекстах, где требуется изменение поведения. Там, где возможно, делайте акцент на позитивном или негативном подкреплении, а не на наказании. Используйте режим обучения с определенным количеством реакций и подкреплений на первоначальном этапе обучения. Когда базовые виды поведения закреплены, переходите к режиму обучения с варьируемым количеством реакций и подкреплений.
На этом графике показано, как стратегии подкрепления влияют на поведения обучающегося. Обучение с варьируемым количеством реакций предполагает вознаграждение после некоторого количества правильных ответов. Показатели обучения при этом стремятся к высшему уровню и способствуют поддержанию поведения.

Режим обучения с определенным количеством реакций обеспечивает вознаграждение после фиксированного количества правильных ответов. Они используются для связывания подкрепления с поведением на ранних стадиях обучения.
Способность видеоигр и игровых автоматов вызывать привыкание является прямым результатом выработки инструментального условного рефлекса.

В игре Black & White («Черное и белое») герои становятся хорошими, нейтральными или плохими в зависимости от того, наказывают их или вознаграждают за поведение.