情绪心理108：操作学习，桑代克的猫

情绪心理108：操作学习，桑代克的猫
2020/6/8 14:40:47 胡鹏飞学心理

     上篇我们谈到的学习，经典条件反射，研究的是被动反应行为，也就是大部分动物不会主动地分泌唾液或者感到焦虑。但这种非自主行为毕竟只占我们行为中很小的一部份，更多的行为是我们主动做出的。那我们主动的目的是为了什么，我们可举出无数多高尚的理由，但究其本质，就是为了追求快乐，逃避痛苦，说得专业一点就是获得奖赏与逃避惩罚。

     操作性条件作用也叫操作性条件反射，即生物体的行为结果能决定这一行为在将来是否会被重复的一种学习类型，即通过将随意操作和奖赏联系起来以引出特定操作。比如一个小孩子把玩具分享给了小朋友因而受到家长表扬。结果就是受到表扬，引出的行为就是下回继续与小朋友分享玩具。

     1

     桑代克的猫

     爱德华·桑代克在19世纪90年代首次考察了主动行为，早于巴甫洛夫发表其研究发现的时间。桑代克的研究关注的是工具行为，也就是需要生物体去做些事情、解决一个问题，或者操控环境中某些物品的行为。

     桑代克把一只饥饿的猫放进一只笼子里，在笼外够不着的地方放上食物，猫会尝试各种动作试图逃出笼子——抓门、大叫、嗅来嗅去、把爪子放到笼子外面等。猫要出去，需要踩到笼子里一个小杠杆，就能打开弹簧锁，开门拿到食物。然后再把猫放回笼子，猫能花较少的时间踩压杠杆，重复几次后，猫会有意地按压杠杆。也就是猫学会了把按压杠杆与得到食物这个结果联系起来。

     但在这过程中，猫做出了很多可能的行为(最终无效)，但是只有一个行为带来了自由和食物，随着时间的推移，无效的行为越来越少，工具性的行为(按杠杆)变得越来越频繁。桑代克提出了效果律(law of effect):伴随着“满意结果”的行为倾向于被重复，而那些产生“不愉快结果”的行为不太可能被重复。

     21

     斯金纳的箱子

     斯金纳在桑代克的研究基础上，又进行了更进一步的研究，并提出了操作行为(operant behavior),用来指生物体所产生的对环境有影响的行为。也就是生物体做出的行为都是在以某种方式对环境进行“操作”，环境则会通过加强这些行为(强化他们)或使行为不再发生(惩罚他们)来做出回应。操作行为与经典的条件化行为不同，它不是由特定的刺激所诱发的。因此，大多数生物体不会像拴着的狗那样被动等待食物，而是主动在环境中积极进行探究来获得奖赏。

     01

     强化与惩罚

     这二个词估计所有人都非常熟悉，但其实我们又很难去定义某件事情到底属于强化还是惩罚，比如喝茅台酒，对大多数人来说是强化，可对我来说就是惩罚。

     斯金纳给他们做了中性的定义，强化物(reinforce)就是能导致强化行为的概率增加的刺激或事件。而惩罚物(punisher)就是能导致惩罚行为的概率减少的刺激或事件。

     一个刺激是强化物还是惩罚物最重要是看它是增加还是减少了一个行为发生的可能性。比如我们常说的给予食物是强化，增加了能引发食物出现的行为；拿走食物就是惩罚，导致了行为的减少。打开电击是典型的惩罚，减少了导致惩罚的行为；关掉电击就是奖励，增加了导致奖励的行为。

     有人如果真的耐心看到这里，估计已经快晕了，但别着急，其实也挺简单的，也就是强化分为二种，一种是正强化，也就是奖励刺激的出现，比如单位发了3000块奖金。另一种是负强化，也就是把不愉快的刺激去掉了，比如原来说要扣奖金3000块，现在不扣了。而惩罚也分为二种，一种是正惩罚，实施令人不愉悦的刺激。比如罚款3000块，另外一种是负惩罚，奖励刺激被拿掉了，比如你业绩不好，本来准备发的3000块奖金没了。

     在平常工作或学习中，最被我们所忽略的是负惩罚，什么意思，员工把活干漂亮了，本来应该给予正强化，但作为领导的一句好话都没有，这就是负惩罚。虽然什么也没干，但这依然是惩罚。

     安全带的蜂鸣声，这就是一个特别好的负强化，你系上安全带它就不叫了。喝了咖啡马上肚子疼，这就是正惩罚，下次你肯定不喝了。

     在促进学习方面，强化通常比惩罚更有效，这里有许多的原因(Gershoff)，但最主要的一个原因是：惩罚预示着某个不被接受的行为出现了，但是它无法指明到该做什么。就是惩罚解决的是你不该做什么，而强化是告诉你应该做什么。无论是在工作中还是教育孩子中，我们更加提倡强化行为，除非是某些绝对禁止的行为。

     02

     初级和次级(强化和惩罚)

     一只鸽子啄到了目标，通常得到食物的强化，另一只动物学会逃离电刺激就避免爪子受到刺痛的惩罚，因此，食物，舒适感、得到庇护或保暖都是初级强化物，因为它们有助于满足生理需求。

     但大多数我们生活中强化物或惩罚物却和生理关系很小，言语表扬、试卷的100分，金黄的奖杯或者银行的人民币都具有强大的强化功能，但它们没有一样能让你尝起来味道好，或者帮助你入睡给你带来温暖。但我们学会了基于这些和生理满足关系很小或毫无关系的强化来做出许多的行为。我们把它称之为次级强化物(条件性强化物)，它通过经典条件反射和初级强化物发生联系从而得以发挥效用。

     钱原来是一个中性的条件刺激，通过和初级无条件刺激联系，诸如获得食物或得到庇护，成为了一个条件性的情感因素。

     在学习中，条件性强化物更有效且更易于使用，比如职业讲师在上课的时候都喜欢给学员发扑克牌，而课程结果之后扑克牌多的小组能得到一定的奖品。为什么老师喜欢这样，因为有利于学习：1、因为初级强化物非常少，而条件强化物非常多，上课的老师总不至于学员回答一个问题就给粮，给面包吧。2、条件强化物可以快速发放。3、条件强化物可以随身携带，西瓜不行呀？4、条件强化物的效果可以更及时地看到。

     因此，在幼儿园的教育中，小红花就是典型的条件强化物。而在一些研究机构中，如精神病院或戒毒项目中心，人们使用代币经济，先对期望行为进行明确的定义，当这些行为完成时，工作人员分发相应的代币，病人可以用代币换取各种各样的奖品和特殊待遇。这种强化系统对调节病人的自我照料、维护环境行为特别有效，更重要的是，它们能有效地提高病人参与积极的社会交互作用的频率。

     03

     即时和延迟(强化和惩罚)

     决定一个强化物有效性的关键因素是行为的出现和强化物之间的时间长短：间隔时间越长，强化物的有效性就越小(Lattal,2010)。在饥饿老鼠所做的试验中显著的表现出了这种特性，发现几秒钟的延迟就导致随后老鼠按压杠杆的次数减少，而延迟到一分钟就使得食物强化物完全失效了(Dickinson,Watt&Griffiths)。为什么会出现这种情况，很大的的可能是延迟强化让老鼠难以搞懂它们需要什么样的行为才能得到强化物。

     强化如此，惩罚也不例外，行为和实施惩罚之间的间隔越长，惩罚能抑制目标行为的效果越差(Lerman&Vorndran)。因此，在孩子的教育中，最难做的就是让孩子及时得到强化或惩罚，比如小孩在商场大吵大闹。

     今年疫情期间，小区里有邻居真的做到了完全不出门，下楼倒个垃圾都是手套，护目镜，口罩，感觉就像生化战争来了，可回到家里，发现在阳台上一根一根香烟猛抽。其实每年因为抽烟得肺癌死去的人远比因为没带口罩得新冠肺炎死去的人多多了，按道理应该是对香烟更警惕才对呀，为什么现实生活里反着来呢，这其实就是即时惩罚与延迟惩罚的区别呀，不带口罩，很有可能马上感染新冠，而抽烟，哪怕再多，感觉离肺癌还是很远。

     同理，那些一顿美食给予的即时强化也远远比那些每天挥汗如雨锻炼、节食几个星期而获得体重减轻带来的强化对人更有诱惑力。

     04

     强化程序

     在上篇的经典条件反射中，我们谈到一个非常重要的概念--消退，也就是如果你总是摇铃而不给食物，慢慢狗就会停止分泌唾液。操作性条件反射也是如此，比如在自动贩卖机投完硬币之后没有得到可乐，我们可能再试一次，但一定不会有第三次。

     但二者之间有着重要的区别，操作条件中，强化仅仅是在做出适当的反应时才出现，而且之后不是总出现，比如销售不是每一个电话都有业绩，学生不是每个知识都带来考试分数变化，然而这些行为并不会弱化或消失。这是因为操作条件反射的消退比经典反射的消退更复杂，接下来我们看看消退的基础：强化程序。

     1、固定间隔程序：若出现合适的反应，强化物就在固定的时间段内呈现。比如在一个2分钟的间隔程序中，只有等上一次强化过去2分钟后才会出现下一次强化。我们的按月支付薪水即是把个人置于这种程序强化中。或者领导说，我们今天玩一个游戏，每到准点他就会发红包，这就是固定间隔程序。

     2、可变间隔程序：行为在上一次强化结束后的一个平均的时间段内受到强化。比如在一个2分钟的可变间隔程序中，反应是平均2分钟被强化一次，而不是每过2分钟就被强化。这就好比领导发红包，12个小时内发12次红包，但有可能前3个小时发一次，后一个小时发3次。

     我们通说所说的考试，期中或期末，这是典型的固定间隔程序，但如果有另一个老师说，他的课程成绩不是由这二次决定，而是一学期会有随时的10次考试，他们决定了你的期末成绩，这就是可变间隔程序。无论是固定还是可变间隔程序都倾向于产生缓慢的，有条不紊的反应，因为这里的强化是遵照时间尺度的，不依赖产生了多少反应。

     3、固定比率程序：强化是在特定数量的反应出现后才实施的。比如每4次后出现强化。比如星巴克的星卡，也就是你消费多少杯之后，积了多少颗星，你就能免费领一杯饮品，这就是固定比例程序强化。

     我们企业很多的销售政策，一般采用固定间隔与固定比率程序，也就是固定工资，到月就给你的钱；另外一部份是提成，完成多少金额按比例给的。

     4、可变比率程序：强化是基于反应的特定平均次数来实施的。比如大概100次反应会得到一次强化，但你不知道到底是在第1次，还是99次反应，才会得到一次强化。这里最典型的就是赌场的老虎机，比如它设计的是平均拉100次杆就会赢钱，但很可能前面来一个兄弟，拉一次就赢钱了，你拉99次还是一毛没得。

     可变比率程序会比固定比率程序产生更高的反应率，这是因为生物体永远不知道下一次强化在什么时候出现。此外，比率越高，反应率也往往更高，基于20次的比基于2次反应的可变程序产生更多的反应。我们的彩票就是按照这个原则设计的。中三块五块很容易，但中500万，嘿嘿。

     我们前面谈到，行为会消退，但如果强化程序提供的是间歇强化，也就是一部分的反应会伴随着强化，那么由此产生的行为会比连续强化程序所产生的行为更难消退。就是一个程序越不规律越间歇，生物体就越难以判断何时已经处于消退阶段。这也能够理解，加班容易戒掉，但赌博太难了。

     05

     行为塑造与迷信

     周末，带着老人与孩子去一趟动物园，无论是海豚的翻跟斗，老虎的跳圈，大象的足球，小鸟的抓钱，都能赢得大家的赞赏——太聪明了。没错，小动物是聪明，它们学会了类似人类的复杂动作，但与其说它们学会了，不如说是它们被强化了。它们的每一个动作都是经过长期训练塑造的，一直到最终看来像一个连贯的运作。

     连续接近塑造法，是指对任何连续接近并最终与预期反应相匹配的行为进行强化。即一组行为的结果塑造下一组行为，其结果又塑造下一组行为。

     因此，在无论是对狗还是海豚的训练中，我们都能看到这种行为塑造法的使用，对于动物来说，这些复杂的行为并没有其他的含义，它们只是每一个小动作被强化后的结果呈现。

     说到迷信二个字，对于国人来说并不陌生，我们生活中充满了类似的行为，那作为行为主义者如何解释迷信呢？

     斯金纳在他的鸽子实验中，发现鸽子有一些不同寻常的行为，比如转圈，为什么会出现这种现象呢？因为鸽子在偶然转圈后，食物出现，它就把转圈这一动作与食物联系起来了，也就是这一行为得到了偶然的强化。

     后续的一系列研究表明，人类也如此，在对成人或儿童实施不由他们的反应决定的强化程序也会产生看似迷信的行为。当反应和奖赏的关系仅仅是偶然的时候，人类也会和鸽子类似地表现出好像两者之间存在相关关系似的(Bloom，Mellon等)。

     比如某棒球队员如果碰巧没洗澡而当天打出了好几个全垒打，他们就会倾向于保持不洗澡的传统，因为他们相信这种糟糕的个人卫生状况和球场上好运气的这种偶然联系或许是一种因果关系(Gilbert等)。这其实就是人类众多迷信的例子之一。

     【胡鹏飞情绪心理——往期文章】

     情绪心理107：刺激学习，巴普洛夫的狗

     情绪心理106：群体迷失，魔鬼的诞生

     情绪心理105：社会懈怠，集体打酱油

     情绪心理104：说服，得“套路”者得天下

     情绪心理103：被人围观，你是紧张还是兴奋？

     情绪心理102：从心理学视角看人类的攻击性

     情绪心理101：重复呈现，最有效的说服方法

     情绪心理100：亦真亦假说个人权威

     正文结束

     作者：胡鹏飞，职业讲师，常住深圳。专注管理心理、销售心理、情绪心理领域的琢磨，品牌课程有《逆风飞扬——压力与情绪管理》、《高情商的管理者》、《基于心理学的沟通技术》、《管理心理学》、《基于心理学的新生代员工管理》。会讲课，能跑步，爱滑雪，希望做一个有趣的人，私人微信号：hupengfeisz。业务合作 150 12702802 颜小姐。

     每周一定时更新，偶有号外

     长按上方，开始我们的缘分

     胡鹏飞

     管理 | 心理 | 职业 | 分享

     日头没有辜负我们，我们也切莫辜负日头。

    源网页   http://weixin.100md.com
返回胡鹏飞学心理返回首页返回百拇医药