都是狗做对就奖励,我和专业训犬师有何不同?
科学养宠 上巨小萌
阅读全文,大概需要6分钟
我回来的时候它很热情的亲我,该不该奖励它?
它大部分时间都很听话,我老想奖励它,会不会太频繁了呢?
奖励总是要给吃的吗?怎样的奖励最有效呢?这次我们就来谈谈奖励。
我们曾经说过,对狗狗而言除了食物,还有很多行为可以成为奖励(详情→《对狗狗而言,原来这些都算奖励》)。在知道什么是奖励之后,如何正确运用奖励,才能把奖励效果最大化,让狗狗更开心。
狗狗必须觉得这是奖励
奖励必须让狗狗感觉到!每只狗狗都有自己独特爱好,都会重视某些奖励,比如大多数狗狗都不能抵挡零食的诱惑。而且不同奖励在狗狗心目中的地位,可能每一刻都不同。
举个例子,一个鸡肉干,在上一刻是最具吸引力的奖励。但是这一刻它身边多了一大群狗狗,这时候它只想去玩。对你的表扬、抚摸、一块鸡肉干都感到索然无味,给它一句“去玩吧”,才是当下最具有吸引力的奖励。
也就是说,你可以把让狗狗分心的事物,转换成强化行为的奖励,这种狗狗能感知到并强烈认同的奖励,对正向引导良好行为会发挥最大功效。
奖励要立即,延迟奖励容易犯错
奖励必须立即,和惩罚一样,因为延迟奖励总会是强化错误的行为。
举个栗子,如果狗狗在和其他狗玩,听到召唤立即飞奔回来你身边,称赞就别给的太迟了。因为狗狗可能会无聊坐下或者向你扑跳,而迟来的奖励就变成表扬坐下或扑跳。稍微一慢,奖励的行为可能就完全不一样。
延迟奖励还有其他风险,就是产生“抑制好习惯”的悲剧效果。举例说,如果狗狗听话地回到你身边,却因为扑跳而受到惩罚,这项惩罚不但强烈抑制扑跳行为,也部分抑制了良好的召回行为,最后狗狗听到你的召唤就不想回来了。你应该立即奖励狗狗的正确行为,也应该立即惩罚狗狗的不良行为,这样才能强化好习惯和抑制坏习惯。
何时奖励能达到最佳效果
关于何时该奖励、何时不该奖励动物,就有成千上万的科学研究报告。动物心理学研究使用了好几种不同的强化奖励机制:
连续强化(CR) | 固定比率(FR)| 固定时距(FI)| 变化比率(VR)| 变化时距(VI)| 区辩性(DR)
别怕,因为上面很多奖励机制都只适用于学术研究,生活中并不实用。
连续强化其实只出现在实验室里面,一般通过电脑控制分配奖励。连续强化在训犬方面能发挥的功效相当有限,首先没有任何训练者,能那么精确连续地为狗狗的每个正确回应给予奖励;其二狗狗如果接受连续强化作用,一开始会积极学习,很快就会烦厌抗拒,这种奖励没法长久实施。
同样的,如果使用固定时距奖励,就等同于我们每个月定时发工资,反正你都知道不管中间有没有偷懒,到点就会发工资,有的人就会在中间偷懒。这样的奖励时间机制,同样对狗狗没什么效果。
推荐你使用“变化强化”的方式,去处理给予奖励的时机。变化包括正确行为的执行次数,或者一个正确行为执行时间的变化。
例如我们要狗狗学会坐下这个指令,那么第1次做到有奖励,第4次、第12次、第17次、第20次分别也有奖励。把5次奖励变化地分配到20次正确回应中,而不是平均的进行分配。
如果要狗狗学会安静等待,我们可能要在等待5秒、等待20秒、等待13秒、等待34秒的时候给予奖励,而不是每次达到15秒时给予奖励。
一开始就使用变化奖励
当你用奖励诱导狗狗进行训练时,可以从一开始就使用变化的机制。
如果狗狗一开始就做对了,然后你要尽快开始降低奖励的比率,要求它做出两次正确的行为才给予一次奖励。
有一点非常重要,不要让狗狗每次做出同样的行为都必然获得奖励。如果这样做,它确实会学得很快,但也会忘记得很快。如果奖励的时机是偶然和随机的,它会学得很快,也会记得更牢固,会更努力争取好的表现。
为什么变化性的强化奖励能有这样的效果?明明它获得的奖励数量是比连续强化少得多。
如果连续奖励,狗狗确实得到更多奖励,但也更容易对奖励感到厌倦,失去兴趣和新鲜感,奖励就没有意义了。
此外,狗狗知道就算自己回应得晚了,只要回应,也会有奖励,那我还急什么急?甚至觉得“反正这次不做对,下次做对了也会有奖励”,那么这次懒得做,就下次再做呗。
为什么双十一大家发疯一样买买买?因为知道错过了可能就没机会,如果天天双十一,你还会疯狂买买买吗?
没带零食时,变化机制价值就凸显了
玩抓娃娃机,你不停的投币进去,一次又一次可爱的公仔都在边缘滚动,你心痒难熬,总期待下一次它就会掉到你的手里。在经过不断的思考、努力、投币之后,你付出了远超过娃娃本身的费用,终于抓到了一个娃娃!这一次奖励的成就感,让你重新进入下一次的投币……
狗狗也是一样,通过你变化机制的训练,它知道会有奖励,但不知道什么时候有。当没有奖励的时候,它不放弃也不埋怨,只会继续努力的表现。
总有一些时候你手边刚好没零食,这时你并不需要着急担心,因为你平时的训练已经打下良好基础,它仍然会有正确的反应。
持续变化,狗狗不断进步
人脑和电脑不同之处,是能感受到生命中情绪的细微变化。同样一个捡球的行为,每次狗狗的回应都是有细微差别的。除了在上面说的随机变化之外,我们更应该通过观察狗狗每次表现的细微差别,去奖励它最优秀的那些表现。
10次捡球,第3次反应快,第4次等待特别有耐心,第12次特别专注又愉快,这都是我们可以加强奖励的时机,让狗狗知道它有越好的表现,会得到越及时、强烈的奖励,最优秀的一次表现甚至可以获得超级大奖。
通过对时机、表现的把握,我们灵活运用奖励去对狗狗进行训练和行为强化,训练就变成一个特别有趣的互动游戏,而且是一个学无止境、精益求精的过程。狗狗的行为、情绪、性格,都在整个过程中得到正向的引导和塑造,你终将获得一个越来越默契、服从性高、心态正面积极的生活伴侣。
参考
Dinsmoor, James A. (2004) " The etymology of basic concepts in the experimental analysis of behavior ." Journal of the Experimental Analysis of Behavior , 82 (3): 311-316.
Michael, Jack. (1975) " Positive and negative reinforcement, a distinction that is no longer necessary; or a better way to talk about bad things ." Behaviorism , 3 (1): 33-44.