在线试读

get_product_contenthtml

1  引言: 1科学问题

1.1  引言 / 1
1.2  奖赏物、惩罚物及其相关的学习: 工具性学习和刺激—强化物联结学习 / 3
1.3  情绪和动机的研究取向: 成因、功能、适应性价值与脑机制 / 6
1.3.1  情绪的成因 / 6
1.3.2  理解灵长类动物(包括人类)大脑的重要性 / 8
1.3.3  从人类功能性神经影像学、神经编码到对大脑的计算理解 / 10
1.4  情绪、动机和抑郁: 本书的框架 / 11
1.1  引言
    情绪是什么?我们为什么会有情绪?情绪的适应性价值是什么?情绪的脑机制是什么?如何理解情绪障碍?为什么有情绪时就会有某种体验?为什么情绪有时会如此强烈?这本书旨在回答以上这些问题。
    当知道了情绪是什么,我们为什么会有情绪,大脑如何产生情绪,以及为什么有情绪时就会有某种体验之后,我们将对情绪做一个广泛意义上的解释。
    同样地,我们也会追问什么在驱动我们: 动机是什么?如何控制动机?大脑如何产生和调节动机?一些动机性障碍,比如,导致饮食过量和肥胖的食欲障碍,到底是哪里出现了问题?这些动机控制系统如何运作才能确保我们摄入适量的食物来维持体重,或者适量的水来补充身体水分?在不同动物和人类身上发现的不同性行为模式的潜在原因是什么?我们为什么(以及如何)会喜欢某些类型的触摸(例如爱抚),这与动机有什么关系?成瘾的大脑机制是怎样的?情绪和动机状态(如饥饿、食欲、性行为)之间有什么关系?事实证明,对动机行为和对情绪行为的解释在许多方面相似,因此,本书中也讨论了动机。
    本书的部分目的是从以下几个方面来解释情绪: 
    1. 情绪由什么引起?我给出的一个笼统答案是强化刺激,即奖赏物和惩罚物,见第2章。
    2. 我们为什么会有情绪?总的来说,我认为情绪具有进化适应性。因为情绪是一种帮助基因影响行为的有效方式,目的是提高个体的繁殖适应性(第3章)。
    3. 我们如何产生情绪?我会通过描述已知的情绪的脑机制来回答这一问题(第4章)。
    4. 动机是什么?动机是一种状态,在这种状态下我们想达到某一目标(比如食物奖赏或避免疼痛),并愿意采取行动来达成这一目标。
    5. 什么是心境?在这种状态下,诱发刺激可能不明确,或者可能在一段时间前已经消失了。(所有术语的相关说明见第2.7节)
    6. 我们如何做出决策?我从吸引子网络的角度提供了一个答案,这在第8章中会有详细描述。大脑中神经元放电的确切时刻是随机的,决策受这种随机性的影响,这一有趣的特性使得我们的决策具有少许不确定性和概率性。这种决策的随机性具有进化适应性,2也有助于大脑其他区域产生原创性思维和创造力。
    另一个答案是,人类(或许包括人类的近亲动物)有一个二级推理系统来做决策(第10章)。这一系统可以做出主要有利于个体利益而非有利于基因利益的长期决策。这两个特性使得两个决策系统有着截然不同的目标或目的,而这可能导致决策中的内部冲突。我认为一般来说,这两种系统在一个庞大的种群中是平衡的,但是,它们的相对重要性在个体间可能具有相当大的差异。此外,我还认为在做出特定决策时到底使用哪个系统(情绪系统或者推理系统)会受到上述随机性的影响。
    7. 为什么情绪状态会带来某种体验?这是意识这个大问题的一部分,我将在第10章中讨论。
    8. 为什么人类的情绪体验会如此强烈?我将在第10章中讨论这一问题。
    9. 如何理解像抑郁症这样的情绪障碍?这种更深层的理解如何帮助个体更好地应对抑郁感受?既然我们从大脑中潜在计算过程的角度对抑郁症有了更进一步的理解,那么有没有可能开发出治疗抑郁症的新方法呢?我会在第9章讨论这些重要问题。
    情绪和动机之所以被联系在一起,是因为二者均与奖赏物和惩罚物有关。情绪可以被认为是由奖赏物或惩罚物诱发的状态。第2章从情绪与奖赏物、惩罚物的关系出发,详细阐述了情绪的完整定义以及不同情绪理论。动机可以被认为是追求目标过程中(如奖赏物、避免惩罚物)的一种状态。举例来说,饥饿就是一种动机,此时个体想要采取行动来获得食物奖赏。这一点会在第2、3、5和7章中作详细说明。
    考虑到奖赏和惩罚对情绪和动机的重要性,本书在第1.2节定义了奖赏和惩罚,并描述了一些涉及奖赏物和惩罚物的学习类型。这是本书后面内容的基础。然而,对于那些在初次阅读时想跳过1.2节定义部分(这是为了确保读者能有一个坚实的基础来理解情绪和动机)的读者而言,可以简单地把奖赏物视为动物(包括人类)努力想要得到的东西,把惩罚物视为动物想要逃离或避免的东西。
    一些刺激与生俱来就是奖赏物或者惩罚物,它们被称为初级强化物(primary reinforcers)(例如,不需要学习就可以对疼痛做出厌恶的反应);还有一些刺激被称为习得强化物或次级强化物(learned or secondary reinforcers)(例如,“看见巧克力蛋糕”并非与生俱来就具有奖赏意味,但我们可以通过联结学习,在“看到蛋糕”和“品尝到蛋糕的美味”之间建立联系,而“蛋糕的美味”是初级强化物。这样就使得“看到蛋糕”成为一种习得强化物,因此,我们会更努力想要“看到蛋糕”)。这种学习被称为刺激—强化联结学习(stimulusreinforcement association learning),它在情绪和动机中扮演着重要角色。[一个更恰当的称呼是刺激—强化物联结学习(stimulusreinforcer association learning),其中,强化物指可以作为惩罚物或奖赏物的刺激。]
    1.2  奖赏物、惩罚物及其相关的学习: 3工具性学习和刺激—强化物联结学习    
奖赏物是动物(包括人类)努力想要得到的东西。惩罚物是动物努力想逃离或避免(或者会降低与之相倚的动作的可能性)的东西。在这里“努力”指动物为了获得奖赏物或逃避惩罚物而表现出的任意行为,称为操作性反应(operant response),但其中不包括类似于条件反射的简单行为。例如,我们将钱投入自动售货机购买食物,或者老鼠按压杠杆获取食物,这就是操作性反应,这里食物是奖赏物。另一个操作性反应的例子是动物为了逃离或避免厌恶(惩罚性的)刺激,如寒冷的气流,而从一个地方迁徙到另一个地方。如果厌恶刺激先出现,之后动物才做出反应,这称为逃离惩罚物。如若先出现一个警告刺激(比如闪烁的灯光),暗示动物除非做出操作性反应,否则就会出现惩罚物,那么动物就可以学会在警告线索出现时执行操作性反应,从而避免惩罚物。
    由于奖赏物和惩罚物的定义要求必须至少可以表明动物习得了任意一种操作性反应(进而获得奖励物或逃离、避免惩罚物),我们可以发现,其实在奖赏物和惩罚物的定义中隐含有“学习”。(在单细胞生物中出现的根据化学梯度向食物来源游动的现象被称为“趋性”;它不需要学习,这里的食物也并不符合奖赏物的定义,见第3章。)因为奖赏物和惩罚物的确暗含了学习如何获得奖赏物或逃离、避免惩罚物的能力,并且它们是动物采取工具性动作试图获得的目标,也是达到目标时所获得的强化物,所以我们称奖赏物和惩罚物为“工具性强化物”。
    这一介绍引出了工具性强化物(instrumental reinforcers)的定义。工具性强化物指的是这样的刺激,它们的出现、终止或撤除取决于某一动作的发生,因而工具性强化物会改变未来做出该动作的可能性[作为与该动作相倚(如相互依赖)的结果]。这种动作(或行为反应)概率的变化表明为实现目标发生了工具性学习。正强化物(如食物)会增加与之相倚的动作出现的概率;这个过程被称为正强化(positive reinforcement),其结果是奖赏物(如食物)。负强化物(如疼痛刺激)会增加能使负强化物撤除(如在主动避免中)或终止(如在逃离中)的动作出现的概率,这个过程被称为负强化(negative reinforcement)。相反,惩罚(punishment)指的是降低某个动作出现概率的过程。因此,惩罚指的是某个动作由于其后伴随疼痛刺激而出现概率下降的过程,如被动回避。惩罚也可以用来指撤除或终止奖赏物(即“消失”或“结束”)的过程,这两种过程都会降低动作的出现概率(Gray 1975, Mackintosh 1983, Dickinson 1980, Lieberman 2000, Mazur 2012)。
    我认为情感上正性的或者“欲望性”的刺激(能产生一种愉悦的状态)以奖赏物(reward)的形式起作用,当它出现时起到正强化物的作用,当它不出现(撤除或终止)时则会降低与之相倚的动作的出现概率。相反,我认为情感上负性或者厌恶性的刺激(能产生一种不愉悦的状态)作为惩罚物(punisher)起作用,当它出现时,可以降低与之相倚的动作的出现概率,当它不出现(被逃离或避免)时,起到负强化物的作用,4因为它增加了与之“不出现”相倚的动作的出现概率请注意,这里对惩罚物的定义与对厌恶性刺激的定义相似,“惩罚物”是指一种刺激或事件,它能够降低该刺激出现时的相倚行为的概率,或者可以增加该刺激不出现时的相倚行为的概率,而“惩罚”这一术语仅限于行为概率降低的情况。(Rolls 2014b)。
    强化物,即奖赏物或惩罚物,可以是非习得的初级强化物(primary reinforcers),也可以是习得的次级强化物。比如,疼痛就是一种初级强化物,它是与生俱来的惩罚物。次给动物施加疼痛刺激,动物就会逃避,它们不需要学习就知道疼痛刺激是厌恶性刺激。类似地,次给动物施予甜味刺激,它就能起到正强化物的作用,因此甜味刺激是初级正强化物或奖赏物。其他通过学习而成为强化物的刺激物,由于与初级强化物的联结而被称为“次级强化物”(secondary reinforcers)。例如,一个总是在电击之前出现的(原本中性的)声音刺激可以成为次级强化物。动物会习得次级强化物所强化的操作性反应(动作),比如跳到没有次级强化物或次级强化物被终止的地方去。因此,次级强化物在让动物避免初级惩罚物(如疼痛刺激)等方面具有重要作用。
    所有这些过程都与情绪有密切的关系。我们将在第2章中介绍,恐惧是一种情绪状态,它可能由先前与电击相联结的声音诱发。这个例子中的电击就是初级惩罚物,恐惧是因刺激(声音刺激)—强化物(电击)联结学习而对声音刺激产生的情绪状态。另一个次级强化物的例子是与食物味道相关联的视觉刺激。例如,当我们次看到一种没有见过的食物时,我们并不会将看见这种新的视觉刺激当作强化,但如果这种食物很好吃,那么看见这种食物就会成为正性次级强化物,并且我们可能会在以后看到这种食物时因为它与初级强化物的联结而选择它。因此,这种类型的学习被称为“刺激—强化物联结学习”(stimulusreinforcer association learning)。[这种操作通常被称为刺激—强化联结学习(stimulusreinforcement association learning)]此类学习对很多情绪都非常重要,因为正是由于这种类型的学习,才使得许多原本是中性的刺激可以诱发情绪反应,就像上面例子中的恐惧一样。
    无条件强化刺激常诱发自主反应。(自主反应是指自主神经系统通过迷走神经和交感神经调节的反应,它作用于平滑肌。)例如疼痛刺激引起的心率和血压的改变;食物味道引起的唾液分泌。许多内分泌(激素)反应同样也是通过自主神经系统调节,例如,在情绪激动时肾上腺会释放肾上腺素。如果原本中性的刺激(如前面例子中的声音刺激)与无条件刺激(如前面例子中的电击)配对,让动物学习这种联结,就会形成习得性自主反应。在前面的例子中,声音刺激可能通过与电击刺激联结起来诱发动物的心率变化、汗液分泌等。这种类型的学习被称为经典条件反射(classical conditioning),由于伊凡•巴甫洛夫(Ivan Pavlov)对这种类型的学习进行了许多开创性的研究,包括对预测食物到来的铃声习得的唾液分泌的研究,所以这种学习也被称为巴甫洛夫条件反射(Pavlovian conditioning)。这是一种与刺激—强化物联结学习非常相似的学习类型,只是在经典条件反射中涉及的反应是自主内分泌反应。
    除了涉及的反应系统不同以外,工具性学习和经典条件反射的一个关键区别在于操作的相倚性指操作与刺激出现的关系。——译者注。在经典条件反射中,5动物无法控制无条件刺激是否出现(就像巴甫洛夫的实验所描述的那样)。相反,工具性学习的完整概念是动物通过工具性动作决定终是否获得、逃离或避免强化物。这两种类型的学习对于情绪都十分重要,因为工具性强化物不仅能诱发情绪反应(见第2章),而且它通常也会引起自主反应,因此,自主反应一般在情绪状态下发生。此外,工具性强化物确实可以调节情绪的重要影响,比如通过增加心率等使身体做好行动准备。
    对经典(巴甫洛夫)条件反射和工具性学习的特性,以及这两者与情绪的关系更详细的描述请见罗尔斯(Rolls 2014b)的研究。
    动机(motivation)是指动物愿意为了得到奖赏物或者逃离、避免惩罚物而努力时所处的状态。举个例子,我们把动物为了得到美食而付出努力时所处的动机状态称为饥饿。因此,动机的定义暗含着具备为了获得奖赏物或者逃离、避免惩罚物而做出任意操作性反应的能力。通过暗示“操作性反应”,我们排除了反射和趋性(如单细胞生物根据化学梯度在溶液中游动)等简单的行为,如前文和第2章所述。通过暗示为了获得奖赏物(或避免惩罚物)而学习行为反应,动机因此聚焦在明确行为目标上。动机这一状态涉及对于大脑设计的理解,并且与如何明确行为目标这一基本问题,以及如何选择合适的行为有关。本书后文对此有进一步阐释,并会在第2章中将其汇集为一种情绪理论。
    1.3  情绪和动机的研究取向: 成因、功能、适应性价值与脑机制
    为了解释情绪和动机,研究者们发展出了不同的研究取向,以下对其中一些进行介绍。
    1.3.1  情绪的成因
    为了研究情绪的成因,我们需要确定诱发情绪的环境刺激和情境,这是第2章的主题之一。第2章还阐述了引发情绪的不同环境刺激条件如何为不同情绪的分类提供了基础。情绪的诸多功能会在第3章中述及,理解情绪的功能也能部分解释我们为什么会有情绪。情绪的这些功能部分解释了它的适应性价值,也部分解释了情绪为什么会进化。人们发现,情绪为基因如何塑造大脑以产生对基因有利的行为这一问题提供了一个基本的解决方案,对情绪的适应价值以及情绪成因的深层见解将在第3章中详细阐述。当我们在进化的背景下考虑情绪的适应价值时,必须记住的是动物通常是社会性的,进化可能促进特定奖赏和惩罚系统的发展,从而帮助个体产生适应于社会情境的情绪行为。从进化适应价值的角度来理解和解释社会行为属于社会生物学和进化心理学的范畴(Buss 2015),我们将会在第7章性行为的背景下详细介绍这一取向。
    1.3.1.1  在因果关系的“终”6层面解释情绪
    在因果关系的“终”层面,也就是在进化的适应性价值层面(Mayr 1961, Tinbergen 1963),情绪被解释为基因出于自身“自私”的繁殖目的,通过限定工具性动作的奖惩目标来影响行为的一种简单有效的方式,产生的状态就是情绪状态(见第2、3章)。就进化适应性价值而言,这比基因直接限定刺激所诱发的行为反应或动作更简单有效(见第3章)。
    1.3.1.2  在因果关系的“邻近”层面解释情绪
    另一个用来解释情绪和动机及其基础(奖惩系统)的主要取向是依据实现它们的脑机制。理解行为的大脑加工机制能够确保我们可以正确解释行为是如何产生的。研究情绪和动机、奖赏和惩罚的脑机制,不仅可以让我们了解大脑是如何工作的,更重要的是可以为我们理解和治疗相关疾病奠定基础。这种对行为的解释被认为是因果关系的“邻近”层面(Mayr 1961, Tinbergen 1963),在这一层面解释情绪就涉及理解眶额皮层(orbitofrontal cortex)、前扣带皮层(anterior cingulate cortex)、杏仁核(amygdala)和其他相连脑区的神经机制。
    在决策方面,在因果关系的“邻近”层面上的解释依据的是执行决策的吸引子皮层神经元网络机制(见第8章)。这种解释的一个诱人之处在于,它本质上与用于长时记忆[如海马体情景记忆和颞叶语义记忆系统(Rolls 2016d, Kesner & Rolls 2015, Treves & Rolls 1994, Rolls 2018a, Rolls 2021a)]和短时记忆(Rolls 2016d, Rolls, DempereMarco & Deco 2013, Rolls 2021a)的其他脑区的皮层机制属于同一类型。此外,这里所描述的决策机制是一种神经元机制,它从神经元和神经元网络的角度说明如何做出决策(Wang 2002b, Rolls & Deco 2010, Deco, Rolls, Albantakis & Romo 2013, Rolls 2016d, Rolls 2021a)(见第8章),在这方面与数学模型有所不同,如漂移扩散模型(drift diffusion model)就没有明确的神经元机制,只是设置了人为定义的噪音源、决策所需达到的阈值等(Ratcliff & Rouder 1998, Ratcliff, Zandt & McKoon 1999, Gold & Shadlen 2007)。
    与数学模型相比,邻近层面上的生物机制解释的另一个优点在于它有助于我们了解可能影响这一机制的生物学因素,如对抑郁症(第9章)、精神分裂症和强迫症等神经精神状态的药物治疗(Rolls & Deco 2010, Rolls, Loh, Deco & Winterer 2008d, Rolls, Loh & Deco 2008c, Rolls 2016d, Rolls 2021a, Rolls 2021d)。
    在“终”层面上,决策过程是从进化适应性价值的角度来解释的,即先对不同决策变量(如价值)予以连续性的分级表征,以保证对它们的表征足够精确,然后通过一个非线性的选择机制将其分成两个或两个以上相对稳定的决策状态,从而使行为不会表现出相对抗的情况。第8章描述的吸引子网络决策机制的部分进化适应性价值体现在,它运用了一种短时记忆机制,使所做的决策能够维持一段时间,这样就可以在一段时间内将行为导向到执行这一决策。吸引子网络决策机制的另一部分进化适应价值在于,7虽然它做出的选择是稳定的并且可以维持一段时间,但终真正做出的选择可能会受到大脑噪音的影响,就像第8章和罗尔斯和德科(Rolls & Deco 2010)所认为的那样,这一过程可能具有躲避捕食者、产生创造性思维等诸多益处。其他具有不同神经元机制的大脑系统也可以做出决策,例如,第6章讲到的基底神经节中神经元之间直接的相互抑制。然而,这种依靠神经元直接相互抑制的机制并不具备即时维护决策的进化适应性价值,即通过由皮层网络中回返性的兴奋性连接实现的短时记忆来即时维护决策。事实上,这是第8章中对大脑皮层的吸引子决策网络的价值所做的“终”层面解释的一部分。