第10章 经典认知模型案例解析¶
学习目标¶
- 掌握5种经典认知模型的核心思想
- 理解每种模型的适用场景
- 知道如何在实际研究中选择合适的模型框架
- 理解模型中各参数的心理学含义
关键概念¶
- 效用模型:理性决策的数学基础
- 强化学习:行为如何通过反馈而改变
- 证据积累模型:决策和反应时的过程模型
- 贝叶斯推理:信念的理性更新
- 结构方程模型:最灵活的线性关系模型
正文¶
模型1:结构方程模型与线性回归¶
这是最基础、最灵活的模型框架。
核心思想¶
在大多数情况下,因变量 \(Y\) 可以用自变量的线性组合来预测:
其中 \(\epsilon\) 是误差项。
误差项:一个变量;代表无法被模型解释的噪音。
模型形式¶
简单回归(一个自变量): $\(Y = b_0 + b_1 X + \epsilon\)$
多元回归(多个自变量): $\(Y = b_0 + b_1 X_1 + b_2 X_2 + b_3 X_1 \cdot X_2 + \epsilon\)$
最后一项 \(b_3 X_1 \cdot X_2\) 是交互项,表示两个因素的联合效应
非线性模型(通过变换): - \(Y = b_0 + b_1 \log(X) + \epsilon\) (对数模型) - \(Y = b_0 + b_1 X + b_2 X^2 + \epsilon\) (二次模型)
参数含义¶
| 参数 | 含义 | 单位 |
|---|---|---|
| \(b_0\) | 截距,\(X=0\) 时的 \(Y\) 值 | 因变量的单位 |
| \(b_1\) | 斜率,\(X\) 增加1单位时,\(Y\) 增加多少 | 因变量/自变量 |
| \(\sigma\) | 误差的标准差(数据的离散度) | 因变量的单位 |
适用场景¶
✓ 探索两个变量之间的线性关系 ✓ 预测因变量(如预测测试成绩) ✓ 控制混淆变量(在回归中加入作为协变量) ✓ 作为其他复杂模型的基准模型
优点与局限¶
优点: - 简单直观,易于理解和实现 - 计算快速 - 参数有清晰的解释
局限: - 假设线性关系,可能过度简化实际过程 - 不适合建模过程性的心理学机制(学习如何产生的、决策如何进行的)
模型2:效用模型(经济决策模型)¶
效用理论是研究决策行为的经典框架。
核心思想¶
假设:理性决策者根据选项的期望效用来做选择。他/她会选择效用最高的选项。
其中: - \(U\) 是期望效用(期望值) - \(p_i\) 是结果 \(i\) 的概率 - \(v(x_i)\) 是结果 \(x_i\) 的主观价值
模型形式¶
基础模型(期望效用模型):
选择概率由 softmax 函数给出: $\(P(\text{选A}) = \frac{e^{\beta U_A}}{e^{\beta U_A} + e^{\beta U_B}}\)$
其中 \(\beta\) 是逆温度(inverse temperature)参数,控制决策的确定性
扩展模型(前景理论,Kahneman & Tversky):
- \(v(x)\) 不是线性的,而是:
- 对于利益:\(v(x) = x^\alpha\)(\(\alpha < 1\),对小的利益敏感)
-
对于损失:\(v(-x) = -\lambda(-x)^\alpha\)(\(\lambda > 1\),对损失更敏感)
-
概率不是客观概率 \(p\),而是主观概率权重:\(w(p) = \frac{p^\gamma}{(p^\gamma + (1-p)^\gamma)^{1/\gamma}}\)
参数含义¶
| 参数 | 含义 | 范围 | 解释 |
|---|---|---|---|
| \(\alpha\) | 敏感度 | (0, 1) | 接近0:对数值不敏感;接近1:线性敏感 |
| \(\lambda\) | 损失厌恶 | (0, +∞) | >1:对损失比对利益更敏感(普遍现象) |
| \(\beta\) | 逆温度 | (0, +∞) | 越大:选择越确定;越小:选择越随机 |
| \(\gamma\) | 概率权重 | (0, 1) | <0.5:高估小概率;>0.5:低估大概率 |
适用场景¶
✓ 信贷决策任务、赌博任务 ✓ 风险偏好的个体差异 ✓ 损失厌恶的测量 ✓ 赔率对选择的影响
经典发现¶
- 参考点效应:人们对"损失"和"利益"的反应不对称,不是按绝对值而是按相对于参考点的变化
- 概率权重:人们高估低概率,低估高概率,导致"保险悖论"
- 风险厌恶:对于利益,人们倾向风险厌恶;对于损失,倾向风险偏好
模型3:强化学习模型(Q-Learning;RW模型)¶
强化学习建模的是如何通过反馈而逐渐学习。
核心思想¶
假设:人脑通过试错学习,与环境交互。基于过去的价值 (Q值)来做决策,并根据反馈不断更新价值。
基础模型:Q-Learning¶
Q值更新规则: $\(Q_t(a) = Q_{t-1}(a) + \alpha \cdot [R_t - Q_{t-1}(a)]\)$
选择概率: $\(P(a_t) = \frac{e^{\beta Q_t(a)}}{\sum_{a'} e^{\beta Q_t(a')}}\)$
其中: - \(Q_t(a)\) 是第 \(t\) 试次时动作 \(a\) 的价值估计 - \(\alpha\) 是学习率,\(\in [0,1]\) - \(R_t\) 是第 \(t\) 试次获得的反馈 - \(\beta\) 是逆温度(决策确定性) - 方括号内是误差信号,不仅取决于反馈,还取决于期望(Q值)
模型形式¶
1. 基础Q学习(如上所述)
2. 衰减学习率(学习逐渐减速): $\(\alpha_t = \alpha_0 \cdot (1 - t/T)\)$
3. 多变量学习(不同类型反馈有不同学习率): $\(Q_t^{pos}(a) = Q_{t-1}^{pos}(a) + \alpha^{+}[R_t - Q_{t-1}^{pos}(a)], \quad R_t > 0\)$ $\(Q_t^{neg}(a) = Q_{t-1}^{neg}(a) + \alpha^{-}[R_t - Q_{t-1}^{neg}(a)], \quad R_t < 0\)$
4. 模型基础强化学习(Model-Based): $\(P(\text{选}a) \propto \sum_{s'} T(s'|a,s) \cdot [R(s',a) + \gamma V(s')]\)$
其中算法考虑动作的长期后果,而不仅是即时反馈
参数含义¶
| 参数 | 含义 | 范围 | 解释 |
|---|---|---|---|
| \(\alpha\) | 学习率 | (0, 1) | 接近0:对新反馈不敏感;接近1:彻底改变之前的判断 |
| \(\beta\) | 逆温度 | (0, +∞) | 控制从Q值到选择的噪声 |
| \(\gamma\) | 折扣因子 | (0, 1) | 参数化对远期回报的重视程度 |
| \(Q_0\) | 初始值 | 任意 | 对应于"乐观"或"悲观"的起点 |
适用场景¶
✓ 学习任务、老虎机任务 ✓ 奖赏学习和惩罚学习 ✓ 学习速率的个体差异 ✓ 儿童或患者的学习能力评估
经典发现¶
- 人类学习不是"无限理性",而是有限的;学习率有个体差异
- 损失的学习速率通常快于收益(\(\alpha^- > \alpha^+\))
- 神经生物学发现:多巴胺信号与学习中的误差信号关联
模型4:证据积累模型 (Drift Diffusion Model, DDM)¶
DDM 建模的是决策和反应时的动态过程。
核心思想¶
假设:决策者逐步积累支持不同选项的证据,直到达到阈限,然后做出反应。
模型形式¶
决策轨迹(从起始点到某个决策边界): $\(\frac{dX}{dt} = v + \sigma \cdot dW\)$
其中: - \(X(t)\) 是累积的证据 - \(v\) 是漂移率(drift rate),证据积累的速度 - \(\sigma\) 是噪声项 - \(dW\) 是高斯白噪声
决策规则: - 若 \(X(t)\) 达到上边界 \(a\),则选择选项A - 若 \(X(t)\) 达到下边界 0,则选择选项B - 反应时 = 达到边界的时间
参数含义¶
| 参数 | 含义 | 范围 | 解释 |
|---|---|---|---|
| \(v\) | 漂移率 | 可为负 | 正数:倾向上边界;负数:倾向下边界;0:随机游走 |
| \(a\) | 决策阈限 | (0, +∞) | 更高的阈限:更谨慎,反应时更长;但错误率更低 |
| \(z\) | 起始偏差 | (0, a) | 当z>a/2时,意为对某个选项的初始偏好 |
| \(T_{er}\) | 非决策时间 | (0, RT) | 知觉和运动成分的总时间,常被固定在0.3-0.4秒 |
适用场景¶
✓ 关注反应时和准确率的权衡 ✓ 决策过程的动态分析 ✓ 注意、动机对决策速度的影响 ✓ 年龄、疾病对决策过程的影响
经典发现¶
- 速度-准确率权衡:不是被试"能做多快"的问题,而是"选择的策略"——设置更高的阈限会导致更低的错误率但更长的反应时
- 注意力不足患者(ADHD)可能有不同的 \(a\) 或 \(v\) 参数
模型5:卡尔曼滤波器¶
卡尔曼滤波器建模的是在噪声环境中对隐藏状态进行在线估计。
核心思想¶
很多心理过程都不是直接可见的。我们只能看到带噪声的行为/感觉输入,但真正关心的是背后的潜在状态(如环境均值、他人可信度、刺激强度)。
卡尔曼滤波器把这个过程分成两步:
- 预测:根据上一时刻状态,预测当前状态
- 校正:用新观测修正预测
修正幅度由 卡尔曼增益 \(K_t\) 决定: - 观测更可靠(观测噪声小)时,\(K_t\) 大,更多相信新证据 - 内部模型更确定时,\(K_t\) 小,更坚持已有信念
模型形式¶
状态空间模型:
其中 \(x_t\) 是隐藏状态,\(y_t\) 是观测值。
预测步: $\(\hat{x}_{t|t-1} = A\hat{x}_{t-1|t-1}\)$ $\(P_{t|t-1} = A P_{t-1|t-1} A^T + Q\)$
更新步: $\(K_t = P_{t|t-1}H^T(HP_{t|t-1}H^T + R)^{-1}\)$ $\(\hat{x}_{t|t} = \hat{x}_{t|t-1} + K_t(y_t - H\hat{x}_{t|t-1})\)$ $\(P_{t|t} = (I-K_tH)P_{t|t-1}\)$
其中 \(y_t - H\hat{x}_{t|t-1}\) 是预测误差。
参数含义¶
| 参数 | 含义 | 心理学解释 |
|---|---|---|
| \(Q\) | 过程噪声(状态变化的不确定性) | 环境波动/不稳定程度 |
| \(R\) | 观测噪声(测量误差) | 感觉或反馈信号可靠性 |
| \(K_t\) | 卡尔曼增益(动态学习率) | 对新证据的采纳程度 |
| \(P_t\) | 状态估计方差(不确定性) | 对当前信念的不确定程度 |
适用场景¶
✓ 试次到试次连续追踪隐藏变量(如变化中的奖励均值)
✓ 感知整合与运动控制(多噪声来源融合)
✓ 动态环境中的贝叶斯式学习
✓ 希望得到“动态学习率”而不是固定学习率时
经典发现¶
- 学习率并非常数,会随不确定性动态变化(\(K_t\) 可直接解释这一点)
- 在高噪声条件下,个体会降低对单次反馈的权重
- 卡尔曼类模型常可解释行为中的“平滑更新”和“抗噪声能力”
模型6:贝叶斯推理模型¶
贝叶斯模型建模的是人们如何通过观察证据来更新信念。
核心思想¶
假设:人们的推理遵循贝叶斯规则。他们从一个先验信念开始,看到新证据后,用贝叶斯规则更新信念。
其中: - \(H\) 是假设(如"这是一个坏苹果") - \(E\) 是证据(如"这个苹果很红") - \(P(H)\) 是先验概率(看苹果之前,坏苹果的比例) - \(P(E|H)\) 是似然(如果苹果是坏的,它很红的概率有多高) - \(P(H|E)\) 是后验概率(看到很红之后,苹果是坏的概率)
模型形式¶
最简单形式(二值选择):
被试看到证据序列后,判断假设 \(H\) 的概率:
扩展形式(学习先验):
如果先验本身也是未知的,可以对先验进行学习:
其中 \(\theta\) 是环境参数(如赌博的真实概率)
参数含义¶
| 参数 | 含义 | 影响 |
|---|---|---|
| 先验强度 | 对先验信念的坚持程度 | 虚弱先验 → 易被证据改变;强先验 → 需要更多证据 |
| 似然灵敏度 | 对证据敏感程度 | 低灵敏度 → 对证据反应不足;高灵敏度 → 过度反应 |
| 认知噪声 | 决策的随机性 | 更多噪声 → 行为更随机 |
适用场景¶
✓ 信念更新的任务 ✓ 假设检验和概率推理 ✓ 学习动态环境中的统计规律 ✓ 建模对"坏消息"vs"好消息"的不对称反应
经典发现¶
- 保守性偏差:人们对证据的反应不足,更新幅度小于贝叶斯规则预示
- 确认偏差:人们倾向于寻找支持现有假设的证据,而非反驳性证据
- 基率忽视:看到具体证据时,人们忽视基础概率/先验
模型7:层次高斯滤波器¶
层次高斯滤波器(Hierarchical Gaussian Filter, HGF)建模的是多层级信念更新,尤其适合不稳定环境中的学习。
核心思想¶
卡尔曼滤波器主要在单层状态上更新;HGF 进一步假设:
- 第1层:当前可观测结果(如奖励/是否正确)
- 第2层:结果背后的隐藏倾向(如某选项“近期更可能奖励”)
- 第3层:第2层本身变化得有多快(波动性,volatility)
也就是说,个体不仅学习“现在哪个选项更好”,还学习“环境是不是在变快”。
模型形式¶
常见三层形式可写为:
更新通常写为精度加权预测误差:
其中 \(\delta\) 是预测误差,\(\psi\) 表示不同层级的不确定性(精度)权重。
参数含义¶
| 参数 | 含义 | 心理学解释 |
|---|---|---|
| \(\omega\) | 高层随机游走方差 | 对环境波动性的先验假设 |
| \(\kappa\) | 层级耦合强度 | 高层波动性对低层学习率的调节强度 |
| \(\mu_i\) | 第\(i\)层后验均值 | 当前层级信念的中心估计 |
| \(\pi_i\) | 第\(i\)层精度(方差倒数) | 该层信念“有多确定” |
适用场景¶
✓ 反转学习任务(reversal learning)
✓ 高频变化/不稳定反馈环境
✓ 研究“对不确定性是否过度敏感”的个体差异
✓ 需要区分“结果学习”与“波动性学习”的研究
经典发现¶
- 焦虑、强迫或精神病谱系样本中,常观察到异常的波动性估计
- HGF 可把“学得快/慢”分解为更细的机制(对误差敏感 vs 对波动性敏感)
- 在同样行为表现下,HGF 往往能揭示隐藏层级上不同的策略
模型8:吸引子模型¶
吸引子模型(Attractor Model)建模的是神经/认知状态在动力系统中的稳定点与跃迁。
核心思想¶
把认知状态看作一个在“能量地形”中运动的小球:
- 谷底是稳定状态(吸引子)
- 噪声或外部输入可把系统从一个谷推到另一个谷
这类模型适合解释: - 为什么工作记忆内容可以持续保持 - 为什么双稳态知觉会在两种解释间自发切换 - 为什么决策会表现为“竞争后胜出一个选项”
模型形式¶
一般连续时间形式:
其中 \(x\) 是系统状态向量,\(W\) 是连接矩阵,\(\xi(t)\) 是噪声。
双选项竞争网络(示意):
当某一群体活动率先进入稳定高活动状态时,可对应行为选择。
参数含义¶
| 参数 | 含义 | 心理学解释 |
|---|---|---|
| \(w_+\) | 自激励强度 | 内部维持能力(记忆维持、决策坚持) |
| \(w_-\) | 侧抑制强度 | 选项竞争与互斥程度 |
| \(\tau\) | 时间常数 | 状态变化快慢 |
| \(\sigma_\eta\) | 噪声强度 | 波动性与随机切换倾向 |
适用场景¶
✓ 工作记忆维持与干扰
✓ 双稳态知觉(如 Necker 立方体)
✓ 竞争性决策的神经动力学机制
✓ 从神经回路约束解释行为参数
经典发现¶
- 持续活动可由局部递归兴奋与抑制平衡产生
- 噪声水平和抑制强度可共同决定“切换频率”
- 吸引子框架连接了行为建模与神经电路建模
如何选择模型?¶
决策树:
你的研究问题是什么?
├─关注因变量预测本身
│ └─ 没有理论关于"为什么"?→ 线性回归 / SEM
├─关注决策行为,但不关心反应时
│ └─ → 效用模型或强化学习
├─关注决策过程的动态(特别是反应时)
│ └─ → 证据积累模型 (DDM)
├─关注学习与适应行为
│ └─ → 强化学习模型
├─关注连续跟踪的隐藏状态(且观测有噪声)
│ └─ → 卡尔曼滤波器
├─关注信念更新/推理的过程
│ └─ → 贝叶斯推理模型
├─关注多层不确定性(尤其环境波动性)
│ └─ → 层次高斯滤波器(HGF)
├─关注稳定状态、竞争与状态跃迁
│ └─ → 吸引子模型
└─多个层面都关注?
└─ 联合模型(如 DDM + 强化学习)
小结¶
| 模型 | 核心问题 | 关键特征 | 参数示例 |
|---|---|---|---|
| 线性回归 | 什么因素预测因变量 | 最简单、最灵活 | \(b_0, b_1, \sigma\) |
| 效用模型 | 人怎样选择 | 基于价值,决策性 | \(\alpha, \beta, \lambda\) |
| 强化学习 | 人怎样学习 | 通过反馈迭代更新 | \(\alpha, \beta, Q_0\) |
| 证据积累 | 决策如何进行及为何费时 | 过程模型、考虑反应时 | \(v, a, z, T_{er}\) |
| 卡尔曼滤波 | 如何在噪声中追踪隐藏状态 | 动态学习率(\(K_t\)) | \(Q, R, K_t, P_t\) |
| 贝叶斯推理 | 人怎样推理 | 合理性、信念更新 | 先验、似然、噪声 |
| 层次高斯滤波器 | 如何学习环境波动性 | 多层级精度加权更新 | \(\omega, \kappa, \mu_i, \pi_i\) |
| 吸引子模型 | 状态如何稳定与切换 | 动力系统、稳定点竞争 | \(w_+, w_-, \tau, \sigma_\eta\) |
练习与思考¶
- 识别合适的模型:选择你所在领域的一个心理学研究问题,判断应该用哪种模型最合适?
- 参数解释:对你选择的模型,列出所有参数的心理学含义。
- 模型扩展:考虑如何扩展一个基础模型来适应你的具体问题(例如,添加个体差异、上下文效应等)
- 论文阅读:找至少一篇使用上述模型中任意一种的论文,理解作者如何报告参数、进行模型比较。
- 模型辨析:针对“环境均值逐渐变化但反馈噪声很大”的任务,比较 Q-learning、卡尔曼滤波器与 HGF 的建模假设差异。