第12章 神经数据的分析逻辑

学习目标

  • 掌握神经数据分析从预处理到统计推断的完整流程
  • 区分探索性分析与验证性分析
  • 理解多重比较、过拟合与可重复性风险
  • 能将行为变量、模型变量与神经信号正确对齐

关键概念

  • 预处理流程
  • 事件锁定与试次级建模
  • GLM 与多重比较校正
  • 交叉验证与解码
  • 参数恢复与可重复性

正文

12.1 神经数据分析在做什么?

一句话:把高噪声原始信号,转成可检验的科学证据。

标准路径通常是:

  1. 数据质控与预处理
  2. 特征提取或模型拟合
  3. 统计检验与效应估计
  4. 结果解释与稳健性验证

这四步缺一不可,任何一步偷懒都可能导致“看起来显著、实际上不可靠”。


12.2 通用分析管线

第一步:预处理(清洗信号)

EEG/MEG 常见操作

  • 滤波(高通/低通/陷波)
  • 重参考(如平均参考)
  • 分段(epoch)与基线校正
  • 去伪迹(ICA、阈值剔除)

fMRI 常见操作

  • Slice timing / 头动校正
  • 空间配准与标准化(MNI)
  • 空间平滑
  • 时间滤波与噪声回归

原则:预处理不是“越多越好”,而是“为问题服务”。

第二步:特征提取(定义可检验量)

  • EEG:ERP 峰值/均值、频段功率、时频能量
  • fMRI:ROI 平均信号、体素级 beta、功能连接指标
  • ECoG/单元:放电率、相位锁定、谱特征

第三步:统计建模(从描述到推断)

核心问题:观察到的差异是否可归因于理论变量,而非噪声。


12.3 GLM:神经数据分析的“工作马”

无论 EEG 还是 fMRI,广义线性模型思想都很常见:

\[\mathbf{y} = \mathbf{X}\beta + \epsilon\]

其中:

  • \(\mathbf{y}\):观测信号(一个通道、一个时间窗或一个体素)
  • \(\mathbf{X}\):设计矩阵(条件、协变量、模型变量)
  • \(\beta\):待估计效应

在 fMRI 里,实验事件通常先与 HRF 卷积后进入 \(\mathbf{X}\)

在 EEG 里,时间维度很高,常见做法是“通道 x 时间点”逐点建模,再做群体统计。


12.4 多重比较:最容易低估的风险

神经数据维度高(通道多、时间点多、体素多),如果逐点做检验,假阳性会暴增。

常见校正策略:

  1. FDR:控制错误发现率
  2. Bonferroni:保守但简单
  3. Cluster-based permutation:神经数据常用,利用时空连续性
  4. 随机场理论(fMRI):体素级推断常见方案

原则:论文里必须明确报告校正方法与阈值。


12.5 行为变量如何进入神经分析?

这是计算心理学与神经科学连接的关键步骤。

三种常见方式

  1. 条件对比:高风险 vs 低风险,正确 vs 错误
  2. 试次级回归:把每个 trial 的 RT、主观评分、预测误差作为回归量
  3. 模型驱动分析:先拟合 RL/DDM/Bayes 模型,再把参数或潜变量映射到神经信号

示例:

  • RL 模型得到 trial-level 预测误差 \(\delta_t\)
  • 在 fMRI GLM 中加入 parametric modulator:\(\delta_t\)
  • 检验哪些脑区 BOLD 与 \(\delta_t\) 协变

12.6 解码与机器学习分析

除了“某区域是否激活”,还可问:神经信号中是否包含可读出的信息?

常见任务:

  • 二分类:判断刺激类别或选择方向
  • 回归:预测连续变量(如主观价值)

关键规范:

  1. 训练集/测试集严格分离
  2. 全流程在训练集内完成(含特征选择)
  3. 使用交叉验证评估泛化
  4. 报告基线、置信区间和置换检验

最常见错误:先看全数据再选特征,导致信息泄漏。


12.7 探索性分析 vs 验证性分析

  • 探索性:发现模式,生成假设
  • 验证性:预先定义假设和分析路径,做正式检验

两者都重要,但不能混写:

  1. 探索性结果应标注为探索性
  2. 验证性结果应有预注册或清晰先验假设
  3. 最稳妥做法是“探索样本发现 + 独立样本验证”

12.8 可重复性工作流(建议直接执行)

  1. 明确主要终点(primary outcome)
  2. 写分析计划(变量、模型、剔除规则)
  3. 固定预处理参数并版本化
  4. 记录全部软件版本和随机种子
  5. 报告负结果与稳健性分析

如果做模型驱动分析,再加两步:

  1. 参数恢复(parameter recovery)
  2. 模型恢复(model recovery)

12.9 典型分析模板(EEG 与 fMRI)

EEG 模板

  1. 滤波 + 去伪迹 + 分段
  2. 计算 ERP(如反馈锁定 200-350ms)
  3. 在 ROI 通道/时间窗上做混合效应模型
  4. 报告效应量与多重比较校正

fMRI 模板

  1. 预处理(运动、标准化、平滑)
  2. 一层 GLM(每个被试)
  3. 二层群体分析(组水平推断)
  4. ROI + 全脑结果并行报告

12.10 常见失败模式

  1. 先试很多分析再只报告显著结果(p-hacking)
  2. 忽视头动或伪迹,导致假效应
  3. 不做多重比较校正
  4. 把相关当因果
  5. 只报告 p 值,不报告效应量与不确定性区间

小结

  • 神经数据分析的核心不是“跑出显著”,而是构建可信的证据链。
  • GLM、试次级回归和模型驱动分析是连接行为与神经机制的三条主线。
  • 高维数据必须重视多重比较、信息泄漏和可重复性规范。

练习与思考

  1. 选一个你熟悉的 EEG 或 fMRI 数据集,写出完整分析管线(预处理、特征、统计、校正、可重复性)。
  2. 设计一个 trial-level 回归方案,把一个行为变量(如 RT)和一个模型变量(如预测误差)同时放入 GLM。
  3. 列出你认为最可能导致“假阳性”的 3 个步骤,并给出防范措施。