第12章 神经数据的分析逻辑¶
学习目标¶
- 掌握神经数据分析从预处理到统计推断的完整流程
- 区分探索性分析与验证性分析
- 理解多重比较、过拟合与可重复性风险
- 能将行为变量、模型变量与神经信号正确对齐
关键概念¶
- 预处理流程
- 事件锁定与试次级建模
- GLM 与多重比较校正
- 交叉验证与解码
- 参数恢复与可重复性
正文¶
12.1 神经数据分析在做什么?¶
一句话:把高噪声原始信号,转成可检验的科学证据。
标准路径通常是:
- 数据质控与预处理
- 特征提取或模型拟合
- 统计检验与效应估计
- 结果解释与稳健性验证
这四步缺一不可,任何一步偷懒都可能导致“看起来显著、实际上不可靠”。
12.2 通用分析管线¶
第一步:预处理(清洗信号)¶
EEG/MEG 常见操作:
- 滤波(高通/低通/陷波)
- 重参考(如平均参考)
- 分段(epoch)与基线校正
- 去伪迹(ICA、阈值剔除)
fMRI 常见操作:
- Slice timing / 头动校正
- 空间配准与标准化(MNI)
- 空间平滑
- 时间滤波与噪声回归
原则:预处理不是“越多越好”,而是“为问题服务”。
第二步:特征提取(定义可检验量)¶
- EEG:ERP 峰值/均值、频段功率、时频能量
- fMRI:ROI 平均信号、体素级 beta、功能连接指标
- ECoG/单元:放电率、相位锁定、谱特征
第三步:统计建模(从描述到推断)¶
核心问题:观察到的差异是否可归因于理论变量,而非噪声。
12.3 GLM:神经数据分析的“工作马”¶
无论 EEG 还是 fMRI,广义线性模型思想都很常见:
\[\mathbf{y} = \mathbf{X}\beta + \epsilon\]
其中:
- \(\mathbf{y}\):观测信号(一个通道、一个时间窗或一个体素)
- \(\mathbf{X}\):设计矩阵(条件、协变量、模型变量)
- \(\beta\):待估计效应
在 fMRI 里,实验事件通常先与 HRF 卷积后进入 \(\mathbf{X}\)。
在 EEG 里,时间维度很高,常见做法是“通道 x 时间点”逐点建模,再做群体统计。
12.4 多重比较:最容易低估的风险¶
神经数据维度高(通道多、时间点多、体素多),如果逐点做检验,假阳性会暴增。
常见校正策略:
- FDR:控制错误发现率
- Bonferroni:保守但简单
- Cluster-based permutation:神经数据常用,利用时空连续性
- 随机场理论(fMRI):体素级推断常见方案
原则:论文里必须明确报告校正方法与阈值。
12.5 行为变量如何进入神经分析?¶
这是计算心理学与神经科学连接的关键步骤。
三种常见方式¶
- 条件对比:高风险 vs 低风险,正确 vs 错误
- 试次级回归:把每个 trial 的 RT、主观评分、预测误差作为回归量
- 模型驱动分析:先拟合 RL/DDM/Bayes 模型,再把参数或潜变量映射到神经信号
示例:
- RL 模型得到 trial-level 预测误差 \(\delta_t\)
- 在 fMRI GLM 中加入 parametric modulator:\(\delta_t\)
- 检验哪些脑区 BOLD 与 \(\delta_t\) 协变
12.6 解码与机器学习分析¶
除了“某区域是否激活”,还可问:神经信号中是否包含可读出的信息?
常见任务:
- 二分类:判断刺激类别或选择方向
- 回归:预测连续变量(如主观价值)
关键规范:
- 训练集/测试集严格分离
- 全流程在训练集内完成(含特征选择)
- 使用交叉验证评估泛化
- 报告基线、置信区间和置换检验
最常见错误:先看全数据再选特征,导致信息泄漏。
12.7 探索性分析 vs 验证性分析¶
- 探索性:发现模式,生成假设
- 验证性:预先定义假设和分析路径,做正式检验
两者都重要,但不能混写:
- 探索性结果应标注为探索性
- 验证性结果应有预注册或清晰先验假设
- 最稳妥做法是“探索样本发现 + 独立样本验证”
12.8 可重复性工作流(建议直接执行)¶
- 明确主要终点(primary outcome)
- 写分析计划(变量、模型、剔除规则)
- 固定预处理参数并版本化
- 记录全部软件版本和随机种子
- 报告负结果与稳健性分析
如果做模型驱动分析,再加两步:
- 参数恢复(parameter recovery)
- 模型恢复(model recovery)
12.9 典型分析模板(EEG 与 fMRI)¶
EEG 模板¶
- 滤波 + 去伪迹 + 分段
- 计算 ERP(如反馈锁定 200-350ms)
- 在 ROI 通道/时间窗上做混合效应模型
- 报告效应量与多重比较校正
fMRI 模板¶
- 预处理(运动、标准化、平滑)
- 一层 GLM(每个被试)
- 二层群体分析(组水平推断)
- ROI + 全脑结果并行报告
12.10 常见失败模式¶
- 先试很多分析再只报告显著结果(p-hacking)
- 忽视头动或伪迹,导致假效应
- 不做多重比较校正
- 把相关当因果
- 只报告 p 值,不报告效应量与不确定性区间
小结¶
- 神经数据分析的核心不是“跑出显著”,而是构建可信的证据链。
- GLM、试次级回归和模型驱动分析是连接行为与神经机制的三条主线。
- 高维数据必须重视多重比较、信息泄漏和可重复性规范。
练习与思考¶
- 选一个你熟悉的 EEG 或 fMRI 数据集,写出完整分析管线(预处理、特征、统计、校正、可重复性)。
- 设计一个 trial-level 回归方案,把一个行为变量(如 RT)和一个模型变量(如预测误差)同时放入 GLM。
- 列出你认为最可能导致“假阳性”的 3 个步骤,并给出防范措施。