第12章神经数据的分析逻辑¶

学习目标¶

掌握神经数据分析从预处理到统计推断的完整流程
区分探索性分析与验证性分析
理解多重比较、过拟合与可重复性风险
能将行为变量、模型变量与神经信号正确对齐

关键概念¶

预处理流程
事件锁定与试次级建模
GLM 与多重比较校正
交叉验证与解码
参数恢复与可重复性

正文¶

12.1 神经数据分析在做什么？¶

一句话：把高噪声原始信号，转成可检验的科学证据。

标准路径通常是：

数据质控与预处理
特征提取或模型拟合
统计检验与效应估计
结果解释与稳健性验证

这四步缺一不可，任何一步偷懒都可能导致“看起来显著、实际上不可靠”。

12.2 通用分析管线¶

第一步：预处理（清洗信号）¶

EEG/MEG 常见操作：

滤波（高通/低通/陷波）
重参考（如平均参考）
分段（epoch）与基线校正
去伪迹（ICA、阈值剔除）

fMRI 常见操作：

Slice timing / 头动校正
空间配准与标准化（MNI）
空间平滑
时间滤波与噪声回归

原则：预处理不是“越多越好”，而是“为问题服务”。

第二步：特征提取（定义可检验量）¶

EEG：ERP 峰值/均值、频段功率、时频能量
fMRI：ROI 平均信号、体素级 beta、功能连接指标
ECoG/单元：放电率、相位锁定、谱特征

第三步：统计建模（从描述到推断）¶

核心问题：观察到的差异是否可归因于理论变量，而非噪声。

12.3 GLM：神经数据分析的“工作马”¶

无论 EEG 还是 fMRI，广义线性模型思想都很常见：

\[\mathbf{y} = \mathbf{X}\beta + \epsilon\]

其中：

\(\mathbf{y}\)：观测信号（一个通道、一个时间窗或一个体素）
\(\mathbf{X}\)：设计矩阵（条件、协变量、模型变量）
\(\beta\)：待估计效应

在 fMRI 里，实验事件通常先与 HRF 卷积后进入 \(\mathbf{X}\)。

在 EEG 里，时间维度很高，常见做法是“通道 x 时间点”逐点建模，再做群体统计。

12.4 多重比较：最容易低估的风险¶

神经数据维度高（通道多、时间点多、体素多），如果逐点做检验，假阳性会暴增。

常见校正策略：

FDR：控制错误发现率
Bonferroni：保守但简单
Cluster-based permutation：神经数据常用，利用时空连续性
随机场理论（fMRI）：体素级推断常见方案

原则：论文里必须明确报告校正方法与阈值。

12.5 行为变量如何进入神经分析？¶

这是计算心理学与神经科学连接的关键步骤。

三种常见方式¶

条件对比：高风险 vs 低风险，正确 vs 错误
试次级回归：把每个 trial 的 RT、主观评分、预测误差作为回归量
模型驱动分析：先拟合 RL/DDM/Bayes 模型，再把参数或潜变量映射到神经信号

示例：

RL 模型得到 trial-level 预测误差 \(\delta_t\)
在 fMRI GLM 中加入 parametric modulator：\(\delta_t\)
检验哪些脑区 BOLD 与 \(\delta_t\) 协变

12.6 解码与机器学习分析¶

除了“某区域是否激活”，还可问：神经信号中是否包含可读出的信息？

常见任务：

二分类：判断刺激类别或选择方向
回归：预测连续变量（如主观价值）

关键规范：

训练集/测试集严格分离
全流程在训练集内完成（含特征选择）
使用交叉验证评估泛化
报告基线、置信区间和置换检验

最常见错误：先看全数据再选特征，导致信息泄漏。

12.7 探索性分析 vs 验证性分析¶

探索性：发现模式，生成假设
验证性：预先定义假设和分析路径，做正式检验

两者都重要，但不能混写：

探索性结果应标注为探索性
验证性结果应有预注册或清晰先验假设
最稳妥做法是“探索样本发现 + 独立样本验证”

12.8 可重复性工作流（建议直接执行）¶

明确主要终点（primary outcome）
写分析计划（变量、模型、剔除规则）
固定预处理参数并版本化
记录全部软件版本和随机种子
报告负结果与稳健性分析

如果做模型驱动分析，再加两步：

参数恢复（parameter recovery）
模型恢复（model recovery）

12.9 典型分析模板（EEG 与 fMRI）¶

EEG 模板¶

滤波 + 去伪迹 + 分段
计算 ERP（如反馈锁定 200-350ms）
在 ROI 通道/时间窗上做混合效应模型
报告效应量与多重比较校正

fMRI 模板¶

预处理（运动、标准化、平滑）
一层 GLM（每个被试）
二层群体分析（组水平推断）
ROI + 全脑结果并行报告

12.10 常见失败模式¶

先试很多分析再只报告显著结果（p-hacking）
忽视头动或伪迹，导致假效应
不做多重比较校正
把相关当因果
只报告 p 值，不报告效应量与不确定性区间

小结¶

神经数据分析的核心不是“跑出显著”，而是构建可信的证据链。
GLM、试次级回归和模型驱动分析是连接行为与神经机制的三条主线。
高维数据必须重视多重比较、信息泄漏和可重复性规范。

练习与思考¶

选一个你熟悉的 EEG 或 fMRI 数据集，写出完整分析管线（预处理、特征、统计、校正、可重复性）。
设计一个 trial-level 回归方案，把一个行为变量（如 RT）和一个模型变量（如预测误差）同时放入 GLM。
列出你认为最可能导致“假阳性”的 3 个步骤，并给出防范措施。

第12章 神经数据的分析逻辑¶