实用指南：如何在实验室里研究人类行为（上）

来源：未知 │ 发表时间：2024-11-12　| 浏览数：载入中...

本文提供一系列关于设计和设置实验、招募和照顾被试、记录、分析和分享数据的步骤和建议。

通过该篇“实用指南”总结的经验教训，希望能帮助读者克服进行人类行为实验时的实际困难！

步骤1：Just do it！

01时间与精力

在实验项目开始前，你可能需要几个月的时间来完善你的实验范式，特别是建立在创新的基础上。（鼓励循环完成步骤 2-5）

02重新分析现有数据，作为新实验的替代方案

在进行新实验之前，请检查可用的现有的数据（表1），目前有很多研究人员自愿公开他们的数据（步骤10）。但是，要注意数据衰减（在单个数据集中测试的假设越多，在数据中发现的虚假效应就越多）。

表1：开放的行为数据存储库。在括号中，说明如何向数据库或存储库贡献代码。（o）对所有人公开;（C）对特定群体公开;（P）*供同行评审

*步骤2:以**设计为目标来检验你的假设*

01认真思考什么是实现你的假设**必要的*小条件集。

当你对你的假设有了一个很好的认识，并且对你需要测量什么（反应时间,记忆任务的回忆准确性等）有了一个粗略的想法来测试它之后，再开始思考你将如何在未来的论文中构建你的论点。

正如阿尔伯特·爱因斯坦(AlbertEinstein)的名言所说：“一切都应该尽可能地简单，但不要更简单。”理想情况下，你应该只操纵少量感兴趣的变量,这些变量以特定于被审查的假设的方式影响行为。如果你的假设展开成一系列子问题,那就把重点放在**问题上。

一个典型的初学者的错误是设计复杂的范例，旨在解决太多的问题。这可能会对统计能力产生巨大的影响,导致使用嘈杂变量的过于复杂的分析，或者打开“钓鱼考察”的大门（见步骤6）。*重要的是，不必要的复杂性会影响结果的清晰度和影响，因为科学问题、实验设计和结果之间的映射变得不那么直接。

另一方面，一组丰富的实验条件可能会为认知过程提供更丰富的见解，但前提是你需要掌握了适当的统计工具来捕捉数据的复杂结构（步骤9）。在这个阶段，你应该对任务的类型、试验结构、刺激的性质以及要操纵的变量做出决定。针对实验设计，其中感兴趣的变量被正交操作，因为它们允许观察到的效果的明确归因。这将避免难以控制后验的混淆。

总言之，不要执着一个想法，相反，要做自己的批判者，想想实验可能失败的所有方式。

02选择正确的刺激方案

对于知觉或记忆的研究，一组好的刺激应该具有以下两个特性。

首先，刺激必须易于参数化。

刺激加参数的变化将导致所研究的感知维度发生可控的特定变化（例如，随机点运动学图中的运动相干性将直接影响运动感知的精度；工作记忆任务中的项目数量会直接影响工作记忆的表现）。理想情况下，感兴趣的参数是连续变化的，或者至少在几个层次上变化，这允许对行为影响进行更丰富的调查（见步骤9）。

其次,任何其他可能影响行为的刺激可变性来源都应该被移除。

例如,如果你对被试如何区分情绪的面部表情感兴趣，那么就产生沿着“快乐-悲伤”维度变化的刺激，同时保持其他面部特征（性别、年龄、体型、视角等）不变。在那些不需要的可变性无法被消除的情况下（例如刺激或块顺序效应），平衡跨会话、参与者或条件的潜在滋扰因素。选择妨害因素可以*小化的刺激集。例如，使用合成的而不是真实的人脸图像或一组完全参数化的运动脉冲，而不是随机点刺激，因为随机点刺激无法完全控制点序列中的瞬时可变性。

然而，你在实验控制中获得的东西可能会在生态有效性中丢失。根据你的问题（例如研究视觉处理中序列依赖的群体差异与研究视觉序列依赖对情绪感知的影响，使用自然刺激而不是合成刺激可能是明智的。对于更高层次过程的认知研究，你可能在选择刺激方面有更大的自由。例如，在强化学习任务中,受试者跟踪与某些刺激相关的值，刺激的选择可能看起来是任意的，但你**使用直观地**相关概念的刺激（例如,用一副纸牌来说明洗牌）。

重要的是，如果你不想让刺激引发不同的学习过程（例如在强化学习中），请确保刺激是有效中性的。在框架中，绿色刺激可能先验地比红色刺激具有更高的值，并切且在感知水平上匹配（例如，相同的亮度和对比度水平），除非这些感知差异是你问题的**。

03在试验、块或对象上改变实验条件

除非你有新的研究方向，否则不要在不同的实验对象之间使用不同的实验条件。这将严重影响你的统计能力，因为主体间的行为可变性可能会取代条件引起的差异（出于同样的原因，非配对t检验远不如配对t检验有效）。

此外，在试验中改变条件通常比在块上改变条件更好，因为不同块之间的不同行为模式可能是由性能的普遍改善或注意力的波动驱动的。但特定的实验条件可能会限制你使用块设计，例如，如果你对测试不同类型的刺激序列（例如，刺激类别的低波动性和高波动性的块）感兴趣，或者排除受试者内设计（例如，测试积极或消极情绪操纵的效果）。

在实践中，如果你选择基于试验的随机化，你需要弄清楚如何在不过多干扰参与者注意力流的情况下提示每次试验的说明。以另一种方式呈现线索可能是有益的（例如，为视觉任务提供听觉线索）。但注意的是，任务转换会产生一些重大的行为和认知成本，并且需要更长的训练才能让参与者将线索与特定的任务指示联系起来。

04伪随机化任务条件的顺序

任务条件（如刺激位置）可以以完全随机的顺序变化（即使用带替换的抽样），也可以以确保条件内或条件间不同刺激的固定比例的顺序变化（使用不替换的抽样）。一般来说，固定任务条件的经验分布是**的选择，因为带状模拟序列会引入难以后验控制的混淆。然而，要确保随机化是在足够长的序列上进行的，这样受试者就无法检测到规律，并利用它们来预测下一个刺激。评估概率学习的任务，如强化学习，是这条规则的例外。因为这些任务以学习概率分布为中心，你应该从感兴趣的分布中随机抽样你的刺激。

05仔细选择样本量

尽早开始制定具体的可测试预测和测试预测所需的分析管道（步骤6和9）。这将帮助您找出需要收集哪些数据以及需要收集多少数据来进行感兴趣的比较。

如果你计划使用一种常见的统计检验（如t检验、回归等）来测试不同的假设，那么你就可以正式推导出你应该测试的*小受试者数量，以便能够检测到给定大小的效应，如果它以给定的概率出现（测试的能力；图2a）。

从图2中可以看出，更大的力量（即如果一个效应存在，它不会被错过的信心）需要更多的参与者。样本量也可以根据推断目标而不是测试的能力来确定，例如估计具有一定精度的效应大小。

无论哪种方式，您经常会发现推荐的样本量比以前研究中使用的样本量大得多，这些研究可能存在不足。在实践中，这意味着尽管心理学中典型的中小效应量，但作者没有使用足够大的样本量来解决他们的科学问题。

当试图确定推荐的样本量时，您的统计测试可能过于复杂，无法使用分析方法（图2），例如，当您对数据进行建模时。在这种情况下，样本量可以使用基于模拟的功率分析来推导（图2b）。这意味着（a）模拟您的计算模型，其中您的效果存在于许多单独的“受试者”中，（b）将您的模型拟合到每个受试者的合成数据中，以及（c）计算给定样本量的情况下，您的效果显着的时间比例。

无论是基于解析推导还是模拟，功率分析都取决于对效应大小的估计。通常这种估计是基于相关研究的效应量，但由于发表偏倚，报告的效应量经常被夸大。或者，反向功率分析允许在给定可用资源的情况下，使用特定功率可以检测到的*小效应大小。

在模拟中，估计效应大小意味着先验地估计模型参数的值，这可能具有挑战性。为了避免这样的困难，你可以使用贝叶斯统计后验来决定样本大小。这会允许你在达到有利于假设或零假设的预定置信度水平时停止数据收集（图2c）。

该证据以贝叶斯设置表示，并计算为贝叶斯因子，即零假设和备选假设的边际似然之比，它整合了每个参与者提供的证据。同时也可以执行顺序分析使用频率论方法，在这里您必须纠正多个相关测试的顺序应用。

**，另一种可能性是根据启发式方法（如规则）或复制以前研究的样本量来确定样本量，但不建议这样做，因为发表偏差会导致样本量不足。

06较少受试者的较多试验vs.较多受试者的较少试验

每个被试的试验数和被试人数影响实验的长度和成本，也影响实验的统计效力。在两者之间取得平衡是一项挑战，并且没有灵丹妙药，因为它在很大程度上取决于你所追求的效果的起源，以及它在主体内和跨主体的差异。

根据经验，如果你有兴趣研究不同的策略或其他个体特征，那么你应该**地对人群进行抽样，并从尽可能多的受试者中收集数据。

另一方面，如果兴趣过程在个体中一致发生，就像通常假设的感觉或运动系统中的基本过程一样，那么捕获种群异质性可能不那么相关。在这些情况下，使用一小部分受试者样本是有益的，这些受试者的行为经过多次试验的彻底评估。请注意，通过联合功效分析，您可以一起确定参与者的数量和每个参与者的试验数量（图2d）。

下期预告：用实用指南：如何在实验室里研究人类行为（中）

上一个实用指南：如何在实验室里研究人类行为（中）

下一个六种心率变异性分析方法及五个拓展课题