软件测试术语分享:A/B 测试

A/B 测试

A/B 测试涉及创建一个或多个网页变体，以与当前版本进行比较。其目标是根据特定指标（如每访问者收入或转化率）确定哪个版本的性能最佳。详见： Wikipedia

关于 A/B 测试的一些问题

基础知识和重要性

什么是 A/B 测试？

A/B 测试，又称为分割测试，是一种比较网页或应用程序的两个版本以确定哪个性能更好的方法。它涉及在随机向用户展示两个变体（A 和 B），并使用统计分析来确定哪个版本在实现预定义目标方面更有效，比如增加点击率、转化率或其他关键性能指标。

在软件测试自动化的背景下，A/B 测试可以被自动化以在不需要手动干预的情况下运行对特性或界面的不同变体的测试。自动化的 A/B 测试可以集成到持续集成/持续部署（CI/CD）流水线中，以确保对应用程序所做的任何更改都经过评估，了解其对用户行为和转化率的影响。

为了自动化 A/B 测试，工程师通常使用特性标志和测试自动化框架的组合。特性标志允许在不同版本的特性之间进行切换，而测试自动化框架执行测试并收集有关用户交互的数据。

// 代码中的特性标志示例
if (featureFlagService.isFeatureEnabled('new-checkout-flow')) {
  // 变体 B 的代码
} else {
  // 变体 A 的代码（对照组）
}

自动化的 A/B 测试实现了在软件开发中的快速迭代和数据驱动的决策。通过利用自动化，团队可以扩展他们的测试工作，减少人为错误，并加速反馈循环，最终实现更用户中心化和成功的产品。

为什么 A/B 测试很重要？

A/B 测试的重要性在于，它为我们提供了有关更改对用户行为和转化率影响的实证证据。通过将控制版本（A）与变体（B）进行比较，我们可以做出数据驱动的决策，从而优化性能并提高用户满意度。这种测试方法对于验证关于用户偏好的假设以及确定软件应用中最有效元素（如按钮、图像或工作流程）非常有价值。

在软件测试自动化的背景下，A/B 测试对于迭代式开发至关重要，使团队能够基于用户反馈逐步改进功能。它还有助于在全面推出新功能之前在较小的受众群体上进行测试，从而减小与其相关的风险。此外，A/B 测试有助于通过确保仅实施最有影响的更改，从而最大化投资回报，节省资源并集中精力于对最终用户真正重要的事物。

对于测试自动化工程师而言，将 A/B 测试整合到自动化策略中可以产生更强大和以用户为中心的测试用例，确保自动化测试不仅检查功能，还检查真实世界的用户参与和转化。

A/B 测试的关键组成部分有哪些？

A/B 测试的关键组成部分包括：

假设（Hypothesis）：对测试结果的清晰预测性陈述。
变量（Variables）：在变体中更改的元素，例如按钮颜色、文本或布局。
测试组（Test Group）：接收变体（B）的受众群体。
对照组（Control Group）：接收原始版本（A）的受众群体。
随机化（Randomization）：确保参与者被随机分配到测试组和对照组，以消除偏见。
成功指标（Success Metrics）：用于确定测试结果的具体可衡量标准，如转化率或点击率。
持续时间（Duration）：测试运行的时间段，确保足够长以收集到重要数据。
数据收集（Data Collection）：跟踪用户互动并根据成功指标衡量性能的机制。
分析（Analysis）：使用统计方法评估数据，并确定性能差异是否显著。
分割（Segmentation）：按用户人口统计信息或行为分解数据，以了解对亚组的不同影响。

在实践中，这些组成部分被整合到一个结构化过程中，以评估变更的影响并做出数据驱动的决策。测试自动化工程师应重点确保测试环境稳定，数据收集准确，并且分析工具正确配置以有效解释结果。

A/B 测试与用户体验有何关联？

A/B 测试通过允许团队对软件产品的更改做出数据驱动的决策，直接影响用户体验（UX）。通过比较一个功能或界面的两个版本（A 和 B），团队可以衡量每个变体在用户参与、满意度和转化率方面的表现。表现更好的用户体验变体，由增加的页面停留时间、更高的点击率或完成所需操作的改善等指标表示，随后可以为所有用户实施。

这个过程确保变更不是基于假设或个人偏好，而是基于实际用户行为。它有助于优化用户界面、工作流程和内容，以提高可用性和可访问性。A/B 测试还可以在完全推出之前识别潜在的用户体验问题，减少负面用户反馈的风险以及昂贵的发布后修复的需求。

通过根据 A/B 测试结果持续迭代和改进产品，公司可以提高用户满意度和忠诚度，这对于长期成功至关重要。本质上，A/B 测试作为用户反馈和产品演进之间的桥梁，促进了以用户为中心的开发方法。

A/B 测试在产品开发中的角色是什么？

A/B 测试通过使团队能够做出数据驱动的决策，在产品开发中发挥了至关重要的作用。它通过比较产品的两个版本来优化功能，通过特定指标（如转化率或用户参与）确定哪个版本的性能更好。

在产品开发的背景下，A/B 测试用于验证产品决策并降低与新功能发布相关的风险。通过将新功能（变体）与当前版本（控制）进行测试，开发人员和产品经理可以在将其推向整个用户群之前评估更改的影响。

这种测试方法还支持迭代式开发，允许根据用户反馈和行为持续改进产品。它可以通过提供用户喜好或拒绝的证据来影响产品路线图，从而指导未来的开发优先级。

此外，A/B 测试可以集成到敏捷工作流中，其中短周期的开发和频繁的发布很常见。它允许进行快速的实验和适应，这在快节奏的开发环境中至关重要。

对于测试自动化工程师来说，A/B 测试需要设置对用户交互进行自动跟踪和分析以测量不同变体的性能。工程师必须确保测试环境稳定，并且收集的数据可靠，以进行准确的决策。

总而言之，A/B 测试是产品开发中的战略性工具，它指导用户体验的增强，验证产品决策，并促进实验性文化以持续改进。

实施执行

如何设置 A/B 测试？

设置 A/B 测试涉及以下步骤：

明确目标： 充分说明您的改进目标（例如，提高转化率、点击率）。
提出假设： 根据数据，对可能导致改进的变化进行合理猜测。
创建变体： 在一个或多个变体中实施更改，同时将原始版本作为对照。
分割受众： 决定如何将用户分组，确保他们被随机分配到对照组或变体组。
确定度量标准： 选择将衡量变体影响的关键性能指标（KPI）。
确保正确追踪： 设置追踪工具，收集对照组和变体组用户行为的数据。
运行测试： 启动实验，允许用户与两个版本互动的足够时间。
监控测试： 检查任何技术问题，并确保准确收集数据。
分析结果： 在测试结束后，使用统计方法比较变体与对照的性能。
做决策： 基于分析结果，决定是否实施更改、进行其他测试或放弃变体。

这里有一个简单的代码片段，用于说明您可能如何在 Web 应用程序中将用户分配到不同组：

function assignGroup(user) {
  const randomNumber = Math.random();
  return randomNumber < 0.5 ? 'control' : 'variant';
}

这个函数使用一个随机数将用户分配到’对照’或’变体’组，分配比例为 50/50。根据需要调整阈值以更改用户在组之间的分布。

A/B 测试的进行涉及哪些步骤？

进行 A/B 测试的步骤：

定义目标： 清晰地说明您希望通过测试实现的目标，例如提高点击率或改善转化率。
制定假设： 根据您的目标，创建一个预测测试结果的假设。
确定变量： 确定您将在变体中更改的元素，与对照组进行比较。
创建变体： 开发产品的替代版本，其中包括您想要测试的更改。
选择受众： 选择测试的目标受众，确保其代表您的用户群。
确定分配： 决定如何在对照组和变体组之间分配受众。
确保有效性： 检查测试是否没有偏见和可能影响结果的混杂变量。
运行测试： 部署 A/B 测试给选定的受众，监控每个组的性能。
收集数据： 收集有关每个组如何与产品的相应版本互动的数据。
分析结果： 使用统计方法确定对照组和变体之间是否存在显著差异。
做决策： 基于分析结果，决定是否实施更改、进行其他测试或放弃变体。
记录发现： 记录测试的结果和见解以供将来参考和组织学习。
实施更改： 如果变体成功，将更改推广给所有用户。

请确保运行足够长的测试以收集足够的数据，并避免基于不完整的结果做出决策。

如何确定 A/B 测试的样本大小？

确定 A/B 测试的样本大小对确保测试具有足够能力以检测两个变体之间的有意义差异至关重要。以下是一个简明的指南：

定义基线转化率（BCR）：使用历史数据为控制组建立基线转化率（BCR）。
确定最小可检测效应（MDE）：确定对您的业务而言在转化率上最小的实质性变化。
选择显著性水平（alpha）：通常设置为 0.05，这是拒绝零假设为真的概率（第一类错误）。
设定功效（1 - beta）：通常为 0.80，功效是在零假设为真时正确拒绝零假设的概率（1 - 第二类错误）。
计算样本大小：使用样本大小计算器或统计软件。输入 BCR、MDE、alpha 和功效，以获取每组所需的样本大小。
调整实际考虑因素：考虑您可用的流量和测试的持续时间。如果计算得到的样本大小过大，您可能需要增加 MDE 或降低功效，以获得可行的样本大小。

请记住，样本大小越大，结果越精确，但获取这些结果的时间和成本也会越长。这涉及在特定背景下找到合适平衡的问题。

A/B 测试中的控制组和变体是什么？

在 A/B 测试中，控制组是被测试的变量的原始版本，通常代表当前的用户体验或产品功能集。它作为一个基准，用于与新的变体或变体进行比较。变体体现了正在测试的更改，比如调用动作按钮的不同颜色或替代的结账流程。

有时将控制组称为’A’版本，而将变体称为’B’版本。在进行 A/B 测试时，流量或用户会被随机分配到控制组和变体中，确保每个组在统计上是相似的。这种随机化有助于将变量变化的影响与其他外部因素隔离开来。

然后，根据预定义的指标，如转化率或点击率，监控和测量每个组的性能。通过比较这些指标，测试自动化工程师可以确定变体是否比控制组更有效地影响用户行为。如果变体在统计上显著优于控制组，可能会将其作为所有用户的新默认选项实施。

分析与解释

如何分析 A/B 测试的结果？

分析 A/B 测试结果的过程涉及比较控制组（A）和变体组（B）的性能指标，以确定行为或结果是否存在统计学上的显著差异。主要步骤如下：

数据收集： 在测试期间从两个组中收集数据。
数据清理： 通过去除异常值和离群值来确保数据质量。
计算性能指标： 计算关键指标，如转化率、点击率或其他相关的关键绩效指标，分别应用于两个组。
统计分析：

进行假设检验（例如 t 检验、卡方检验）来比较两组之间的指标。
计算p 值以评估观察到的差异发生的概率。
确定 p 值是否低于预定义的显著水平（通常为 0.05），表明存在统计学上显著的差异。

置信区间： 计算估计效应大小的置信区间，以了解真实效应在一定置信水平下的范围（通常为 95%）。

如果变体在统计学上显著优于控制，表明所做的改变产生了积极影响。然而，还需要考虑实际意义；即使结果在统计学上显著，其影响可能不足以值得实施。此外，审查测试以查看可能影响结果有效性的潜在偏见或错误。经过深入分析后，基于数据做出是否将变体中的更改应用于产品的决策。

A/B 测试中使用的统计方法有哪些？

统计方法在A/B 测试中扮演着重要的角色，为制定数据驱动的决策提供了框架。主要的统计方法包括：

假设检验： 用于确定控制组和变体组之间性能差异是否具有统计学意义。通常包括零假设（无差异）和备择假设（存在差异）。
p 值计算： 用于衡量在零假设为真的情况下观察到结果的概率。较低的 p 值（通常低于 0.05）表示观察到的差异不太可能是偶然发生的，从而导致零假设被拒绝。
置信区间： 提供了在一定置信水平下真实效应大小可能的范围（通常为 95%）。如果置信区间不包含零，则认为结果在统计学上是显著的。
t 检验： 用于在正态分布的数据和相似的方差情况下比较两组的均值。在方差不相等的情况下，会使用 Welch’s t-test 等变体。
卡方检验： 用于评估分类数据，以了解变量之间是否存在显著关联。
贝叶斯方法： 提供了传统频率统计的替代方案，它根据数据给出了假设成立的概率，而不是在给定假设的情况下数据发生的概率。
功效分析： 用于确定以期望功效（通常为 0.8）和显著水平检测到给定大小效应所需的最小样本量。

这些方法被应用于从 A/B 测试中收集的数据，以得出关于变体相对于控制的影响的结论。正确的应用确保结果可靠且具有实际指导意义，从而指导产品开发中的明智决策。

如何解释 A/B 测试的结果？

解释 A/B 测试的结果涉及比较控制组（A）和变体组（B）的性能指标，以确定是否存在统计学上的显著差异。在测试结束后，您通常会获得一个包含每个组的关键指标（例如转化率、点击率或其他相关 KPI）的数据集。

首先，计算两组之间的差异。例如，如果您正在测量转化率，请从 A 组的转化率中减去 B 组的转化率。

接下来，执行统计显著性检验，例如 t 检验或卡方检验，以确定观察到的差异是由偶然发生还是由变体中的更改引起的。您将获得一个 p 值，将其与预先确定的显著性水平（通常为 0.05）进行比较。如果 p 值低于显著性水平，则结果被认为是统计学上显著的。

此外，计算置信区间，以了解在一定置信水平下两组之间真实差异的范围（通常为 95%）。

最后，考虑结果的实际意义。即使结果在统计学上显著，也可能不足以证明对产品进行更改。查看效应大小并考虑业务影响，包括潜在的投资回报，然后再做出决策。

记得考虑可能影响结果的外部因素，并确保测试运行了足够长的时间以捕捉典型用户行为。

在 A/B 测试的背景下，统计显著性是什么？

在 A/B 测试的背景下，统计显著性是什么？

在 A/B 测试的背景下，统计显著性是我们对观察到的测试组（控制组和变体组）之间的差异是否是由于所做的更改而不是由于随机机会而感到有信心的度量。这是用p 值来量化的，它表示在没有实际差异的情况下，获得观察到的结果或更极端结果的概率（零假设）。

通常，如果p 值低于预定义的阈值，通常为 0.05，结果就被认为具有统计显著性。这意味着观察到的差异由于随机变化的可能性不到 5%。p 值越低，统计显著性就越大。

为了确定统计显著性，通常会使用统计测试，如t 检验或卡方检验，具体取决于您正在分析的数据类型。这些测试根据 A/B 测试的数据计算 p 值。

统计显著性有助于做出关于是否实施所测试更改的明智决策。然而，还必须考虑实际显著性或更改对用户行为的实际影响，这可能并不总是仅通过统计显著性来反映。

在 A/B 测试中如何处理误报或漏报？

处理 A/B 测试中的误报或漏报涉及到一些关键步骤：

验证测试设置：确保跟踪代码正确实施，变体组和对照组正确配置。
检查外部因素：识别可能影响测试结果的任何外部事件或更改，例如假期、中断或营销活动。
审核细分：确保受众细分被正确定义，并且组之间没有重叠或污染。
分析数据收集：确认数据在对照组和变体组之间准确且一致地收集。
重新评估样本大小：确保样本大小足够大，能够检测到有意义的差异，并且测试运行时间足够长以达到统计显著性。
使用测试后分析：应用分割分析或队列分析等技术，深入研究结果并了解不同用户组的行为。
进行后续测试：如果结果不明确或存在假阳性或假阴性的怀疑，进行后续测试以验证结果。

通过系统地审查这些领域，您可以识别和纠正误报或漏报，确保您的 A/B 测试结果是可靠且可操作的。

深层理解

多变量测试是什么，与 A/B 测试有何区别？

多变量测试（MVT）是一种用于同时测试多个变量以确定如何最好地改善特定结果的技术。与 A/B 测试不同，A/B 测试专注于比较一个变量的两个版本，而 MVT 可以涉及多个变量及其各种排列组合。

在 MVT 中，您可能会同时测试多个元素的不同变体，例如标题、图像和呼叫到操作按钮。这样就创造了一个可能组合的矩阵，每个组合都会展示给用户的一个子集。其主要优势在于观察不同元素如何相互作用以及对用户行为的综合影响。

由于 MVT 涉及更多变量，因此为了达到统计显著性，需要更大的样本大小。此外，在设置和分析方面，MVT 也需要更多资源。然而，它可以提供更全面的洞察，了解各种更改如何相互作用，从而潜在地导致更优化的结果。

相比之下，A/B 测试更简单、更快速实施，重点是一次性进行一个更改的影响。通常用于对单个更改做出决策或者在资源有限的情况下。

总的来说，虽然 A/B 测试专注于比较一个更改的两个版本，但多变量测试评估多个更改及其相互作用的性能，需要更多资源，但提供对修改的最佳组合更深入的洞察。

什么是分流 URL 测试？

分流 URL 测试是 A/B 测试的一种变体，它将流量分配到两个不同的 URL，而不是相同 URL 中的不同版本。这种方法在比较两个不同的页面设计、后端流程或整个网站时特别有用。

在分流 URL 测试中，用户被随机重定向到其中一个 URL，跟踪他们与页面的互动，以确定哪个版本在预定义的指标（如转化率、停留时间或点击率）方面的表现更好。

与传统的 A/B 测试相比，主要区别包括：

独立的 URLs：每个测试版本都存在于自己的 URL 上。
后端更改：它允许测试涉及可能涉及后端修改的重大更改。
复杂更改：适用于测试完全不同的布局或工作流程。

要执行分流 URL 测试，通常会在服务器上使用重定向机制或使用测试工具，根据预定义的规则将流量引导到不同的 URL。重要的是要确保流量的分流是随机的，并且其他因素（如用户的位置、设备等）不会影响结果。

分析结果涉及比较两个 URL 的性能指标，以确定哪一个更有效地实现了预期的目标。与 A/B 测试一样，统计显著性至关重要，以确保结果不是偶然产生的。

以下是在 .htaccess 文件中设置分流 URL 测试重定向的基本示例：

RewriteEngine On
RewriteCond %{QUERY_STRING} ^version=a$
RewriteRule ^page$ http://example.com/page-version-a [R=302,L]

RewriteCond %{QUERY_STRING} ^version=b$
RewriteRule ^page$ http://example.com/page-version-b [R=302,L]

A/B 测试有哪些局限性？

A/B 测试，尽管功能强大，但存在一些限制：

有限变量：测试通常比较两个版本，只更改一个变量。要同时测试多个变量，需要使用更为复杂的多元测试方法。
耗时：实现统计显著性可能需要较长时间，尤其是对于流量较低的站点或较小的更改。
分割挑战：结果可能无法考虑不同用户段的行为，如果样本不具代表性，可能导致误导性的结论。
外部因素：季节性、市场变化或其他外部因素可能影响测试结果，使得难以将用户行为的变化归因于测试变量本身。
交互效应：用户体验的一个部分的变化可能会影响另一个部分，如果设计时未考虑这种交互，A/B 测试可能无法检测到。
资源密集：需要资源来设计、实施、监控和分析，这对于较小的团队或预算较小的项目可能构成制约。
伦理考虑：未经用户同意或涉及敏感变量的测试可能引发伦理关切。
局部最大值：A/B 测试对于优化效果很好，但可能导致渐进式改进，可能会忽略创新思想，这些思想可能导致显著更好的结果。
实施错误：不正确的设置可能导致错误的结果。正确的技术实施至关重要。
数据解释：数据的错误解释可能发生，特别是如果在统计分析方面缺乏专业知识。

了解这些限制对于测试自动化工程师至关重要，以确保有效使用 A/B 测试，并正确解释其结果。

如何将 A/B 测试与其他测试方法结合使用？

A/B 测试可以与各种测试方法结合，以提升软件质量和用户体验。比如，单元测试 确保各个组件在 A/B 测试比较不同用户流程之前正常运作。集成测试 则检查组合部分是否协同工作，这在 A/B 测试评估更改对集成系统影响之前显得至关重要。

将 自动化的回归测试 与 A/B 测试结合使用是很有益的，可以确保新功能或更改不会破坏现有功能。自动化测试可以快速验证控制组和变体版本在暴露给用户之前是否稳定且按预期运行。

可用性测试 可以与 A/B 测试结合使用，以获得对用户行为和偏好的定性洞察。而 A/B 测试能够量化更改的影响，而可用性测试可以解释为何某些更改表现更佳。

在进行 A/B 测试之前，应进行 性能测试 以确保两个变体提供可接受的响应时间并能处理预期负载。这是至关重要的，因为性能可以显著影响用户行为，从而影响 A/B 测试的结果。

最后，应在 A/B 测试过程中使用 监控和日志工具 来跟踪错误、性能指标和用户交互。这些数据对解释 A/B 测试结果以及诊断可能与正在测试的更改无直接关系的问题非常宝贵。

通过将 A/B 测试与这些方法结合使用，可以确保对软件更改进行全面评估，从而做出更明智的决策，提供更高质量的产品。

A/B 测试中 “回归均值 “的概念是什么？

在 A/B 测试的情境中，回归到均值指的是极端结果在随后的测量中趋于不那么极端的现象。当一个变体（A 或 B）在初始测试中与控制组显示出显著差异时，这种差异在随后的测试中可能会减小或消失。

这种效应在分析 A/B 测试结果时尤为重要。如果初始测试显示新功能或设计（变体）表现出色，人们可能会认为这种成功是由于所做的更改。然而，如果初始结果受到不一致的变量的影响，比如临时用户行为、季节效应或其他外部因素，随后的测试可能会显示性能优势并非由于变体本身，而是由于这些外部影响。

为了减轻由于回归到均值而误解结果的风险，关键是：

以足够的持续时间运行测试，以平均异常。
当结果异常高或低时，重复测试以确认结果。
使用足够大的样本量，以最小化离群值的影响。
控制尽可能多的外部变量，以确保一致的测试条件。

通过了解回归到均值，测试自动化工程师可以避免基于初始 A/B 测试结果而做出过早结论，从而更准确地评估更改的有效性。

参考资料

A/B 测试 Wikipedia https://zh.wikipedia.org/zh-cn/A/B%E6%B8%AC%E8%A9%A6
软件测试术语 Github 仓库 https://github.com/naodeng/QA-Glossary-Wiki
QA Glossary Wiki https://ray.run/wiki

欢迎关注软件测试同学的公众号“软件测试同学”，原创 QA 技术文章第一时间推送。

A/B 测试#

关于 A/B 测试的一些问题#

基础知识和重要性#

什么是 A/B 测试？#

为什么 A/B 测试很重要？#

A/B 测试的关键组成部分有哪些？#

A/B 测试与用户体验有何关联？#

A/B 测试在产品开发中的角色是什么？#

实施执行#

如何设置 A/B 测试？#

A/B 测试的进行涉及哪些步骤？#

如何确定 A/B 测试的样本大小？#

A/B 测试中的控制组和变体是什么？#

分析与解释#

如何分析 A/B 测试的结果？#

A/B 测试中使用的统计方法有哪些？#

如何解释 A/B 测试的结果？#

在 A/B 测试的背景下，统计显著性是什么？#

在 A/B 测试中如何处理误报或漏报？#

深层理解#

多变量测试是什么，与 A/B 测试有何区别？#

什么是分流 URL 测试？#

A/B 测试有哪些局限性？#

如何将 A/B 测试与其他测试方法结合使用？#

A/B 测试中 “回归均值 “的概念是什么？#

参考资料#