人工无障碍审计：完整指南

大多数团队都是以惨痛的方式发现自动化无障碍测试的局限的。扫描器报告一切正常，团队随即上线，然后一位使用屏幕阅读器的客户写信说他无法完成结账——焦点跳到了某个看不见的地方，一个模态框把他困住了，一条错误消息从未被播报。自动化报告中没有任何内容标记出这些问题，因为这些失败没有一个能被只检查 DOM 的规则检测到。这正是人工无障碍审计要填补的空白，而弥合它最可靠的方式，就是把产品交到那些每天用辅助技术浏览网页的人手中。

本指南将解释什么是人工无障碍审计、为什么由残障人士进行的测试是黄金标准、这些专家究竟能发现哪些机器无法发现的问题、一次严谨的审计如何从范围界定一直进行到验收，以及如何把一份报告转化为真正的修复。无论您是在为《欧洲无障碍法案》做准备、在防范 ADA 风险，还是只是想要一个对所有人都真正可用的产品，这都是决定您的无障碍工作是真实有效还是仅停留在纸面上的那一层测试。

人工无障碍审计究竟是什么

人工无障碍审计是一种结构化的、由人来对数字产品依照公认标准进行的评估——这个标准几乎总是 AA 级的 WCAG 2.2。与一键扫描不同，它依靠受过训练的评估人员，他们像真实用户那样操作界面：仅用键盘、用屏幕阅读器、用屏幕放大、用语音控制，以及用开关设备。每位评估人员都会完成真实的任务——注册、登录、搜索、填写表单、付款——并记录体验在哪里出了问题。

人工审计的决定性特征是判断力。机器能确认一张图片有 alt 属性；只有人才能判断替代文本是否有意义。机器能确认一个标题存在；只有人才能判断标题结构是否真正描述了页面。在人工审计中，合规不再是一份清单，而开始成为一种体验。

人工审计 vs. 自动扫描 vs. 用户测试

这三种活动常常被混淆，但它们回答的是不同的问题：

自动扫描回答的是”是否存在机器可检测的规则违规？“它快速、廉价，非常适合大规模捕捉回归。QualiBooth 的无障碍扫描软件持续地完成这件事。
专家人工审计回答的是”当人施加判断时，这是否符合 WCAG？“它能捕捉机器无法评估的大多数标准。
由残障人士进行的可用性测试回答的是”真实用户是否真的能够实现他们的目标？“它揭示那些可能通过了 WCAG 但在实践中仍然使人受挫的摩擦。

最强大的方案会把这三者结合起来。最被忽视——也最有价值的——是中间和最后这一组配对，而这正是由残障人士进行的审计所提供的：在一次过程中同时给出专家级 WCAG 评估和基于亲身经验的可用性洞察。

为什么自动化工具只能带您走完一部分路

独立研究反复发现，自动化无障碍工具只能可靠地检测出大约 30–40% 的 WCAG 成功标准。这并不是对工具的贬低——而是对问题空间的描述。WCAG 中大约三分之二是以含义、语境和人的感知来表述的，而这些没有一项是规则引擎能够评估的。

想一想，“通过”自动扫描究竟证明了什么。它证明了计算机能检查的那些事项是没问题的。它并不能证明：

一张产品照片上的替代文本描述的是产品，而不是写着”IMG_4821.jpg”。
屏幕阅读器播报的阅读顺序与屏幕上的视觉顺序一致。
一个用 <div> 元素构建的自定义下拉菜单确实可以在没有鼠标的情况下打开和操作。
一条错误消息会在出现的那一刻就向屏幕阅读器用户播报，而不是被无声地插入页面。
焦点指示器在真实用户所看到的背景下是可见的。

把绿色的自动化仪表盘当作无障碍的证明，是最常见也最昂贵的无障碍错误之一。这也是我们对一个相关陷阱直言不讳的原因：无障碍叠加层和”AI 小部件”并不能修复其中任何一项。 它们无法修复底层代码，经常干扰用户本已依赖的辅助技术，而且没有任何一个叠加层通过过严肃的人工审计。绕过人工评估是没有捷径的。要更全面地了解真正的合规在仪表盘之外究竟需要什么，请参阅我们关于真正的数字无障碍的指南。

为什么由残障人士进行的测试是黄金标准

您可以由熟悉 WCAG 和辅助技术的视力正常专家来进行一次称职的人工审计。但最准确的信号来自那些本身就是用户的审计人员——那些每天都依赖屏幕阅读器、放大器或开关设备的人。他们的贡献无可替代有三个原因。

第一，熟练度。一位每天使用 NVDA 的用户能在几秒内听出某条播报是错误的、多余的还是缺失的，因为他对正确的播报听起来应该是什么样有一套内化的模型。一位第一次听屏幕阅读器输出的视力正常测试者，往往无法把令人困惑的体验和正常的体验区分开来。

第二，现实的策略。残障用户会养成高效的导航习惯——按标题跳转、按地标跳转、按表单字段跳转、按链接跳转。他们会暴露出那些线性的、自上而下的测试者永远触及不到的结构性问题。

第三，植根于后果的严重程度判断。当一位残障专家说某个障碍是严重的，这个评级承载着一个深知被挡在某项任务之外意味着什么的人的分量。这种可信度对工程优先级排序和 VPAT 与合规报告同样重要。

这就是 QualiBooth 由残障人士进行的审计的基础：每一项发现都源于亲身经验，而不仅仅是一份规范。

人工审计能发现而机器会遗漏的内容

具体一点会有帮助。下面是那些始终从自动化工具中溜走、需要由人——最好是使用辅助技术的人——来检测的失败类别。

有意义的替代文本和标签

扫描器会核实 alt 是否存在，以及一个控件是否有可访问的名称。它无法判断”提交”是否描述了一个按钮的作用、一张装饰性图片是否被正确地用 alt="" 隐藏，或一张复杂图表是否有恰当的文字等价物。含义是一个属于人的判断。

合乎逻辑的焦点顺序与焦点管理

用 Tab 键在页面中切换，体验要么顺畅要么不顺畅。人工测试能捕捉到焦点不可预测地跳动、焦点消失到屏幕之外、焦点被困在某个小部件里无法脱身，以及——至关重要的是——对话框打开时焦点没有被移入、关闭时焦点没有返回到触发元素。这些是网页上最具致残性的缺陷之一，并且对自动化而言基本上是不可见的。

屏幕阅读器播报与动态内容

把一件商品加入购物车会播报确认吗？一条实时校验错误能传达给用户，还是被无声地插入？单页应用中的路由变更会告诉屏幕阅读器它落到了哪里吗？要核实这些，需要真正用 NVDA、JAWS、VoiceOver 或 TalkBack 去聆听。我们的屏幕阅读器测试指南有更深入的探讨，而专门的屏幕阅读器评估能精准地隔离出这些问题。

自定义小部件与 ARIA 正确性

用自定义标记构建的组合框、标签面板、手风琴、滑块、日期选择器和菜单，是无障碍最常悄无声息地失败的地方。扫描器可能报告没有错误，而某个小部件却完全无法用键盘或屏幕阅读器操作。人工操作是检验一个自定义组件是否表现得像它所模仿的模式的唯一可靠方法。

阅读顺序、结构与认知负荷

视觉布局与程序结构可能背离。人工审查能捕捉到线性化后毫无意义的阅读序列、错误呈现页面的标题大纲、依赖感官提示的指示（“点击绿色按钮”），以及让认知障碍用户应接不暇的流程。

文档、媒体与电子邮件

PDF、字幕、音频描述和 HTML 电子邮件各自带有基于浏览器的扫描器很少覆盖的障碍。这些往往需要专门的修复——参见 PDF 修复和电子邮件修复。

一次严谨的人工审计如何进行

可信的审计遵循一套可重复的方法论，使结果站得住脚、可复现且可执行。以下是 QualiBooth 进行由残障人士进行的审计的全流程。

范围界定。 我们一起确定最重要的旅程、页面模板和平台——与营收、合规和安全相关的流程。审计每一个页面很少有必要；审计正确的代表性样本才是。
定义辅助技术矩阵。 我们就要测试哪些组合达成一致。典型矩阵包括 Windows 上的 NVDA 和 JAWS、macOS 与 iOS 上的 VoiceOver、Android 上的 TalkBack、用于语音控制的 Dragon、开关访问和屏幕放大，并根据您的真实受众进行加权。
专家人工测试。 残障审计人员使用他们自己的辅助技术走完每一段旅程，与真实用户的做法完全一致，同时记录下他们遇到的每一个障碍。
记录发现。 每个问题都会记录所用的辅助技术、精确的复现步骤、预期行为与实际行为、受影响的平台、严重程度，以及对用户的现实影响。
WCAG 2.2 映射。 每一项发现都与某个具体的成功标准和合规级别（A / AA / AAA）关联，因此报告同时也是合规证据。
分优先级的报告与现场说明会。 您会收到一份分级报告，外加与审计人员一起的演示，团队可以亲眼亲耳地了解这些障碍。
复测与验收。 在您发布修复之后，我们会对已解决的项目进行复测，确认障碍真正消失了——而不只是在工单里被关闭。

抽样：测试多少

对大多数产品而言，针对少数关键旅程的聚焦审计需要一到两周，回报最高。完整的产品审计耗时更长，但在重大发布、收购或监管截止日期之前是值得的。正确的方法会在覆盖面与现实之间取得平衡——现实是，模板和流程的代表性样本通常就能揭示出处处复发的系统性问题。

您会收到什么以及如何阅读报告

一份好的审计报告是为那些必须据此行动的人而写的，而不仅仅是为撰写它的审计人员。请预期会有三个层次：

一份面向高管的执行摘要——供领导层、法务和采购使用，呈现整体合规态势、首要风险和建议的优先级。
一份分优先级的发现清单——供设计师和开发者使用，每一项都映射到 WCAG 2.2，附有严重程度、用户影响、复现步骤，以及用通俗语言写成的具体修复指引。
一场现场说明会——让问题在语境中得到解答，辅助技术就在现场。

严重程度是首先要看的字段。大多数严谨的报告会把问题从严重（对某一用户群完全阻断某项任务）一直排到轻微（带来不便但不阻断）。请抵制按”易于修复”排序的冲动——按用户影响排序，让严重程度来驱动工程队列。

如何根据结果采取行动

一份报告只有在改变了产品时才有价值。那些从人工审计中收获最多的团队都遵循一种一致的模式。

先按严重程度、再按影响范围分流。 先修复会阻断任务的问题，优先处理出现在共享组件和模板上的障碍，因为在那里修复一次就能解决它复发的所有地方。
修复根源，而非症状。 一个在十二个地方使用的有缺陷的模态框模式是一处修复，而不是十二处。把更正推入设计系统和共享组件库。
用发现问题的同一视角去验证。 用暴露问题的那种辅助技术来确认修复。复测与验收这一步正是为此而存在的。
防止回归。 通过 CI/CD 无障碍集成把自动化检查接入您的流水线，使已修复的问题无法在下一次部署时悄然回潮。
培养能力。 把审计当作一次教学契机。无障碍咨询和无障碍流程改进能把一次性的修复转化为持久的实践，让下一次审计从高得多的基线开始。

人工审计在持续性方案中的位置

人工审计是一张深入的、某一时间点的快照。产品每个迭代都在变化，因此单次审计很快就会过时。成熟的模式是一个分层的方案：

持续的自动化监控——QualiBooth 的无障碍工具包和扫描软件在两次专家审查之间监视机器可检测的回归。
周期性的专家审计——按计划进行的人工审查可防止合规随着产品演进而漂移。参见周期性无障碍审计以及关于为什么周期性审计很重要的说明。
由残障人士进行的里程碑式深度审计——在重大发布、监管截止日期或 VPAT/ACR 制作之前，完整的、基于亲身经验的审计能给您最强有力的证据和最大的信心。

这种分层的方法，正是各组织在不把合规当作一次性事件的前提下，满足 EAA、ADA、Section 508 和 AODA 要求的方式。

如何选择审计合作伙伴

并非所有”人工审计”都是平等的。在评估供应商时，请询问：

究竟是谁在执行测试？ 坚持要求残障人士是团队的一部分，而不只是第一次操作屏幕阅读器的视力正常测试者。
覆盖了哪些辅助技术，在哪些平台上？ 一个可信的矩阵会横跨桌面和移动端，以及多种屏幕阅读器。
每一项发现是否都映射到 WCAG 2.2，并带有严重程度和复现步骤？ 笼统地说”改进无障碍”的报告是无法执行的。
他们在修复之后会复测吗？ 一处修复在用发现问题的那种技术验证之前都不算完成。
他们能否与持续监控集成？ 最好的合作伙伴交给您的是一条通往预防的路径，而不只是一份一次性的清单。

QualiBooth 的构建就是为了满足上述每一条标准，它将基于亲身经验的由残障人士进行的审计与通过 Agora 及更广泛平台进行的持续监控结合在一起。

常见问题

人工审计与运行自动扫描器有何不同？

扫描器检查机器能够评估的那 ~30–40% 的 WCAG 标准。人工审计则对其余的大多数施加人的判断——含义、焦点管理、屏幕阅读器行为、自定义小部件和阅读顺序——大多数真实障碍就存在于这里。

如果我做人工审计，还需要自动化测试吗？

需要。它们是互补的。人工审计提供深度并捕捉机器遗漏的问题；自动扫描提供广度和速度，并每天防范回归。两者都用。您可以免费从 QualiBooth 扫描开始。

一次人工无障碍审计需要多长时间？

针对几个关键旅程的聚焦审计通常需要一到两周。完整的产品审计耗时更长。在一次简短的范围界定通话之后，您会得到固定的范围、时间表和价格。

人工审计对 EAA、ADA 和 Section 508 合规有帮助吗？

由残障人士进行的人工审计是 EAA、ADA、Section 508、WCAG 和 AODA 之下最强有力的尽职调查证据形式。有据可查的方法论和映射到 WCAG 的发现，能直接支撑您的合规立场，并为 VPAT/ACR 制作提供素材。

无障碍叠加层能替代人工审计吗？

不能。叠加层无法修复底层代码，经常破坏用户所依赖的辅助技术，而且从未通过过严肃的人工审计。人工评估没有自动化的替代品。

结论

自动化测试告诉您产品中机器可检查的那些部分是否正常——大约是 WCAG 实际要求的三分之一。决定一位残障人士能否注册、搜索、付款并成功的一切，都存在于另外那三分之二之中，而评估它的唯一可靠方法，就是观看真实的人使用真实的辅助技术。由残障人士进行的人工无障碍审计并不是叠加在自动化之上的锦上添花；它是让其余一切变得有意义的那一层。如果您想知道的不只是产品能否通过扫描，而是它是否真正对所有人都可用，那么由残障人士进行的审计就是起点——而与 QualiBooth 专家交流是界定一次审计范围的最快方式。