guides
PDF 无障碍指南:标签、阅读顺序与 PDF/UA
一份关于 PDF 无障碍与修复的实用指南——标签、阅读顺序、替代文本、表格、无障碍表单、WCAG 2.2 与 PDF/UA(ISO 14289)。
PDF 是几乎每个组织内部那个被忽视的无障碍问题。网站会接受审计、重新设计,并用屏幕阅读器进行测试——但藏在下载链接背后的年度报告、政策文档、福利说明和申请表单,往往原封不动地按照导出对话框生成的样子就直接发布了。对于视力正常的读者,它们看起来很精致。而对于使用屏幕阅读器、放大镜或仅靠键盘导航的人来说,同一份文件可能是一堵无法穿透的墙:没有可供跳转的标题、没有描述的图像、读起来像一串毫无意义数字的表格,以及根本无法填写的表单字段。
本指南解释了为何 PDF 如此频繁地无法无障碍,以及究竟是什么让一份文件能被辅助技术使用。它涵盖了各项结构构件——标签、阅读顺序、替代文本、表格、表单和元数据——以及管辖它们的标准:WCAG 2.2 和 PDF/UA,即针对带标签无障碍 PDF 的 ISO 14289 规范。自始至终,目标都是 QualiBooth 应用于我们处理的每一份文档的那个目标:一份在实践中真正可用的文件,由真实的辅助技术加以确认,而不仅仅是被自动检查器认可。
为何 PDF 如此频繁地无法无障碍
PDF 本质上是一种关于如何在页面上绘制标记的描述。该格式被设计用来保持视觉保真度——让文档在任何屏幕或打印机上看起来都完全一致。正是这一设计目标使无障碍变得困难。视觉保真度对含义只字未提。一行 18 磅的粗体文字在人眼看来像是标题,但除非文件明确记录”这是一个标题”,否则辅助技术无从知晓它不过是一些更大的字形而已。
流通中的大多数 PDF 都是未带标签的。它们包含视觉内容,却没有任何底层结构——没有关于什么是标题、段落、列表、表格或图像的信息。屏幕阅读器在面对未带标签的 PDF 时,要么拒绝有意义地朗读它,要么退而求其次进行猜测,从页面上标记的位置推断出一个阅读顺序。其结果从别扭到无法使用不等:一份双栏的简报被横跨两栏一路读下来、图注在它所属的段落之前被读出,或者脚注打断一个句子的中间。
若干常见的制作习惯让情况更糟:
- 扫描文档。 扫描件只是页面的一张图像。没有光学字符识别(OCR),就根本没有真正的文本——没有任何可朗读、可搜索或可选择的内容。
- 丢弃结构的导出。 许多”另存为 PDF”和”打印为 PDF”的路径会丢弃源文档中存在的标题和列表结构。
- 设计工具的版式。 在排版软件中构建的文件,其页面在视觉上可能正确,但底层对象顺序却与预期的阅读次序毫无关系。
- 装饰性杂物。 背景图像、线条和饰纹会暴露给辅助技术,并被当作带有含义一样宣读出来。
这一切在屏幕上都看不见,而这恰恰是问题持续存在的原因。解决之道是补上该格式留作可选的那一结构层——这正是 PDF 修复的工作。
标签与文档结构
标签是无障碍 PDF 的根基。带标签的 PDF 携带一个隐藏的层级——结构树——它与视觉内容并存,描述页面的每一部分实际上是什么。这与构建良好的网页背后的语义化 HTML 直接类似:HTML 使用 <h1>、<p>、<ul> 和 <table> 的地方,带标签的 PDF 则使用诸如 <H1>、<P>、<L>(列表)和 <Table> 之类的结构元素。
标签树正是给辅助技术提供可供导航之物的东西。有了它,屏幕阅读器才能做到其用户所依赖的那些事:
- 按标题跳转。 用户在一份长文档中从一个标题跳到另一个标题,而不必逐字逐句地按顺序聆听。这需要真正的标题标签(
<H1>到<H6>),并以合乎逻辑的嵌套顺序应用——绝不跳级,绝不靠把段落加粗来伪造标题。 - 理解列表。 一个带有
<LI>项的<L>标签会告诉屏幕阅读器”这是一个含五项的列表”,让用户知道自己在哪里、还剩多少。 - 区分内容与装饰。 真正的内容会被打上标签;纯装饰性的标记则被指定为工件(artifact),从而被完全跳过。
正确且逻辑嵌套的标题结构是你在 PDF 中能做对的、影响最大的唯一一件事,因为它把线性的聆听体验转变为可导航的体验。把它做错——或将其省略——是文档审计中一再浮现的常见无障碍问题之一。
阅读顺序
标签说明每个元素是什么。阅读顺序说明这些元素以何种次序呈现给看不见页面的人。两者相关却各异,而阅读顺序正是许多原本标签良好的 PDF 栽跟头的地方。
屏幕阅读器按文档结构所定义的顺序宣读内容,而不是按标记恰好在文件中所处的顺序。在单栏文档中,两者通常一致。而在任何更复杂的情形中——多栏版式、侧边栏、引文摘录、图注、环绕图像的文字——它们经常出现分歧。视力正常的眼睛能毫不费力地重新排序内容;辅助技术则遵循给它的顺序,若那个顺序错了,含义便会崩塌。
良好的阅读顺序意味着内容以视力正常的读者会自然遵循的次序被宣读:标题先于正文、引言先于侧边栏、图注在它所描述的图形之后。正确设置它是一项关于文档应当如何被阅读的人工判断,这正是为何单靠自动化工具无法保证它。它是专业 PDF 修复的核心交付成果之一,也是经验丰富的测试人员最先检查的事项之一。
图像的替代文本
每一张承载信息的图像都需要一个文本等价物,以便能向看不见它的人加以描述。其原则与网页相同,通过 PDF 标签来应用。
- 信息性图像——传达含义的图表、示意图、照片、信息图——需要简洁、准确的替代文本,传递与图像相同的信息。对于一张图表,这往往意味着概括其要点(“营收同比增长 12%”),而不是描述其视觉外观(“一张蓝色的条形图”)。
- 复杂图像——一张详尽的流程图或一张数据密集的图形——可能既需要简短的替代文本,又需要较长的描述,或者在文档别处以无障碍形式呈现底层数据。
- 装饰性图像——边框、背景纹理、装饰性分隔线、在页脚重复出现的徽标——应被标记为工件,以便辅助技术将其跳过。强迫屏幕阅读器为装饰宣读”图像、图像、图像”本身就是一种无障碍失败。
- 图像内的文字——一段引文的图形、一张扫描的信笺抬头、一张带标签的按钮图像——必须捕获其中的文字,或作为替代文本,或更好地作为真正可选择的文本。
撰写优质的替代文本是一项内容工作,而非技术工作。它要求理解图像在其语境中用来做什么——这正是我们的无障碍咨询团队为网页内容所带来的同一项技能。
无障碍表格
表格是 PDF 无障碍真正变得困难之处,也是自动导出最常失败之处。数据表格通过单元格与其行、列标题之间的关系来传达含义。视力正常的读者通过往上、往左扫一眼,从视觉上重建这些关系。屏幕阅读器用户做不到——他们依赖于表格被标记得使标题关联显式呈现。
一张无障碍的 PDF 表格需要:
- 一个恰当的
<Table>结构,内含<TR>(行)、<TH>(标题单元格)和<TD>(数据单元格),而不是一片松散排布、仅仅看起来像表格的文本网格。 - 正确标识的标题单元格,并在表格版式需要时带有范围(行或列),以便用户在数据中移动时相关标题会被重新宣读(“Q3、营收、120 万”)。
- 对合并或跨多格单元格的合理处理,这类单元格会使标题关系复杂化,并经常令自动化工具困惑。
一种常见的反模式是版式表格——一种纯粹用于在视觉上定位内容、并无真正数据关系的网格。版式表格根本不应被标记为表格,因为那样做会迫使辅助技术宣读幻影般的行和列。将数据表格与版式工件区分开来,再编码出正确的关系,是一项细致的人工工作,它从真正每天使用屏幕阅读器的人的审查中获益匪浅。
无障碍 PDF 表单
表单是一个组织所发布的风险最高的文档,因为它们是事务性的:一份申请、一项索赔、一份同意书、一次注册。如果一份 PDF 表单无法用辅助技术完成填写,当事人就不仅仅是不方便——他们被排除在一项服务之外。
一份无障碍的 PDF 表单需要:
- 带标签的字段。 每个字段——文本输入框、复选框、单选按钮、下拉菜单——都需要一个无障碍名称(在 PDF 术语中即工具提示/标签),以便屏幕阅读器宣读该字段是做什么的,而不只是”编辑文本”。
- 合乎逻辑的 Tab 顺序。 键盘用户用 Tab 键在字段间移动。Tab 顺序必须遵循表单的视觉与逻辑流向,而不是字段在编辑器中被添加的顺序。
- 分组的控件。 相关的单选按钮和复选框应被分组,以便其共同的问题只被宣读一次,且各选项被理解为一个集合。
- 必填字段与说明。 必填字段、格式要求和错误提示必须通过文本传达,而不能仅靠颜色或视觉线索。
- 完整的键盘可操作性。 每个字段都必须无需鼠标即可到达和操作。
表单处于结构、交互与内容的交汇点,这使它们成为 PDF 工作中把事情做对最为重要的部分。同样的严谨适用于其他事务性文档——它与无障碍电子邮件所需的用心密切相关,在那里,结构与标签决定了一封邮件是否真正可用。
语言、标题与元数据
某些影响最大的 PDF 修正同时也是最微小的。少数几个文档级属性会实质性地改变辅助技术处理一份文件的方式。
- 文档语言。 PDF 必须声明其主要语言(例如
en-GB),以便屏幕阅读器使用正确的发音规则。一段用英语语音读出的法语段落,或反之,几乎无法理解。与主文档语言不同的段落应带有各自的语言标记。 - 文档标题。 PDF 元数据应包含一个有意义的标题,并应将查看器设置为显示该标题而非文件名。“2026 年度无障碍报告”会被宣读和显示;“final_v3_FORWEB.pdf”则不会。
- Tab 与书签导航。 书签(文档大纲)让所有用户——尤其是非视觉导航的用户——有办法跳转到一份长文档的各主要章节。
- 带标签 PDF 与干净元数据标志。 文件应被标记为带标签的 PDF,并携带一致、准确的元数据。
这些属性只需几分钟即可设置,且为符合性所必需,然而在绝大多数已发布的 PDF 中却被略过。
WCAG 2.2 与 PDF/UA(ISO 14289)
有两项标准管辖无障碍 PDF,它们彼此协作而非相互竞争。
WCAG 2.2 是数字无障碍中与技术无关的基准。它的各项成功准则——文本替代、信息与关系、有意义的次序、对比度、键盘可操作性等等——适用于 PDF,正如它们适用于网页一样。WCAG 2.2 是大多数法律所指向的标准,W3C 也发布了用 PDF 功能满足 WCAG 的具体技术(为标题打标签、提供替代文本、定义阅读顺序等等)。如果你正在着手处理一般性的符合性,我们关于让内容符合 WCAG的指南以及 WCAG 合规概述都直接适用于文档。
PDF/UA——正式名称为 ISO 14289——是无障碍 PDF 的技术规范。WCAG 描述的是结果(“提供文本替代”),而 PDF/UA 则精确规定一份 PDF 必须如何构建才能成为一份正确打标签、机器可读、无障碍的文档:使用哪些结构类型、标签树必须如何构成、工件必须如何标记,以及表单和表格必须如何编码。两者互为补充——最稳健的做法是依照 PDF/UA 的技术要求进行修复,同时依照 WCAG 2.2 验证面向用户的结果。
对这些标准的符合性正是支撑各司法管辖区法律义务的基础。受监管组织发布的 PDF 完全落入 European Accessibility Act、ADA 和 Section 508 的范围,它们都将可下载文档视为必须无障碍的数字体验的一部分。
修复现有 PDF 与创作无障碍 PDF 的对比
通往无障碍 PDF 有两条途径,而大多数组织两者都需要。
修复现有 PDF 意味着拿过一份完成的文件——一份报告、一批历史性说明、一份扫描的表单——并添加或纠正无障碍层:在需要处运行 OCR、构建标签树、设置阅读顺序、撰写替代文本、修正表格以及为表单字段打标签。当源文件已不复存在、文档由第三方制作,或你有一份需要被纳入符合性的已发布存档时,修复是必不可少的。至关重要的是,修复改变的是底层结构,而非视觉设计——文档看起来完全一样,却变得人人可用。这正是 QualiBooth 的 PDF 修复服务的核心,该服务按重要性和触及面来界定批次,并优先处理最为要紧的文档。
创作无障碍 PDF 意味着将无障碍融入制作流程,使文档生来即无障碍。这涉及在源应用程序中使用真正的标题样式、列表样式和替代文本;将表格设计为数据表格;设置语言和标题;以及选择一条能保留标签树的导出路径。无障碍地创作比日后修复同一份文档要便宜得多,并且对于持续发布 PDF 的组织而言,它是唯一可持续的答案。
这两种方法并非二者择一。务实的模式是:修复那些已经流入外界的文档,同时修正上游流程,使新文档不再重新制造问题。固化这一改变正是无障碍流程改进所要解决的——把无障碍发布从一次性项目变为你的团队工作的默认方式。关于文档工作与网页工作如何相互契合的更宏观视角,可参阅我们的无障碍服务概述。
用屏幕阅读器验证——以及为何叠加层无济于事
一份 PDF 只有在真正能为依赖它的人服务时才算无障碍。这正是为何验证不能止步于自动检查器。依照 PDF/UA 规则扫描 PDF 的工具很有价值——它们能大规模地发现缺失的标签、未定义的语言和结构性错误——但它们验证的是结构的存在,而非其质量。自动化工具能确认一张图像有替代文本;却无法告诉你这段替代文本是错的。它能确认一个标题存在;却无法告诉你它嵌套在了错误的层级上。
真正的验证将两者结合:
- 自动检查,以广泛而一致地发现结构与元数据方面的缺陷。像 QualiBooth 的无障碍扫描平台这样的软件,在大规模标记机器可检测的问题方面表现出色。
- 用辅助技术进行手动测试——用屏幕阅读器浏览文档、按标题移动、阅读表格、用 Tab 键遍历表单——以确认体验连贯一致。这是验证阅读顺序、替代文本质量和表单可用性的唯一途径。我们的手动审计方法论阐释了为何人工测试无可替代,而由残障人士执行的审计能揭示出任何检查器、任何视力正常的测试者都永远不会注意到的问题。
关于捷径的一句忠告。无障碍叠加层(overlay)——声称能自动修复无障碍的第三方脚本或小部件——并不能解决 PDF 无障碍,QualiBooth 也不认可它们。它们无法创作出正确的标签树、判断阅读顺序或撰写有意义的替代文本,因为这些任务都需要理解文档的内容与意图。正规修复没有任何自动化的替代品。真正的 PDF 无障碍来自正确的结构加上人工核验——这正是我们 PDF 修复工作背后的方法。
常见问题
未带标签的 PDF 有没有可以接受的时候? 没有。未带标签的 PDF 按定义对辅助技术而言就是无法无障碍的,既不符合 WCAG 2.2 也不符合 PDF/UA。你面向公众或员工发布的任何 PDF 都应带标签。
让 PDF 变得无障碍会改变它的外观吗? 不会。修复添加并纠正隐藏的结构层——标签、阅读顺序、元数据——而不改动视觉设计。页面看起来完全一样。
我是否应该干脆提供一个 HTML 版本,而不是无障碍 PDF? 一个无障碍的 HTML 替代版本往往是更好的体验,值得提供。但如果你发布了 PDF,那么 PDF 本身就必须无障碍——HTML 替代版本并不能使该文档免于符合性要求。
扫描文档能被做成无障碍的吗? 能,但必须先经过 OCR 以生成真正的文本,之后再应用常规的修复步骤——打标签、阅读顺序、替代文本、表格。
如何在不逐一修复的情况下让新的 PDF 保持无障碍? 修正创作流程:在源中使用真正的样式和替代文本、设计恰当的数据表格、设置语言和标题,并通过一条能保留标签的路径导出。将修复与流程改进相结合,可使无障碍文档成为默认。
结语
PDF 无障碍并非可有可无的修饰步骤——它是一份人人皆可使用的文档与一份悄然将依赖辅助技术者排除在外的文档之间的区别。这项工作具体而成熟:为结构打标签、设置正确的阅读顺序、描述图像、正确编码表格和表单、声明语言和标题,并用真实的屏幕阅读器以及自动化工具,依照 WCAG 2.2 和 PDF/UA 验证结果。修复你已经发布的文档,修正制造新文档的流程,并避开那些承诺无障碍却无法兑现的叠加层捷径。
如果你的报告、说明、宣传册或表单从未被检查过,那就是着手的起点。你可以从一次免费无障碍扫描开始、申请 QualiBooth 平台的演示,或就单份关键文档或整批历史存档的 PDF 修复与我们的团队交流。