QualiBooth

guides

Szövegfelolvasás vs. képernyőolvasók

Gyakori félreértés, hogy a szövegfelolvasás ugyanaz, mint a képernyőolvasó. Ez nem így van, és reméljük, eloszlatjuk ezt a mítoszt.

10 min read QualiBooth
Illusztráció, amely összehasonlítja a szövegfelolvasó és a képernyőolvasó segítő technológiai eszközöket.

A tartalmadnak hangja van

A szövegfelolvasó (TTS) technológia az írott információt hanggá alakítja. Segít a vak, látássérült, diszlexiás és ADHD-s embereknek abban, hogy a számukra megfelelő módon fogyasszák a tartalmat. A TTS-t széles körben használják az iskolákban, nyelvtanulók és olyan szakemberek is, akik füllel, nem pedig szemmel olvassák a szöveget.

Mivel mind a TTS, mind a képernyőolvasók szintetikus hangot állítanak elő, az emberek gyakran feltételezik, hogy ugyanazok — vagy hogy egy „felolvasás” gomb hozzáadása egy webhelyhez akadálymentessé teszi azt a vak felhasználók számára. Ez a feltételezés téves, és az e szerinti cselekvés egy olyan webhelyet eredményezhet, amely akadálymentesnek hangzik, de sokak számára valójában lehetetlen használni. Ez a cikk elmagyarázza, hogyan működik mindegyik technológia, kik támaszkodnak rá, hol húzódik valójában a határ közöttük, és mi szükséges ahhoz, hogy megfelelően építsünk képernyőolvasókra. Ha csak egy dolgot jegyzel meg, legyen ez az: a felolvasó widget kényelmi funkció, nem akadálymentességi funkció.

Hogyan működik a TTS?

A TTS három nagy szakaszban dolgozza fel a szöveget:

  • Szövegelemzés — a hangnem, a nyelvtan és a szerkezet meghatározása, a számok és szimbólumok kiírása („$5” ebből „öt dollár” lesz), valamint a mondatok szegmentálása.
  • Nyelvi feldolgozás — a kiejtés, a hangsúly és a kiemelés kiszámítása, gyakran kiejtési szótár, valamint az ismeretlen szavakra vonatkozó szabályok segítségével.
  • Hangszintézis — beszéd generálása matematikai hangmodellekből, egyre inkább neurális hálózatok használatával, amelyek sokkal természetesebben hangzanak, mint a régebbi összefűző motorok.

A modern rendszerek hangtestreszabást kínálnak, például sebesség, hangmagasság, hangszemélyiség és nyelvválasztás. A döntő pont az, hogy mit vesz a TTS bemenetként: egy szövegblokkot, amelyet valaki már kijelölt, beillesztett vagy rámutatott. A TTS alapvetően egy tartalom-ki technológia. Azt mondja ki, amit kap. Nem fedezi fel a felületet, és nincs fogalma gombokról, űrlapmezőkről vagy oldalstruktúráról.

Milyen korlátai vannak a TTS technológiának?

A TTS valóban hasznos, de nem tökéletes, és a korlátai fontosak az előttünk álló összehasonlítás szempontjából:

  • Kiejtési hiányosságok — hibásan ejtheti a ritka szavakat, a tulajdonneveket, az orvosi vagy jogi kifejezéseket és a rövidítéseket.
  • Egyenetlen nyelvi támogatás — sok eszköz jól kezeli a fő nyelveket, de küzd a kevésbé elterjedt nyelvekkel és a regionális dialektusokkal.
  • Hangnem és árnyalat — a TTS nehezen boldogul a szarkazmussal, a humorral és az idiomatikus kifejezésekkel, így a tartalom rossz hangnemben adható át.
  • Nincs interakciós modell — és ez a nagy dolog: a TTS olvas; nem enged csinálni semmit. Nem tudsz pénztári űrlapot kitölteni, modális ablakot bezárni vagy menüpontok között mozogni pusztán TTS-sel.

Pontosan ez az utolsó korlát az, ahol a képernyőolvasókkal való összekeverés elkezdődik.

Mi a különbség a szövegfelolvasó és a képernyőolvasó technológia között?

Itt keletkezik a gyakori félreértés. A szövegfelolvasó hangosan felolvassa a szöveget — ez az elsődleges funkciója. A képernyőolvasó sokkal többet tesz: lehetővé teszi a felhasználók számára, hogy egy egész számítógépet vagy mobileszközt füllel és billentyűzettel (vagy érintőgesztusokkal) kezeljenek és navigáljanak benne.

A képernyőolvasók bejelentik a felület címkéit, az űrlapmezőket, a gombokat és a hivatkozásokat; felolvassák a képek alternatív szövegét, hogy a felhasználók megértsék a vizuális tartalmat; és felszínre hozzák a komponensek állapotát — hogy egy jelölőnégyzet be van-e jelölve, egy menü ki van-e bontva, egy lap ki van-e választva, vagy megjelent-e hiba. A vizuális, egérrel vezérelt felületet lineáris, hallható, kezelhető felületté alakítják.

Gyors módja annak, hogy megérezd a különbséget: a TTS arra a kérdésre válaszol, hogy „Mit mond ez a bekezdés?” A képernyőolvasó arra a kérdésre válaszol, hogy „Hol vagyok, mit tehetek itt, és mi történt épp az imént?” Az első a tartalom fogyasztásáról szól. A második a szoftver vezérléséről.

Hogyan mozog valójában egy képernyőolvasó-felhasználó egy oldalon

A látó felhasználók másodpercek alatt átfutják az oldalt. Egy képernyőolvasó-felhasználó szekvenciálisan épít fel egy mentális modellt, és a struktúrára támaszkodik, hogy hatékonyan mozogjon. A gyakorlatban:

  • Címsorok között ugrálnak, hogy megértsék az oldal vázlatát (ezért olyan fontos a helyes címsorhierarchia).
  • Listát hívnak elő az összes hivatkozásról vagy az összes űrlapmezőről, hogy tájékozódási pontok szerint navigáljanak, ahelyett, hogy fentről lefelé olvasnának.
  • Tájékozódási régiókat (fejléc, navigáció, fő tartalom, lábléc) használnak, hogy egyenesen a kívánt tartalomhoz ugorjanak.
  • Az interaktív elemek között a Tab billentyűvel mozognak, és elvárják, hogy a fókusz valahol láthatóan és logikusan landoljon.
  • Élő bejelentésekre figyelnek, amikor valami megváltozik az oldal teljes újratöltése nélkül.

Mindebből semmi sem működik, hacsak a mögöttes jelölés őszintén nem írja le az oldalt. A „felolvasás” funkció egyik navigációs lehetőséget sem biztosítja — csupán elmondja, milyen szöveg van a képernyőn, vizuális sorrendben, anélkül, hogy a vezérlőket működtetni lehetne.

Ki melyiket használja, és miért számít ez

A TTS-t széles közönség használja, gyakran helyzetfüggően: diszlexiás, ADHD-s vagy gyengénlátó emberek; multitaskerek; nyelvtanulók; és mindenki, aki egyszerűen szívesebben hallgat. E felhasználók többsége továbbra is látja a képernyőt, és tud egeret használni.

A képernyőolvasó-felhasználók közé tartoznak a vak vagy súlyosan látássérült emberek, valamint néhány kognitív vagy mozgásszervi fogyatékossággal élő ember, akik a technológiától függenek ahhoz, hogy egyáltalán használjanak egy eszközt. Számukra ez nem egy preferenciaréteg egy használható felület tetején — ez a felület. A leggyakoribb eszközök az NVDA és a JAWS Windowson, a VoiceOver az Apple eszközökön, valamint a TalkBack Androidon. Mindegyik kissé másképp értelmezi ugyanazt a weboldalt, ami az egyik oka annak, hogy fontos mindegyiken tesztelni.

Miért nem helyettesítik a felolvasó widgetek az akadálymentességet

Egyre több webhely csatol magához egy „hallgassa meg ezt az oldalt” gombot vagy egy harmadik féltől származó widgetet, amely kiemeli és felolvassa a szöveget. Ezek az eszközök néhány olvasónak segíthetnek, és semmi rossz nincs abban, ha kényelmi funkcióként kínálják fel valamelyiket. A probléma az, hogy a valódi képernyőolvasó-támogatás helyettesítőjeként kezelik. Az nem az, több konkrét okból sem.

  • Csak olvasnak; nem működtetnek. Egy felolvasó widget felolvassa az árazási táblázatodat, de nem engedi, hogy egy vak felhasználó kiválasszon egy csomagot, megnyissa a kosarat, megadja a fizetési adatokat és befejezze a vásárlást. A valódi feladatok kezelhető vezérlőket igényelnek, nem felolvasást.
  • Nem tudják felszínre hozni az állapotot vagy a szerepeket. Hogy egy gomb meg van-e nyomva, egy mező kötelező-e, egy szakasz össze van-e csukva, vagy épp megjelent-e egy hibaüzenet — mindezt nem közvetíti a látható szöveg felolvasása. A képernyőolvasók a jelölésben lévő szerepekre, nevekre és állapotokra támaszkodnak, hogy bejelentsék ezeket.
  • A képernyőolvasó-felhasználóknak már van eszközük. A vak felhasználók saját képernyőolvasójukat hozzák magukkal, finoman ráhangolva a preferenciáikra és az izommemóriájukra. Egy oldalszintű widget versenyez vele, néha zavarja, és semmit sem tesz a hibás jelölés kijavításáért, amelyen a képernyőolvasójuk fennakad.
  • Elfedik a problémákat ahelyett, hogy megoldanák. Ha egy űrlapmezőnek nincs címkéje, a widget átugorja, ugyanúgy, mint egy képernyőolvasó tenné — de most a hiányzó címke egy hasznosnak tűnő funkció mögé van rejtve. Az alapvető hiba megmarad.

Ugyanez a logika érvényes, még erősebben, az úgynevezett akadálymentességi átfedésekre (overlay) — szkriptekre, amelyek azonnali megfelelést ígérnek azáltal, hogy automatizált javításokat és egy eszköztárat rétegeznek egy meglévő webhelyre. Nem javítják a mögöttes kódot, gyakran ütköznek a felhasználók saját segítő technológiájával, és nem képesek valódi megfelelést nyújtani. A megbízható út a forrás javítása. A felületi javítások elégtelenségének részletesebb magyarázatáért lásd útmutatónkat a valódi digitális akadálymentességről.

Egy konkrét példa: a pénztár, amely „beszél”

Képzelj el egy online boltot, amely hozzáadott egy felolvasó widgetet, és biztos benne, hogy a webhely most már akadálymentes. Egy vak vásárló érkezik a saját képernyőolvasójával futtatva. A termékleírás rendben felolvasódik — az a rész csak szöveg. De a „Kosárba” vezérlő egy stilizált div egy kattintáskezelővel egy valódi gomb helyett, így a képernyőolvasó soha nem jelenti be gombként, és a billentyűzet nem éri el. A mennyiségválasztó élő régió nélkül frissíti az összeget, így a változás néma. A kedvezménykód-mezőnek van helyőrző szövege, de nincs hozzá tartozó címkéje, így csak „szöveg szerkesztése” formában jelenik be. A szállítási űrlap vizuálisan piros hibát mutat, de a hiba nincs a mezőhöz kapcsolva, és egyáltalán nem jelenik be. A felolvasó widget vidáman felolvassa a látható szöveget, és semmit sem változtat ezen. A vásárló hallja a marketingszöveget, de nem tudja befejezni a vásárlást. Ez a szakadék — a tartalom hallása és a termék működtetése között — a teljes különbség egy kényelmi funkció és az akadálymentesség között.

Mit igényel valójában a képernyőolvasókra való építés

A képernyőolvasók támogatása nem egy funkció hozzáadásáról szól — hanem az oldalaid úgy való felépítéséről, hogy a jelentés, a struktúra és a viselkedés elérhető legyen a szoftver számára, ne csak az emberi szem számára. A fő összetevők:

Szemantikus, strukturált HTML

Használj valódi címsorokat (h1h6) logikus sorrendben, natív gombokat és hivatkozásokat a megfelelő célokra, listákat a listákhoz, és tájékozódási elemeket az oldalrégiókhoz. A szemantikus HTML ingyen hordozza az akadálymentességi információt; az általános konténerek fala semmit sem hordoz.

Szöveges alternatívák a nem szöveges tartalomhoz

Minden értelmes képnek pontos alternatív szövegre van szüksége, a dekoratív képeket pedig úgy kell megjelölni, hogy átugorják őket. A gombként működő ikonoknak hozzáférhető nevekre van szükségük. A diagramoknak és infografikáknak olyan szöveges megfelelőre van szükségük, amely ugyanazt az információt közvetíti.

Hozzáférhető nevek, szerepek és állapotok

Az űrlapmezőknek programozottan társított címkékre van szükségük. Az egyéni komponenseknek — lapok, harmonikák, kombinált listák, modális ablakok — a megfelelő szerepekre és állapotokra van szükségük, hogy a képernyőolvasó bejelentse, mik azok, és hogyan viselkednek. Ahol a natív HTML nem elég, az ARIA tölti be a rést, de pontosan kell használni; a hibás ARIA rosszabb a semminél.

Billentyűzettel való kezelhetőség és fókuszkezelés

Mindennek, ami egérrel működik, működnie kell billentyűzettel is, a fókuszsorrendnek logikusnak kell lennie, a fókuszjelzőnek láthatónak kell lennie, és a dinamikus változásoknak (egy párbeszédablak megnyitása, egy hiba felfedése) megfelelően kell mozgatniuk vagy bejelenteniük a fókuszt. A billentyűzet-támogatás és a képernyőolvasó-támogatás mélyen összefonódik.

A dinamikus változások bejelentése

Amikor a tartalom oldalújratöltés nélkül frissül — egy űrlapérvényesítési üzenet, egy kosárszámláló, egy betöltési állapot — használj élő régiókat, hogy a képernyőolvasó megmondja a felhasználónak, hogy történt valami. A néma frissítések láthatatlanok azok számára, akik nem látják a képernyőt.

Mindezek az elvárások a WCAG 2.2 sikerkritériumaiban vannak kodifikálva, amelyek az European Accessibility Act és a webre alkalmazott ADA technikai gerincét alkotják. Ha a gyakorlati részleteket szeretnéd, képernyőolvasó-tesztelési útmutatónk lépésről lépésre végigvezet azon, hogyan ellenőrizd mindegyik viselkedést valódi eszközökkel.

Miért félrevezető a „nekem rendben felolvassa”

Egy látó fejlesztő bekapcsolhatja a felolvasás funkciót, tiszta mondatokat hallhat, és arra a következtetésre juthat, hogy az oldal akadálymentes. A csapda az, hogy a felolvasás a látható olvasási sorrendet és a látható szöveget reprodukálja, amelyek mindketten már értelmesek annak, aki a képernyőre néz. Semmit nem mond arról, hogy egy egyéni legördülő menü bejelenti-e a beállításait, hogy a fókusz csapdába esik-e egy megnyitott párbeszédablakon belül, hogy egy csak ikont tartalmazó gombnak van-e neve, vagy hogy a tabulátorsorrend megfelel-e a vizuális elrendezésnek. Pontosan ezek azok a dolgok, amelyek elromlanak a képernyőolvasó-felhasználók számára, és pontosan ezek azok a dolgok, amelyeket egy felolvasási bemutató nem tud felfedni. Az egyetlen módja annak, hogy megtudd, az, hogy úgy tesztelsz, ahogy a valódi felhasználók teszik.

Hogyan teszteld mindkettőt — és miért nem elég önmagában az automatizálás

Nem tudod megerősíteni, hogy egy oldal működik a képernyőolvasó-felhasználók számára, ha egy felolvasó gombot hallgatsz. Úgy erősíted meg, hogy ellenőrzöd a struktúrát, a neveket, a szerepeket, az állapotokat, a billentyűzetes kezelést és a tényleges képernyőolvasó-élményt több eszközön és platformon keresztül.

Egy szilárd folyamat három réteget kombinál:

  • Automatizált vizsgálat a nagy mennyiségű, géppel észlelhető problémák felderítésére — hiányzó alt szöveg, üres címkék, hibás ARIA-hivatkozások, kontraszthibák. Akadálymentességi vizsgáló szoftverünk és egy ingyenes akadálymentességi vizsgálat gyors módja annak, hogy felmérd, hol állsz.
  • Szakértői manuális tesztelés mindannak az értékelésére, amit az automatizálás nem tud megítélni: hogy egy név értelmes-e, hogy a fókuszsorrend értelmes-e, hogy egy egyéni widget valóban kezelhető-e. Az e réteg mögötti érvelés manuális akadálymentességi auditok útmutatónkban szerepel.
  • Tesztelés valódi segítő technológiával és valódi felhasználókkal. Semmi sem helyettesíti az oldal kezelését NVDA-val, JAWS-szal, VoiceOverrel és TalkBackkel — és ideális esetben olyan emberek megfigyelését, akik ezeket az eszközöket naponta használják. Fogyatékossággal élő emberek által végzett auditjaink pontosan ezt a megélt szakértelmet hozzák.

Az automatizált eszközök jellemzően a WCAG 2.2 sikerkritériumainak csak egy részét észlelik; a többi emberi ítéletet igényel. Egy sikeres automatizált vizsgálatot az akadálymentesség bizonyítékaként kezelni ugyanabba a hibakategóriába tartozik, mint egy felolvasó widgetet képernyőolvasó-támogatásként kezelni.

Hol illik bele a QualiBooth

A QualiBooth a webhelyedet mind a TTS, mind a képernyőolvasó használati esetei ellen teszteli, hogy a tartalmad akadálymentes legyen a bármelyik technológiára támaszkodó felhasználók számára — és hogy a képernyőolvasótól függő emberek ne csak hallhassák a tartalmadat, hanem ténylegesen működtethessék a termékedet. Akadálymentességi eszköztárunk és az Agora platform a vizsgálatot strukturált manuális felülvizsgálattal kombinálja, és akadálymentességi tanácsadó csapatunk segít kijavítani azt, amit a tesztek feltárnak, és igazodni a WCAG 2.2, az EAA és az ADA követelményeihez.

A lényeg egyszerű. Hangot adni a tartalmadnak kellemes hozzáadás. A tartalmadat egy képernyőolvasó számára navigálhatóvá, kezelhetővé és helyesen bejelentetté tenni akadálymentesség — és csak az egyik elégíti ki a törvényt és az embereket, akiket véd.

Nem biztos benne, hogy a webhelye működik képernyőolvasóval?