Beszélgessünk a beszédérthetőségről

A hang irányától és frekvenciájától a dinamikatartományig és a mássalhangzók fontosságáig a beszédérthetőség meglehetősen komplex dolog és gyakran a megvalósítása is nehézségekbe ütközik.

A DPA topikja rövid videók sorozatából áll, ahol bemutatják és elmagyarázzák azokat a fontos tényezőket, amelyek biztosítják a közönség számára küldött üzenet megértését.

Az egymással beszélők hangja szemből körülbelül 1 m-es távolságból szól a legtermészetesebben és legérthetőbben. Ebből a távolságból érezzük a legkényelmesebbnek a beszélgetést.

Sajnos a hang felvételekor vagy erősítésekor az érthetőség megtartása technikai nehézségekbe ütközhet. A beszédérthetőség témájában mélyebben elmerülni kívánók olvassák el a Mic University cikket is (angol nyelven) a topikban.

Tények a beszédérthetőségről

A kimondott, vagy énekelt szavak érthetőek. Sajnos a hang felvételekor vagy erősítésekor az érthetőség megőrzése technikai nehézségekbe ütközhet. Az alábbi cikkben bemutatunk néhány tényt a beszédérthetőséggel kapcsolatban

Írta: Eddy B. Brixen audió specialista

Összefoglaló

A nyelv a kimondott szavakból áll. Ezért amikor beszédet veszünk fel, figyelembe kell venni az érthetőséget.

A levegő keresztüláramlik a hangszálak között és hangot hoz létre. A hangszálak szabályzásával a hangerő és a hangmagasság változtatható. A hangszálak feletti üregek (garat, száj, orr) befolyásolják, szűrik a hangspektrumot.

A hang erejének változtatásával mind a szint, mind pedig a frekvenciatartomány változik. A hang erejével a hangmagasság is módosul. A kiabálás máshogy hangzik, mint az általános beszéd.

Felvételkor tapasztalni fogjuk, hogy az akusztikus jel csúcsai sokkal magasabbak, mint az RMS vagy átlagos szint. Bizonyosodjunk meg róla, hogy minden csúcsszintű jel végigjut a felvételi láncon.

A nem tonális nyelvekben a mássalhangzók nagyon fontosak. A mássalhangzók (k, p, s, t, stb.) jellemzően az 500 Hz feletti frekvenciasávban találhatók. Pontosabban meghatározva a 2 kHz-4 kHz közötti tartományban.

A beszédhangot akkor érzékeljük természetesnek és a leginkább érthetőnek, ha körülbelül egy méterrel a beszélő előtt helyezkedünk el. Oldalt, vagy a beszélő mögött csökken a természetesség és a beszédérthetőség.

Valójában a hang spektruma minden pozícióban más, változik ahogy a fülünkkel – vagy a mikrofonnal – közelítünk a beszélő felé.

Minden pozíciónak a fejen vagy mellkason saját hangszíne, csengése van. Például a mellkason felvett beszédből hiányzik a fontos 2-4 kHz közötti frekvenciatartomány. Ez rosszabb beszédérthetőségben mutatkozik meg. Amennyiben a mikrofon nem kompenzálja, a hangszínszabályzóval kell elvégezni a korrekciót.

Tehát a mikrofon elhelyezésekor óvakodnunk kell ezektől a problémáktól. A kiválasztott helyhez legmegfelelőbb mikrofont kell alkalmaznunk. Ellenkező esetben korrigálnunk kell a hangot a tökéletes hangzás érdekében.

Az alábbi rövid videók bemutatják és elmagyarázzák a beszédérthetőség néhány fontos tényezőjét. A témában mélyebben elmerülni kívánók olvassák el a teljes cikket.

1. A beszédhang mint akusztikus hangforrás

Fontos megértenünk a beszédhangot mint hangforrást. Amíg nyelv az emberek egy-egy csoportjában közös, a beszédhang karaktere egyénenként különböző. Ugyanakkor a beszédet akusztikus jelnek tekintjük, olyan hangnak amelyet a legjobban ismerünk.

Hangerő szint

A hang ereje sokféle lehet, a visszafogott suttogástól a hangos kiáltásig. Nehéz lenne a szint pontos értékét meghatározni, hiszen ez egyénenként változó. Az alábbi táblázat egy felnőtt ember átlagos A-súlyozású beszéd szintjét mutatja.

Érdemes megjegyezni, hogy a beszédérthetőség akkor optimális, ha a beszéd szintje megfelel a normál beszéd hangerejének 1 méter távolságból. Más szóval körülbelül 55-65 dB hangnyomásnak 20 µPa értéknél (amely ez esetben egy viszonyítás a leggyengébb hallható hangnyomás értékhez).

Beszéd szint

Beszéd szint [dB viszonyítva 20 µPa]

Hallgatási távolság [m]	Átlagos	Emelt	Hangos	Kiabálás
0.25	70	76	82	88
0.5	65	71	77	83
1.0	58	64	70	76
1.5	55	61	67	73
2.0	52	58	64	70
3.0	50	56	62	68
5.0	45	51	57	63

Átlagos beszéd szint a hallgatási távolság függvényében. Közel 20 dB-es különbség látszik a normál beszéd és kiabálás között.

Csúcstényező

Megjegyzendő, hogy a táblázatban szereplő minden szint átlagos RMS érték, nem pedig csúcs érték. A csúcsok jellemzően 20-23 dB-lel az RMS szint felett vannak. A csúcs érték és az RMS érték közötti arányt csúcstényezőnek hívják. Ez egy fontos paraméter egy hang felvételekor, vagy elektroakusztikai rendszeren való reprodukálásakor.

Szintén megjegyzendő, hogy a hangos ének az ajkaknál mérve elérheti a 130 dB/20 µPa RMS értéket, a csúcs pedig 150 dB/20 µPA feletti értéket.

Férfi hang, normál beszéd (18 mp). Átlagos RMS: -21,5 dBFS, csúcs: -0,5 dBFS. Csúcstényező 21 dB. A piros szaggatott vonal az RMS szintet jelzi.

A beszéd spektruma

A beszéd hangspektruma a teljes hallható frekvenciatartomány széles területét lefedi. A nem tonális nyelvekről elmondható, hogy a beszéd magánhangzókból és mássalhangzókból áll. A magánhangzókat a hangszálak képzik és a hangüregek szűrik. A sóhajtás hangzók nélküli hang.

Azonban a hangüregek, amelyek a különböző magánhangzók formálásában közreműködnek, a kiáramló levegőt is befolyásolják. Ezért van az, hogy a magánhangzók hangkarakterisztikája a sóhajtásban is jelen van. Általánosságban elmondható, hogy a teljes beszédhang alapfrekvenciája – f0-ként is ismert – férfiaknál a 100-120 Hz-es tartományba esik, de ettől eltérő variációk is előfordulhatnak. Az f0 a nők esetében körülbelül egy oktávval magasabban található. Gyermekeknél az f0 300 Hz körül van.

A mássalhangzók a légáram blokkolása által keletkeznek, a zajszerű hangokat pedig a torkunkkal és a szájunkkal formáljuk, gyakorlatilag a nyelvünkkel és ajkainkkal. Frekvencia szempontjából a mássalhangzók 500 Hz felett helyezkednek el.

Átlagos beszéd intenzitás mellett a magánhangzók energiája körülbelül 1 kHz felett gyorsan csökken. Megjegyzendő azonban, hogy a beszédbeli hangsúlyok egy-két oktávval feljebb tolhatják a frekvenciákat az erősebb hangoknál. Azt is meg kell említeni, hogy a mássalhangzók hangerejét nem lehet a magánhangzókéval azonos szintre hozni. A gyakorlatban ez azt jelenti, hogy a beszédérthetőség nem nő meg azáltal hogy kiabálunk, összevetve a normál beszéd intenzitással olyan szituációban, ahol a háttérzaj nem jelentős.

Hangspektrum (⅓ oktáv) az intenzitás függvényében.
Males – férfiak, females – nők, children – gyerekek, shouted – kiabálás, loud – hangos, raised – emelt, normal – átlagos, casual – visszafogott.

Formánsok

Ha megfigyeljük amikor két ember ugyanazt a magánhangzót mondja vagy énekli ugyanazon a hangmagasságon (f0), a magánhangzók jól felismerhetők és azonosíthatók mindkettőjüknél. Történik mindez annak ellenére, hogy bármely két hang nem szükségszerűen ugyanazt a hangtartományt produkálja. Az érzékelt magánhangzókat a formánsok hozzák létre. A formánsok továbbá eltérő információkat hordoznak minden beszélő esetében. A formánsok a hangszálak által létrehozott tartomány akusztikus szűrésével magyarázhatók. A magánhangzók a hang útjába eső akusztikus üregek rezonanciájának „hangolásával“ jönnek létre.

2. Mi befolyásolja a beszédérthetőséget?

A tonális nyelvekben, mint a kínai és thai, a beszélők hangot vagy alapfrekvenciát használnak a jelentés kifejezéséhez.

A nem tonális nyelvekben, mint az angol, spanyol, stb. a szavakat a magánhangzók, mássalhangzók, vagy mindkettő változtatásával képzik. A kettő közül a mássalhangzók a fontosabbak.

Fontos frekvenciák

A nem tonális (nyugati) nyelvek legfontosabb frekvenciáit az alábbi diagram ábrázolja. Itt a körülbelül 2 kHz-es frekvencia sáv a legfontosabb a beszédérthetőség szempontából. A legtöbb mássalhangzó ebbe a frekvenciatartományba esik.

Intelligibility – érthetőség, importance – fontosság

A beszéd spektruma alul és felül is szűrhető. 20 Hz-es felüláteresztő szűrő (bal felső) használata mellett 100%-ban érthető marad a beszéd (mivel a teljes beszéd tartomány itt található). Az a felüláteresztő szűrő, amely 500 Hz alatt mindent levág, szintén érthetően hagyja a beszédet. Még abban az esetben is, ha a beszéd energiájának nagy részét kivágjuk, az érthetőség csupán 5%-kal csökken. Viszont magasabb vágás az érthetőség csökkenését okozza.

A másik módszer az aluláteresztő szűrő alkalmazása, amely az érthetőség gyors romlását eredményezi. Ha 1 kHz-nél vágunk, az érthetőség máris 40%-nál kevesebb lesz. Látható, hogy az 1 kHz és 4 kHz közötti frekvenciatartomány nagy fontossággal bír a beszédérthetőség szempontjából.

Speech intelligibility – beszédérthetőség, frequency – frekvencia, HP – felüláteresztő szűrő, LP – aluláteresztő szűrő

Háttérzaj

A háttérzaj befolyással bír a beszédérthetőség érzékelésére. Ebben az esetben minden jel, amely nem maga a beszéd, zajként értelmezhető. Tehát egy előadóteremben, vagy osztályteremben a légkondicionáló készülék és más zajos berendezés kevésbé érthetővé teszi a beszédet. Más emberek jelenléte szintén zajt generál. TV, vagy film hangjánál gyakori és fontos kérdés a dialógus és a háttérzaj/háttérzene aránya.

A következő grafikonon a beszédérthetőséget ábrázolták a jel/zaj viszonnyal (S/N) összefüggésben. Az alsó görbe azt mutatja, hogy a beszéd érthető maradhat bizonyos mértékben akkor is, ha a jel/zaj viszony negatív, azaz a zaj 10 dB-lel nagyobb a beszéd szintjénél. Azonban az érzékelhető beszéd szint 60 dB/20 µPa optimális.

Speech intelligibility – beszédérthetőség, speech level – beszéd szint. Az alsó görbe azt mutatja, hogy a beszéd érthető maradhat bizonyos mértékben akkor is, ha a jel/zaj viszony negatív, azaz a zaj 10 dB-lel nagyobb a beszéd szintjénél. Azonban az érzékelhető optimális beszéd szint minden esetben 60 dB/20 µPa.

Számos kutatás végeztek ezen a területen. Összességében az eredmény azt mutatja, hogy:

Az optimális beszéd szint állandó, amennyiben a zajszint alacsonyabb mint 40 dB (A)
Az optimális beszéd szint megmaradni látszik a 15 dB-es jel/zaj esetén, amikor a háttérzaj nagyobb 40 dB (A)-nél.
A hallási nehézség megnő a beszéd szintjének emelkedésével olyan esetekben, amikor a jel/zaj viszony elég jó ahhoz hogy közel tökéletes érthetőséget nyújtson.

Továbbá az 1 kHz-4 kHz közötti frekvenciatartományt ajánlatos „tisztán“ tartani. Mikor például háttérzenét adunk a szöveg alámondáshoz, az equalizeren ezen a frekvencián történő 5-10 dB-es vágás emelni fogja a beszédérthetőséget.

Zengetés

A zengetés zajnak tekinthető, amikor a beszédérthetőségről beszélünk. Enyhe zengetés támogathatja a beszédet, azonban amint a mássalhangzók elmosódnak, az érthetőség leromlik.

3. A hangtér

A beszélő körüli hangteret nem csupán a hangképző szervek fiziológiája befolyásolja, de a személy feje és teste is.

Irányítottság

Az alábbi ábrán az emberi beszéd iránydiagramja látható függőleges és vízszintes nézetben.

Az emberi beszéd iránydiagramja. (Forrás: Chu, W.T.; Warnock, A.A.C.: Detailed Directivity of Sound Fields Around Human Talkers.)

A diagram A-súlyozású, férfi és női hang egyaránt szerepel rajta. Mindegyik beszélő ült. A szinteket 1 méter távolságból mérték. Látható, hogy az elülső és hátulsó hangerő közötti különbség körülbelül 7 dB. Azonban a frekvenciával összefüggésben semmilyen információt nem szolgáltat: a magas frekvenciák jobban csökkennek hátul, mint a mély frekvenciák.

Megjegyzendő, hogy a vízszintes diagramon a 330° irányú szint magasabb más irányokkal összehasonlítva. Ez főleg annak köszönhető, hogy a hang a mellkasról visszaverődik.

Az ábra az iránydiagramot mutatja a frekvencia függvényében 160 Hz és 8 kHz között.

Látható, hogy az irányítottság kb. 1 kHz-től növekszik. Összevetve ezt a fenti fontos 1 kHz feletti frekvenciákkal nyilvánvaló, hogy jobb beszédérthetőség érhető el a beszélő előtti felvétellel, mint a háta mögöttivel.

Az emberi beszéd iránydiagramja ⅓ oktávos szakaszokban (Forrás: Chu, W.T.; Warnock, A.A.C.: Detailed Directivity of Sound Fields Around Human Talkers.)

Távolság és irány

Mivel nem minden mikrofon 1 m távolságban kerül elhelyezésre a beszélőtől, érdemes megtudni, hogy mi történik ha közelítünk a hangforráshoz.

A következő diagram a felvett spektrum eltérését mutatja 1 méter távolságban az adott irányban. A szögek (+45°, 0°, -45°) függőleges irányban értendők. Az eredmény 10 beszélő átlagát tükrözi.

A vonalak mindhárom diagramon az eltérést mutatják 80 cm, 40 cm, 20 cm és 10 cm távolságban.

Ha nem volna változás a spektrumban az irány és távolság módosulásával, a vonalak egyenesek lennének, de az eltérés növekszik ahogy közelebb kerülünk a beszélőhöz.

A felső diagram +45°-os mérési szöget ábrázol. Az eltérés itt csekély. Ezért van az, hogy a beszélő elé belógatott mikrofonnal stabil hangtartomány érhető el, amely nem igazán függ a távolságtól.

Az alsó diagram azt mutatja, hogy mi történik ha alulról vesszük fel a hangot. A test által visszavert hangok hatása itt jelentős.

(Forrás: Brixen, Eddy B.: Near field registration of the human voice: Spectral changes due to positions. AES Convention 104, Amsterdam, the Netherlands. Preprint 4728)

A szemből történő felvétel nagyjából az előző kettő közötti eredményt mutatja, azaz a beszéd spektruma a mikrofon távolságától függően változik.

Fej és mellkas

A közvetítésekben és élő műsorokban gyakran a mellkasra csíptetett, vagy a fejre rögzített mikrofonokat részesítik előnyben, amelyek nagyobb mozgásszabadságot nyújtanak a viselőjük számára. Tisztában kell lenni a ténnyel, hogy a mikrofon ilyen kis távolságban való elhelyezése olyan hangspektrumot produkál, amely eltér attól a természetes és semleges tartománytól, amely normál távolságból érhető el. A különbség nem elhanyagolható.

A felső ábrán látható, hogy a mellkason elhelyezett mikrofonnal felvett hangspektrum különbözik ugyanannak a személynek 1 méterről felvett hangtartományától. (Minden görbe 10 ember átlagán alapul.)

A görbékből kiderül az is, hogy van egy általános tendencia az emelkedésre 800 Hz körül, amelyet kompenzáltnak kell tekintenünk. Viszont a legfontosabb eltérés a csökkenés, amely a beszédérthetőség romlását okozza.

Meg kell említeni azt is, hogy a beszéd szintje a száj sarkánál körülbelül 10 dB-lel magasabb, mint a mellkasnál.

Chest – mellkas (Forrás: Brixen, Eddy B.: Spectral degradation of speech captured by miniature microphones mounted on Persons’ heads and chests. AES Convention no. 100, Copenhagen, Denmark. Preprint 4284.)

4. A mikrofon elhelyezése

Ezeknek a körülményeknek a figyelembe vételével szabályokat hozhatunk létre a mikrofonok kiválasztására és elhelyezésére vonatkozóan, amennyiben a beszédérthetőség lényeges szempont.

Kézi mikrofonok

A kézi mikrofonokat a száj előtt kell elhelyezni ±30°-os szögben.
Ha irányított (kardioid, vagy puska) mikrofont használunk, szemből kell elhelyezni (nem pedig úgy, mint egy fagylalttölcsért).
A túl sűrű szélszivacs csökkentheti a magas frekvenciákat. Ne feledjük el ezt kompenzálni.

Csíptetős/mellkason viselt mikrofonok

A beszéd spektruma a jellemző mellkas pozícióban a fontos 3-4 kHz-es tartományban hiányt mutat. Amennyiben egy egyenes frekvencia menetű mikrofont helyezünk el a mellkason, a 3-4 kHz-es tartományt mintegy 5-10 dB-lel meg kell emelnünk a veszteség kompenzálására.

A gyakorlatban két megoldás létezik: használjunk eleve olyan mikrofont, amely hangszíne kompenzálja a csökkenést, vagy alkalmazzunk megfelelő hangszínszabályzást a szerkesztés folyamán. Megjegyzendő, hogy az ENG keverők vagy kamerák ezt nem kompenzálják automatikusan és nincs rajtuk ehhez szükséges kezelőszerv. Számos esetben elmarad a kiigazítás. Ennélfogva az érthetőség is gyakran rossz.

Headset mikrofon

Az arcon elhelyezett headset mikrofon körülbelül 10 dB-lel hangosabb a mellkason lévő mikrofonnál.
A hangspektrum kevésbé módosul a mellkason lévő mikrofonhoz képest. Azonban néhány esetben a magasfrekvenciás veszteséget pótolni kell.
A homlokon való elhelyezés (közel a haj vonalához), amelyet gyakran alkalmaznak filmforgatáson és színpadon, a beszédérthetőség szempontjából viszonylag semleges.

Pódium mikrofon

A pódium mikrofonokat gyakran eltérő távolságban használják. Ennélfogva a mikrofonoknak irányítottaknak kell lenniük, főleg az 1 kHz feletti frekvenciasávban.
A mikrofonnak a beszélő szája felé kell mutatnia.
A pódiumra rögzített mikrofon ne legyen érzékeny a rezgésekre és egyéb kézzajokra.

Panel mikrofonok (több résztvevő)

Mindegyik mikrofont helyezzük olyan közelre a beszélőkhöz, amennyire csak lehetséges.
Válasszunk irányított mikrofont.
Amennyiben egyszerre több személy beszél, mindegyik mikrofon legalább 10 dB-es elnyomással rendelkezzen a másik beszélő irányából érkező hangokkal szemben.

Belógatott mikrofon

Mikrofon botról való belógatás esetén a legsemlegesebb pozíció a beszélő feje előtt/felett van.
Ha a környezet lehetővé teszi, puskamikrofon helyett valami mást használjunk.

Zajos, zengő környezet

Tegyük a mikrofont közelebb az elsődleges hangforráshoz (a beszélő szájához).
Alkalmazzunk nagy zajelnyomású mikrofont, leginkább kardioid/szuperkardioid típust.