Audiodesign: Akustische Kommunikation, akustische Signale und Systeme, psychoakustische Grundlagen, Klangsynthese, Audioediting und Effektbearbeitung, Sounddesign, Bild-Ton-Beziehungen

17:06 Uhr Seite 1 Wegsehen ist kein Problem, aber Weghören ...? Mangelhaftes Audiodesign stört auch, wenn es nur unbew...

Author: Hannes Raffaseder

56 downloads 2122 Views 8MB Size Report

This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form

DOWNLOAD PDF

17:06 Uhr

Seite 1

Wegsehen ist kein Problem, aber Weghören ...? Mangelhaftes Audiodesign stört auch, wenn es nur unbewusst wahrgenommen wird. Da Schallereignisse einen enormen Einfluss auf die Wirkung von Medienprodukten haben, müssen sie gezielt gestaltet werden. Daher findet Sounddesign in verschiedensten Bereichen der Kreativwirtschaft immer stärkere Beachtung. Dieses Buch vermittelt das dafür notwendige Wissen: Wichtig sind dabei die Schnittstellen zwischen Technik, Gestaltung und Wahrnehmung sowie das Zusammenspiel von Bild und Ton. Es wird daher die gesamte akustische Kommunikationskette von der Schallquelle bis hin zum Hörer behandelt. Für die 2. Auflage wurden gestalterische Aspekte ausgeweitet und neue Themen wie Audiobranding aufgenommen. Auf der Website http://audiodesign.raffaseder.net: Klangbeispiele Audioschnitt (HD-Recording) Bearbeitung von MIDI-Daten Effektbearbeitung von Audiosignalen Klangsynthese Modulare Audioprogrammierung Akustische Mediengestaltung (Kurzvideos) Projektvorschläge Demosoftware Vertiefende und weiterführende Inhalte und Informationen

Hannes Raffaseder leitet den Master-Studiengang Digitale Medientechnologien und das Institut für Medienproduktion an der FH St. Pölten. Als freischaffender Komponist bilden neben zahlreichen preisgekrönten Vokalund Instrumentalwerken multimediale Projekte und Improvisationskonzepte im Bereich der elektronischen Musik wichtige Schwerpunkte seiner Tätigkeit.

W n@tFFo FZnovE

ISBN: 978-3-446-41762-5

www.hanser.de

Audiodesign

22.12.2009

Raffaseder

KU_raffaseder_audiodesign_beli

Akustische Kommunikation Akustische Signale und Systeme Psychoakustische Grundlagen Klangsynthese Audioediting und Effektbearbeitung Sounddesign Bild-Ton-Beziehungen 2. Auflage

Hannes Raffaseder

Audiodesign WWW Mit Website

kap00_raffaseder.fm Seite 2 Donnerstag, 10. Dezember 2009 10:52 10

Herausgeber: Professor Dr. Ulrich Schmidt

Weitere Bücher der Reihe: Kai Bruns/Benjamin Neidhold, Audio-, Videound Grafikprogrammierung Christian Fries, Mediengestaltung Thomas Görne, Tontechnik Arne Heyna/Marc Briede/Ulrich Schmidt, Datenformate im Medienbereich Uwe Kühhirt/Marco Rittermann, Interaktive audiovisuelle Medien Thomas Petrasch/Joachim Zinke, Einführung in die Videofilmproduktion Ulrich Schmidt, Digitale Film- und Videotechnik


Hannes Raffaseder

Audiodesign 2., aktualisierte und erweiterte Auflage


Herausgeber: Prof. Dr. Ulrich Schmidt Hochschule für Angewandte Wissenschaften Hamburg Fachbereich Medientechnik Stiftstraße 69 20099 Hamburg

Bibliografische Information Der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. ISBN 978-3-446-41762-5 Dieses Werk ist urheberrechtlich geschützt. Alle Rechte, auch die der Übersetzung, des Nachdruckes und der Vervielfältigung des Buches, oder Teilen daraus, vorbehalten. Kein Teil des Werkes darf ohne schriftliche Genehmigung des Verlages in irgendeiner Form (Fotokopie, Mikrofilm oder ein anderes Verfahren), auch nicht für Zwecke der Unterrichtsgestaltung – mit Ausnahme der in den §§ 53, 54 URG genannten Sonderfälle –, reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden. © 2010 Carl Hanser Verlag München http://www.hanser.de Lektorat: Mirja Werner, M.A. Herstellung: Dipl.-Ing. Franziska Kaufmann Umschlaggestaltung und Innenkonzept: malsyteufel, Willich Satz, Druck und Bindung: Kösel, Krugzell Printed in Germany

raffaseder_vorwort_IVZ.fm Seite 5 Donnerstag, 10. Dezember 2009 10:52 10

Vorwort

Vorwort Auch wenn das Hören seit dem ersten Erscheinen dieses Buches eine gewisse Renaissance erlebt und der akustischen Mediengestaltung etwas mehr Beachtung geschenkt wird, zerfällt die fachliche Betrachtung häufig immer noch in spezialisierte Teilgebiete, wie technische Akustik, Musikpsychologie, Studiotechnik, Music Computing oder Psychoakustik. Nach wie vor gibt es nur wenige Lehrbücher, die einen interdisziplinären Ansatz verfolgen. Dieses Buch soll daher eine kompakte, möglichst viele Fachdisziplinen integrierende, Gestaltung und Technik gleichermaßen berücksichtigende Einführung in die akustische Medienproduktion geben. Audio („Ich höre“) geht ganz bewusst von der menschlichen Wahrnehmung aus. Design versteht sich als Bindeglied zwischen den technologischen Möglichkeiten, den zu vermittelnden Inhalten und den Hörerinnen und Hörern. Das Buch orientiert sich an der akustischen Kommunikationskette, die von der Idee über Entstehung, Ausbreitung, Aufzeichnung, Umwandlung, Bearbeitung und Distribution von Schallereignissen bis hin zu deren Wahrnehmung reicht. Auch die gegenseitige Beeinflussung verschiedener Schallereignisse und das Zusammenwirken von Bild und Ton spielt eine wichtige Rolle. Es sollen möglichst bleibende Grundlagen vermittelt werden, deren Kenntnis auch ein rasches Reagieren auf neue Entwicklungen ermöglicht. In der 2. Auflage wurden jene Kapitel erweitert, die sich mit akustischer Kommunikation und Mediengestaltung befassen, während technische Aspekte etwas kompakter zusammengefasst wurden. Auf der Webseite zum Buch (http://audiodesign.raffaseder.net) finden Sie weitere Informationen und Zusatzangebote. Leider lässt sich die wichtigste Fähigkeit für gutes Audiodesign in einem Buch kaum vermitteln: differenziertes, kritisches, neugieriges, lustvolles, offenes Hören und Zuhören! Gerade in einer Zeit, in der die ehemals flüchtigen Schallereignisse zu jeder Zeit an jedem Ort verfügbar sind und viele Menschen riesige Schallarchive in ihren Westentaschen transportieren, steigt die allgemeine Lärmbelästigung und der akustische Einheitsbrei nimmt immer mehr (öffentlichen) Raum ein. Hoffentlich schafft das Buch neue Zugänge zum Audiodesign und sensibilisiert für einen bewussten Umgang mit der akustischen Umwelt. Mein Dank geht an alle, die – in welcher Form auch immer – zur Entstehung dieses Buches beigetragen haben. Wien, im Dezember 2009

Hannes Raffaseder

5


Inhaltsverzeichnis 1 1.1 1.1.1 1.1.2 1.1.3 1.2 1.3 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 1.3.8 1.3.9 1.4 1.5 1.5.1 1.5.2 1.5.3 1.5.4 1.6 1.7 1.7.1 1.7.2 1.8 1.8.1 1.8.2 1.8.3 1.8.4 1.8.5 1.8.6

Akustische Kommunikation 13 Audiodesign – eine Begriffsbestimmung 13 Audiodesign – ein interdisziplinäres Feld 15 Sprache, Geräusche und Musik 15 Audiodesign – ein Bindeglied für kollaborative, interdisziplinär vernetzte Arbeitsabläufe 16 Intersensuelle Gestaltung: Das Ganze ist mehr als die Summe seiner Teile 18 Wichtige Eigenschaften der akustischen Wahrnehmung 19 Die Omnipräsenz des Hörens 19 Sound als Folge dynamischer Prozesse 21 Gleichzeitigkeit von Entstehung, Ausbreitung und Wahrnehmung 21 Sound und Emotion 21 Sound und Gedächtnis 22 Akustische Ereignisse vs. visuelle Objekte 23 Gleichzeitige Wahrnehmung mehrerer akustischer Streams 24 Akustische Ereignisse als aktivierende Sinnesreize 25 Die Schwierigkeit der Beschreibung akustischer Wahrnehmungen 26 Musik und Medien: Hörerfahrungen im Wandel 27 Hören und Zuhören: Ebenen akustischer Wahrnehmung 29 Hören zur Überwachung der Umwelt 30 Hören zur Orientierung in der Umwelt 30 Hören zur Kommunikation mit der Umwelt 31 Zuhören zur Konstruktion neuer Wahrnehmungsmuster 32 Die semantische Lücke: Schallereignis vs. Lautereignis 33 Lautereignis: Wahrnehmbare Eigenschaften 35 Tonhöhe, Lautstärke und Klangfarbe 35 Klänge und Geräusche 35 Schallereignis: Physikalische Messgrößen 36 Physikalische Grundlagen akustischer Ereignisse 36 Anregungskraft, Masse und Elastizität 36 Amplitude, Periodendauer und Grundfrequenz 37 Wellenlänge 38 Ausbreitungsgeschwindigkeit 39 Raum 40


Inhaltsverzeichnis 1.8.7 1.9 1.10 1.10.1 1.10.2 1.10.3 1.10.4 1.11 1.11.1 1.11.2 1.11.3

Zeit 40 Designprozess: Vom Schallereignis zum Lautereignis 40 Wirkungs- und Bedeutungsebenen akustischer Ereignisse 44 Direkte Wirkungen von akustischen Ereignissen 44 Der Informationsgehalt akustischer Ereignisse 46 Der Symbolgehalt von akustischen Ereignissen 49 Bedeutung durch Konvention 51 Die akustische Kommunikationskette 53 Das Kommunikationsmodell 53 Die Signalkette 53 Die Umformung und Übertragung von Signalen 54

2 2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5 2.1.6 2.1.7 2.1.8 2.1.9 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6

Beschreibung der Signalkette 57 Beschreibung von Signalen 57 Periodisch oder aperiodisch 58 Harmonische Töne 59 Komplexe Töne – Klänge 59 Das Frequenzspektrum 60 Geräusche 61 Fourier-Transformation, Zeit- und Frequenzbereich 62 Gliederung des Frequenzbereichs 63 Der zeitliche Verlauf von Schallsignalen 64 Effektivwert und Pegel eines Signals 66 Die Eigenschaften von Systemen 67 Lineare und nichtlineare Verzerrungen 67 Der Klirrfaktor eines Systems 68 Aussteuerung, Systemdynamik, Signal-Rausch-Abstand 68 Frequenzgang 69 Filter 70 Impulsantwort und Faltung 71

3 3.1 3.1.1 3.1.2 3.1.3 3.2 3.2.1 3.2.2 3.2.3 3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6 3.3.7

Schallentstehung 72 Zusammensetzung von Schwingungssystemen 72 Oszillator 72 Anregung 72 Resonanzkörper 73 Einfachste Schwingungssysteme 74 Freie Schwingungen 74 Gedämpfte Schwingungen 74 Erzwungene Schwingungen 74 Reale Schwingungssysteme 75 Kopplung einfachster Schwingungssysteme 75 Eigenfrequenz und Schwingungsmodus 76 Modell der schwingenden Saite 77 Wellenformen und Eigenfrequenzen einer Saite 78 Anregung bestimmter Wellenformen 79 Ausbreitung von Schallwellen in Röhren 80 Mehrdimensionale Wellenausbreitung 81

7


8

Inhaltsverzeichnis 3.4 3.4.1 3.4.2 3.4.3 3.4.4 3.4.5

Die menschliche Stimme 82 Stimmhafte und stimmlose Laute 82 Der Mund-Nasen-Rachen-Raum 83 Vokale 83 Konsonanten 84 Das Quelle-Filter-Modell 84

4 4.1 4.1.1 4.1.2 4.1.3 4.1.4 4.1.5 4.2 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.3 4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.4 4.4.1 4.4.2 4.4.3 4.4.4 4.4.5 4.4.6

Schallausbreitung 86 Wichtige Kenngrößen der Schallausbreitung 86 Ausbreitungsgeschwindigkeit 86 Schalldruck, Schalldichte und Schallschnelle 88 Kugelwelle und ebene Welle 88 Schallintensität 89 Hörschwelle und Schmerzgrenze 89 Besondere Eigenschaften der Wellenausbreitung 91 Interferenz und Schwebung 91 Reflexion 92 Absorption, Dissipation und Transmission 92 Brechung 93 Beugung 94 Schall in geschlossenen Räumen 95 Direktschall 96 Erstreflexionen 97 Nachhall 98 Die Impulsantwort eines Raumes 99 Das Schallfeld von anhaltenden Signalen 99 Raumakustik 99 Halligkeit 100 Deutlichkeit, Klarheit 101 Gleichmäßige Schallverteilung 101 Einbeziehung der Hörer 101 Echovermeidung 102 Niedriger Geräuschpegel 102

5 5.1 5.1.1 5.1.2 5.1.3 5.1.4 5.2 5.2.1 5.2.2 5.2.3 5.2.4 5.2.5 5.3 5.3.1

Aspekte der Wahrnehmung 103 Das Gehör 103 Das Außenohr 103 Das Mittelohr 104 Das Innenohr 105 Verarbeitung im Gehirn 107 Wahrnehmung der Lautstärke 108 Unterscheidungsschwelle 108 Frequenzabhängigkeit der Lautstärke Simultanmaskierung 111 Vor- und Nachmaskierung 112 Lautstärke und Dauer 113 Wahrnehmung der Tonhöhe 114 Unterscheidungsschwelle 114

109


Inhaltsverzeichnis 5.3.2 5.3.3 5.3.4 5.3.5 5.3.6 5.3.7 5.4 5.4.1 5.4.2 5.4.3 5.5 5.5.1 5.5.2

Tonhöhenwahrnehmung bei komplexen Tönen 115 Tonhöhen gebräuchlicher Instrumente 115 Oktavenphänomen, Tonigkeit und Tonhöhenlage 116 Intervalle 116 Konsonanz und Dissonanz 117 Tonskalen und Stimmungen 119 Wahrnehmung der Klangfarbe 121 Messbare Eigenschaften der Klangfarbe 121 Psychoakustische Merkmale der Klangfarbe 123 Semantische Aspekte der Klangfarbe 124 Wahrnehmung des Raumes 125 Wahrnehmung der räumlichen Tiefe 125 Wahrnehmung der räumlichen Richtung 126

6 6.1 6.1.1 6.1.2 6.2 6.2.1 6.2.2 6.2.3 6.2.4 6.2.5 6.2.6 6.2.7 6.3 6.3.1 6.3.2 6.4 6.5 6.5.1 6.5.2 6.5.3 6.5.4 6.5.5

Schallaufzeichnung 129 Grundprinzipien der Schallaufzeichnung 129 Signalformcodierung 130 Parametrische Codierung 131 Digitale Schallaufzeichnung 132 Abtastung 133 Samplingfrequenz 133 Quantisierung 135 Quantisierungsfehler und Quantisierungsrauschen 136 System-Dynamik 138 Übertragungsrate 139 Harddisc-Recording und Dateiformate 139 Datenreduktion 140 Verlustlose Audiokompression 140 Verlustbehaftete Audiokompression 141 MIDI und OSC 142 Mehrkanalton 143 Ziele von Mehrkanalton 143 Formate 144 Aufzeichnungsstandards 145 Wiedergabe von Mehrkanalton 147 Produktion von Mehrkanalton 149

7 7.1 7.1.1 7.1.2 7.1.3 7.1.4 7.2 7.2.1 7.2.2 7.2.3 7.2.4

Schallwandler 151 Grundprinzipien elektromechanischer Wandler 152 Elektrostatische Wandler 152 Elektrodynamische Wandler 153 Piezoelektrische Wandler 153 Kohle-Wandler 153 Eigenschaften von Mikrofonen 153 Empfindlichkeit 153 Übertragungsbereich 154 Frequenzgang 154 Störpegel und Geräuschspannungsabstand 154

9


10

Inhaltsverzeichnis 7.2.5 7.2.6 7.3 7.3.1 7.3.2 7.3.3 7.3.4 7.3.5 7.3.6 7.4 7.4.1 7.4.2 7.4.3 7.4.4 7.5 7.5.1 7.5.2 7.5.3 7.5.4 7.5.5 7.6 7.6.1 7.6.2 7.6.3 7.6.4 7.7 7.7.1 7.7.2 7.7.3 7.7.4 7.7.5 7.7.6 7.7.7 7.8 7.8.1 7.8.2 7.8.3 7.8.4

Grenzschalldruck und Dynamikumfang 155 Impulsverhalten 155 Mikrofontypen 155 Kondensatormikrofon 155 Elektretmikrofon 156 Elektrodynamisches Mikrofon 156 Lavalier-Mikrofon 157 Grenzflächenmikrofon 157 Körperschallmikrofon 157 Richtcharakteristik 158 Achtförmige Richtcharakteristik 158 Kugelförmige Richtcharakteristik 159 Nierenförmige Richtcharakteristik 160 Richtrohrmikrofon 160 Stereo-Mikrofonverfahren 161 Intensitätsstereofonie 162 Laufzeitstereofonie 164 Äquivalenzverfahren 165 Hauptmikrofon-Stützmikrofon-Verfahren 166 Aufzeichnungsverfahren für Mehrkanal-Stereofonie 167 Mikrofonierung 167 Veränderungen des Raumeindrucks 168 Veränderungen des Klanges 168 Das Mikrofon als akustische Lupe 170 Störungen 171 Lautsprecher 172 Eigenschaften von Lautsprechern 172 Bauformen von Lautsprechern 173 Akustischer Kurzschluss – Lautsprecherbox 174 Mehrweg-Lautsprechersysteme 175 Verstärker 176 Auswahl geeigneter Lautsprecher 177 Positionierung der Lautsprecher 178 Mischpulte 179 Eingangskanal 179 Subgruppen 183 Tape-Return 184 Stereo-Summe 185

8 8.1 8.1.1 8.1.2 8.1.3 8.2 8.2.1 8.2.2

Bearbeitung von Schallsignalen 186 Bearbeitung der Amplitude 187 Normalizing 187 Bearbeitung der Hüllkurve 187 Bearbeitung der Dynamik 187 Bearbeitung des zeitlichen Verlaufs 190 Cut, Copy und Paste 190 Gestaltung von Übergängen 192


Inhaltsverzeichnis 8.2.3 8.2.4 8.2.5 8.3 8.3.1 8.3.2 8.4 8.4.1 8.4.2 8.4.3 8.4.4 8.5 8.5.1 8.5.2 8.5.3 8.6 8.6.1 8.6.2

Loop 193 Resampling 194 Timestretching 195 Bearbeitung im Frequenzbereich 197 Bearbeitung der Tonhöhe 197 Bearbeitung des Spektrums 198 Bearbeitung der Raumwirkung 202 Reverb – künstlicher Nachhall 204 Bearbeitung der räumlichen Richtung 206 Bearbeitung der räumlichen Tiefe 207 Echo und Delay 208 Bearbeitungen der Phase 209 Chorus 209 Flanger 210 Phasing 210 Klangrestauration 211 Reduktion unregelmäßiger Störgeräusche 211 Reduktion dauerhafter Störgeräusche 211

9 9.1 9.2 9.2.1 9.2.2 9.2.3 9.2.4 9.2.5 9.2.6 9.2.7 9.3 9.3.1 9.3.2 9.3.3 9.3.4 9.3.5 9.3.6 9.3.7 9.3.8 9.3.9 9.4 9.4.1 9.4.2 9.4.3 9.4.4

Elektronische Klangerzeugung 213 Aufgaben, Ziele und aktuelle Entwicklungen Wichtige Grundelemente 214 Oszillator 214 Filter 214 Verstärker 215 Modulation 215 Echtzeit-Steuerung 216 Hüllkurvengenerator 218 LFO – Low Frequency Oscillator 219 Wichtige Verfahren 220 Additive Klangsynthese 220 Subtraktive Klangsynthese 221 Wavetable-Synthese 222 FM-Synthese 222 Waveshaping-Synthese 223 Sampling 224 Granularsynthese 225 Physical Modeling 226 Software-Instrumente 228 Einfache Praxisbeispiele 229 Flächenklänge 229 Bassklänge 230 Elektronische Perkussion 231 Natur- und Alltagsgeräusche 231

10 Akustische Mediengestaltung 235 10.1 Was ist gutes Audiodesign? 236 10.2 Die Ebenen der Tonspur 240

213

11


12

Inhaltsverzeichnis 10.2.1 10.2.2 10.2.3 10.2.4 10.3 10.3.1 10.3.2 10.3.3 10.3.4 10.3.5 10.4 10.5 10.5.1 10.5.2 10.5.3 10.5.4 10.6 10.6.1 10.6.2 10.7 10.7.1 10.7.2 10.8 10.8.1 10.8.2 10.8.3 10.8.4 10.8.5 10.9 10.9.1 10.9.2 10.9.3 10.10 10.10.1 10.10.2 10.10.3 10.11 10.12

Gestaltung der Sprache 240 Gestaltung der Atmo 242 Gestaltung von Sound-Effekten 243 Gestaltung der Musik 246 Gestaltung übergeordneter Strukturen 250 Nähe 252 Gleichheit oder Ähnlichkeit 252 Kontinuität 253 Geschlossenheit 253 Zusammengehörigkeit 253 Die Mischung der akustischen Ebenen 254 Räumliche Gestaltung 258 Immersive akustische Ereignisse 258 Akustische Tiefe: Figur, Grund und Feld 258 Hörperspektive 261 Soziale Beziehung zwischen Schallquelle und Hörer 263 Zeitgestaltung 266 Ebenen der Zeitgestaltung in der Tonspur 266 Einflussfaktoren der Tonspur auf das Zeitempfinden 272 Das Verhältnis von Bild und Ton 273 Assoziative Verknüpfung unterschiedlicher Sinnesreize 273 Paraphrase – Polarisation – Dissonanz 276 Formale und dramaturgische Konzeption 278 Formale und dramaturgische Ziele 280 Formale und dramaturgische Gestaltungsmittel 280 Wichtige Grundtypen formaler Gestaltung 281 Fragen zur formalen und dramaturgischen Konzeption 283 Funktionen und Aufgaben der Tonspur 283 Produktionsphasen 284 Pre-Production: Drehbucherstellung und Planung 284 Produktion 287 Post-Production 289 Audiodesign von Mensch-Maschine-Schnittstellen 289 Argumente für den Einsatz von Auditory Displays 290 Ansätze für die Gestaltung geeigneter Klangobjekte 291 Richtlinien für die Gestaltung von Auditory Displays 293 Audiodesign für interaktive Medien 295 Corporate Audio, Audio-Branding und Produkt-Sounddesign 300 10.12.1 Produkt-Sounddesign 300 10.12.2 Anforderungen an Corporate Audio und Audio-Branding 301 10.12.3 Basiselemente von Corporate Audio und Audio-Branding 302 Literaturverzeichnis

306

Sachwortverzeichnis

310


1 Akustische Kommunikation 1.1 Audiodesign – eine Begriffsbestimmung Ohne Bilder geht gar nichts? Kein Popkonzert ohne Bühnenshow, kein Hit ohne Videoclip, keine CD ohne gestyltes Cover. Selbst im Bereich der klassischen Musik ist das optische Erscheinungsbild der MusikerInnen für den kommerziellen Erfolg von großer Bedeutung, und immer öfter werden auch in Konzertsälen Echtzeit-Visualisierungen dargeboten. Also auch dort, wo es eigentlich ausschließlich um Musik gehen sollte, gibt oft schon das Auge „den Ton an“. Bildschirme sind allgegenwärtig. Immer mehr Informationen und Inhalte werden visuell vermittelt. Zu Beginn der 1990er Jahre waren Vorträge an Universitäten die wohl häufigste Form des Unterrichts. Der Einsatz visueller Medien war die Ausnahme. Die volle Aufmerksamkeit der Studierenden war auf die akustische Wahrnehmung der Sprache fokussiert. Mittlerweile scheinen visuelle Präsentationen an Wichtigkeit gewonnen zu haben, und Zuhören über einen längeren Zeitabschnitt macht vielen Menschen zunehmend Schwierigkeiten. Zumindest bei oberflächlicher Betrachtung scheint unsere Welt – oder besser: wie wir diese wahrnehmen – also vorrangig von visuellen Sinneseindrücken dominiert. Es stellt sich die Frage, welche Bedeutung der akustischen Wahrnehmung überhaupt noch zukommt, welche Funktionen und Wirkungen die Tonspur in den Medien übernehmen kann. Oder provokant gefragt: Warum überhaupt mit Audio die Zeit verschwenden? Freilich zeigen sich bei etwas genauerer Überlegung rasch viele, in den folgenden Abschnitten noch näher zu besprechende Besonderheiten der akustischen Wahrnehmung, die gerade in einer Zeit der zunehmenden (visuellen) Reizüberflutung wieder an Bedeutung gewinnen. Seit einigen Jahren wird immer öfter von einer „Renaissance des Hörens“ gesprochen und oft die Wiederentdeckung von Klang und Stille proklamiert.

Ohne Bilder geht gar nichts?

Die aktuelle (Medien-) Welt ist zweifellos visuell dominiert.

Audiodesign als Chance zur Überwindung visueller Reizüberflutung


14

1 Akustische Kommunikation Diese wachsende Rückbesinnung auf die akustische Wahrnehmung hat, verbunden mit den Möglichkeiten der digitalen Speicherung, Bearbeitung und Distribution von Schallsignalen, zu einer Vielzahl neuer Betätigungsfelder für die akustische Medienproduktion geführt. Noch zu Beginn der 1990er Jahre waren Sound- oder Audiodesign kaum bekannte Begriffe, und die Audiotechnik war auf eine möglichst originalgetreue Aufnahme und Wiedergabe von Musik fokussiert. Mittlerweile hat das akustische Medium jedoch in verschiedenen Bereichen an Bedeutung gewonnen: Aus Film und Fernsehen ist Sounddesign nicht mehr wegzudenken. Dem Beispiel der Automobilindustrie folgend, schenken immer mehr Branchen den Geräuschen ihrer Produkte wachsende Aufmerksamkeit und lassen diese von Experten gezielt gestalten. Marketing und Werbung haben Audio Branding und Corporate Sound als wichtige Erfolgsfaktoren entdeckt. Dabei beschränkt man sich nicht nur auf Sound-Logos, sondern legt immer öfter auch Wert auf eine individuelle akustische Gestaltung von Empfangs- und Verkaufsräumen, Veranstaltungen und Präsentationen etc. Hörbücher erfreuen sich steigender Nachfrage. Mit Klingeltönen werden teils hohe Umsätze erzielt. Den Möglichkeiten sogenannter funktionaler Klänge zur akustischen Unterstützung der Mensch-Maschine-Kommunikation in Form von Auditory Displays wird mehr Beachtung geschenkt. Die Anforderungen diverser interaktiver Anwendungen in Feldern wie Game Audio, Mixed, Augmented oder Virtual Reality, (Medien-)Kunst, Erlebniswelten, Museen etc. stellen neue Herausforderungen für die Audiobranche dar und werden im Fachbereich Sonic-Interaction-Design erforscht. Seit einigen Jahren wird intensiv an direkten Wirkungen von akustischen Ereignissen auf den menschlichen Organismus geforscht,

Abb. 1.1 Audio in der Kreativwirtschaft

Sound-Design für Events


1.1 Audiodesign – eine Begriffsbestimmung

15

und Klang und Musik werden immer häufiger mit Erfolg im Gesundheits- und Wellnessbereich eingesetzt. 1.1.1 Audiodesign – ein interdisziplinäres Feld Auch wenn die konkreten Anforderungen an die akustische Gestaltung selbstverständlich stark von der jeweiligen Anwendung abhängen und schon allein aus diesem Grund die Notwendigkeit von Spezialisierungen völlig außer Frage steht, so ist zusätzlich auch eine disziplinenübergreifende Aufarbeitung wichtiger Grundlagen akustischer Kommunikation, Wahrnehmung und Gestaltung erforderlich. In diesem Sinn hat Audiodesign eine möglichst umfassende, interdisziplinäre Betrachtung akustischer Ereignisse und Phänomene zum Ziel, die an den Schnittstellen von Inhalten, Wahrnehmung, Technik und Wirtschaft agiert und die sich daraus ergebenden unterschiedlichen, sich möglicherweise auch widersprechenden Anforderungen unter Berücksichtung des jeweiligen Umfeld und der Zielgruppe bestmöglich aufeinander abstimmt und integriert. Im Umfeld akustischer Mediengestaltung werden Ideen und Inhalte, Arbeitsabläufe und Werkzeuge unter Einbeziehung der gesamten Medienkette von der Konzeption über Detailplanung, Produktion, Distribution und Archivierung bis hin zur Konsumtion entwickelt und optimiert.

Kontext

Inhalt

Wahrnehmung

DESIGN

Technik

Wirtschaft

1.1.2 Sprache, Geräusche und Musik Audiodesign muss sich also zunächst mit den Eigenschaften, möglichen Funktionen, Wirkungen und Bedeutungen der gesamten akustischen

Abb. 1.2 Audiodesign als Bindeglied zwischen Technik, Inhalt, Wahrnehmung und Wirtschaft


16

Audiodesign gestaltet akustische Ereignisse, aber auch Vorgänge und Handlungen, die solche Ereignisse hervorrufen.

1 Akustische Kommunikation Umwelt befassen, um diese in weiterer Folge analysieren, bewerten, kategorisieren und schließlich gestalten zu können. Wie bereits Theo van Leeuwen in seinem empfehlenswerten, 1999 erschienenen Buch „Speech, Music, Sound“ verdeutlicht, sollen dabei die akustischen Elemente Sprache, Geräusche und Musik gemeinsam und gleichberechtigt in die Betrachtungen mit einbezogen werden. Die akustische Umwelt setzt sich im Allgemeinen aus einer Vielzahl von unterschiedlichen akustischen Ereignissen zusammen, die zum Teil bewusst erzeugt und gezielt eingesetzt werden, wie dies beispielsweise bei Musik, Alarmsignalen oder der menschlichen Sprache der Fall ist. Sie können aber auch ohne spezielle Absicht produziert werden (Maschinenlärm, Schritte, das Klappern einer Mühle etc.) oder auf natürliche Weise (Vogelgezwitscher, Wasserrauschen etc.) entstehen. Menschliche Handlungen, natürliche Vorgänge und Bewegungen bewirken stets auch charakteristische akustische Ereignisse. Die Handlung als Ursache und das akustische Ereignis als Wirkung sind dabei im Allgemeinen fest aneinander gebunden. Aus diesem Grund ist es nicht ausreichend, Audiodesign auf die Gestaltung der akustischen Ereignisse selbst zu beschränken. Vielmehr ist es notwendig, bereits bei den Vorgängen und Handlungen anzusetzen, die diese akustischen Ereignisse hervorrufen. Das bedeutet für die Praxis beispielsweise, dass Audiodesign unbedingt schon beim Verfassen eines Drehbuchs, beim Entwurf einer Maschine, bei der Planung einer Straße etc. eine Rolle spielen sollte. Freilich sieht die Realität bisher meist anders aus. So müssen viele Anstrengungen unternommen werden, um diverse Mängel im Nachhinein – etwa durch das Aufstellen teurer Lärmschutzwände – zu korrigieren. 1.1.3 Audiodesign – ein Bindeglied für kollaborative, interdisziplinär vernetzte Arbeitsabläufe

Viele Spezialgebiete, wenig interdisziplinärer Erfahrungsaustausch?

Theoretische Erforschung und praktische Anwendung von akustischen Ereignissen und Phänomenen sind also längst nicht mehr der technischen Akustik, der Musikwissenschaft oder der Tontechnik vorbehalten, sondern spielen in der gesamten Medienproduktion ebenso eine wichtig Rolle, wie in zahlreichen wissenschaftlichen Fachdisziplinen und wirtschaftlichen Tätigkeitsbereichen. Allerdings ist eine interdisziplinäre Zusammenarbeit bei der Aufarbeitung von wesentlichen Grundlagen und Prinzipien akustischer Kommunikation und Gestaltung bisher noch keineswegs selbstverständlich. Die verschiedenen Ebenen, Anforderungen und Zielsetzung werden vielfach getrennt betrachtet und analysiert: Sprachwissenschaft, Musikwissenschaft, technische Akustik, Tontech-


1.1 Audiodesign – eine Begriffsbestimmung nik, Psychoakustik oder neuere Forschungsfelder wie zum Beispiel Music Information Retrieval, Sound and Music Computing oder Sonic Interaction Design befassen sich jeweils mit speziellen Teilaspekten. Auch in der Praxis der Medienproduktion werden die drei akustischen Grundelemente der Tonspur – Sprache, Geräusche und Musik – bisher häufig getrennt voneinander analysiert, konzipiert und produziert. So sind bei größeren Filmproduktionen beispielsweise Dialog Editor mit dem Sprachschnitt, Sounddesigner und Geräuschemacher (engl. Foley-Artists) mit der Gestaltung passender Soundeffekte und Geräuschkulissen, Komponisten und Music-Editor mit der Filmmusik befasst. Da die Beiträge dieser Spezialisten vielfach erst bei der Endmischung der Tonspur ausgetauscht werden, kann es durchaus vorkommen, dass langwierig gestaltete Soundeffekte letztlich zugunsten der Musik entfallen müssen oder umgekehrt. Randy Thom, einer der erfolgreichsten Sounddesigner in Hollywood, merkt dazu in seinem Artikel „A Few Notes On Music in The Final Mix“ an: There is almost never any collaboration between the composer and the sound designer, or between the composer and the supervising sound editor. And that’s a shame. Randy Thom, http://www.filmsound.org/randythom/finalmix.htm In der Medienproduktion haben sich über einen langen Zeitraum also zunächst weitgehend lineare, mehr oder weniger hierarchisch organisierte Arbeitsabläufe etabliert und bewährt, in denen die Rollen klar verteilt und die verschiedenen Aufgabenstellungen klar definiert sind: Redaktion, Moderation, Regie, Komposition, Interpretation, Tontechnik, Tonmeister, Tonassistenz, Sendetechnik, Aufnahmeleitung, Mischung, Mastering, Sounddesign etc. Wie auch das Zitat von Randy Thom zeigt, war oder ist mitunter selbst bei nahe verwandten Fachdisziplinen die Kommunikation auf ein Minimum beschränkt. Vor allem aufgrund der rasant fortschreitenden Digitalisierung wurden Zugang zu Finanzierung und Bedienung der erforderlichen Werkzeuge wesentlich einfacher. Dies führte zunächst abseits von den traditionellen Produktionsstätten – etwa in der Medienkunst, bei der Produktion von Podcasts oder bei den auf Internetplattformen verbreiteten nutzergenerierten Medieninhalten – neue kollaborative, von hoher Interdisziplinarität und zyklischen Abläufen geprägte Arbeitsweisen entwickelt, die sich durch hohe Flexibilität und Effizienz auszeichnen und daher schon aufgrund wirtschaftlicher Überlegungen auch in vielen anderen Bereichen an Bedeutung gewinnen.

17

Getrennte Arbeitsbereiche, unterschiedliche Wege, aber gemeinsames Ziel?


18

1 Akustische Kommunikation Die Implementierung derartiger kollaborativer, interdisziplinär vernetzter Arbeitsabläufe auch in professionellen Produktionsprozessen stellt eine aktuelle Herausforderung für die Medienproduktion dar. Die effiziente Umsetzung neuer Arbeitsabläufe bereitet schon aufgrund diverser Kommunikationsprobleme zwischen den beteiligten Fachdisziplinen häufig Schwierigkeiten. Die bei Audiodesign angestrebte interdisziplinäre Betrachtung akustischer Mediengestaltung soll dabei einen Beitrag zur Lösung leisten.

1.2 Intersensuelle Gestaltung: Das Ganze ist mehr als die Summe seiner Teile Die Umwelt wird nur in Fragmenten wahrgenommen!

Mediengestaltung soll möglichst viele Sinne berücksichtigen!

Wechselwirkungen verschiedener Sinne müssen beachtet werden. Unterschiedliche Sinneseindrücke sollen sich optimal ergänzen!

Unsere Sinne liefern jeweils in sich geschlossene Reizqualitäten, die bei gleichzeitiger Wahrnehmung sofort aufeinander bezogen und mit subjektiven Erinnerungen, Erfahrungen und Erwartungshaltungen verglichen werden. Wir können dabei beispielsweise zwischen „laut“ und „leise“ oder zwischen „hell“ und „dunkel“ unterscheiden, nicht aber zwischen „laut“ und „dunkel“. Objektivierbare Vergleiche oder kontinuierliche Übergänge zwischen den einzelnen Sinneswahrnehmungen sind also unmöglich. Daraus lässt sich schließen, dass unsere Umwelt nur in Fragmenten erfasst werden kann. Die einzelnen Sinnesorgane sind auf die Wahrnehmung bestimmter Ausschnitte spezialisiert. Nur durch assoziative Verknüpfung unterschiedlicher Sinneseindrücke in Verbindung mit bereits erworbener Erfahrung kann ein Mehrwert entstehen, der eine gedankliche Ergänzung fehlender Teile und dadurch eine genauere Beschreibung der wahrgenommenen Objekte und Ereignisse ermöglicht. Da also bei gleichzeitiger Wahrnehmung unterschiedlicher Reizqualitäten stets kausale Verbindungen hergestellt werden, ergänzen sich visuelle und akustische Eindrücke nicht nur, sondern stehen in permanenter Wechselwirkung, beeinflussen und überlagern sich gegenseitig. Die ausschließliche Konzentration auf die visuelle Ebene kann daher kaum zu optimalen Ergebnissen führen. Eine noch stärkere Berücksichtigung des Hörens – von Schmecken, Tasten und Riechen einmal ganz abgesehen – ist somit unbedingt zu fordern. Dabei muss die Gleichstellung der Sinneswahrnehmungen im medialen Kontext noch keine zwingende Verbesserung bringen, denn nicht das Nebeneinander, sondern ausschließlich das Miteinander unterschiedlicher Sinnesreize kann zu einer nachhaltigen Qualitätssteigerung führen. Da es also immer um ein optimales Zusammenwirken aller Reizqualitäten gehen muss, sind intermodale Konzeption, Gestaltung und Produktion unbedingt anzustreben.


1.3 Wichtige Eigenschaften der akustischen Wahrnehmung

19

Für ein erfolgreiches Audiodesign ist es daher erforderlich, von den Besonderheiten der akustischen Wahrnehmung ausgehend, auch das gesamte Umfeld und die möglichen Wechselwirkungen mit anderen Sinnesreizen zu berücksichtigen. Es müssen in der akustischen Ebene alle notwendigen Voraussetzungen geschaffen werden, die eine optimale Ergänzung der unterschiedlichen Sinneseindrücke sicherstellen.

1.3 Wichtige Eigenschaften der akustischen Wahrnehmung 1.3.1 Die Omnipräsenz des Hörens Das Ohr lässt sich – ganz im Gegensatz zum Auge – nicht einfach verschließen. Ob wir wollen oder nicht, das Ohr ist bei jeder Wahrnehmung ganz automatisch beteiligt. Mangelhaftes akustisches Design stört auch (oder gerade) dann, wenn es nur unbewusst wahrgenommen wird! Oft ist es möglich, akustische Ereignisse zu hören, die nicht sichtbar sind. Irgendwo Hinsehen bedeutet gleichzeitig immer auch woanders Wegsehen. Das Ohr ist hingegen in der Lage, alle Klänge und Geräusche in einem Raum wahrzunehmen. Anders als das Auge ist es nicht an einen Blickwinkel gebunden. Wir sind also in jedem Moment zum Hören gezwungen. Hören ist in diesem Sinne also omnipräsent. Im Allgemeinen ist der akustische Informationsfluss aus diesem Grund zu groß, um alles bewusst aufnehmen und auswerten zu können. Meist wird daher ein Großteil der im persönlichen Umfeld vorhandenen akustischen Sinnesreize unbewusst wahrgenommen. Fälschlicherweise wird dieses unbewusste Wahrnehmen oft mit Nichtwahrnehmen gleichgesetzt. Der so genannte Cocktailparty-Effekt beschreibt den Umstand, dass Menschen auch in relativ lauter Umgebung in der Lage sind, die Wahrnehmung auf ein bestimmtes akustisches Ereignis zu richten. Erfahrungsgemäß können wir in einer Bar dem Gespräch mit unserem Tischnachbarn folgen, während wir die restlichen Stimmen um uns herum als Gemurmel wahrnehmen. Sollten in dieser Situation aber am Nebentisch Worte fallen, die für uns aus irgendeinem Grund von Interesse sind, so ist es jederzeit möglich, die Aufmerksamkeit darauf zu richten und das Gespräch zu belauschen. Diese Situation, die sicher schon viele erlebt haben, zeigt deutlich, dass nicht nur die bewusst wahrgenommene akustische Information im menschlichen Gehirn verarbeitet wird. Offenbar wird auch der vermeintlich unwichtige akustische Hintergrund stets abgehört und ausgewertet.

Wegsehen ist kein Problem, aber Weghören …? Ich hör’, ich hör’ , was du nicht siehst!

Die selektive Wahrnehmung eines bestimmten Einzelereignisses innerhalb einer akustischen Szene wird als CocktailpartyEffekt bezeichnet.


20

Räumliche Wahrnehmung ist akustisch dominiert.

1 Akustische Kommunikation In der menschlichen Kommunikation spielen also stets zahlreiche unterschwellige akustische Reize eine wesentliche Rolle, die zwar dem Rezipienten mitunter gar nicht bewusst auffallen, den Gesamteindruck der Wahrnehmung aber trotzdem maßgeblich beeinflussen. Zu den ganz wesentlichen Aufgaben des Hörens zählt die Wahrnehmung des umgebenden Raumes. Während sich der visuelle Sinn auf einen durch den Blickwinkel vorgegebenen Ausschnitt konzentriert und auf Details fokussiert, überwacht das Ohr die gesamte Umgebung. In diesem Sinn kann Sehen also als eher selektiver, spezialisierter, Hören hingegen als umfassender, ganzheitlicher Vorgang bezeichnet werden. Der Raum und die dort herrschenden Stimmungen und Vorgänge werden in ihrer gesamten Beschaffenheit aufgenommen und beurteilt. Ob uns ein Ort vertraut ist, ob wir uns dort wohl fühlen, ob wir zur Ruhe kommen, ist – wiederum vor allem unterschwellig – stark von der akustischen Beschaffenheit des Raumes und den uns der uns dort umgebenden Geräuschkulisse abhängig. Während die visuelle Wahrnehmung also im Wesentlichen ein aktives Erschließen und Erfahren der Umwelt erfordert, dringt die akustische Umwelt quasi ganz automatisch in uns ein. Oder wie es Lorenz Oken bereits Anfang des 19. Jahrhunderts ausdrückte: Das Auge führt den Menschen in die Welt, das Ohr führt die Welt in den Menschen ein. Lorenz Oken (1779–1851)

Akustische Ereignisse verbinden!

Da die akustische Szenerie in einem Raum für alle Menschen weitgehend gleich ist, können Schallsignale auch eine verbindende, kollektivierende Wirkung haben. Dieser Aspekt wird beispielsweise bei Marschmusik sehr deutlich, wenn sich alle wie ferngesteuert zum Takt der Musik bewegen. Ähnliches ist auch bei Tanzmusik in den Discos zu beobachten. Auch die Reden von öffentlichen Personen versuchen häufig von dieser möglichen Wirkung des akustischen Mediums Gebrauch zu machen. Vor allem wenn man an populistische Politiker oder Diktatoren denkt, wird deutlich, dass der eigentliche Inhalt solcher Reden nur eine untergeordnete Rolle spielt. Der markante Klang der Stimme, gekoppelt mit einem prägnanten Sprachrhythmus und einer besonderen Sprachmelodie erzwingen förmlich die Aufmerksamkeit der Menschen. Auch die deutsche Sprache gibt darauf einige Hinweise. So heißt es etwa: „jemandem HÖRig sein“, „das geHÖRT mir“, „jemand wird verHÖRT“, „du musst geHORCHEN“ oder „das ist doch unerHÖRT“.



21

1.3.2 Sound als Folge dynamischer Prozesse Jedes akustische Ereignis ist grundsätzlich immer eine Folge eines vorangegangenen dynamischen Prozesses, der durch einen entsprechenden Kraftaufwand in Gang gesetzt werden musste. Bewegung und Veränderung sind also eine Grundvoraussetzung für akustische Ereignisse. Nur in einem völlig statischen und somit leblosen Umfeld herrscht absolute Stille, also sprichwörtliche „Totenstille“. Akustische Ereignisse sind somit immer auch Ausdruck von Vitalität und Leben. Selbstverständlich spielt diese Eigenschaft eine wichtige Rolle im Audiodesign. In der Regel kann auch ein eindeutiger Zusammenhang zwischen dem physikalischen Prozess als Ursache und dem akustischen Ereignis als Wirkung hergestellt werden. Die resultierenden Sounds spiegeln zahlreiche Eigenschaften der auslösenden physikalischen Prozesse wider. Beispielsweise ist es einfach zu hören, ob ein Gegenstand wutentbrannt mit voller Wucht zu Boden geworfen oder ganz vorsichtig und sanft auf den Tisch gelegt wird. Auch wenn die akustischen Ereignisse oft nur einen Bruchteil einer Sekunde andauern, vermitteln sie meist vielfältige Informationen. 1.3.3 Gleichzeitigkeit von Entstehung, Ausbreitung und Wahrnehmung In ihrer ursprünglichen Form ist Schallenergie grundsätzlich flüchtig, und akustische Ereignisse verklingen innerhalb kürzester Zeit, sobald die auslösende Ursache nicht mehr besteht. Bis zur Erfindung des Phonographen durch Thomas A. Edison (1847–1931) im Jahre 1877 war es unmöglich, Schall zu speichern. Akustische Ereignisse mussten somit stets zeitgleich mit ihrer Entstehung und Ausbreitung – also jetzt oder nie – wahrgenommen werden. Soll ein akustischer Sinnesreiz bewusst erfahren werden, so fordert die Gleichzeitigkeit von Entstehung, Ereignis und Rezeption die volle Aufmerksamkeit, aktives Erleben und Teilnehmen von den Hörern. Es liegt die Vermutung nahe, dass die direkte, unmittelbare Wirkung vieler akustischer Ereignisse mit diesem Umstand in engen Zusammenhang gebracht werden kann. Auch das Verhältnis von Sound und Emotion sowie Sound und Gedächtnis kann von dieser Gleichzeitigkeit abgeleitet werden. 1.3.4 Sound und Emotion Erfahrungsgemäß eignen sich akustische Ereignisse bestens, um Emotionen zu kommunizieren und um Stimmungen zu regulieren. Dieser

Akustische Ereignisse können Stimmungen regulieren.


22

1 Akustische Kommunikation Umstand ist für das Audiodesign von immenser Bedeutung. Zweifelsfrei soll Musik im Film, in der Werbung, bei Firmenevents oder bei Produktpräsentationen häufig genau diese Funktion erfüllen. Beachtet werden sollte, dass nicht unbedingt mächtige Fanfaren mit Pauken und Trompeten oder „butterweiche“ Geigen notwendig sind, um einer akustischen Botschaft emotionale Tiefe zu verleihen. Oft reichen schon kleine akustische Gesten, um eine Vielzahl von Gefühlsregungen zu transportieren. Beispielsweise kann in einem Seufzer eines Mitmenschen Erschöpfung genauso wie Depression, Mitgefühl oder überhebliche Ablehnung mitschwingen. Auch der Klang der gesprochenen Sprache ist für die Bedeutung eines Satzes erfahrungsgemäß ganz entscheidend. Dabei können bereits geringe Unterschiede in einzelnen Lauten mitunter zu enormen Bedeutungsverschiebungen führen. Es kann daraus geschlossen werden, dass bei akustischen Ereignissen eine Vielzahl an feinen Nuancen wahrgenommen und unterschieden werden kann, die nachhaltigen Einfluss auf Inhalt und Wirkung hat. 1.3.5 Sound und Gedächtnis

Charakteristische akustische Ereignisse bleiben lange im Gedächtnis.

Da Schall lange nicht gespeichert werden konnte, war es auch unmöglich, ein bestimmtes akustisches Ereignis identisch zu wiederholen. Selbst wenn möglichst gleiche Schallquellen mit möglichst gleichen Mechanismen in Schwingung versetzt wurden, änderte sich das klingende Ereignis im Allgemeinen doch mehr oder weniger stark. So klingen beispielsweise zerbrechendes Glas, das Klopfen an eine Tür, das Zwitschern der Vögel oder auch eine live vom Orchester gespielte Sinfonie zwar immer ähnlich, aber niemals völlig identisch. Akustische Ereignisse waren also stets einmalig. Möglicherweise können spezifische Schallsignale gerade deshalb auch erstaunlich lange im Gedächtnis behalten werden. Beispielswiese kennen viele Menschen selbst im hohen Alter noch zahlreiche Kinderlieder auswendig, auch wenn sie diese jahrzehntelang nicht mehr gesungen haben, und die Hits der Jugend begleiten einen das ganze Leben, während viele anderen Details aus diesem Lebensabschnitt längst in Vergessenheit geraten sind. Im Musikbusiness stellt der charakteristische Sound einen wesentlichen Qualitäts- und Erfolgsfaktor dar. Viele Songs werden auch Jahre nach ihrer Veröffentlichung oft schon nach dem Bruchteil einer Sekunde erkannt, also nach einer Zeit, zu der sich Rhythmus und Melodie des Songs noch gar nicht etablieren konnten. Auch in der Tonspur von Filmen spielen charakteristische akustische Ereignisse, die sehr rasch erkannt werden und lange in Erinnerung bleiben, oft eine wichtige Rolle.



23

Der Sound der Mundharmonika aus Sergio Leones Film „Once Upon a Time in the West“ (Spiel mir das Lied vom Tod) wird zum Beispiel selbst von Menschen rasch erkannt, die den Film nur einmal gesehen haben. Auch in der Werbung lässt sich beobachten, dass manche Spots, in denen markante Geräusche eingesetzt oder der Slogan mit einem einprägsamen Sprachklang dargeboten werden, oft jahrelang in Erinnerung bleiben. Der Zusammenhang von akustischen Reizen und der Gedächtnisleistung ist immer wieder Gegenstand von wissenschaftlichen Studien. Wenn diese zunächst zu uneinheitlichen Ergebnissen zu kommen scheinen, muss darauf hingewiesen werden, dass die Frage, ob ein Spot mit oder ohne Musik besser erinnert werden kann, schon aufgrund der intermodalen Wechselwirkungen so nicht gestellt werden sollte. Es kommt nicht darauf an ob, sondern wie akustische Elemente eingesetzt werden, welche Funktionen sie im Gesamtkonzept übernehmen sollen, welche Wirkungen sie erzielen und welche Bedeutungen sie übermitteln sollen. Beispielsweise muss ein Element, das im Hintergrund eine angenehme Stimmung vermitteln und dadurch zu einer positiven Einstellung gegenüber dem Produkt beitragen soll, unbedingt unbewusst wahrgenommen werden. Um nicht von der eigentlichen Werbebotschaft abzulenken, darf es keinesfalls die Aufmerksamkeit auf sich ziehen, sondern muss unterschwellig wirken. Studien zeigen auch, dass der akustische Reiz sogar besser als der Produktname im Gedächtnis verankert sein kann, wenn zwischen den akustischen Elementen und dem Inhalt klare Bezüge und Querverweise etabliert werden. Sounds können dann zu mnemotechnischen (Mnemotechnik: Gedächtniskunst) Abrufreizen für die Werbebotschaft und den Markennamen werden. 1.3.6 Akustische Ereignisse vs. visuelle Objekte Visuelle Wahrnehmungen ändern sich nicht mit der Zeit, es sei denn, es verändern sich die betrachteten Objekte bzw. deren Umfeld selbst. Beispielsweise kann die 1505 von Leonardo da Vinci gemalte Mona Lisa nach wie vor quasi im Original betrachtet werden. Das Auge liefert gerade in jenem statischen Umfeld äußerst präzise und detailreiche Informationen über die uns umgebenden Oberflächen Die Bewegungen und Veränderungen, deren Folgen von der akustischen Wahrnehmung ausgewertet werden, können visuell hingegen nur mangelhaft erfasst werden. Bereits wenige Einzelbilder pro Sekunde erwecken den Eindruck einer kontinuierlichen Bewegung und rasche Änderungen führen zu verschwommenen Konturen. Manche Aktionen passieren überhaupt zu schnell, um sie allein mit dem Sehsinn richtig erfassen zu können. Beispielsweise kann selbst bei genauer Beobach-

Das Ohr ist oft schneller als das Auge!


24

Akustische Ereignisse können das Zeitempfinden beeinflussen.

1 Akustische Kommunikation tung einer Pistole nicht erkannt werden, ob tatsächlich geschossen wird. Das resultierende Geräusch wird aber mit Sicherheit deutlich wahrgenommen. Beim Fernsehen werden daher Zeitlupe und Standbilder eingesetzt, um bestimmte Situationen visuell genauer analysieren zu können. Da akustische Ereignisse ohne Veränderungen und somit ohne einen zeitlichen Verlauf von bestimmter Dauer undenkbar sind, ist auch die menschliche Erfahrung von Zeit stark mit dem Hören verbunden. In vielen Fällen zielt Musik, als wohl älteste zeitbasierte Kunstform, auf die Beeinflussung des Zeitempfindens ab. 1.3.7 Gleichzeitige Wahrnehmung mehrerer akustischer Streams

Akustische Einzelereignisse werden zu übergeordneten Mustern zusammengefasst, die als Stream bezeichnet werden.

Meist bilden mehrere akustische Streams eine auch als Soundscape bezeichnete akustische Szene.

Eine wichtige, im Abschnitt 10.2 näher beschriebene Eigenschaft der menschlichen Wahrnehmung ist die Zusammenfassung von kleineren Einheiten zu übergeordneten Mustern auf Basis der sogenannten Gestaltkriterien. Beispielsweise sehen wir drei in einem bestimmten Verhältnis zueinander angeordnete Striche als Dreieck. In der auditiven Wahrnehmung wird ein derartiges aus mehreren Einzelereignissen zusammengesetztes, übergeordnetes Muster als akustischer Stream bezeichnet. Zum Beispiel hören wir den Klang des Orchesters und nicht die einzelnen Instrumente, Vogelzwitschern und nicht die einzelnen Vögel oder das Gemurmel im Restaurant und nicht die einzelnen Stimmen. Welche akustischen Einzelereignisse zu akustischen Streams zusammengefasst werden, kann zumindest zum Teil vom jeweiligen Hörer in jedem Moment individuell bestimmt werden. In einem Orchesterkonzert ist es zumindest einigermaßen geschulten Hörern möglich, sich auf eine einzelne Instrumentengruppe wie die Flöten zu konzentrieren. Genauso kann unter bestimmten Gegebenheiten ein einzelner Vogel aus dem Gezwitscher oder eine spezifische Stimme aus dem Gemurmel heraus gehört werden, wenn die Aufmerksamkeit darauf gerichtet wird. Neben einem derartigen selektiven Hören ist es aber auch möglich, mehrere verschiedene akustische Streams gleichzeitig aufzunehmen und die enthaltenen Informationen auszuwerten. Es werden also in der Regel mehrere akustische Streams zu einer oft auch als Soundscape bezeichneten akustischen Szene zusammengesetzt und deren Besonderheiten und Veränderungen wahrgenommen. Anders als bei der visuellen Wahrnehmung kommt es dabei zu vergleichsweise wenig Verdeckung. Stehen beispielsweise zwei Gegenstände in Blickrichtung hintereinander, so wird der hintere nicht oder nur zum Teil sichtbar sein. Geben diese Gegenstände aber irgendwelche Geräusche von sich, so können wir normalerweise beide problemlos


1.3 Wichtige Eigenschaften der akustischen Wahrnehmung hören. Werden zwei Farben gemischt, so ergeben sie zusammen einen neuen Farbton. Erklingen hingegen gleichzeitig die Klänge von zwei Instrumenten, so werden auch ungeübte Hörer meist nach wie vor beide Instrumente identifizieren können, anstatt einen Mischklang zu hören. Die visuelle Umwelt ist also immer durch eine Oberfläche begrenzt. Diese setzt sich zwar im Allgemeinen aus einer Vielzahl von unterschiedlichen Objekten zusammen und kann sehr detailreich sein, es ist aber – von einigen speziellen Materialien wie zum Beispiel Glas abgesehen – unmöglich hinter bzw. durch ein Objekt zu blicken oder in dieses hinein. Werden beispielsweise in einem digitalen Bildbearbeitungsprogramm zwei Bilder überlagert, so führt das in den meisten Fällen zu Verwirrung. Im Videoschnitt wird daher meist eine Sequenz an die nächste geschnitten oder in einem sehr kurzen Zeitraum überblendet. Von gelegentlich eingesetzten Bild-im-Bild-Szenen abgesehen, sind kaum zwei Videospuren gleichzeitig zu sehen. Die akustische Umwelt setzt sich hingegen fast immer aus einer Vielzahl akustischer Streams zusammen. An einer Brücke in einer Stadt könnte beispielsweise folgendes zu hören sein: Das Plätschern des Flusses, die Geräusche des Verkehrs, Schritte und Stimmen von Passanten, Kirchenglocken oder Polizeisirenen in der Ferne, Musik aus dem Radio eines vorbeifahrenden Autos, das Plätschern des Regens etc. Wie im Abschnitt 10.2 näher erläutert wird, ist die menschliche Wahrnehmung in der Lage, bis zu fünf solcher Streams gleichzeitig zu erleben. Jeder einzelne Stream kann dabei aus zahlreichen Einzelereignissen zusammengesetzt und detailreich sein. Das mit einem digitalen Audiobearbeitungsprogramm erstellte Sounddesign für ein Medienprodukt setzt sich daher im Allgemeinen aus einer großen Anzahl einzelner Spuren zusammen, die gleichzeitig wiedergegeben werden.

25

Im Gegensatz zum überwiegend sequentiellen Videoschnitt laufen bei der Audiobearbeitung meist viele Spuren gleichzeitig ab.

1.3.8 Akustische Ereignisse als aktivierende Sinnesreize Eine wichtige Eigenschaft von akustischen Ereignissen ist deren Fähigkeit, Aufmerksamkeit zu erregen. Dies wird bei einer Vielzahl von Alarmsignalen, wie der Hupe des Autos, dem Läuten des Telefons, dem Klingeln des Weckers etc. im täglichen Leben ausgenützt. Gerade in einer mit visuellen Reizen überfrachteten Umwelt kommt diese Eigenschaft von akustischen Botschaften besonders gut zur Geltung. Leider scheint es eine weit verbreitete Meinung zu sein, dass Schallsignale vor allem durch ihre Lautstärke auffallen. Dabei führt beispielsweise bei einem Vortrag mit unruhigem Auditorium lauteres Sprechen selten zu gesteigerter Aufmerksamkeit. Ganz allgemein sind eine außergewöhnliche, mehrere Klangparameter berücksichtigende Gestaltung,

„Es sind nicht immer die Lauten stark!“


26

1 Akustische Kommunikation bewusstes Setzen von Pausen oder gezielt eingesetzte leise Sprache wesentlich effizienter. Akustische Ereignisse können uns auch aktivieren, ohne dabei eine unmittelbare Reaktion zu erfordern, wie dies bei diversen Signalen meist der Fall ist. Häufig geschieht diese Aktivierung ohne eine bewusste Willensentscheidung. Immer wieder ertappen wir uns beim unbewussten Mitklopfen des Taktes oder beim Mitsummen einer gerade irgendwo zu hörenden Musik. Auch in der wissenschaftlichen Forschung zur Werbewirkung ist das Potenzial von akustischen Ereignissen zur Aktivierung weitgehend unbestritten und wird von empirischen Studien belegt. Die deutsche Sprache gibt durch das Verb „aufhören“ einen Hinweis auf die aktivierende Wirkung akustischer Ereignisse. Man hört auf ein besonderes Geräusch und beendet daher seine aktuelle Tätigkeit, wird auf etwas Neues aufmerksam und dafür aktiviert. 1.3.9 Die Schwierigkeit der Beschreibung akustischer Wahrnehmungen Mit dem Sehsinn werden vorzugsweise statische Objekte wahrgenommen, die dadurch auch fassbar, begreifbar und somit beschreibbar sind. Mit bekannter Objektbezeichnung und einer Reihe von konkreten Eigenschaften, wie Farbe, Form, Größe etc. ist es im Allgemeinen gut möglich, diese visuellen Objekte hinreichend genau und verständlich zu beschreiben. Da das Hören hingegen immer Informationen über dynamische Ereignisse liefert, ist es unmöglich, mit dem Finger auf einen besonderen Klang zu zeigen, diesen im wahrsten Sinne des Wortes zu begreifen. Akustische Ereignisse sind weder fassbare Dinge, noch können sie solche repräsentieren. Dieser Umstand erklärt, warum eine hinreichend genaue verbale Beschreibung von akustischen Ereignissen häufig misslingt, wenn man von technischen und somit für viele Menschen in ihrer Vorstellung wiederum abstrakten Parametern absieht. Meist wird daher nicht das akustische Ereignis selbst, sondern eher der auslösende Entstehungsprozess beschrieben. Vielfach werden hierzu Vergleiche verwendet: „Das klingt wie wenn …“. Diese Schwierigkeiten führen dazu, dass akustische Ereignisse sogar in der Medienproduktion gelegentlich immer noch als diffuse, unkonkrete, vor allem subjektiv erfahrbare und schwer objektivierbare Sinnesreize angesehen werden. Dabei ist zu beachten, dass vielfach genau in dieser scheinbaren Schwäche, im nicht leicht fassbaren, ereignis- statt objekthaften, schwer verbalisierbaren Charakter von akustischen Ereignissen ihre eigentliche Stärke für eine intermodale (Medien-)Gestaltung liegt, die ja auf ein


1.4 Musik und Medien: Hörerfahrungen im Wandel gegenseitiges Ergänzen unterschiedlicher Sinneswahrnehmungen abziehen soll und somit nicht jene Attribute wiederholen soll, die ohnehin visuell ganz leicht erkennbar sind. Außerdem ist es vor allem aufgrund der Forschungen im Bereich der im Kapitel 5 näher betrachteten Psychoakustik sehr wohl möglich, auch hinreichend genaue, objektiv messbare Aussagen über akustische Ereignisse zu machen. Mitunter bringt diese Problematik der Beschreibung von akustischen Ereignissen große Schwierigkeiten für das Audiodesign mit sich. Beispielsweise wird die Kommunikation zwischen Sounddesigner, Medienkomponist, Regisseur, Produzent, Auftraggeber etc. dadurch genauso erheblich erschwert, wie das Finden von passenden Sounds in großen digitalen Klangbibliotheken. Ein Versuch, diese Problematik zu vereinfachen, wurde im Forschungsprojekt AllThatSounds unternommen. Das Ergebnis – eine Online-Sounddatenbank – stellt verschiedene effiziente Möglichkeiten für Beschreibung und Suche von akustischen Ereignissen zur Verfügung.

1.4 Musik und Medien: Hörerfahrungen im Wandel Spätestens Edisons Erfindung des Phonographen im Jahr 1877 markiert den Beginn einer rasanten Entwicklung von Audiotechnologien für die Aufnahme, Wiedergabe, Speicherung und Distribution von akustischen Ereignissen. Zu beachten ist, dass einige der im Abschnitt 1.3 ausführlich behandelten wichtigen Eigenschaften der akustischen Wahrnehmung dadurch grundlegend in Frage gestellt werden. Einmal aufgezeichnete akustische Ereignisse können beliebig oft wiederholt werden. Bewegung und Veränderung sind aufgrund der möglichen Schallwiedergabe mit Lautsprechern keine zwingende Voraussetzung für klingende Ereignisse mehr, wenn man von den visuell kaum wahrnehmbaren Schwingungen der Lautsprechermembran absieht. Die Flüchtigkeit des Mediums Schall, die prinzipielle Gleichzeitigkeit von Auslösung, klingendem Ereignis und Rezeption, die Notwendigkeit von auslösenden dynamischen Prozessen und der dabei irreversibel wirksame Zusammenhang von Ursache und Wirkung haben an Bedeutung verloren. Das einmalige, jetzt oder nie erlebbare akustische Ereignis wandelt sich zum austauschbaren, beliebig reproduzierbaren, zu jeder Zeit an jedem Ort verfügbaren Objekt. In seinem bahnbrechenden Standardwerk „The Soundscape: Our Sonic Environment and the Tuning of the World“, das als Initialzündung für eine intensivere theoretische Auseinandersetzung mit akustischer Kommunikation in verschiedenen Fachdisziplinen angesehen werden kann, bezeichnet R. M. Schafer die Trennung von Schallereignissen von ihren

27

Die Online-Sounddatenbank von AllThatSounds stellt Möglichkeiten für Beschreibung und Suche von akustischen Ereignissen zur Verfügung.


28

1 Akustische Kommunikation ursprünglichen Quellen mittels elektroakustischer Technologie als Schizophonie. Der heute wesentlich leichtere Zugang zur Musik erweitert die akustischen Erfahrungsmöglichkeiten und trägt zu wachsenden Kenntnissen darüber bei. Durch einfache und kostengünstige Distributionskanäle vor allem im Internet können Musiker und Klangkünstler auch in Nischen ihre Hörer finden. Es ist mehr Musik verfügbar und es wird mehr gehört denn je. Es haben sich teils völlig neue Umgangsweisen mit Musik entwickelt, und Nutzungsmotive akustischer Medien sind wesentlich stärker ausdifferenziert. Trotz diverser unbestritten positiver Effekte sind die technologisch bedingten Änderungen unbedingt auch kritisch zu hinterfragen und in ihrer Weiterentwicklung genau zu beobachten. Es ist naheliegend, dass die technischen Möglichkeiten die menschlichen Hörgewohnheiten verändern. Das Konzert wurde von Schallplatte, Walkman, CD- oder MP3Player sukzessive als wichtigstes Ereignis zum Erleben von Musik abgelöst. Musik kommt mittlerweile aus dem Web wie Wasser aus der Leitung. Riesige Schallarchive werden in der Westentasche transportiert. Musste man noch vor wenigen Jahrzehnten entweder selbst aktiv musizieren oder mitunter weite Wege in Kauf nehmen, um überhaupt Musik hören zu können, so muss man sich heute aus der Gesellschaft zurückziehen und mitunter weite Wege in Kauf nehmen, um ihr zu entkommen. Durch die permanente Verfügbarkeit könnte sich die Intensität des Musik- und Klangerlebens vermindern. Aktives Musizieren und Zuhören werden oft durch passives Konsumieren ersetzt. Igor Strawinsky hat bereits 1935 auf diese Problematik hingewiesen: Die Verbreitung von Musik durch technische Aufnahmeverfahren ist eine beachtliche wissenschaftliche Neuerung, die aber aufgrund der Mühelosigkeit, mit der jedermann überall ohne Anstrengung alles hören kann, auch eine große Gefahr darstellt. Der Haken des Fortschritts liegt in eben diesem Fehlen von Anstrengung, besonders in der Musik, die nur von denen verstanden werden kann, die sich aktiv mit ihr auseinandersetzen. Igor Strawinsky, 1935 in einem Interview, zitiert nach: Igor Strawinsky – Ich muss die Kunst anfassen, Bibliothek der Provinz, 2006, S. 89f Vergleichsweise selten wird beim Hören noch auf Anfang und Ende von Musik, auf formale und dramaturgische Entwicklungen geachtet. Das ursprünglich zeitliche Phänomen entwickelt sich in vielen Fällen zu einem primär räumlichen. Dies ist längst nicht mehr auf Raum-Klang-


1.5 Hören und Zuhören: Ebenen akustischer Wahrnehmung Installationen oder die zunächst von Brian Eno propagierte Ambient Music beschränkt. Immer häufiger werden Klang und Musik eingesetzt, um Atmosphäre und Wirkung eines bestimmten Raumes zu gestalten. In Supermärkten und Restaurants ist das längst gängige Praxis. Das Image von zahlreichen Lokalen wird von der dort zu hörenden Musik ganz wesentlich (mit)bestimmt. Es scheint, als wollten sich viele Menschen der Akustik öffentlicher Räume nicht mehr ungeschützt aussetzen. Häufig ist zu beobachten, wie sich Menschen – etwa beim Laufen in der Natur oder in öffentlichen Verkehrsmitteln – von der sie umgebenden akustischen Umwelt abkapseln und durch das Hören von Musik über Kopfhörer in eigene private „Räume“ zurückziehen. Genaue Beobachtung und Analyse dieser laufenden Veränderungen von Hörgewohnheiten, Nutzugsmotiven und Erwartungshaltungen im Zusammenhang mit akustischen Ereignissen sowie eine Berücksichtigung eventueller daraus resultierender Schlussfolgerungen im Arbeitsprozess zählen im Audiodesign gegenwärtig zu den wichtigen Herausforderungen und Schlüsselfaktoren.

1.5 Hören und Zuhören: Ebenen akustischer Wahrnehmung Wichtig für ein erfolgreiches Audiodesign ist der Umstand, dass zwischen verschiedenen Ebenen der akustischen Wahrnehmung unterschieden werden muss. Passives Hören analysiert – bewusst oder unbewusst – einen vergleichsweise kurzen Zeitausschnitt der akustischen Umwelt, versucht darin bekannte Muster zu erkennen, bereits vertraute Ereignisse zu identifizieren, diese entsprechend zu kategorisieren und daraus eventuell erforderliche Handlungen abzuleiten. Aktives Zuhören setzt das wahrgenommene akustische Ereignis hingegen in einen größeren zeitlichen und räumlichen Zusammenhang, bezieht es auf persönliche Erfahrungen und Erinnerungen, vergleicht es mit eigenen Erwartungshaltungen, versucht es kritisch zu reflektieren und versucht neue Wahrnehmungsmuster zu entdecken. In den vergangenen Jahrzehnten wurden mehrere Modelle vorgestellt, die durch Vereinfachung und Schematisierung ein besseres Verständnis der vielschichtigen akustischen Wahrnehmung ermöglichen sollen. Beispielsweise unterscheidet Michel Chion in seinem Standardwerk „AudioVision“ zwischen Causal Listening, das sich vor allem in der Alltagswahrnehmung auf die Ursachen eines akustischen Ereignisses konzentriert, Semantic Listening, das unter Bezugnahme auf den soziokulturellen Kontext auf die übergeordnete Bedeutung des Ereignisses

29 Immer häufiger werden Klang und Musik eingesetzt, um Atmosphäre und Wirkung eines bestimmten Raumes zu gestalten.


30

1 Akustische Kommunikation gerichtet ist, und Reduced Listening, das Qualitäten und Eigenschaften des Schallsignals selbst, möglichst losgelöst von Ursache und Kontext, erfassen soll. In der Folge wird ein Modell mit vier unterschiedlichen Wahrnehmungsebenen erläutert. Selbstverständlich werden diese Ebenen in einem realen Wahrnehmungsprozess nie völlig voneinander zu trennen sein, sondern es wird fließende Übergänge geben. Außerdem werden in den meisten Fällen mehrere Ebenen parallel zur Gesamtwahrnehmung beitragen. Dennoch ist es beim Audiodesign im Allgemeinen hilfreich, vorab zu prüfen, ob eine bzw. welche Ebene bei der Wahrnehmung der zu gestaltenden akustischen Ereignisse vorrangig angesprochen wird oder werden soll. 1.5.1 Hören zur Überwachung der Umwelt

Die erste Ebene der akustischen Wahrnehmung hat eine im Allgemeinen Akustische Wahrnehmung dient zur Über- völlig unbewusst erfolgende, permanente Überwachung der Umwelt zum wachung der Umwelt. Ziel. Gleichförmige, ruhige, vertraute akustische Umgebungen haben beruhigende Wirkung. Ungewöhnliche, auffällige Sounds alarmieren hingegen und erregen auch gegen den persönlichen Willen sofort Aufmerksamkeit. Ohne die Ursachen noch genauer zu bewerten, erkennen wir die Muster und hören innerhalb kürzester Zeit, ob der Sound zum Beispiel laut, energiegeladen, nahe ist, eine Gefahrensituation signalisiert oder ob jemand dringend Hilfe benötigt. Falls erforderlich, reagiert der menschliche Körper darauf reflexartig und instinktiv. Beispielsweise soll bei der Gestaltung von akustischen Warnsignalen vor allem diese Ebene der Wahrnehmung angesprochen werden. 1.5.2 Hören zur Orientierung in der Umwelt Akustische Wahrnehmung dient zur Orientierung in der Umwelt.

Die zweite Ebene der akustischen Wahrnehmung dient der Orientierung in der Umwelt. Die wahrgenommenen akustischen Sinnesreize werden geortet, einem klingenden Objekt und einer entsprechenden Anregung zugeordnet und ihre zeitlichen Veränderungen werden ausgewertet. Beispielsweise hören wir, dass sich ein Auto von hinten mit mittlerer Geschwindigkeit nähert. Wir reagieren darauf, indem wir die Straße etwas schneller queren, um nicht in eine gefährliche Situation zu geraten. Zu beachten ist, dass die akustische Wahrnehmung nicht in allen Fällen in der Lage ist, einen eindeutigen Zusammenhang zwischen einem akustischen Ereignis und dessen Ursache herzustellen. In diesem Sinn mehrdeutige oder nicht identifizierbare Schallereignisse verursachen vielfach eine gewisse Verunsicherung oder Verwirrung. Vor


1.5 Hören und Zuhören: Ebenen akustischer Wahrnehmung

31

allem im Filmsounddesign wird dieser Umstand häufig als bewusstes Stilmittel eingesetzt. Wichtig ist auch, dass auch bei elektroakustischer Schallerzeugung im Allgemeinen auf die ursprünglich auslösenden Ereignisse und die am Entstehungsprozess beteiligten akustischen Schallquellen rückgeschlossen wird. Wird beispielsweise eine lange zurückliegende, verrauschte Tonbandaufnahme eines Streichquartetts wiedergegeben, so hört man mit großer Wahrscheinlichkeit eben dieses Quartett anstatt Tonband und Lautsprecher als eigentliche Ursachen. Erst wenn Rauschen und Knistern zu stark werden, wird die Wahrnehmung vermutlich kippen. Auch bei der vor allem im Kindesalter beliebten lautmalerischen Nachahmung verschiedenster Klänge und Geräusche funktioniert die Zuordnung zu einer vermeintlichen Schallquelle, so lange zumindest eine gewissen Ähnlichkeit mit üblicherweise damit verbundenen Sounds gegeben ist. So wird beispielsweise „I-A“ zum Esel, „Wau-Wau“ zum Hund, „Brruumm“ zum Auto oder „Peng“ zum Schuss. Im Audiodesign spielt diese Wahrnehmungsebene beispielsweise bei der Gestaltung von Hinweisgeräusche, wie dem Klingelton eines Mobiltelefons oder dem Geräusch zur Signalisierung neu eingehender E-Mails, eine wichtige Rolle. 1.5.3 Hören zur Kommunikation mit der Umwelt Die dritte Ebene der akustischen Wahrnehmung versucht die Funktionen und Bedeutungen von akustischen Ereignissen zu erfassen, zu verstehen und in geeigneter Form darauf zu reagieren. Wesentliche Aufgabe dieser Ebene ist die Kommunikation mit der Umwelt. Auch dabei kann es sich noch um einen weitgehend automatischen, passiven Vorgang der Wahrnehmung – also um eine Form des Hörens – handeln, die auf das Erkennen von bekannten Mustern abzielt. Da Funktion und Bedeutung eines Ereignisses stets vom jeweiligen Kontext abhängig sind, richtet sich diese Ebene der Wahrnehmung nicht ausschließlich auf das eigentliche Ereignis, sondern bezieht das zeitliche und räumliche Umfeld stärker mit ein. Dieses Bezugnehmen auf eine mehr oder weniger lange zurückliegende Vorgeschichte des auslösenden Ereignisses einerseits und eventuell parallel dazu ablaufende Prozesse und räumliche Gegebenheiten andererseits bedingt einen höheren Grad an gedanklicher Abstraktion und bedarf einer entsprechenden rationalen Auswertung der wahrgenommenen Sinnesreize. Im Gegensatz zu reflexartigen Handlungen infolge der Überwachung oder entsprechend gesetzten (Re-)Aktionen aufgrund der Orientierung kommt es im Zuge der kommunikativen Wahrnehmungsebene meist zu einer Interaktion mit der Umwelt.

Akustische Wahrnehmung dient der Kommunikation.


32

Akustische Wahrnehmung

Zuhören

Hören

Abb. 1.3 Die Ebenen der akustischen Wahrnehmung

1 Akustische Kommunikation

Ziel

Handlung

Überwachung

Reflex

Orientierung

(Re-)Aktion

Kommunikation

Interaktion

Konstruktion/Kreation

Interpretation/Erfahrung

1.5.4 Zuhören zur Konstruktion neuer Wahrnehmungsmuster Zuhören ist ein bewusster, aktiver Vorgang, bei dem durch kreative Interpretation neue Wahrnehmungsmuster entstehen, sowie Erfahrungen und Erlebnisse gemacht werden.

Aktives Zuhören kann schließlich als vierte Ebene der akustischen Wahrnehmung bezeichnet werden. Es zielt nicht darauf ab, Bekanntes zu identifizieren, um die Umwelt zu überwachen, oder um Funktionen und Bedeutungen von Ereignissen richtig zu erkennen und mit der Umwelt zu kommunizieren. Vielmehr geht es darum, neue Muster zu entdecken, bisher Unbekanntes zu erleben, zu lernen, Erfahrungen zu machen. Zuhören bringt also die wahrgenommenen akustischen Ereignisse bewusst mit dem Umfeld der Wahrnehmung und den eigenen persönlichen Erfahrungen, Erinnerungen und Erwartungshaltungen in Verbindung, um in einem aktiven, kreativen Prozess neues Wissen zu generieren. Hören wir eine bekannte Musik, so identifizieren wir diese bereits nach dem Bruchteil einer Sekunde und schenken ihr keine weitere besondere Aufmerksamkeit. Hören wir dieser Musik hingegen aktiv zu, so lassen sich selbst in der gleichen, schon oft gespielten Aufnahme mitunter immer wieder bis dahin unbekannte Details entdecken, die zu neuen akustischen Erlebnissen führen können. Klassik-Fans gehen ins Konzert oder in die Oper, obwohl oder gerade weil dort im Wesentlichen immer wieder die gleichen Stücke auf dem Programm stehen. Sie hören aktiv zu, entdecken die feinen Unterschiede in den Interpretationen der Musiker und erleben die Werke auf unterschiedlichen Ebenen jeweils wieder neu. Auch das bewusste Erfassen der von seiner Ursache und seinem Kontext losgelösten, inhärenten Qualitäten und Eigenschaften


1.6 Die semantische Lücke: Schallereignis vs. Lautereignis eines Schallereignisses kann dieser Wahrnehmungsebene zugeordnet werden. Wesentliche Ziele dieser vierten akustischen Ebene sind also bewusste Konstruktion und Kreation von neuen Bezugssystemen und Wahrnehmungsmustern, die dem individuellen Hörer eine bisher für ihn unbekannte Interpretation der Umwelt bzw. der eigenen Persönlichkeit ermöglichen und eine aktive Gestaltung von Erlebnissen und Erfahrungen fördern. Beispielsweise soll bei der Gestaltung von akustischen Ereignissen für künstlerische Ideen und Projekte im Allgemeinen vor allem die Wahrnehmungsebene der Konstruktion und Kreation angesprochen werden, die aktives Zuhören erfordert.

1.6 Die semantische Lücke: Schallereignis vs. Lautereignis Audiodesign zielt immer auf die menschliche Wahrnehmung von akustischen Ereignissen ab. Entscheidend ist, wie diese gehört werden, welche Informationen, Funktionen, Wirkungen und Bedeutung sie ihren Hörern im spezifischen Kontext übermitteln, welche Stimmungen sie auslösen, welche Erinnerung sie wachrufen, ob sie Erwartungshaltungen erfüllen etc. Wie diese akustischen Ereignisse beschaffen sind, wie sie objektiv erfasst und beschrieben werden können, welche technischen Mess- und Analyseergebnisse sie liefern ist dabei zunächst kaum von Bedeutung. Die angestrebte Beeinflussung der Wahrnehmung von akustischen Ereignissen wird im Audiodesign jedoch meist mit Hilfe von technischen Werkzeugen herbeigeführt, die zwar diverse Anpassungen von technischen Messwerten ermöglichen, jedoch auf Wirkungen und Bedeutungen, vermittelte Stimmungen etc. zunächst keinen direkten Einfluss haben. Der fehlende direkte bzw. nicht eindeutig gegebene Zusammenhang zwischen den zu bearbeitenden technischen Messwerten und den zu beeinflussenden Aspekten der menschlichen Wahrnehmung wird in der Literatur häufig als semantische Lücke bezeichnet und zählt zu den größten Schwierigkeiten im Audiodesign. Um diese semantische Lücke auch im Sprachgebrauch zu verdeutlichen, werden wahrgenommene akustische Ereignisse als Lautereignisse, die durch messbare Kenngrößen bestimmten physikalischen Signale hingegen als Schallereignisse bezeichnet. Wie ein Schallereignis von einer Person in ein entsprechendes Lautereignis übersetzt wird, hängt nicht nur von den physikalischen Messgrößen des Ereignisses ab, sondern wird sowohl vom universellen Kontext der Wahrnehmung, als auch von individuellen Prägungen der Person maßgeblich mitbestimmt.

33


34

Abb. 1.4 Die semantische Lücke zwischen Schall- und Lautereignis


Universeller Kontext:

historisches, soziales, kulturelles,… visuelles, akustisches,… Umfeld des Ereignisses bzw. der Wahrnehmung

Schallereignis: Technische Messung

Semantische Lücke

Lautereignis: Menschliche Wahrnehmung

Individuelle Prägungen:

persönliche Erfahrungen, subjektive Erinnerungen und Erwartungshaltungen, individuelle Stimmungen und Befindlichkeiten

 Siehe Webseite zum Buch

Dass die Zugehörigkeit zu einem bestimmten Kulturkreis sowie das soziale und historische Umfeld die individuelle Bewertung eines Schallereignisses beeinflussen, ist unbestritten. Beispielsweise entstanden beim Dengeln einer Sense vor dem Mähen oder beim Bearbeiten des geernteten Getreides mit einem Dreschflegel Geräusche, die unsere Landwirtschaft noch vor 100 Jahren geprägt haben. Wenn sie überhaupt noch bekannt sind, werden derartige Sounds in der heutigen Industriegesellschaft nostalgisch bewertet, während sie in manchen ganz entlegenen Gebieten Europas nach wie vor zur alltäglichen Arbeitswelt gehören können. Unbedingt zu beachten ist auch der Einfluss des optischen und akustischen Umfelds des Ereignisses. Es sind zahlreiche Beispiele für optische Täuschungen bzw. Illusionen bekannt und deren Ursachen weitgehend gut erforscht. Änderungen des Umfelds bzw. des Hintergrunds führen dabei zu einer geänderten Wahrnehmung von Objekteigenschaften, wie Farben, Formen, Größen etc. Ähnliche Beispiele gibt es auch für akustische Illusionen oder für die Wechselwirkungen von visuellen und akustischen Sinnesreizen. () Da wahrgenommene Sinnesreize immer mit bereits gemachten Erfahrungen, erlernten Konventionen, persönlichen Erinnerungen und aktuellen Erwartungshaltungen verglichen werden, spielen individuelle Prägungen bei der Übersetzung eines Schallereignisses in ein zugeordnetes Lautereignis eine wesentliche Rolle. Auch die aktuelle persönliche emotionale und körperliche Befindlichkeit ist dabei von Bedeutung. Beispielsweise wird der Klingelton des Mobiltelefons jeweils völlig unterschiedlich wirken, wenn man unter Hochdruck an der Fertigstellung einer wichtigen Aufgabe arbeitet, wenn man auf dringenden


1.7 Lautereignis: Wahrnehmbare Eigenschaften

35

Rückruf wartet, wenn man gerade völlig entspannt am Strand liegt oder wenn man gerade im vollen Kinosaal eine ruhige Szene verfolgt. Um das gewünschte Lautereignis zu erzielen, genügt es daher im Audiodesign keinesfalls, sich ausschließlich auf ein einzelnes Schallereignis zu konzentrieren und dessen physikalische Eigenschaften zu definieren. Es ist vielmehr unbedingt erforderlich, das Umfeld der Wahrnehmung und mögliche Einflussfaktoren von individuellen Prägungen so gut es geht zu berücksichtigen oder diese im Idealfall auch gezielt zu beeinflussen, was zumindest für das visuelle und akustische Umfeld im Allgemeinen möglich sein sollte.

1.7 Lautereignis: Wahrnehmbare Eigenschaften Lautereignisse weisen unterschiedliche Eigenschaften und Merkmale auf, denen abhängig von individuell und kulturell geprägten Hörgewohnheiten mehr oder weniger große Bedeutung beigemessen wird. 1.7.1 Tonhöhe, Lautstärke und Klangfarbe In nahezu allen Kulturen herrscht jedoch eine weitgehende Übereinstimmung darüber, dass es im Zusammenhang mit akustischen Ereignissen im Wesentlichen drei primäre Empfindungen gibt: Tonhöhe, Lautstärke und Klangfarbe. Werden auf einem Klavier zwei nebeneinander liegende Tasten mit der gleichen Stärke angeschlagen, so werden die beiden auf diese Weise erzeugten Klänge vor allem aufgrund ihrer Tonhöhe unterscheidbar sein. Die jeweilige Lautstärke und Klangfarbe werden hingegen bei beiden Schallereignissen zumindest annähernd gleich sein. Wird eine Trommel zunächst ganz sachte und danach mit voller Wucht angeschlagen, können die beiden dadurch hervorgerufenen akustischen Ereignisse vor allem durch ihre Lautstärke unterschieden werden. Die Eigenschaft der Klangfarbe ermöglicht es schließlich, zwei Töne zu unterscheiden, die von verschiedenen Instrumenten, jedoch mit gleicher Tonhöhe und Lautstärke gespielt werden. 1.7.2 Klänge und Geräusche Können einem akustischen Ereignis alle drei Primärempfindungen zu jedem Zeitpunkt einwandfrei zugeordnet werden, so wird im Allgemeinen von einem Klang gesprochen. Kann einem akustischen Ereignis hingegen nur die Lautstärke zu jedem Zeitpunkt einwandfrei zugeordnet

Unabhängig von kulturellen Gewohnheiten werden akustische Ereignisse primär nach Tonhöhe, Lautstärke und Klangfarbe unterschieden.


36

1 Akustische Kommunikation werden und sind Tonhöhe und Klangfarbe nur schwer zu bestimmen, so handelt es sich im Allgemeinen um ein Geräusch.

1.8 Schallereignis: Physikalische Messgrößen 1.8.1 Physikalische Grundlagen akustischer Ereignisse Die physikalische Grundlage aller akustischen Erscheinungen sind Druck- bzw. Dichteschwankungen in einem elastischen Medium, wie zum Beispiel Luft oder Wasser. Ändert sich der Druck innerhalb von Zeitintervallen zwischen ca. 0,05 und 50 Millisekunden, so sind diese Schwankungen hörbar. Es wird von Schall gesprochen. Diese Druckschwankungen werden im Allgemeinen von einem vibrierenden, das heißt um seine Ruhelage schwingenden Objekt, wie beispielsweise einer Gitarrensaite, dem Fell einer Trommel, den menschlichen Stimmbändern, der Membran eines Lautsprechers etc. hervorgerufen. 1.8.2 Anregungskraft, Masse und Elastizität

x

Abb. 1.5 Spannen einer Feder

F

Um einen elastischen Körper aus seiner Ruhelage auszulenken, muss von außen eine Anregungskraft auf diesen einwirken. Die Auslenkung ist dabei erfahrungsgemäß umso größer, je stärker diese Kraft ist. Aufgrund seiner Materialeigenschaften kann ein Körper aber nicht beliebig verformt werden. Die Elastizität des Materials ist ein Maß für die Verformbarkeit. Je elastischer ein Körper ist, desto leichter kann er aus seiner Ruhelage ausgelenkt werden. Als einfaches Beispiel soll das Spannen einer Feder betrachtet werden. Die Masse wird umso weiter aus ihrer Ruhelage ausgelenkt, je elastischer die Feder ist, und je mehr Kraft F für eine Auslenkung aufgewendet wird. Dieser Zusammenhang ist einleuchtend und stimmt mit unserer Erfahrung überein: Eine Gitarrensaite wird umso weiter aus ihrer Ruhelage ausgelenkt, je stärker man diese anschlägt. Und ein elastisches Gummiband kann mit einem wesentlich geringeren Kraftaufwand ausgelenkt werden als eine steife, metallische Klaviersaite. Sobald die Krafteinwirkung beendet wird, hat der Körper aufgrund der Elastizität die Tendenz, wieder in seine Ruhelage zurückzukehren. Die so genannte Massenträgheit, die im zweiten Newtonschen Gesetz durch die Beziehung Kraft ist gleich Masse mal Beschleunigung beschrieben wird, bewirkt, dass die Masse nicht sofort in die Ruhelage zurückkehrt. In weiterer Folge kann die Massenträgheit auch dazu führen, dass sich


1.8 Schallereignis: Physikalische Messgrößen der Gegenstand über seine Ruhelage hinaus in die Gegenrichtung der ursprünglichen Auslenkung bewegt. In diesem Fall wirkt nun wiederum aufgrund der Elastizität des Körpers eine entgegengesetzte Kraft. Sobald diese einen bestimmten Wert erreicht hat, wird die Bewegung ihre Richtung ändern. Die Masse durchwandert wiederum ihre Ruhelage und kehrt, wenn die Bewegung ungebremst erfolgt, an den Ort ihrer ursprünglichen Auslenkung zurück, wo wieder eine Richtungsänderung der Bewegung erfolgen wird. Das Zusammenwirken von Elastizität und Massenträgheit bewirkt also einen ständigen Wechsel zwischen Spannung und Komprimierung der Feder. Der einmal durch eine Anregungskraft von außen aus seiner Ruhelage ausgelenkte Körper führt eine sich fortwährend wiederholende Bewegung um seine Ruhelage aus, die auch als Schwingung bezeichnet wird. Die beiden von der Massenträgheit einerseits und der Elastizität andererseits herrührenden Kräfte müssen sich zu jedem Zeitpunkt ausgleichen. Die Beschleunigung der Bewegung ist umso größer, je kleiner die Masse bzw. je geringer die Elastizität des Körpers ist. Die Anregungskraft hat hingegen keine Auswirkung auf die Beschleunigung der Bewegung. Dieser physikalische Sachverhalt stimmt auch wieder mit unserer Erfahrung überein. Werden beispielsweise die Schwingungen eines vergleichsweise schweren und sehr elastischen Gummibandes oder auch einer Wäscheleine untersucht, so sind diese relativ langsam und meist gut mit dem Auge zu beobachten. Die Schwingungen von steifen, metallischen Klaviersaiten sind hingegen sehr rasch und nicht mehr visuell wahrnehmbar.

37

Die Beschaffenheit des Materials und die Masse eines Körpers bestimmen das Schwingverhalten.

1.8.3 Amplitude, Periodendauer und Grundfrequenz Die Auslenkung eines schwingenden Körpers aus seiner Ruhelage ist eine zeitabhängige Größe und wird als Amplitude A(t) bezeichnet. Für die Ruhelage gilt somit A(t) = 0. Im Abschnitt 1.8.2 wurde der direkte Zusammenhang zwischen Amplitude und Anregungskraft festgestellt. Während einer Schwingungsperiode bewegt sich der Körper von der maximalen Auslenkung durch seine Ruhelage hindurch zur maximalen Auslenkung in der Gegenrichtung und schließlich wieder zurück durch die Ruhelage zum Ausgangspunkt – seiner maximalen Auslenkung. Die Zeit, die der Körper benötigt, um eine volle Schwingungsperiode zurückzulegen, wird als Periodendauer T bezeichnet. Wie bereits weiter oben dargelegt, gilt für die Periodendauer T von Schallwellen:

Einfachste Schwingungen können durch Amplitude und Periodendauer bzw. Frequenz beschrieben werden.


38


Mechanische Schwingungen und Wellen eines elastischen Mediums im Frequenzbereich des menschlichen Hörens (ca. 20 bis 20000 Hz) werden als Schall bezeichnet. Darüber wird von Ultra-, darunter von Infraschall gesprochen.

0,05 ms < T < 50 ms Die Grundfrequenz gibt die Anzahl der Schwingungsperioden innerhalb einer Sekunde an und entspricht daher dem Reziprokwert der Periodendauer. Die Frequenz wird in Hertz (abgekürzt Hz) gemessen. fG = 1/T [Hz] Für Schall ergibt sich somit folgender Frequenzbereich: 20 Hz < f < 20 kHz ()


Dies entspricht ungefähr jenem Frequenzbereich, der von jungen, gesunden Menschen mit dem Gehör im besten Fall wahrgenommen werden kann. Es muss dabei angemerkt werden, dass sich der von Menschen wahrnehmbare Frequenzbereich mit zunehmendem Alter und abhängig von der durchschnittlichen Belastung des Gehörs mitunter stark verringert. Mit den Erkenntnissen aus Abschnitt 1.8.2 kann festgehalten werden, dass die Frequenz eines schwingenden Körpers umso höher ist, je kleiner seine Masse und je geringer seine Elastizität ist. Da ein Kontrabass tiefer klingt als eine Violine und ein elastisches Gummiband tiefer als eine Saite aus Stahl, deckt sich diese Feststellung auch wieder gut mit unserer Erfahrung. 1.8.4 Wellenlänge In einem elastischen Medium wie etwa Luft, Wasser, Metall, Holz etc. breiten sich die lokalen Schwingungen des Körpers in Form von Wellen aus. Aufgrund seiner Bewegung verdrängt der Körper Molekühle des Mediums, von dem er umgeben wird. Das Medium wird dadurch vor dem Körper verdichtet und hinter ihm verdünnt. Es entstehen lokale Druckbzw. Dichtemaxima und -minima. Die verdrängten Teilchen des Mediums müssen sich ihrerseits Platz schaffen und verdrängen daher die unmittelbar anschließenden Teilchen und so weiter. Dadurch kommt es zu Druck- bzw. Dichteschwankungen, die sich vergleichbar einer Kettenreaktion im Raum ausbreiten. Könnten die Molekühle in einem bestimmten Moment eingefroren und betrachtet werden, so würde sich ein mit der Abb. 1.6 vergleichbares Bild ergeben. Der räumliche Abstand zwischen zwei Druck- bzw. Dichtemaxima (oder auch zwischen zwei Druck- bzw. Dichteminima) zu einem festen Zeitpunkt heißt Wellenlänge . So wie die Periodendauer T die zeitliche


1.8 Schallereignis: Physikalische Messgrößen

39

Abb. 1.6 Druck- bzw. Dichteschwankungen bei der Schallausbreitung

x

λ

Periodizität darstellt, beschreibt die Wellenlänge die räumliche Periodizität einer Welle. Werden Schallwellen schließlich von einem menschlichen Ohr aufgenommen, so beginnt das Trommelfell den Druck- und Dichteschwankungen folgend zu schwingen. Diese Vibrationen werden von speziellen Nervenzellen in entsprechende Sinnesreize umgewandelt, die dann zur Auswertung an das Gehirn weitergeleitet werden. 1.8.5 Ausbreitungsgeschwindigkeit Eine wichtige physikalisch messbare Größe im Zusammenhang mit Schallwellen ist die Ausbreitungsgeschwindigkeit v. Diese hängt vor allem von der Elastizität des Mediums und der Anzahl der im Medium vorhandenen Molekühle, also von dessen Dichte ab. In Luft beträgt die Schallgeschwindigkeit bei einer Temperatur von 20ºC rund 343 m/s: vLuft (20ºC) = 343 m/s Es handelt sich dabei um einen Richtwert. Der tatsächliche Wert kann um einige Prozent abweichen, weil die Elastizität der Luft von verschiedenen Faktoren, wie etwa der relativen Luftfeuchtigkeit, beeinflusst wird. Da die Dichte der Luft von der Temperatur abhängig ist, gilt dies auch für die Schallgeschwindigkeit. Bei einer Temperatur von 0ºC beträgt diese nur mehr rund 331 m/s. Im Bereich der für Mitteleuropa typischen Außentemperaturen steigt die Schallgeschwindigkeit näherungsweise um rund 0,6 m/s pro ºC an. Zwischen der Schallgeschwindigkeit v, der Frequenz f und der Wellenlänge , gilt der fundamentale Zusammenhang: v=·f


40

1 Akustische Kommunikation 1.8.6 Raum

Siehe Abschn. 8.4

Von einer örtlich lokalisierbaren Schallquelle ausgehend breitet sich Schall im Allgemeinen kugelförmig, also gleichmäßig in alle Raumrichtungen aus. Das Ohr nimmt akustische Reize aus dem gesamten umgebenden Raum auf. An der räumlichen Wahrnehmung ist daher das Ohr als Sinnesorgan ganz wesentlich beteiligt. Akustische Ereignisse klingen in verschiedenen Räumen mitunter ganz unterschiedlich. Besonders hörbar wird dies beispielsweise, wenn ein und die selbe Person in einer Kathedrale, einem Wohnzimmer, einer verfliesten Toilette etc. in die Hände klatscht. Eine der wichtigsten Aufgaben im Audiodesign für audiovisuelle Medien ist es, die eingesetzten Klänge und Geräusche den meist durch das Bild vorgegebenen räumlichen Bedingungen bestmöglich anzupassen. () 1.8.7 Zeit Dem Faktor Zeit kommt bei der Wahrnehmung von akustischen Ereignissen eine besondere Bedeutung zu, da hierin ein wesentlicher Unterschied zur Aufnahme visueller Sinneseindrücke liegt. Wie bereits im Abschnitt 1.3 ausführlich erläutert, sind akustische Ereignisse grundsätzlich flüchtig und nicht dauerhaft. Zeitliche Veränderungen sind eine wesentliche Voraussetzung für die Existenz von Schallsignalen. Zeit spielt daher bei der Beschreibung von akustischen Ereignissen in verschiedenen Bereichen eine entscheidende Rolle. Wichtige Beispiele wären die Periodendauer im Millisekunden-, rasche Änderungen wie das Vibrato von Opersängern im Zehntelsekunden-, die Dauer eines Schallereignisses meist im Sekundenbereich oder der sich oft über viele Minuten erstreckende formalen Aufbau einer Sinfonie für großes Orchester.

1.9 Designprozess: Vom Schallereignis zum Lautereignis Die semantische Lücke spielt für das Audiodesign in mehrfacher Hinsicht eine wesentliche Rolle. Im Allgemeinen startet der Designprozess mit der Formulierung eines Ziels. Um die gewünschte Beschaffenheit dieser Zielsounds allen am Prozess beteiligten Personen verdeutlichen zu können, müssen sie durch möglichst konkrete Anforderungen und angestrebte Wirkungen verbal beschrieben werden. Diese Beschreibung soll quasi einem imaginierten Lautereignis möglichst genau entsprechen.


1.9 Designprozess: Vom Schallereignis zum Lautereignis Die zentrale Aufgabe ist nun die Umsetzung dieser Vorstellung in ein konkretes, durch seine physikalischen Eigenschaften bestimmtes Schallereignis, das im Wahrnehmungsprozess bei den Hörern wiederum ein Lautereignis hervorrufen wird. Dieses wahrgenommene Lautereignis erzielt bei den Personen – bewusst oder unbewusst – gewisse Wirkungen oder löst bestimmte Handlungen aus, die wiederum verbal beschrieben werden können. Durch einen Vergleich der Beschreibungen von Zielen und Ergebnissen lässt sich der Designprozess evaluieren und in mehreren Durchläufen optimieren. Es ist also im Verlauf des Designprozesses mehrfach notwendig Schallereignisse mit korrespondierenden Lautereignissen in Verbindung zu bringen und umgekehrt. Es stellt sich also die Frage, welche Übereinstimmungen zwischen den wahrnehmbaren Eigenschaften von Lautereignissen einerseits und den messbaren bzw. genau definierbaren physikalischen Kenngrößen von Schallereignissen andererseits zumindest näherungsweise bestehen. Im Prinzip kann jede durch ein akustisches Ereignis hervorgerufene Primärempfindung mit einer genau definierten, messbaren und in Zahlen fassbaren Größe des ursprünglichen Reizes in Verbindung gebracht werden. Das Geräusch einer Trommel wird umso lauter sein, je stärker

41

Abb. 1.7 Der Designprozess

Kontext: soziales, historisches, kulturelles,… visuelles, akustisches,… Umfeld Physikalisches Objekt bzw. Ereignis

Wahrgenommenes Objekt bzw. Ereignis Sinnesreiz

Schallereignis

Wahrnehmung Tonhöhe Lautstärke Klangfarbe Raum Zeitstruktur

Erinnerung

Objekte Ereignisse Konventionen pers. Erfahrungen

Design

Grundfrequenz Pegel Signalform Nachhall Zeitstruktur

ZIEL Anforderung intendierte Wirkung verbale Beschreibung

Lautereignis

Designprozess

ERGEBNIS Reaktion erzielte Wirkung verbale Beschreibung


42


Die Grundfrequenz eines Schallsignals bestimmt die wahrgenommene Tonhöhe.

auf die Membran geschlagen wird. Erfahrungsgemäß hängt also die Lautstärke eines Schallsignals zunächst einmal davon ab, wie kraftvoll die Schwingung angeregt wurde. Den Erklärungen von Abschnitt 1.8.2 folgend, hängen Anregungskraft und Schwingungsamplitude direkt zusammen. Es liegt also zunächst einmal nahe, die primäre Empfindung der Lautstärke eines akustischen Ereignisses mit der physikalischen Kenngröße Amplitude gleichzusetzen. Die Saiten einer Gitarre haben unterschiedliche Masse und Elastizität, was schon rein äußerlich gut erkennbar ist. Werden die leeren Saiten nacheinander angezupft, so klingen jene mit größerer Masse und/oder Elastizität tiefer. Die leichteren und steiferen Saiten erzeugen hingegen höhere Klänge. Gemäß Abschnitt 1.8 bewirken größere Masse und Elastizität eine geringere Beschleunigung des schwingenden Körpers. Je geringer diese Beschleunigung nun aber ist, desto länger wird die Periodendauer bzw. desto niedriger die Grundfrequenz der Schwingung sein. Zumindest in einer ersten Näherung muss es daher zulässig sein, die empfundene Tonhöhe mit der physikalisch messbaren Grundfrequenz eines akustischen Ereignisses gleichzusetzen.

Die wahrgenommene Lautstärke hängt mit der Amplitude des Schalldrucks zusammen.

Tab. 1.2 Wahrnehmbare Eigenschaften und physikalische Kenngrößen eines Schallsignals

Die wahrgenommene Klangfarbe wird von der Form des Schallsignals maßgeblich beeinflusst.

Siehe Kap. 2

LAUTEREIGNIS Mensch: Wahrnehmbare Eigenschaften

SCHALLEREIGNIS Technik: Physikalische Kenngrößen

Tonhöhe

Grundfrequenz

Lautstärke

Druckamplitude

Klangfarbe

Signalform/Frequenzspektrum

Eine entsprechende physikalische Kenngröße für die Klangfarbe zu finden, ist mit Hilfe des in Abschnitt 1.8 kurz dargestellten einfachen Schwingungsmodell nicht möglich. Unterschiedliche Klänge gehen einerseits auf verschiedene Anregungsmechanismen (Anzupfen, Anstreichen, Anblasen etc.) und andererseits auf unterschiedliche Schwingkörper (Saiten, Membranen, Röhren etc.) zurück. Es liegt die Vermutung nahe, dass Aufbau und Zusammensetzung oder ganz allgemein die Form eines Schallsignals die wahrgenommene Klangfarbe beeinflussen. Die mathematische bzw. physikalische Beschreibung der Form eines akustischen Ereignisses wird durch das so genannte Frequenzspektrum des Schallsignals ermöglicht. () Die Grundfrequenz, die Amplitude und Form eines Schallsignals als physikalisch messbare Größen entsprechen also im Wesentlichen der wahrgenommenen Tonhöhe, der Lautstärke und der Klangfarbe des


1.9 Designprozess: Vom Schallereignis zum Lautereignis akustischen Ereignisses. Diese Übereinstimmungen gelten jedoch nur in erster Näherung und liefern ein übertrieben vereinfachtes Bild akustischer Wahrnehmung. So kann sich beispielsweise die durch einen reinen Ton hervorgerufene Tonhöhenempfindung geringfügig ändern, wenn dessen Intensität bei gleichbleibender Grundfrequenz geändert wird. Umgekehrt scheint sich die Lautstärke eines Tones mit konstanter Intensität zu ändern, wenn dessen Frequenz verändert wird. Bei einer Überlagerung mehrerer unterschiedlicher Töne ist die Lautstärkeempfindung nicht in einfacher Weise mit der gesamten Amplitude verbunden. Die Erkennung der Klangfarbe eines Musikinstruments verlangt mehr Information als nur das Spektrum. Wird ein aufgezeichneter Klavierklang rückwärts abgespielt, so bleibt das Klangspektrum dabei zwar gleich, die empfundene Klangfarbe ändert sich aber sehr wohl. Es lässt sich also in vielen Fällen kein einfacher und vor allem eindeutiger Zusammenhang zwischen den physikalisch messbaren Größen eines Schallsignals, den damit verbundenen wahrnehmbaren Sinnesreizen und daraus resultierenden subjektiven Hörempfindungen herstellen. Die Psychoakustik versucht kausale Zusammenhänge zwischen den physikalischen Größen des Schallsignals und den dadurch ausgelösten Empfindungen zu erfassen. () Das Schließen der semantischen Lücke ist eine wesentliche Herausforderung für die aktuelle Sound-Forschung. In Forschungsgebieten wie Computational Perception, Music Information Retrieval, Sound and Music Computing etc. werden Methoden und Werkzeuge entwickelt, die eine möglichst automatische Zuordnung von Schall- und Lautereignissen ermöglichen. Mittlerweile bekannte Beispiele wären eine in vielen Musik-Downloadplattformen bereits integrierte Ähnlichkeitssuche oder eine automatische Zuordnung einer Musikdatei zu einer bestimmten Stilrichtung. Möglich wird das durch spezielle Algorithmen für die Signalanalyse, mit denen zum Beispiel eine an die Funktionsweise des menschlichen Ohres angelegte Auswertung der Signalform oder eine automatische Erkennung von rhythmischen Strukturen gelingt. Verschiedene Analyseergebnisse werden dann mit Algorithmen aus dem Bereich der Künstlichen Intelligenz verglichen und bewertet. Während sich mit den aktuell verfügbaren Methoden in einigen Teilbereichen, vor allem bei populären Musikstilen, bereits durchaus zufriedenstellende Ergebnisse erzielen lassen, gelingt ein Lückenschluss in anderen Bereichen noch kaum.

43

Siehe Kap. 5


44


1.10 Wirkungs- und Bedeutungsebenen akustischer Ereignisse Eine genaue Untersuchung möglicher Wirkungs- und Bedeutungsebenen ist von fundamentaler Wichtigkeit.

Da Audiodesign zwar die physikalischen Eigenschaften der Schallereignisse mit technischen Werkzeugen bearbeitet und verändert, dabei aber auf die wahrnehmbaren Eigenschaften des resultierenden Lautereignisses abzielt, stellt sich die zentrale Frage, wie und auf welchen Ebenen diese physikalischen Eigenschaften verknüpft und im Wahrnehmungsprozess interpretiert und bewertet werden, um als Lautereignisse Wirkungen auslösen bzw. Bedeutungen tragen zu können. Eine genaue Untersuchung und Beachtung möglicher Wirkungs- und Bedeutungsebenen von akustischen Ereignissen ist für ein erfolgreiches Audiodesign somit von fundamentaler Wichtigkeit. Im Wesentlichen können die folgenden Wirkungs- und Bedeutungsebenen unterschieden werden: ï ï ï ï

Direkte Wirkungen Informationsgehalt – ikonische Verknüpfung Symbolgehalt – metaphorische Verknüpfung Bedeutung durch Konvention – abstrakte Verknüpfung

Sie korrespondieren im Wesentlichen auch mit den im Abschnitt 1.5 vorgestellten Ebenen der akustischen Wahrnehmung und tragen wie diese im Allgemeinen auch gleichzeitig zur Gesamtwirkung bei. 1.10.1 Direkte Wirkungen von akustischen Ereignissen Schallereignisse können ganz direkte und unmittelbare Wirkungen auf den menschlichen Organismus und die subjektive Befindlichkeit haben. Beispielsweise kann Musik die Puls- oder Atemfrequenz verändern, beruhigend oder anregend wirken etc. Bestimmte Frequenzen bzw. Frequenzmuster, die mit ausreichender Intensität auf den menschlichen Körper einwirken, können zu Übelkeit, Erbrechen oder anderen heftigen Körperreaktionen führen. Das von Kreide auf einer Tafel hervorgerufene Geräusch löst beispielsweise bei den meisten Menschen schon bei der bloßen Vorstellung ein unangenehmes Gefühl aus. Auch diverse Lautäußerungen, die bei Mensch und Tier mit grundlegenden Bedürfnissen in Verbindung stehen, werden unabhängig vom Kulturkreis ganz instinktiv verstanden und lösen unwillentlich direkte Wirkungen aus. Beispielsweise alarmieren Angstschreie und zwingen zum Handeln. Sie können den Körper förmlich durchdringen, sprichwörtlich in „Mark und Bein fahren“. Ähnliches gilt für Hunger, Freude, Lust etc. Interessanterweise ist es Menschen in vielen Fällen weitgehend


1.10 Wirkungs- und Bedeutungsebenen akustischer Ereignisse problemlos möglich, auch Angst-, Hunger-, Freuden- oder Lustschreie von Tieren instinktiv richtig zu bewerten bzw. zu verstehen. Auch in der Natur finden sich einige archetypische akustische Ereignisse, die weitgehend unabhängig vom kulturellen Umfeld instinktiv Wirkungen auslösen. Donner, Sturm oder Regen wären Beispiele dafür. Die unter bestimmten Umständen heilende oder schmerzlindernde Wirkung von Klang und Musik ist in fernöstlichen Kulturen seit Jahrtausenden bekannt. In der westlichen Gesellschaft werden diese direkten Wirkungen vor allem in der Musiktherapie mit Erfolg gezielt eingesetzt. Wie schon in Abschnitt 1.3.4 erwähnt, können akustische Ereignisse auch zur Stimmungsregulierung eingesetzt werden. Abhängig von ihrer Ausprägung können sie beruhigen oder aktivieren, ablenken oder auf etwas aufmerksam machen, fröhlich oder melancholisch stimmen. Ausgehend von der Wahrnehmungsebene der Überwachung gibt eine vertraute, gewohnte, gleichmäßige akustische Umgebung Sicherheit und beruhigt, während ungewohnte, starken und raschen Veränderungen unterworfene Sounds zu einer erhöhten Aufmerksamkeit führen und aktivierend wirken. Neben physiologischen Ursachen dürfte bei den direkten Wirkungen auch die stammesgeschichtliche Entwicklung des Menschen eine wichtige Rolle spielen, in der das Gehör beispielsweise als wichtiger Sensor für das rechtzeitige Erkennen von aus dem Hinterhalt drohenden Gefahren mitunter lebensrettend war. In der Medienproduktion werden spannungsgeladene, Gefahr vermittelnde Szenen häufig mit anhaltenden, oft auch als Drone bezeichneten Bassklängen vertont, die meist einen wesentlichen Beitrag zur Gesamtwirkung leisten. Erfahrungsgemäß können tiefe Sounds nur von entsprechend großen Objekten bzw. Kreaturen hervorgebracht werden. Außerdem ist die räumliche Ortung der auslösenden Schallquelle – sowohl was die Entfernung als auch was die Richtung betrifft – bei tiefen Frequenzen schwierig. Stammesgeschichtlich betrachtet haben akustische Ereignisse im tiefen Frequenzbereich aus diesen Gründen meist Gefahr signalisiert und Angst ausgelöst, was häufig als Erklärung für die Funktion derartiger Sounds im medialen Kontext angeführt wird. Auch wenn seit einigen Jahren in verschiedenen Disziplinen wie Biologie, Medizin oder Hirnforschung verstärkt zu den direkten Wirkungen von Klang und Musik geforscht wird, erscheinen diese Wirkungsmuster bisher wissenschaftlich noch vergleichsweise wenig aufgearbeitet. Einige Ergebnisse werden populärwissenschaftlich ausgeschlachtet. Ein bekanntes Beispiel ist der sogenannte Mozart-Effekt, bei dem der Musik von Wolfgang Amadeus Mozart in einem 1993 von Gordon Shaw und

45

Musikalische Ereignisse können zur Stimmungsregulierung eingesetzt werden.


46

1 Akustische Kommunikation Frances Rauscher durchgeführten Experiment schon nach zehnminütigem Hören eine Verbesserung der mentalen Fähigkeiten attestiert wird. Obwohl das Ergebnis dieser Studie bei diversen Wiederholungen nicht bestätigt werden konnte, wurde es immer wieder medial ausgeschlachtet und gewinnbringend vermarktet. Neben derartigen eher unseriösen und zweifelhaften Forschungsergebnissen liefern interdisziplinäre Forscherteams seit einigen Jahren aber auch immer mehr verlässliche, überaus interessante Erkenntnisse zu den direkten Wirkungen akustischer Ereignisse. Ihre Bedeutung für die Medienproduktion und gegebenenfalls daraus resultierende Einsatzmöglichkeiten im Sounddesign für Film, Fernsehen oder Markenkommunikation wurden bisher jedoch wenig erforscht und noch nicht systematisch aufgearbeitet. 1.10.2 Der Informationsgehalt akustischer Ereignisse

Schall- und Lautereignis sind identisch miteinander verknüpft.

Schallsignale können niemals als fassbares Objekt für sich alleine stehen, sondern sind nur als Folge eines vorangegangenen oder eventuell auch gleichzeitig ablaufenden physikalischen Prozesses denkbar. Das akustische Ereignis und der auslösende Prozess sind dabei untrennbar aneinander gekoppelt. Schallereignisse spiegeln daher auch die Eigenschaften der auslösenden Prozesse, sowie aller daran beteiligten Objekte wider. Sie weisen einen objektivierbaren Informationsgehalt auf, der Rückschlüsse ermöglicht auf die Schallquelle, die Anregung und auch den Raum, in dem das Ereignis ausgelöst wurde und sich der Schall ausbreitet. Das Schallereignis repräsentiert den gesamten zugrunde liegenden physikalischen Prozess und erhält auf diese Weise seine spezifische Bedeutung. Schall- und Lautereignis sind ikonisch miteinander verknüpft. Beispielsweise lassen die Geräusche von Regen oder Wind sofort auf deren Stärke und Beschaffenheit schließen. Fällt eine Tür ins Schloss, so kann man sowohl hören, ob diese aus Eisen oder Holz, sehr massiv oder eher filigran ist, als auch erkennen, ob die Tür ganz zaghaft geschlossen oder mit voller Wucht zugeschlagen wurde. Das Geräusch eines Fahrzeuges lässt jederzeit Rückschlüsse zu, ob es sich um ein Motorrad, einen PKW oder einen LKW handelt. Es lässt sich aber auch abschätzen, ob der Motor mit einer hohen oder niedrigen Drehzahl betrieben wird. Autofahrer werten diese Information ständig unbewusst aus und nutzen diese auch als Entscheidungskriterium für das Einlegen eines anderen Ganges. Müsste hierfür immer die visuell vermittelte Information des Drehzahlmessers ausgewertet werden, so wäre der Blick mitunter zu sehr vom Geschehen auf der Straße abgelenkt. Aus dem Geräusch eines vorbeifahrenden Automobils ist auch leicht hörbar,


1.10 Wirkungs- und Bedeutungsebenen akustischer Ereignisse ob es beschleunigt oder bremst, ob es sich nähert oder entfernt, oder in welcher Richtung es fährt. Man kann auch hören, ob die Fahrbahn trocken, nass oder schneebedeckt ist, ob es sich um Asphalt oder Schotter handelt etc. Mit etwas Übung kann das Motorengeräusch sogar einem konkreten Fahrzeugtyp zugeordnet werden. Wichtig ist, dass der Informationsgehalt von akustischen Ereignissen im Gegensatz zur visuellen Ebene nicht an den Oberflächen der Objekte hängenbleibt, sondern – über den Umweg dynamischer Aktionen – Aufschluss über deren physische, materielle Beschaffenheit geben kann. Das resultierende akustische Ereignis vermittelt immer auch die Qualität des gesamten Prozesses, also der Anregung und aller beteiligten Objekte. Diese Eigenschaft wird in der Technik beispielsweise bei der akustischen Überwachung von maschinellen Abläufen erfolgreich ausgenützt. Wenn ein Motor unrund läuft oder Bauteile Verschleißerscheinungen zeigen, so ist dies sofort am Geräusch zu erkennen. Auch in der Materialprüfung sind die akustischen Signale oft aufschlussreich. Ein billiges Möbelstück aus Spannplatten kann äußerlich einen durchaus massiven Eindruck erwecken und Qualität vortäuschen, doch schon durch einfaches Klopfen auf das Objekt wird rasch der wahre Kern offenbar. Geräusche von Schritten lassen Rückschlüsse auf die Beschaffenheit der Schuhe (z.B. Stöckelschuhe, Sandalen, Holzpantoffel), auf den Boden (z.B. Holz, Asphalt oder Schotter), das Schritttempo usw. zu. Mitunter kann sogar die persönliche Befindlichkeit der gehenden Person herausgehört werden. In der Regel kann am Schrittgeräusch erkannt werden, ob jemand in Eile ist, schnell läuft, gemütlich spaziert, stolpert, torkelt, ausgelassen und fröhlich herumhüpft etc. Bestimmte emotionale Grundstimmungen können somit nicht nur durch Melodien und Rhythmen in der Musik repräsentiert werden, sondern bereits in vergleichsweise einfachen akustischen Ereignissen stecken. Unbeteiligten Hörern mag das Weinen von verschiedenen Babys als ein undifferenziertes Geräusch erscheinen, das bei allen Kleinkindern zumindest recht ähnlich klingt. Eltern sind aber meist in der Lage, das Weinen ihres Kindes von zahlreichen anderen sofort zu unterscheiden. Sie wissen auch, ob das Kind aus Hunger oder vor Schmerzen oder aus Zorn über mangelnde Zuneigung schreit. Wie diese Beispiele zeigen, beinhalten schon einzelne akustische Ereignisse häufig sehr komplexe und dynamische Informationen. Im Allgemeinen ist es problemlos möglich, aus dem Schallereignis auf das Material, die Größe oder die Form der Schallquelle zu schließen. Man hört, wo sich diese befindet, ob sie in Bewegung ist etc. Auch die Beschaffenheit und die Größe des umgebenden Raumes können erkannt

47


48


Abb. 1.8 Möglicher Informationsgehalt eines Schallsignals

Informationsgehalt eines akustischen Ereignisses Schallquelle Ort Form Größe Material Bewegung

Wird ein Klang aus der ursprünglichen akustischen Szene herausgelöst und in einen neuen Kontext gestellt, so kann sich seine Bedeutung verändern.

Raum Art Größe

Anregung Art Stärke Rhythmus Geschwindigkeit Beschaffenheit des Auslösers

und Geschwindigkeit, Stärke, Art, Rhythmus und Beschaffenheit der Anregung zumindest näherungsweise bestimmt werden. Den Gegebenheiten des Informationsgehalts folgend, werden akustische Ereignisse häufig dem Entstehungsprozess, der Schallquelle und vor allem der Anregung entsprechend kategorisiert. Beispielsweise wird zwischen gestrichenen, geblasenen, gezupften oder angeschlagenen Klängen von Saiten-, Fell-, Holzblas- oder Blechblasinstrumenten unterschieden. All diese Klänge und Geräusche haben für die menschliche Wahrnehmung etwas Vertrautes. Komplexe, synthetisch erzeugte Klänge, die sich nicht eindeutig einem bekannten Entstehungsmechanismus zuordnen lassen, können hingegen rasch zu einer gewissen „Unsicherheit“ in der Wahrnehmung führen. Mit den technischen Mitteln der Schallaufnahme, -speicherung und -wiedergabe wurde es möglich, Schallereignisse von ihrer Quelle und ihrem Entstehungsprozess zu trennen. Schallsignale können dadurch aus ihrer ursprünglichen akustischen Szene herausgelöst, isoliert gehört oder in eine andere akustische Szene eingefügt werden. Auch in diesen Fällen ordnen Hörer dem Schallsignal meist instinktiv eine Quelle zu. Dabei unterscheidet sich diese zugeordnete Quelle möglicherweise von der Originalquelle des verwendeten Schallsignals, was zu Verwirrung oder Täuschung des Hörerlebnisses führen kann. Die Bedeutung des akustischen Ereignisses innerhalb des Gesamtkontexts kann sich dadurch zum Teil ganz wesentlich verändern. Diese Möglichkeit der Täuschung wird für die Nachvertonung von Filmen und Videos ausge-


1.10 Wirkungs- und Bedeutungsebenen akustischer Ereignisse nutzt. In vielen Fällen entspricht kaum eines der gehörten Geräusche dem Original. Der Beruf des Geräuschemachers oder Foley-Artists wird dadurch erst ermöglicht. () Die Tatsache, dass schon mit einem kurzen Schallsignal zum Teil eine Vielzahl von unterschiedlichen Nachrichten gleichzeitig übermittelt werden kann, ermöglicht in bestimmten Fällen eine recht effiziente Informationsübertragung. Abhängig von der konkreten Anwendung, können sich akustische Ereignisse hierfür besser als Schrift, Sprache oder auch optische Zeichen eignen. Die Entwicklung von Konzepten und Richtlinien zur effizienten Nutzung von akustischen Ereignissen für die Übermittlung und Darstellung von Information als Ergänzung und Unterstützung des visuellen Kanals ist somit eine wichtige Aufgabe für den Bereich Audiodesign, der in Fachdisziplinen wie Sonic Interaction Design eine wesentliche Rolle spielt. ()

49

Siehe Kap. 10

Siehe Kap. 10

1.10.3 Der Symbolgehalt von akustischen Ereignissen Wie schon im Abschnitt 1.6 erwähnt, werden Wirkung und Bedeutung eines Schallereignisses auch ganz wesentlich vom kulturellen, sozialen und historischen Umfeld der Wahrnehmung sowie von individuellen Prägungen, wie beispielsweise Vorwissen, allgemeine Bildung, persönliche Erfahrungen, Erinnerungen und speziellen Erwartungshaltungen sowie der aktuellen physischen und psychischen Befindlichkeit des Hörers mitbestimmt. In Abhängigkeit von diesen Faktoren werden Schallereignisse mit unterschiedlichen früher erfahrenen bzw. erlebten oder auch kulturgeschichtlich überlieferten Ereignissen in Verbindung gebracht. Akustische Ereignisse werden so zu Metaphern für diese Vorgänge und erhalten übergeordnete Bedeutung. Schall- und Lautereignis werden dabei assoziativ miteinander verknüpft. Ein bestimmtes Schallereignis kann also für Menschen aus unterschiedlichen Kulturen völlig verschiedene Bedeutungen haben. Mitteleuropäer assoziieren zum Beispiel Meeresrauschen häufig mit Urlaub und empfinden dieses akustische Ereignis als angenehm. Ein Fischer wird das gleiche Schallsignal hingegen als Geräusch seiner täglichen Arbeit empfinden. Er wird es kaum mehr wahrnehmen oder den darin enthaltenen Informationsgehalt über die Stärke der Brandung und die Richtung der Strömung auswerten oder es als unerwünschte Geräuschbelästigung empfinden. Der Symbolgehalt eines bestimmten akustischen Ereignisses kann sich freilich auch im Laufe der Zeit verändern. Noch vor wenigen Jahrzehnten bedeutete eine Schreibmaschine eine enorme Arbeitserleichterung und wurde daher mit technischem Fortschritt gleichgesetzt.

Erinnerungen und Assoziationen, subjektive Erfahrung, Vorwissen und Befindlichkeit beeinflussen Bedeutung und Wirkung von Schallereignissen!


50


Mittlerweile längst durch den Computer verdrängt, wird zumindest das Geräusch von alten Modellen bei vielen Menschen eher nostalgische Gefühle wecken. Jodeln wird von vielen Menschen genauso mit dem Alpenraum verEin vorsichtiger Umgang mit akustischen Symbo- knüpft, wie die Klänge eines Dudelsacks mit Schottland. Auch wenn die len sollte selbstverständ- Übermittlung oder Verdeutlichung bestimmter Bedeutungen mit sollich sein. chen Klischees in vielen Fällen gut funktionieren kann, sollte ein vorsichtiger, bewusster Umgang mit akustischen Symbolen selbstverständlich sein. Während manche akustischen Symbole zumindest während einer bestimmten zeitlichen Epoche in einem spezifischen Kulturkreis Gültigkeit haben, werden andere möglicherweise nur von einer einzigen Person verstanden. Lief zum Beispiel beim ersten Treffen mit der großen Liebe irgendein Song im Hintergrund, so wird dieser bei den betroffenen Menschen auch viele Jahre später noch Erinnerungen und Gefühle wachrufen, während eben dieser Song für andere Menschen völlig bedeutungslos sein mag. Ganz entscheidend für das Audiodesign ist die im Symbolgehalt akustischer Ereignisse begründete Tatsache, dass auch ganz ähnliche Schallereignisse, deren signaltheoretisch erfassten technischen Messwerte keine nennenswerten Unterschiede zeigen, zu völlig unterschiedlichen Lautereignissen führen können. Beispielsweise sind das Rauschen eines Wildbachs und der Lärm einer Autobahn in jeweils einiger Entfernung von der Schallquelle rein technisch betrachtet kaum zu unterscheiden, obwohl deren Wirkung und Bedeutung für viele Menschen nahezu gegensätzlich sind.

Abb. 1.9 Mögliches assoziativsemantisches Bedeutungsnetzwerk bei „Rauschen“ als Schallereignis

Stress

Bergsteigen

Hektik Gefahr

Gebirgsbach

Autobahn

Zivilisation schlechte Luft Technologie

gute Luft

Gebirge

hohes Tempo Lärm

aktive Erholung

Klettern

Rauschen

Technisches Gerät

Möven

unberührte Ruhe Natur Vogelzwitschern

Wellen Meer

Surfen

Brandung

Tsunami Defekt Sonne Strand Medien Sport kein Unglück schlechte Empfang Urlaub Qualität Hitze Nachrichten Freizeit Radio


1.10 Wirkungs- und Bedeutungsebenen akustischer Ereignisse Akustische Ereignisse repräsentieren im Allgemeinen also nicht nur die auslösende Aktion, die Schallquelle und das Umfeld, in dem sie zu hören sind, sondern können als Metapher auch für verschiedenste damit verbundene übergeordnete Bedeutungen stehen. Ein Schallsignal, das vom technischen Standpunkt als breitbandiges Rauschen bezeichnet wird, kann daher im Fall des Gebirgsbaches für die unberührte Natur genauso stehen, wie für moderne, hektische, lärmende Mobilität im Fall der Autobahn. Der jeweilige Kontext bestimmt also ganz entscheidend mit, wie das akustische Ereignis interpretiert, welcher Symbolgehalt ihm zugeordnet wird. Durch die assoziative Verknüpfung von Schall- und Lautereignis kann in weiterer Folge ein mitunter dichtes semantisches Beziehungsnetzwerk entstehen, das im Wahrnehmungs- genauso wie im Designprozess von großer Bedeutung ist. Seinen Assoziationen völlig freien Lauf zu lassen, kann in der Wahrnehmungsebene der Kreation und Konstruktion sinnstiftend, inspirierend, lustvoll sein. In der Ebene der Kommunikation muss hingegen unbedingt darauf geachtet werden, dass es beispielsweise aufgrund unterschiedlicher kultureller oder sozialer Kontexte nicht zu Fehlinterpretationen durch ungewollte Assoziationen kommt. Beim Audiodesign ist unbedingt darauf zu achten, dass nicht beliebige, möglicherweise völlig ungewünschte Wege in einem derartigen semantischen Netzwerk gewählt werden können. Es ist dafür erforderlich, nicht nur den einzelnen Sound, sondern die gesamte akustische Szene zu gestalten, wenn möglich auch auf das visuelle Umfeld Einfluss zu nehmen, dieses aber zumindest zu berücksichtigen und den kulturellen, sozialen, historischen Kontext zu beachten. Da auch die aktuelle persönliche Befindlichkeit des Hörers Auswirkungen auf die Wahrnehmung hat, kann es in manchen Fällen sinnvoll oder gar notwendig sein, diese zum Beispiel über stimmungsregulierende Wirkungen von Musik zu beeinflussen, wie das bei emotionsgeladener Filmmusik oft der Fall ist. 1.10.4 Bedeutung durch Konvention In vielen Fällen erlangen akustische Ereignisse erst durch bestimmte, im Allgemeinen nur innerhalb eines spezifischen Kulturkreises geltende Konventionen entsprechende Bedeutung. Zwischen Schall- und Lautereignis besteht eine abstrakte Verknüpfung, die bewusst erlernt werden muss, um verstanden zu werden. Vergleichbar mit einem nachrichtentechnischen Kommunikationsprozess wird die zu übermittelnde Botschaft von einem Sender im akustischen Ereignis enkodiert (verschlüsselt) und vom Empfänger mit Hilfe der erlernten Verknüpfung bzw. des

51

Der kulturelle, soziale, historische Kontext und das aktuelle akustische und visuelle Umfeld beeinflussen Bedeutung und Wirkung von Schallereignissen!


52


bekannten zugrunde liegenden Codes wieder dekodiert (entschlüsselt). Da jede wahrnehmbare Eigenschaft des Lautereignisses zu einem bedeutungstragenden Element werden kann, können auch komplexe Zeichensysteme konstruiert und vereinbart werden, mit denen sich vielschichtige Sachverhalte in kurzen akustischen Ereignissen effizient übermitteln lassen. Die wichtigsten und eindrucksvollsten Beispiele für auf Konventionen Beispiele für auf Konventionen beruhende, beruhende, komplexe akustische Zeichensysteme sind gesprochene komplexe akustische menschliche Sprachen. Differenziertheit und Effizienz der mehrstufigen Zeichensysteme sind Verknüpfungen von akustischen Ereignissen mit korrespondierenden gesprochene Sprachen. Bedeutungen, die von einzelnen Lauten über Wörter und Sätze zur übermittelten Botschaft reichen und dabei Komplexität und Einfachheit gleichermaßen vereinen, sind faszinierend. Wichtig ist, dass bei der sprachlichen Kommunikation neben der Konvention immer auch andere Bedeutungsebenen beteiligt sind. Beispielsweise haben Sprachrhythmus und -melodie, die Intensität und das Tempo der Sprache etc. immer auch einen spezifischen Informations- und Symbolgehalt, die vielschichtige Hinweise über die sprechende Person, deren Befindlichkeit und Umfeld geben können. Neben der Sprache existieren zahlreiche weitere auf Konventionen beruhende akustische Zeichensysteme, wie zum Beispiel das Morse-Alphabet, diverse Alarmsignale oder Hinweisgeräusche von technischen Geräten. Ganz allgemein werden akustische Ereignisse, die mit der Absicht Als funktionale Klänge werden akustische erzeugt werden, Informationen zu übermitteln, auf aktuelle Ereignisse Ereignisse bezeichnet, aufmerksam zu machen, Zustände zu beschreiben, über Prozessabläufe die zum Zweck der Überzu informieren etc., als funktionale Klänge bezeichnete. Aufgrund der mittlung von enkodierter für die Informationsgesellschaft immer wichtiger werdenden MenschInformation erzeugt Maschine-Kommunikation einerseits und der wohl unbestritten vorwerden. handenen visuellen Reizüberflutung andererseits, erhalten funktionale Klänge seit einigen Jahren von Forschung und Industrie mehr Beachtung. Vergleichsweise junge Anwendungs- und Forschungsgebiete wie Auditory Displays, Sonification oder Sonic Interaction Design befassen sich u.a. mit der Gestaltung geeigneter funktionaler Klänge und damit verbundenen möglichst effizienten Konventionen für die Verknüpfung von Schall- und Lautereignissen in spezifischen akustischen Zeichensystemen.


1.11 Die akustische Kommunikationskette

53

1.11 Die akustische Kommunikationskette 1.11.1 Das Kommunikationsmodell Will man die in den vorigen Kapiteln dargestellten Erkenntnisse im Zusammenhang mit akustischer Kommunikation einer einheitlichen Betrachtung unterziehen, so empfiehlt sich die Verwendung des aus Nachrichtentechnik und Informationswissenschaft bekannten Kommunikationsmodells nach Shannon. Abb. 1.10 Kommunikationsmodell nach Shannon

Rahmenbedingungen Sender

Kanal

Empfänger

Das Kommunikationsmodell setzt sich aus einem Sender, einem Kanal und einem Empfänger zusammen. Durch die gegebenen Rahmenbedingungen kann der Kommunikationsprozess beeinflusst werden. Jede dieser Teilkomponenten erfüllt innerhalb des Kommunikationssystems ganz bestimmte Aufgaben und hat dadurch auf die gesamte Funktion Einfluss. Im einfachsten Fall entspricht die Schallquelle dem Sender, der lufterfüllte Raum, in dem sich die Schallwelle ausbreitet, entspricht dem Kanal und der Hörer dem Empfänger. Das Zusammenwirken der einzelnen Teilkomponenten kann aber auch wesentlich komplexer sein. Oft wird durch mehrfaches Aneinanderreihen des einfachen Modells eine akustische Kommunikationskette gebildet. 1.11.2 Die Signalkette Die Kommunikationskette funktioniert dann einwandfrei, wenn die Information unverfälscht vom Empfänger aufgenommen wird. Es ist dafür nicht unbedingt erforderlich, dass alle beteiligten Teilsysteme völlig fehlerfrei sind. Unerlässlich ist es jedoch, dass die beteiligten Komponenten optimal aufeinander abgestimmt werden. Verfälschungen, die innerhalb der Kette auftreten, können aus Gründen einer effizienten Implementierung des Gesamtsystems toleriert werden, wenn sie sich an einer anderen Stelle rückgängig machen lassen.


54


Information

Neurosignale

Stimmbänder

Sprechtrakt

Elektromag. Welle

Rundfunksender

Mikrofon

Schallwelle im Raum

Rundfunkempfänger

Lautsprecher

Schallwelle im Raum

Ohr

Information

Neurosignale

Abb. 1.11 Kommunikationskette bei einer Rundfunkübertragung

Die ganz wesentliche Aufgabe von Audiodesign ist es, wie auch immer geartete Information von einem Sender zu einem Empfänger so gut wie möglich zu übertragen. Abhängig von der konkreten Anwendung kann dabei eine Vielzahl unterschiedlicher „Sender“ und „Empfänger“ auftreten. Die Komposition einer Musik, die im Betrachter eines Films die vom Regisseur beabsichtigte Stimmung hervorruft, kann damit genauso gemeint sein, wie die Gestaltung eines Alarmsignals oder der Hinweissound, der einen Anruf am Mobiltelefon anzeigt. 1.11.3 Die Umformung und Übertragung von Signalen Innerhalb eines Kommunikationsprozesses ist es oft notwendig, das akustische Ereignis von einer gegebenen Energieform in eine andere umzuwandeln. Dies geschieht zum Beispiel bei der Verwendung eines Mikrofons, das Schallenergie in elektrische Energie umwandelt, oder bei einem Rundfunksender, der elektrische in elektro-magnetische Energie umformt. Im Idealfall ändert sich ausschließlich die Energieform des Signals, nicht aber das Signal selbst. Bei einem idealen Wandler bleibt also die im Signal enthaltene Information unverfälscht erhalten.

Abb. 1.12 Signalübertragung


1.11 Die akustische Kommunikationskette Die Konstruktion solcher idealer Wandler ist technisch nicht oder nur mit sehr hohem Aufwand möglich. Im Realfall wird also das Nutzsignal nach der Wandlung dem ursprünglich gesendeten Signal nicht mehr identisch entsprechen. Der Informationsgehalt des ursprünglichen akustischen Ereignisses wird also im Allgemeinen durch eine Wandlung des Signals verfälscht. Solche Verfälschungen werden als Verzerrungen des Signals bezeichnet. Eine häufige Fehlerquelle bei der Übertragung von Signalen sind additive Störungen. Eine additive Fehlerquelle, die praktisch bei jeder technischen Übertragung auftritt, ist das Rauschen. Um das ursprünglich gesendete Signal nach der Übertragung trotzdem noch einwandfrei rekonstruieren zu können, ist es im Allgemeinen notwendig, dass die Amplitude des gesendeten Signals wesentlich größer als die Amplitude des Störsignals ist. Oberstes Ziel bei der Gestaltung einer akustischen Kommunikationskette ist keineswegs die Fehlerfreiheit jedes einzelnen Glieds. Es geht vielmehr darum, alle Teilkomponenten optimal aufeinander abzustimmen, um die Kette als Ganzes möglichst effizient und fehlerfrei zu halten. In jedem Fall ist es unbedingt erforderlich über sämtliche Teilsysteme innerhalb der Kommunikationskette Bescheid zu wissen, ihre Funktionsweise, ihre Stärken und Schwächen, ihre Möglichkeiten und Grenzen gut zu kennen. Im Allgemeinen ist es nur auf diese Weise möglich, ein System zu gestalten, mit dem die vorgegebenen Ziele erreicht werden können. Es sind also interdisziplinäre Betrachtungen notwendig, die zumindest ein Grundwissen in den Bereichen Audiotechnik, technische Akustik, Psychoakustik, Musikpsychologie, Musiksoziologie und allgemeine Musiklehre erfordern. Zum Beispiel ist der technische Aufwand, der bei Mehrkanalton betrieben wird, völlig vergebens, wenn Komponist und Sounddesigner diese Möglichkeiten nicht ausnutzen oder die Abspieleinrichtungen, Lautsprecher und Raumakustik in den Kinos sich dafür nicht eignen. Verzerrungen, die bei einer Wandlung auftreten, sollen bei einer anderen nach Möglichkeit wieder rückgängig gemacht werden. Gelegentlich können auch additive Störgrößen im Zuge einer nachfolgenden Wandlung im Vergleich zum eigentlichen Nutzsignal verringert werden. Zu den besten Beispielen für eine derart effiziente Gestaltung der Kommunikationskette ist das MP3-Format, das zu den wichtigsten audiotechnischen Innovationen der letzten Jahrzehnte gehört und die Distribution von Musik quasi revolutioniert hat. Indem besondere psychoakustische Eigenschaften des menschlichen Gehörs bei der digitalen Speicherung von Audiodaten berücksichtigt werden, kann dabei die erforderliche Datenrate um einen maßgeblichen Faktor verringert werden. ()

55 Bei einer Umwandlung wird das Signal häufig verzerrt!

Rauschen ist eine häufige additive Fehlerquelle!

Siehe Abschn. 6.4


56

1 Akustische Kommunikation Unbedingt zu beachten ist, dass diese Überlegungen keineswegs nur technische, sondern durchaus auch kreativ-gestalterische oder sogar künstlerische Aspekte von Audiodesign betreffen. Stur auf einer gestalterischen Idee zu beharren, wird kaum zum angestrebten Ziel führen, wenn diese große technische Problemen mit sich bringt oder vom Hörer als letztem Glied der Kette mangels Vorwissen nicht richtig bewertet werden kann.


57

2 Beschreibung der Signalkette Die Gestaltung von akustischen Kommunikationsketten zur bestmöglichen Übertragung bestimmter Nachrichten und Informationen ist eine wesentliche Aufgabe von Audiodesign. Die Art der Nachricht oder der Information kann vielfältig sein. Es kann sich um ein Geräusch genauso handeln wie um einen Rhythmus, eine Melodie, ein ganzes Musikstück, einen Klang oder Sprache usw. Eine von den konkreten Anforderungen zunächst weitgehend unabhängige Beschreibung sowohl der Schallereignisse selbst als auch der einzelnen Glieder stellt eine wichtige Voraussetzung für die Gestaltung dar.

2.1 Beschreibung von Signalen Die physikalische Repräsentation der zu übermittelnden Information wird als Signal bezeichnet. Wie in Abschnitt 1.11 dargestellt, kann sich die Energieform des Signals entlang der Kommunikationskette auch mehrmals ändern. Die Eigenschaften sollten aber unabhängig von der Energieform beschrieben werden können. Mit Amplitude, Grundfrequenz und Signalform bzw. Spektrum wurden die wichtigsten physikalischen Kenngrößen bereits im Abschnitt 1.8 kurz erläutert. Werden zusammengesetzte Schallsignale wie Sprache oder Musik außer Acht gelassen, so können akustische Ereignisse erfahrungsgemäß in zwei große Gruppen eingeteilt werden: Klänge und Geräusche. Im Abschnitt 1.7 wurde festgehalten, dass Klängen stets Lautstärke, Tonhöhe und Klangfarbe bzw. die entsprechenden physikalischen Parameter Amplitude, Frequenz und Signalform eindeutig zugeordnet werden können. Im Folgenden soll dieses erste Unterscheidungskriterium etwas näher untersucht und ausgebaut werden.


58

2 Beschreibung der Signalkette

Abb. 2.1 SignalformenvonKlängen und Geräuschen

2.1.1 Periodisch oder aperiodisch Bei näherer Betrachtung der Signalformen unterschiedlicher Klänge und Geräusche fällt rasch auf, dass Klänge zumindest annähernd regelmäßige, sich mehr oder weniger gleichförmig wiederholende Abschnitte aufweisen. Die Formen von Geräuschen erscheinen hingegen völlig unstrukturiert. Wiederholt sich die Form eines Signals nach einer bestimmten Zeitdauer T identisch, so ist das Signal periodisch. Für periodische Signale s(t) gilt somit definitionsgemäß: s(t) = s(t + T) Die Zeitdauer T wird, wie schon in Abschnitt 1.8.3 erwähnt, als Periodendauer oder auch kurz als Periode der Schwingung bzw. des Signals bezeichnet. Sieht man von einigen elektronisch erzeugten Ausnahmen ab, so wird die Beziehung s(t) = s(t+T) auch von Klängen nie exakt, sondern stets nur näherungsweise erfüllt. Da aber Dauer und Form der einzelnen Schwingungsperioden nur wenig voneinander abweichen, wird meist von quasiperiodischen Signalen gesprochen. Die Grundfrequenz entspricht dann dem Reziprokwert der mittleren Periodendauer.


2.1 Beschreibung von Signalen

59

Bei Geräuschen weist die Signalform keine gleichförmigen Wiederholungen ihrer Form auf. Solche Signale, die diese Bedingung für Periodizität nicht einmal näherungsweise erfüllen, werden auch aperiodisch genannt. Definitionsgemäß kann für ein aperiodisches Signal keine Periodendauer und somit auch keine Grundfrequenz bestimmt werden.  Siehe Webseite zum Buch () 2.1.2 Harmonische Töne Von einem harmonischen Ton wird dann gesprochen, wenn das Signal durch die Winkelfunktionen Sinus und Kosinus beschrieben werden kann. Ein harmonischer Ton ist immer periodisch. In der Natur kommen harmonische Töne selten vor, da sie nur als Folge einfachster Schwingungssysteme, wie Feder-Masse-System, Pendel, aus Spule und Kondensator bestehender elektronischer Schwingkreis oder Stimmgabel, zu hören sind. Allerdings können sie – wie in der Folge gezeigt wird – als Grundbausteine jeder beliebigen anderen Signalform angesehen werden und sind dabei von fundamentaler Bedeutung.

Harmonische Töne sind die Grundbausteine jedes beliebigen Schallsignals.

2.1.3 Komplexe Töne – Klänge Der französische Mathematiker Jean Baptiste Joseph Fourier konnte zeigen, dass sich jedes periodische Signal aus harmonischen Teiltönen zusammensetzen lässt, deren Frequenzen ganzzahlige Vielfache der Grundfrequenz des Signals sind. Die Teiltöne eine Schallsignals werden auch als Grundton und Obertöne bezeichnet. Der Grundton entspricht dem Teilton mit der Grundfrequenz, der erste Oberton jenem mit der zweifachen, der zweite jenem mit der dreifachen Grundfrequenz usw. Ein periodisches Schallsignal wird im physikalischen bzw. akustischen Kontext auch als harmonisch komplexer Ton bezeichnet und kann mathema-  Siehe Webseite tisch folgendermaßen beschrieben werden: () zum Buch M

s(t)HKT =

 S · sin(2 ·  · n · f · t + ·  ) n=1

n

n

Die Amplitudenfaktoren Sn können dabei auch gleich null sein. Auch der Grundton muss nicht zwingend im Signal enthalten sein. Die Grundfrequenz und somit die wahrgenommene Tonhöhe des Schallsignals entspricht aber immer – also auch dann, wenn der Grundton selbst im Signal gar nicht enthalten ist – dem größten gemeinsamen Teiler aller am Signal beteiligten Teilfrequenzen.


60


Siehe Abschn. 9.3.1

Aus der menschlichen Hörerfahrung sind viele Schallereignisse bekannt, bei denen sich die Tonhöhe zwar nicht exakt bestimmten lässt, die aber trotzdem einen ausgeprägten klanglichen Charakter aufweisen und daher kaum als Geräusch bezeichnet werden. Wichtige Beispiele für solche Schallereignisse sind Klänge von Glocken, Pauken, Gongs etc. Diese Schallsignale setzen sich meist zwar ebenfalls aus mehreren harmonischen Teiltönen zusammen, ihre Teilfrequenzen sind aber keine ganzzahligen Vielfachen einer Grundfrequenz. Diese wichtige Erkenntnis, dass Klänge durch Addition mehrerer harmonischer Töne zusammengesetzt werden können, wird bei der additiven Klangsynthese in die Praxis umgesetzt. () 2.1.4 Das Frequenzspektrum

Im Spektrum eines Signals werden die Amplituden und Frequenzen der Teiltöne dargestellt. Das Spektrum von Klängen ist näherungsweise linienförmig.



Da sich Klänge aus einzelnen harmonischen Tönen zusammensetzen, können sie durch deren Amplitudenfaktoren Sn und die zugehörigen Frequenzen fn beschrieben werden. Die konkrete Zusammensetzung bestimmt die Signalform und ist daher gemäß Abschnitt 1.9 auch ein wichtiges Kriterium für die Klangfarbe. Die Amplituden der Teiltöne sind demnach bedeutende Eigenschaften von Schallsignalen, obwohl sie sich aus der Signalform nicht direkt ermittelt lassen. Um rasch feststellen zu können, welche Teiltöne wie stark im Signal enthalten sind, ist es daher sinnvoll, statt dem zeitlichen Verlauf s(t) des Signals gleich die Amplitudenfaktoren in Abhängigkeit von ihren Frequenzen zu betrachten. Diese Art der Darstellung wird als Frequenzspektrum S( f ) oder auch nur kurz Spektrum des Signals bezeichnet. Das Spektrum eines harmonischen Tones besteht definitionsgemäß immer aus einer einzigen Spektrallinie. Da sich periodische Signale aus mehreren harmonischen Tönen zusammensetzen, muss sich auch ihr Spektrum aus einer Anzahl von Spektrallinien zusammensetzen. Da Klänge zumindest quasiperiodisch sind, können sie näherungsweise durch ein diskretes Linienspektrum beschrieben werden. Allerdings führen die Abweichungen von der Periodizität zu einer mehr oder weniger starken Verbreiterung der Linien, die so zu stark ausgeprägten Maxima im Spektrum werden. () Sinus, Dreieck, Rechteck, Sägezahn und Rauschen stellen für Audiotechnik und -design wichtige Basissignale dar, die u.a. bei der im Abschnitt 9.3 behandelten subtraktiven Klangsynthese eine entscheidende Rolle spielen. Ihre Signalformen, Spektren und die sich daraus ergebenden akustischen Eigenschaften werden auf der Webseite zum Buch ausführlich dargestellt. ()



61

2.1.5 Geräusche Wie im Abschnitt 1.3.2 bereits erwähnt, ist es nicht möglich, für Geräusche eine eindeutige Grundfrequenz zu bestimmen. Aperiodische Signale können daher auch nicht durch additive Überlagerung harmonischer Teiltöne beschrieben werden, deren Frequenzen einem Vielfachen ihrer Grundfrequenz entsprechen. Das Spektrum eines Geräuschs kann daher keinesfalls diskret und linienförmig sein. Trotzdem ist es möglich und sinnvoll, auch für ein Geräusch ein Frequenzspektrum anzugeben, das dessen Zusammensetzung beschreibt und als Kriterium für die Klangfarbe angesehen werden kann. Da bei periodischen Signalen der Abstand zwischen zwei Spektrallinien immer ein ganzzahliges Vielfaches der Grundfrequenz betragen muss, liegen die Spektrallinien umso enger beisammen, je kleiner die Grundfrequenz bzw. je größer die Periodendauer ist. Der Übergang zu einem aperiodischen Signal könnte gedanklich so vollzogen werden, dass die Periodendauer als unendlich angenommen wird. Da der Abstand zwischen den Spektrallinien dann gleich null sein muss, wird aus den diskreten Linien ein kontinuierliches Spektrum, das charakteristisch für Geräusche ist. Mathematisch betrachtet, wird dabei aus der Summe der in Abschnittt 2.1.3 beschriebenen Fourier-Reihe ein Integral: Die FourierTransformation. Als spezielles Geräusch spielt Rauschen in Audiotechnik und -design einerseits als unvermeidbare Störgröße eine Rolle, ist aber andererseits auf Grund seiner besonderen Eigenschaften auch ein wichtiges Basissignal in der elektronischen Klangsynthese. Weißes Rauschen ist definitionsgemäß dadurch gekennzeichnet, dass statistisch gemittelt alle Frequenzen in gleicher Intensität zu diesem Signal beitragen. Es stellt somit den Gegenpol zu einem harmonischen Ton mit einer einzigen Frequenzkomponente dar. Das Spektrum von weißem Rauschen ist über den gesamten Frequenzbereich konstant. Bei rosa Rauschen nimmt die Intensität hingegen pro Frequenzverdopplung um 3 dB ab. Ein wichtiges Unterscheidungskriterium für Geräusche ist, welche Bereiche sie im Frequenzspektrum beanspruchen. Weist das Spektrum über einen weiten Bereich nennenswerte Anteile auf, so spricht man von Breitband-Geräuschen. Konzentriert sich das Spektrum hingegen auf einen vergleichsweise engen Frequenzbereich, so handelt es sich um schmalbandige Geräusche. Beispielsweise kann zwischen den geräuschhaften Sprachlauten „SCH“ und „S“ vor allem aufgrund deren Bandbreite unterschieden werden. Je schmalbandiger das Spektrum ist, desto mehr nähert es sich einer Spektrallinie an. Schmalbandige Geräusche können

Das Spektrum von Geräuschen hat einen kontinuierlichen Verlauf.

Weißes Rauschen, das definitionsgemäß alle Frequenzen mit gleicher Amplitude enthält, stellt den Gegenpol zu einem harmonischen Ton mit einer einzigen Frequenz dar.


62


Abb. 2.2 Zeit- und Frequenzbereich


Die Fast Fourier Transformation (FFT) ist ein effizienter Algorithmus zur Berechnung des Spektrums eines digitalen Signals.

daher auch Tonhöhenempfindungen auslösen oder zumindest einem Frequenzbereich zugeordnet werden. So wird zum Beispiel von hohem Zischen und tiefem Rumoren gesprochen. () 2.1.6 Fourier-Transformation, Zeit- und Frequenzbereich Mit Hilfe der Fourier-Transformation ist es möglich, für jedes beliebige Signal das entsprechende Spektrum zu ermitteln. Es lässt sich auf diese Weise feststellen, welche Frequenzen bzw. welche Frequenzbereiche wie stark im Signal enthalten sind. Es ist also möglich, über die FourierTransformation eines Signals aus dessen Zeitbereich in dessen Frequenzbereich zu gelangen. Beide Signalbeschreibungen stehen gleichwertig nebeneinander. Die inverse Fourier-Transformation ermöglicht umgekehrt, aus dem Spektrum des Signals den entsprechenden Zeitverlauf zu ermitteln. Mit der Fast Fourier Transformation (FFT) steht ein effizienter Algorithmus zur Verfügung, der in einigen aktuellen Softwarepaketen für die Audiobearbeitung implementiert ist. Zu beachten ist dabei, dass die Frequenzauflösung dieses Algorithmus nicht beliebig genau ist, sondern über die so genannte FFT-Size beeinflusst werden kann. Je größer diese gewählt wird, desto genauer ist das berechnete Spektrum. Genau genommen kann ein Signal entweder im Zeit- oder im Frequenzbereich betrachtet werden. Zu beachten ist, dass in der zeitlichen Darstellung keine Information über die spektrale Zusammensetzung und umgekehrt im Spektrum keine Zeitinformation enthalten ist. Das heißt, dass im Spektrum nur erkannt werden kann, wie stark eine bestimmte Frequenz in einem Signal enthalten ist, jedoch nicht wie lange. Nur spezielle Zeit-Frequenz-Darstellungen wie zum Beispiel das Spektogramm ermöglichen meist mittels Pseudo-3D-Diagramm gleichzeitig sowohl den zeitlichen Verlauf als auch die spektrale Zusammensetzung eines Signals zu betrachten. Dies ist aber nicht mit beliebiger Genauigkeit möglich. Vereinfacht ausgedrückt, wird bei diesen Darstellungen



63

Abb. 2.3 Spektogramm des Geräuschs eines rauschenden Baches

das Signal in kurze zeitliche Abschnitte zerlegt und für diese dann das Spektrum berechnet. Je länger diese Abschnitte sind, desto schlechter ist zwar die zeitliche Auflösung, desto besser aber die Frequenzauflösung. 2.1.7 Gliederung des Frequenzbereichs Der mit dem menschlichen Gehör erfassbare Frequenzbereich wird zunächst grob in drei große Bereich unterteilt: Bässe, Mitten und Höhen. Der Bassbereich reicht von 20 bis etwa 250 Hz, die tiefen Mitten erstrecken sich von ca. 250 bis 2000 Hz und die hohen Mitten von 2 kHz bis 4 kHz. Der Bereich der Höhen liegt oberhalb von 4 kHz. Die Tonhöhen bzw. die Grundfrequenzen gebräuchlicher Musikinstrumente fallen in einen Frequenzbereich von etwa 25 bis zu 3500 Hertz. Die Klangfarben akustischer Ereignisse werden oft durch Adjektive wie dumpf, hohl, warm, brillant, schrill, metallisch, hölzern, durchdringend usw. charakterisiert. Eine Zuordnung von technisch messbaren Parametern zu solchen verbalen Beschreibungen wäre zwar für das Audiodesign überaus hilfreich, gelingt bisher aber bestenfalls in Ansätzen. Einerseits sind verbale Beschreibungen mehr oder weniger subjektiv geprägt, andererseits fehlen aber auch umfassende wissenschaftliche Untersuchungen dieser Frage. Falls gelegentlich doch solche Zuordnungen versucht werden, so beruhen diese vor allem auf praktischen Erfahrungen von Tontechniker oder Arrangeuren. Ein dumpfer Klang weist in der Regel vergleichsweise wenige Anteile im höheren Frequenzbereich auf. Liefert der hohe Frequenzbereich hin-


64

2 Beschreibung der Signalkette gegen noch wichtige Beiträge zum akustischen Ereignis, so wird dieses als brillant wahrgenommen. Sind die hohen Frequenzen zu stark ausgeprägt, so wird das Signal als schrill empfunden. Bei einem metallischen Klang sind die Teiltöne nicht exakt ganzzahlige Vielfache der Grundfrequenz, sondern leicht gegeneinander verstimmt. 2.1.8 Der zeitliche Verlauf von Schallsignalen

 Siehe Webseite zum Buch Mikroskopischer Zeitbereich: 0,05 ms < t < 50 ms Zeitbereich der Transienten: 50 ms < t < 150 ms

Makroskopischer Zeitbereich: t > 150 ms

Bei der Untersuchung von Schallsignalen spielen zumindest drei unterschiedliche Zeitbereiche eine Rolle: der mikroskopische Zeitbereich, der Zeitbereich der Transienten und der makroskopische Zeitbereich. () Die eigentlichen Schwingungen und Wellen, die lokalen Druckschwankungen im Ausbreitungsmedium, werden durch den so genannten mikroskopischen Zeitbereich zwischen 0,05 und 50 Millisekunden beschrieben. Zur Beschreibung der Vorgänge in diesem Bereich eignet sich im Allgemeinen das Spektrum besser als der Zeitverlauf. Bei fast allen Schallereignissen sind Frequenzen und Amplituden nicht konstant, sondern verändern sich ständig innerhalb bestimmter Grenzen. Diese geringfügigen Variationen der Signaleigenschaften werden im Zeitbereich der Übergangsklänge oder Transienten zwischen 50 und ca. 150 Millisekunden beschrieben. Auch die Einschwingphase vom Beginn eines Signals bis zum Erreichen der maximalen Amplitude kann meist in diesem Zeitbereich beschrieben werden. Sie ist für das Erkennen bestimmter Schallsignale – vor allem von manchen Instrumenten – von großer Bedeutung. Um die Struktur von Klängen oder Geräuschen erfassen zu können, müssen freilich noch größere Zeitintervalle betrachtet werden. Die Beschreibung des zeitlichen Gesamtverlaufes erfolgt im makroskopischen Zeitbereich. Dieser kann von ca. 150 Millisekunden bei einem kurzen, perkussiven Klang bis zu mehreren Stunden bei einer langen Oper, die ja schließlich ebenso als akustisches Ereignis aufgefasst werden kann, reichen. Formaler Aufbau eines Musikstücks, Tempo, Metrum und Rhythmus fallen ebenso in diesen Zeitbereich wie die Hüllkurve, die den Verlauf der Amplitude eines Schallereignisses beschreibt. Die Hüllkurve kann grob in die vier Phasen Attack, Decay, Sustain und Release unterteilt werden. Dieses vierphasige, auch als ADSR-Hüllkurve bezeichnete Modell vereinfacht die realen Verhältnisse natürlicher Schallereignisse zwar meist stark, ermöglicht aber ein besseres Verständnis der zeitlichen Struktur. Die Dauer der so genannten Einschwingphase wird durch die AttackTime tA bestimmt. Am Ende dieser Phase erreicht die Hüllkurve eines



65

Abb. 2.4 ADSR-Hüllkurve

akustischen Ereignisses ihr Maximum. Bei angeschlagenen oder angezupften Klängen ist die Attack-Time im Allgemeinen recht kurz. Angeblasene oder gestrichene Klänge erreichen ihr Amplitudenmaximum hingegen erst nach einer etwas längeren Zeit. Unmittelbar an den Einschwingvorgang anschließend folgt eine erste Dämpfungsphase, in der die Eigenschwingungen des Systems abklingen. Ihre Dauer wird als Decay-Time tD bezeichnet. Alle Schallsignale, die nicht, wie bei Streich- oder Blasinstrumenten, andauernd in Schwingung gehalten werden, sondern nur durch eine einmalige Anregung ausgelöst werden, enden nach dieser Phase. Perkussive Klänge haben somit meist nur eine zweiphasige Hüllkurve. Die Sustain-Time tS gibt die Dauer der dritten Phase der Amplitudenhüllkurve eines Schallsignals an. Sie wird als Aushaltephase oder als quasistationärer Abschnitt des akustischen Ereignisses bezeichnet. Die externe Anregung des Klanges ist in diesem Abschnitt ein wesentlicher klangbestimmender Faktor. Die Amplitude bleibt während der SustainTime zumindest annähernd konstant und wird als Sustain-Level bezeichnet. Da sich im Allgemeinen auch die Zusammensetzung des Schallsignals in dieser Phase nur wenig ändert, kann die Aushaltephase gut durch das Spektrum dargestellt werden. Nach Beendigung der externen Anregung folgt die Ausklingphase des Schallsignals, deren Dauer durch die Release-Time tR beschrieben wird. Ein Schallereignis endet im Allgemeinen nicht abrupt, sondern verklingt allmählich. Die Release-Time wird dabei einerseits durch die Dämpfung des Schwingungssystems und andererseits durch die Nachhallzeit des Raumes bestimmt.


66

2 Beschreibung der Signalkette 2.1.9 Effektivwert und Pegel eines Signals Eine weitere wichtige Eigenschaft von Schallsignalen ist ihre Lautstärke, die gemäß Abschnitt 1.8 von der Amplitude des Signals abhängig ist. Werden die Lautstärken unterschiedlicher Schallereignisse verglichen und dabei die Amplituden betrachtet, so lässt sich feststellen, dass nicht die maximale, sondern eher die durchschnittliche Amplitude entscheidend ist. Die Berechnung des arithmetischen Mittelwerts aller Momentanamplituden wird bei Schwingungen aber kaum zum Ziel führen, da sich positive und negative Signalwerte gegenseitig aufheben. Um die mittlere Amplitude von Signalen trotzdem vergleichen und beurteilen zu können, wurde daher der so genannte Effektivwert eingeführt. Das Signal wird bei der Effektivwertbildung zunächst quadriert, sodass keine negativen Anteile mehr auftreten können. Dann wird der Mittelwert des quadrierten Signals gebildet und anschließend die Quadratwurzel daraus gezogen, um die Quadrierung wieder rückgängig zu machen.

Abb. 2.5 Die durchschnittliche Amplitude als Maß für die empfundene Lautstärke

Der Effektivwert ermöglicht einen gemittelten Vergleich von Signalamplituden und unterscheidet sich i.A. vom Maximalwert.

s effektiv 

1 2 s (t )dt T

 T

Um die Stärke eines Signals richtig einschätzen und bewerten zu können, muss es meist mit einem Referenzwert verglichen werden. Denkbar wäre zum Beispiel ein Vergleich zwischen Eingangs- und Ausgangsgröße eines Systems oder ein Vergleich mit einem gegebenen Normwert. Das Verhältnis von zwei Größen stellt eine geeignete mathematische Relation für derartige Vergleiche dar. Da die zu vergleichenden Werte unter Umständen auch sehr stark voneinander abweichen können und ihr Verhältnis somit sehr groß bzw. klein sein kann, werden solche Verhältnisse im Allgemeinen logarithmiert. Das logarithmische Verhältnis zweier Leistungsgrößen wird als Pegel bezeichnet.


2.2 Die Eigenschaften von Systemen

L P  10  lg

PA dB PE

67 Das logarithmische Verhältnis zweier beliebiger Größen wird als relativer Pegel bezeichnet.

Da es sich bei Pegeln um Verhältnisse handelt, sind es dimensionslose Größen. Um Verwechslungen vorzubeugen, werden sie jedoch mit Dezibel (dB) gekennzeichnet. Leistungsgrößen sind proportional zum Quadrat der Amplitude eines Signals. Pegel können somit auch aus Amplitudenwerten des Signals wie Strom, Spannung, Schalldruck, Schwingungsauslenkung, etc. ermittelt werden:

LP  10 lg

sA s PA dB  10 lg( A effektiv)2 dB  20 lg effektiv dB PE sEeffektiv s Eeffektiv

Bei der Betrachtung von Pegelwerten muss zwischen absoluten und relativen Pegeln unterschieden werden. Bei relativen Pegeln werden zwei beliebige Größen aufeinander bezogen. Eine Verstärkung der Signalamplitude um den Faktor zwei entspricht unabhängig von den konkreten Werten von Eingangs- und Ausgangssignal immer einem Pegel von rund sechs Dezibel. Bei absoluten Pegeln ist die Bezugsgröße durch einen Normwert fix vorgegeben. In der Akustik wird als Bezugswert eine Schallintensität von 10–12 W/m2 bzw. ein Schalldruck von 20 Pa verwendet. Absolute Schallpegel werden üblicherweise mit dBSPL gekennzeichnet, wobei SPL für Sound Pressure Level steht. Ein Schallpegel von 120 dBSPL entspricht einer Schallintensität von 1 W/m2.

2.2 Die Eigenschaften von Systemen Die einzelnen Teilkomponenten einer beliebigen akustischen Kommunikationskette werden ganz allgemein als Systeme bezeichnet. Wichtige technische Systeme einer akustischen Kommunikationskette sind zum Beispiel Mikrofone, Lautsprecher, Mischpulte oder diverse Wiedergabegeräte. 2.2.1 Lineare und nichtlineare Verzerrungen

Abweichungen des Signals von seiner ursprünglichen Form nach der Umwandlung in einem System werden Verzerrungen genannt und sind im Allgemeinen unerwünscht. Können diese Fehler beispielsweise durch ein

Bei absoluten Pegeln ist der Bezugswert genormt.

Schallpegel beziehen sich auf eine Intensität von 10–12 W/m²


68


Bei nichtlinearen Verzerrungen entstehen neue Obertöne.

nachgeschaltetes Korrektursystem wieder rückgängig gemacht werden, so wird von linearen, andernfalls von nichtlinearen Verzerrungen bzw. Systemen gesprochen. Bei linearen Verzerrungen werden zwar die Amplituden der Teiltöne verändert, es kommen aber keine neuen Spektralkomponenten hinzu. Charakteristisch für nichtlineare Verzerrungen ist hingegen vor allem das Auftreten neuer Teiltöne, die im ursprünglichen Signal nicht enthalten waren. Da solche Fehler daher in vielen Fällen unangenehm und störend wirken, müssen sie unbedingt vermieden oder zumindest sehr klein gehalten werden. 2.2.2 Der Klirrfaktor eines Systems

Der Klirrfaktor eines nichtlinearen Systems ist von der Amplitude des Eingangssignals abhängig.

Ist die Amplitude des Eingangssignals zu groß, so kommt es zu unangenehmen Störungen auf Grund einer Übersteuerung des Systems.

Die meisten audiotechnischen Systeme sind streng genommen nichtlinear. Der Hörer empfängt somit ein anderes Signal als ursprünglich beabsichtigt. Unter Einhaltung bestimmter Rahmenbedingungen ist es aber im Allgemeinen möglich, die Nichtlinearität vernachlässigbar klein zu halten, die Systeme als näherungsweise linear zu betrachten und die tatsächlichen Abweichungen von der Linearität durch den so genannten Klirrfaktor des Systems (Total Harmonic Distortion, THD) zu beschreiben. Ein geeignetes Maß für die Nichtlinearität eines Systems stellen Anzahl und Stärke der neu entstandenen Teiltöne dar. Der Klirrfaktor entspricht definitionsgemäß dem Verhältnis des Effektivwerts aller Oberwellen zum Effektivwert des Gesamtsignals am Ausgang des nichtlinearen Systems, das mit einer harmonischen Schwingung angesteuert wird. Es kann gezeigt werden, dass der Klirrfaktor und damit auch die unerwünschten Verzerrungen umso geringer sind, je kleiner die Amplitude des Eingangssignals ist. Übersteigen die Eingangsamplitude und somit auch der Klirrfaktor einen von der jeweiligen Anwendung abhängigen zulässigen Höchstwert, so wird von Übersteuerung des Systems gesprochen. In den Datenblättern von Mikrofonen wird üblicherweise ein Grenzschalldruck angegeben, damit der Klirrfaktor kleiner als ein Prozent bleibt. Für professionelle Aufnahmegeräte sollte der Klirrfaktor unter 0,005 % bleiben. Multieffektgeräte für den Liveeinsatz können einen Klirrfaktor von rund 0,01 % aufweisen. 2.2.3 Aussteuerung, Systemdynamik, Signal-Rausch-Abstand

Schon allein um Übersteuerungen zu vermeiden, ist es notwendig, die Amplitude des Eingangssignals an die Anforderungen des Systems bestmöglich anzupassen. Diese Anpassung der Signalamplitude wird als Aussteuerung bezeichnet. Die obere Grenze der Aussteuerung wird vom Klirrfaktor bestimmt.



69

Um nichtlineare Verzerrungen zu verhindern, soll die Eingangsamplitude so klein wie möglich gehalten werden. Allerdings sind der Aussteuerung nach unten durch das in technischen Systemen immer vorhandene Rauschen Grenzen gesetzt. Da der Effektivwert des Nutzsignals immer deutlich höher als jener des Rauschens gewählt werden muss, damit eine störungsfreie akustische Kommunikation garantiert werden kann, ist auch eine untere Grenze der Aussteuerung einzuhalten. Das Verhältnis von Nutzsignalleistung PS zu Rauschleistung PN wird als Signal-Rausch-Verhältnis (Signal-to-Noise-Ratio, SNR) bezeichnet und in Dezibel angegeben: SNR  10  lg

PS dB PN

Die störende Rauschleistung hängt vor allem von der Qualität der verwendeten Bauteile ab und kann daher im Wesentlichen nur bei der Konstruktion des Systems beeinflusst werden. Neben der Wahl möglichst guter Systeme bleibt dem Anwender von Verstärkern, Mikrofonen, Mischpulten, Effektgeräten usw. zur Verbesserung des SNR nur das Erhöhen der Signalleistung bzw. der -amplitude. Das Verhältnis von oberer zu unterer Aussteuerungsgrenze wird als Dynamik des Systems bezeichnet. 2.2.4 Frequenzgang

Bei linearen Systemen werden keine neuen Teiltöne erzeugt, sondern nur die Amplituden vorhandener Spektralkomponenten verändert. Das Verhältnis des Spektrums des Ausgangssignals SA( f ) zum Spektrum des Eingangssignals SE( f ) eignet sich daher zur Beschreibung von linearen Systemen. Es wird als Frequenzgang H( f ) oder auch Übertragungsfunktion des Systems bezeichnet: H( f ) 

SA ( f ) SE ( f )

Ist der Frequenzgang eines Systems bekannt, so kann für jedes beliebige Spektrum am Eingang, das entsprechende Spektrum am Ausgang des Systems vorhergesagt werden.

Der Frequenzgang gibt an, wie das Spekrum des Eingangssignals durch das System verändert wird.

Abb. 2.6 Beschreibung eines linearen Systems durch den Frequenzgang


70


Abb. 2.7 Korrektur linearer Verzerrungen

Abb. 2.8 Ermittlung des Frequenzgangs mit weißem Rauschen

Im Allgemeinen soll eine akustische Kommunikationskette so gestaltet werden, dass das Signal möglichst unverändert beim Zuhörer ankommt. Der ideale Frequenzgang eines akustischen Kommunikationssystems sollte also zumindest im wahrnehmbaren Frequenzbereich gleich eins sein. In den meisten Fällen ist dies jedoch nicht oder nur mit hohem Aufwand realisierbar. Im Allgemeinen werden von einem linearen System manche Frequenzen verstärkt, andere abgeschwächt und das Signal linear verzerrt. Gelingt es jedoch, dem eigentlichen System ein Korrektursystem mit reziprokem Frequenzgang nachzuschalten, so ist der Frequenzgang des resultierenden Gesamtsystems gleich eins und das Ausgangssignal entspricht wieder dem Eingangssignal. Der Equalizer einer HiFi-Anlage oder eines Mischpults wird unter anderem dazu verwendet, die linearen Verzerrungen, die durch Mikrofone, Verstärker, Lautsprecher oder auch von Räumen hervorgerufen werden, nach dem gerade gezeigten Prinzip auszugleichen. Der Frequenzgang eines Systems kann auf unterschiedliche Arten ermittelt werden. Ist das Eingangssignal beispielsweise ein harmonischer Ton mit einer Amplitude gleich eins und der Frequenz f0, so muss die Amplitude dem Wert der Übertragungsfunktion bei eben dieser Frequenz H( f0) entsprechen. Theoretisch könnte der Frequenzgang also mit einer großen Anzahl von harmonischen Funktionen Punkt für Punkt bestimmt werden. Wesentlich einfacher ist es freilich, weißes Rauschen als Eingangssignal zu verwenden. Da das Spektrum von weißem Rauschen definitionsgemäß gleich eins ist, gleicht in diesem Fall das Spektrum des Ausgangssignals dem Frequenzgang. 2.2.5 Filter


Systeme mit genau definierten, einstellbaren Frequenzgängen werden als Filter bezeichnet. Zur gezielten Beeinflussung der Spektren von Schallsignalen sind Filter unerlässliche Werkzeuge für Audiotechnik und -design. () Bei einem Filter bleiben immer gewisse Frequenzbereiche unbeeinflusst, andere werden hingegen so stark gedämpft, dass sie im Ausgangssignal nicht mehr vorkommen. Es wird von Durchlass- und Sperrbereich, die von der Grenzfrequenz getrennt werden, gesprochen.



Mit Hoch-, Tief- und Bandpass bzw. Bandsperre können vier Grundtypen von Filtern unterschieden werden. Ein Hochpass eliminiert alle Frequenzen unterhalb, ein Tiefpass alle oberhalb der Grenzfrequenz. Ein Bandpass lässt den Frequenzbereich zwischen oberer und unterer Grenzfrequenz unbeeinflusst, eine Bandsperre dämpft hingegen genau diesen Bereich. Reihen sich mehrere Durchlass- und Sperrbereiche aneinander, so spricht man von einem Kammfilter.

71 Abb. 2.9 Filter-Grundstrukturen

2.2.6 Impulsantwort und Faltung

Wird ein Impuls, also ein Signal von sehr kurzer Dauer und endlicher Energie, als Eingangssignal eines Systems verwendet, so erhält man am Ausgang definitionsgemäß die Impulsantwort h(t). Es kann gezeigt werden, dass bei linearen Systemen das Spektrum dieser Impulsantwort dem Frequenzgang des Systems entspricht. Demnach ist die Impulsantwort ein geeignetes Mittel zur Beschreibung von Systemen im Zeitbereich. Der mathematische Zusammenhang zwischen Impulsantwort, Einund Ausgangssignal des Systems ist aber im Gegensatz zum Frequenzbereich nicht durch Multiplikation, sondern durch die sogenannte Faltung (Convolution) gegeben. Die Berechnung der Faltung ist recht aufwendig. Einige Softwarepakete zur Audiobearbeitung bieten die Faltung trotzdem als Effekt zur Nachbearbeitung von Schallsignalen und ermöglichen somit die Simulation von beliebigen Systemen mit bekannter Impulsantwort. Wurde beispielsweise die Impulsantwort eines berühmten Konzertsaales einmal mit hoher Qualität aufgezeichnet, so können die akustischen Eigenschaften des Saales durch die Faltung der Impulsantwort mit dem gewünschten akustischen Ereignis einfach nachgebildet werden. Es ist dabei jedoch zu beachten, dass die Impulsantwort eines Raumes auch von der genauen Position von Schallquelle und -empfänger in diesem Raum  Siehe Webseite abhängig ist. () zum Buch Als Signal zur Bestimmung der Impulsantwort eines akustischen Systems müssen sehr kurze, breitbandige, energiereiche Signale verwendet werden. Schüsse eignen sich hierzu am besten. Eine mehr oder weniger gute Näherung lässt sich aber auch durch lautes Klatschen erzielen. Mit etwas Erfahrung ist es möglich, die akustischen Eigenschaften eines Raumes auf Grund seiner durch Klatschen angenäherten Impulsantwort zu beurteilen.


3 Schallentstehung 3.1 Zusammensetzung von Schwingungssystemen


Ein Musikinstrument kann in mehrere Teilkomponenten zerlegt werden, um grundlegende Erkenntnisse über die Funktionsweise des gesamten Instruments zu gewinnen. Bei den einzelnen Teilkomponenten – Anregung, Oszillator und Resonanzkörper – handelt es sich im Allgemeinen um verhältnismäßig einfach zu beschreibende Systeme. Erst ihre gegenseitigen Wechselwirkungen ermöglichen die mitunter recht komplexen Schallsignale. Musikinstrumente werden oft aufgrund der spezifischen Anrechnung in z.B. Blas-, Streich- oder Schlaginstrumente eingeteilt oder aufgrund von Oszillator oder Resonanzkörper (z.B. Saiten- und Röhreninstrumente) unterschieden. () 3.1.1 Oszillator Die Entstehung von Schall lässt sich immer auf mechanische, elektronische oder akustische Schwingungen zurückführen. Diese Schwingungen nehmen bei einem so genannten Oszillator ihren Ausgang. Schwingende Saiten, Stäbe oder Membranen, Luft in Röhren oder geschlossenen Körpern und synthetisch erzeugte Klänge sind vertraute Beispiele. 3.1.2 Anregung Diese Schwingungssysteme müssen durch einen bestimmten Mechanismus in Schwingung versetzt werden. Bekannte Anregungsmechanismen sind Anblasen, Anstreichen, Anschlagen, Anzupfen oder Reiben. Genau wie der Oszillator selbst hat auch der Anregungsmechanismus einen großen Einfluss auf das resultierende akustische Ereignis. So klingt eine Violine erfahrungsgemäß völlig anders, wenn sie angerissen (pizzicato) oder angestrichen (arco) wird.


3.1 Zusammensetzung von Schwingungssystemen

73

Abb. 3.1 Einfaches Modell eines Musikinstruments

3.1.3 Resonanzkörper Die Schwingungen einiger Oszillatoren haben oft nur sehr kleine Amplituden. Ist zusätzlich auch die Oberfläche des Schwingungssystems klein, so kann nur ein geringes Luftvolumen bewegt werden. Die resultierende Schallwelle kann aus diesem Grund nur leise wahrgenommen werden. Ein bekanntes Beispiel hierfür sind verschiedenste Saiten und auch das Zupfen an einer Wäscheleine oder einem Gummiring. Um solche Schwingungssysteme trotzdem musikalisch nutzbar machen zu können, werden deren Schwingungen zunächst auf einen so genannten Resonanzkörper mit größerer Oberfläche übertragen, der die Funktion eines akustischen Verstärkers übernimmt. Darüber hinaus ist der Resonanzköper aber auch für sich alleine betrachtet ein Schwingungssystem, das durch seinen Frequenzgang beschrieben werden kann und das resultierende Schallsignal entscheidend mitbestimmt. Bekanntlich klingt eine gezupfte Gitarre wesentlich anders als eine gezupfte Violine, obwohl es sich in beiden Fällen um eine frei schwingende Saite handelt. Unabhängig von den genauen Eigenschaften des Oszillatorsignals werden durch den charakteristischen Frequenzgang eines Resonanzkörpers immer bestimmte Frequenzbereiche verstärkt und andere abgeschwächt. Die auf Grund der Eigenschaften des Resonanzköpers stärker im Schallsignal hervortretenden Frequenzbereiche werden als Formanten bezeichnet und sind charakteristisch für die Klangfarbe eines bestimmten Instruments. Die Form des Resonanzkörpers bestimmt auch ganz wesentlich das so genannte Abstrahlverhalten eines Instruments. Genau genommen handelt es sich dabei weniger um ein Phänomen der Schallentstehung als um eines der Schallausbreitung. Es kann die klangliche Wahrnehmung aber stark beeinflussen und soll daher auch schon in diesem Zusammenhang Erwähnung finden. Manche Frequenzbereiche werden von Instrumenten in bestimmte Richtungen bevorzugt abgestrahlt. Das heißt, dass die Klangfarbe vor dem Instrument anders wahrgenommen wird als hinter dem Instrument. Das charakteristische Abstrahlverhalten einer Schallquelle ist vor allem bei der Mikrofonierung für eine Aufnahme von entscheidender Bedeutung. ()

Durch einen Resonanzkörper verstärkte Frequenzbereiche werden als Formanten bezeichnet.

Siehe Abschnitt 7.6


74

3 Schallentstehung

3.2 Einfachste Schwingungssysteme In Abschnitt 1.2 wurde bereits auf die drei grundlegenden Voraussetzungen für eine Schwingung – Anregung, Massenträgheit und Elastizität – hingewiesen. 3.2.1 Freie Schwingungen

Freie Schwingungen einfachster Schwingungssysteme können durch harmonische Signale beschrieben werden.

Wird ein schwingungsfähiges System einmal aus seiner Ruhelage ausgelenkt und dann – ohne weitere Krafteinwirkung von außen – sich selbst überlassen, so vollführt das System so genannte freie Schwingungen, die auch als Eigenschwingungen bezeichnet werden. Einfachste Schwingungen zeichnen sich dadurch aus, dass ihre freie Schwingung immer durch ein harmonisches Signal beschrieben werden kann. Die Frequenz der freien Schwingung wird als Eigen- oder Resonanzfrequenz bezeichnet. Sie ist umso höher, je größer die Elastizität und je kleiner die Masse des Systems ist. Amplitude und Art der Anfangsauslenkung haben hingegen keinen Einfluss. Auf Musikinstrumente angewandt bedeutet diese Erkenntnis, dass die Tonhöhe nur vom Instrument und seinen Eigenschaften – insbesondere seiner Größe bzw. seiner Masse und der Elastizität seines Materials – abhängt. Die Art der Anregung – ob gezupft, geschlagen, gestrichen oder geblasen – hat auf die Tonhöhe hingegen keinen Einfluss. 3.2.2 Gedämpfte Schwingungen

Reibung führt zum exponentiellen Abklingen von Schwingungen.

In der Natur tritt zu Massenträgheit und Elastizität immer auch Reibung hinzu, die eine Dämpfung der Schwingung bewirkt. Die Reibungskraft ist im Allgemeinen proportional zur Geschwindigkeit der Masse und führt zu einer exponentiellen Abnahme der Schwingungsamplitude. Die Stärke der Dämpfung hängt von der Masse, den Materialien und der geometrischen Form des Systems ab. 3.2.3 Erzwungene Schwingungen Viele Schallquellen werden nicht nur einmal in Schwingung versetzt und dann sich selbst überlassen, sondern dauerhaft angeregt. Dies ist zum Beispiel beim Anblasen oder Anstreichen der Fall. Die Schwingung wird durch eine Krafteinwirkung von außen aufrechterhalten und beeinflusst. Es wird in solchen Fällen auch von erzwungenen Schwingungen gesprochen. Unabhängig vom genauen zeitlichen Verlauf der Anregungskraft F(t) kann das Schallsignal s(t) immer aus zwei Teilen zusammengesetzt wer-


3.3 Reale Schwingungssysteme den. Der erste Teil entspricht dabei der freien Schwingung, die auf Grund der Dämpfung exponentiell abklingt. Der zweite Teil wird hingegen von der Anregung bestimmt. Nach Abklingen der Eigenschwingungen wird die Schwingung von der Anregung bestimmt, und es wird vom eingeschwungenen Zustand des Systems gesprochen. Ist die Frequenz der Anregung gleich null – man spricht von statischer Anregung –, so wird das System umso weiter aus seiner Ruhelage ausgelenkt, je mehr Kraft von außen aufgewendet wird. Ist die Frequenz der Anregung hingegen sehr hoch, so kann sich kaum eine Schwingung ausbilden. Hingegen wird die Amplitude der Schwingung bei Anregung des Systems mit seiner Eigenfrequenz überdurchschnittlich groß. Dieser Sonderfall wird als Resonanz bezeichnet. Das Verhältnis der statischen Auslenkung der Masse zur Schwingungsamplitude bei Resonanz wird als Güte des Schwingungssystems bezeichnet. Anschaulich ist der Vergleich des eben beschriebenen Sachverhalts mit dem Anschieben eines schaukelnden Kindes. Einerseits schaukelt das Kind umso höher, je fester die Schaukel angeschoben wird. Andererseits hängt die Bewegung der Schaukel auch stark davon ab, wie oft, also mit welcher Frequenz angeschoben wird. Nur einmal pro Minute anzuschieben wäre zu wenig, jede halbe Sekunde hingegen zu viel. In beiden Fällen wird sich kaum eine nennenswerte dauerhafte Bewegung der Schaukel ausbilden. Wird die Frequenz des Anschubsens hingegen im Bereich der Eigenfrequenz der Schaukel gewählt, so genügt erfahrungsgemäß schon ein geringer Kraftaufwand, um die Schaukel ordentlich in Schwingung  Siehe Webseite zu versetzen. () zum Buch

3.3 Reale Schwingungssysteme Die bisher betrachteten einfachsten Schwingungssysteme liefern zwar wichtige Erkenntnisse über die allgemeine Funktionsweise der Schallentstehung, sind aber – von wenigen Ausnahmen abgesehen – für die Praxis nicht von Bedeutung. Reale Schwingungssysteme unterscheiden sich von den einfachsten Systemen vor allem dadurch, dass sie nicht nur eine, sondern mehrere Eigenfrequenzen aufweisen. 3.3.1 Kopplung einfachster Schwingungssysteme Ein Schwingungssystem mit zwei Eigenfrequenzen erhält man beispielsweise, indem zwei einfachste Feder-Masse-Systeme mit einer dritten Feder verbunden werden. Geht die Kopplung gegen null, so zerfällt das System in zwei einfachste Teilsysteme, deren Eigenfrequenzen sich

75


76

3 Schallentstehung gegenseitig nicht mehr beeinflussen. Werden die beiden Massen hingegen starr aneinander gekoppelt, so verhält sich das System wie ein einfachstes Schwingungssystem, dessen Masse sich aus der Addition der beiden Einzelmassen ergibt. Zwischen diesen beiden Extremfällen wird das gekoppelte Schwingungssystem immer zwei Eigenfrequenzen aufweisen, die sich gegenseitig umso stärker beeinflussen, je stärker die Kopplung ist. Werden durch Anfangsauslenkungen der beiden Massen Schwingungen initiiert, so setzen sich diese stets additiv aus den beiden Eigenschwingungen zusammen. Wie die beiden Eigenschwingungen zu den Schwingungen der beiden Massen beitragen, hängt ausschließlich von den jeweiligen Anfangsauslenkungen ab. 3.3.2 Eigenfrequenz und Schwingungsmodus


Werden beide Massen anfänglich gleich weit und in eine Richtung aus ihrer Ruhelage ausgelenkt, so bleibt die mittlere Feder ungespannt und beeinflusst die resultierenden Schwingungen der beiden Massen nicht. Die resultierenden Bewegungen können in diesem Fall jeweils durch eine einfache harmonische Schwingung mit der niedrigeren Eigenfrequenz beschrieben werden. Es handelt sich um den ersten Schwingungsmodus des Systems. Werden beide Massen wiederum gleich weit, aber in entgegengesetzte Richtung aus ihrer Ruhelage ausgelenkt, so wirkt sich nun auch die mittlere Feder auf die resultierende Bewegung aus. Die beiden Massen schwingen nun in entgegengesetzte Richtungen. Ihre Bewegungen können wieder durch jeweils eine einfache harmonische Schwingung, nun jedoch mit der höheren Eigenfrequenz, beschrieben werden. Es handelt sich um den zweiten Schwingungsmodus des Systems. Beliebige andere Anfangsauslenkungen der Massen werden stets zu einer Überlagerung der beiden Schwingungsmoden führen. Die Bewegungen der beiden Massen können durch zwei additiv überlagerte harmonische Schwingungen beschrieben werden. Wird das System nun nach und nach um zusätzliche Federn und Massen erweitert, so erhält man für jede neue Masse einen zusätzlichen Schwingungsmodus mit der zugehörigen Eigenfrequenz. Welche der Schwingungsmoden wie stark zur resultierenden Schwingung einer Masse beiträgt, hängt wieder davon ab, wie die Massen anfänglich ausgelenkt werden. Im Allgemeinen überlagern sich alle Schwingungsmoden, auch wenn es möglich ist, einzelne Moden gezielt anzuregen. Ganz allgemein wird unter einem Schwingungsmodus eine mögliche Schwingungsform des Systems mit ihrer zugehörigen Eigenfrequenz verstanden. ()


3.3 Reale Schwingungssysteme

77

3.3.3 Modell der schwingenden Saite Lässt man nun die Anzahl der Massen gegen unendlich anwachsen, so erhält man schließlich ein Modell für eine schwingende Saite. Die Saite mit dem Querschnitt A und der Dichte  wird dabei quasi in eine Anzahl von kleinen Massenelementen der Länge Δx unterteilt. Die Spannung der Saite wird durch die dazwischenliegenden Federn nachgebildet. Ähnliche Modelle werden unter anderem in der so genannten Modalanalyse und beim Physical Modeling für die elektronische Klangsynthese verwendet. () Das Modell wird umso genauer, je kürzer die einzelnen Segmente sind bzw. je mehr Massenelemente berücksichtigt werden. Geht die Länge schließlich gegen null, so handelt es sich um ein Modell mit unendlich vielen Massen, das die Saitenschwingungen mit größter Genauigkeit beschreiben kann. Eine Saite verfügt demnach genau genommen über unendlich viele Schwingungsmoden mit den zugehörigen Eigenfrequenzen. Freilich ist es bei diesem Modell nicht mehr zielführend, die Schwingungen der einzelnen Massen mit unendlich vielen zeitabhängige Funktionen zu beschreiben. Vielmehr wird nun die Bewegung der ganzen Saite durch eine Funktion, die sowohl von der Zeit t als auch vom Ort x abhängig ist, erfasst.


s 1 ( t ), s 2 ( t ), ..., s N ( t )  s( x, t ) Signale, die sowohl von der Zeit als auch vom Ort abhängig sind, werden, wie bereits in Abschnitt 1.8 dargestellt, als Wellen bezeichnet. Die Ausbreitungsgeschwindigkeit v von Wellen auf einer Saite ist von deren Dichte , ihrer Spannung T und ihrem Querschnitt A abhängig:

v

T

A

Abb. 3.2 Modellbildung für eine schwingende Saite


78

3 Schallentstehung

Abb. 3.3 Mögliche Wellenformen einer beidseitig eingespannten Saite

3.3.4 Wellenformen und Eigenfrequenzen einer Saite

Es stellt sich nun die Frage, welchen Formen die Bewegung der Saite folgen kann bzw. welche Frequenzen sich auf der Saite ausbreiten können. Hierzu müssen die so genannten Randbedingungen betrachtet werden. Ist eine Saite der Länge L an beiden Enden fest eingespannt, wie das bei den meisten Musikinstrumenten der Fall ist, so muss die Auslenkung der Saite an diesen Stellen zu jeder Zeit gleich null sein. Diese Randbedingungen werden beispielsweise von den in Abb. 3.3 dargestellten Wellenformen erfüllt. Die einfachste räumliche Schwingungsform, die die Randbedingungen erfüllt, wäre eine halbe Sinuswelle. Die größte denkbare Wellenlänge λ entspricht somit der zweifachen Saitenlänge:  0  2L

Eine die Randbedingungen erfüllende Wellenform wird mit der zugehörigen Eigenfrequenz als Wellenmodus bezeichnet.

Über den aus Abschnitt 1.8.5 bekannten Zusammenhang v = λ . f kann die zu dieser Wellenform gehörende Eigenfrequenz ermittelt werden:

f0 

1 1 T v 2L 2 L A

Es lässt sich zeigen, dass ausschließlich Wellenformen die Randbedingungen der beidseitig eingespannten Saite erfüllen, deren Wellenlängen zu Frequenzen führen, die einem ganzzahligen Vielfachen der Grundfrequenz entsprechen. Schallsignale, die von schwingenden Saiten hervorgerufen werden, sind also immer periodisch und werden somit als Klang wahrgenommen. Wie in Abschnitt 2.1.3 besprochen, bestimmt die Grundfrequenz die wahrgenommene Tonhöhe des Schallsignals. Eine Saite klingt somit umso tiefer, je länger sie ist. Bei einer Halbierung der Länge klingt die Saite um eine Oktave höher. Genau dieser Sachverhalt wird beim Spielen vieler Saiteninstrumente ausgenutzt. Durch festes Niederdrücken der Saite an einer bestimmten Stelle kann die effektive Länge verkürzt und dadurch ein höherer Grundton gespielt werden. Obwohl die Saiten einer Gitarre gleich lang sind, erzeugen sie jeweils andere Tonhöhen, da sich ihre Massendichte und ihre Spannung unterscheiden.



79

3.3.5 Anregung bestimmter Wellenformen

Erfahrungsgemäß ist die Klangfarbe einer Saite auch davon abhängig, wo diese angezupft, angeschlagen oder angestrichen wird. In Partituren der zeitgenössischen Musik wird häufig der Ort für das Anzupfen angegeben, um einen ganz bestimmten Klangcharakter zu erzielen. Der Grund für diese Veränderungen des Klanges liegt darin, dass nicht alle möglichen Wellenmoden der Saite auch tatsächlich zum Schallsignal beitragen müssen. Es kann vielmehr über die Art der Anregung darauf Einfluss genommen werden, welche Wellenformen wie stark zum Schallsignal beitragen. Wird eine Saite beispielsweise genau in der Mitte angezupft, so kann ihre Form zu Beginn der Bewegung durch einen Ausschnitt aus einer Dreiecksfunktion beschrieben werden. Dieses Dreieck wird durch Überlagerung von verschiedenen möglichen Schwingungsformen nachgebildet. Dem Spektrum der Dreiecksfunktion entsprechend, sind ausschließlich die Grundfrequenz sowie ihre ungeradzahligen Vielfachen im Signal enthalten. Wird die Saite hingegen ganz am Rand angezupft, so kann ihre anfängliche Form annähernd durch einen Ausschnitt aus einer Sägezahnfunktion beschrieben werden. Im Signal sind nun neben der Grundfrequenz auch sämtliche Vielfache mit größeren Amplituden enthalten. Es tragen höhere Spektralanteile stärker zum Klang bei, und die Saite klingt somit heller. Durch Hinzufügen von zusätzlichen Randbedingungen ist es auch möglich, die Ausbreitung von bestimmten Schwingungsformen ganz gezielt zu unterdrücken. Bei Saiteninstrumenten geschieht dies bei der so genannten Flageolett-Technik, die die Saite um eine Oktave höher klingen lässt und ihrem Klang einen ganz besonderen, dünneren, etwas hohl klingenden Charakter verleiht. Es wird dabei ein Finger ganz leicht genau auf die Mitte der Saite gelegt. Da der Finger die Saite nur vorsichtig

1. 2.

3.

Abb. 3.4 1., 2. und 3. Wellenmodus einer schwingenden Saite


80

Wellenmoden können gezielt angeregt, aber auch unterdrückt werden. Die Art der Anregung beeinflusst daher die Klangfarbe!

3 Schallentstehung

berührt, wird sie nicht einfach verkürzt. Es können aber nur Wellenformen zum Klang beitragen, die in der Saitenmitte einen Nulldurchgang haben. Da die ursprüngliche Grundfrequenz an dieser Stelle jedoch ein Maximum aufweist, wird sie unterdrückt. Weil sich erst die erste Oberwelle ausbreiten kann, klingt der Ton eine Oktave höher. Da auch eine Reihe von Oberwellen unterdrückt wird, hat ein mit Flageolett-Technik erzeugter Klang nicht mehr die Fülle, die sich bei herkömmlicher Spieltechnik ergibt. Besondere Bedeutung hat die gezielte Unterdrückung bestimmter Wellenformen auch für die Spielweise vieler Blasinstrumente. Verschiedene Tonhöhen werden dabei durch gezieltes Anblasen der einzelnen Oberwellen erzeugt. Das Überblasen in die nächste Oktave kann im Grunde leicht mit jedem beliebigen Rohr oder ganz einfach mit einer Blockflöte selbst ausprobiert werden. Die Grundwellenform wird dabei unterdrückt. 3.3.6 Ausbreitung von Schallwellen in Röhren

Da sich die Schallgeschwindigkeit ändert, wirken sich Temperaturschwankungen auf die Tonhöhe von Blasinstrumenten aus.

Die Ausbreitung von Schallwellen in Röhren bestimmt im Wesentlichen das Verhalten von Blasinstrumenten wie Flöte, Oboe, Klarinette, Trompete, Posaune usw. Es kann gezeigt werden, dass sich das Modell einer Röhre in erster Näherung kaum von jenem der schwingenden Saite unterscheidet. Der wesentliche Unterschied ist, dass das Ausbreitungsmedium der Wellen nun nicht mehr die Saite, sondern die Luft in der Röhre ist und die Ausbreitungsgeschwindigkeit somit durch die Schallgeschwindigkeit in Luft gegeben ist. Mit einer Änderung der Ausbreitungsgeschwindigkeit ändert sich auch die Tonhöhe. Da die Schallgeschwindigkeit von der Temperatur abhängt, liegt hierin der Grund, warum es bei Konzerten in kalten Kirchen oft Probleme mit der Stimmung der Instrumente geben kann. Beim Musizieren erwärmt sich die kalte Luft im Instrument nach und nach, und die Schallgeschwindigkeit und die Grundtonhöhe steigen. Die Randbedingungen hängen davon ab, ob das Rohr am Ende geschlossen oder offen ist. Der Schalldruck erreicht an einem geschlossenen Ende immer ein Maximum, da die Luftmoleküle dort nicht ausweichen können. An einem offenen Ende ist der Schalldruck hingegen gleich null. Für ein an beiden Enden geschlossenes oder an beiden Enden offenes Rohr ist die Grundwellenlänge wieder gleich der zweifachen Länge des Rohres. Ist das Rohr hingegen an einem Ende offen und am anderern Ende geschlossen, so gleicht die Grundwellenlänge aber der vierfachen Rohrlänge, und es können sich nur ungeradzahlige Vielfache der Grundfrequenz ausbreiten.



81

3.3.7 Mehrdimensionale Wellenausbreitung

Können Saiten und auch Röhren noch näherungsweise als eindimensionale Schwingungssysteme betrachtet werden, so ist dies für Membranen oder gar Räume mit Sicherheit nicht mehr zulässig. Es müssen nun auch Randbedingungen für die weiteren Koordinaten berücksichtigt werden. Die Membran einer Trommel ist an ihren Rändern fest eingespannt. Es kann daher an diesen Stellen zu keiner Auslenkung kommen. In einem Raum tritt an jeder Wand ein Maximum des Schalldrucks auf. Für eine rechteckige Membran der Länge L und der Breite B können die Eigenfrequenzen mit der folgenden Formel ermittelt werden:

f m,n 

v m n  2 L B

In einem kubischen Raum der Länge L, der Breite B und der Höhe H gilt:

f m,n,o 

v m n o   2 L B H

Die Eigenfrequenzen mehrdimensionaler Schwingungssysteme sind somit nicht mehr notwendigerweise ganzzahlige Vielfache einer Grundfrequenz und die resultierenden Wellenformen meist nicht mehr periodisch. Dies stimmt auch mit der Erfahrung überein, dass viele Perkussionsinstrumente geräuschhafte Klänge hervorbringen. Zu jeder dieser Eigenfrequenzen gibt es wie schon im eindimensionalen Fall wieder eine zugehörige geometrische Wellenform. Vier mögliche Wellenmoden einer rechteckigen Membran sind in Abb. 3.6 dargestellt. Welche Wellenmoden tatsächlich auch zur resultierenden Wellenform beitragen, hängt vom Ort der Anregung ab. Wie im eindimensionalen Fall können bestimmte Wellenmoden gezielt unterdrückt bzw. angeregt werden. Aus diesem Grund ist es möglich, mit einer Trommel eine große

3.

1. 2.

Abb. 3.5 1., 2. und 3. Wellenmodus eines einseitig geschlossenen Rohres


82

3 Schallentstehung

Vielfalt unterschiedlicher Klangschattierungen zu erzeugen. Wird das Fell einer Trommel genau in der Mitte angeschlagen, so werden dadurch vorzugsweise jene Wellenmoden angeregt, die ebendort ein Maximum aufweisen. Im Vergleich zu einer am Rand angeschlagenen Trommel wird der Klang daher verhältnismäßig dumpf klingen.

3.4 Die menschliche Stimme 3.4.1 Stimmhafte und stimmlose Laute

Bei menschlichen Sprachlauten wird zunächst immer zwischen stimmhaften und stimmlosen Lauten unterschieden. Der Unterschied zwischen diesen beiden Kategorien liegt dabei in der Schwingungserzeugung. Bei stimmhaften Lauten werden die menschlichen Stimmbänder durch einen Luftstrom in Schwingung versetzt. Auf diese Weise entsteht ein quasiperiodisches, sehr obertonreiches Signal, dem eine eindeutige Grundfrequenz zugeordnet werden kann. Die Sprachgrundfrequenz ist abhängig von den physiologischen Gegebenheiten und ist daher individuell verschieden. Bei Männern liegt sie üblicherweise in einem Bereich zwischen 100 und 200 Hz, bei Frauen liegt sie rund eine Oktave höher. Bei stimmlosen Lauten schwingen die Stimmbänder hingegen nicht. Ausgangspunkt für die Entstehung von stimmlosen Lauten ist somit ein rauschförmiger Luftstrom.

Abb. 3.6 Vier mögliche Wellenmoden einer rechteckigen Membran


3.4 Die menschliche Stimme 3.4.2 Der Mund-Nasen-Rachen-Raum

Ähnlich wie bei Musikinstrumenten folgt auch bei der Sprachproduktion ein aus Mund, Nase und Rachen gebildeter Resonanzraum, der die Klangfarbe entscheidend beeinflusst. Im Unterschied zu Instrumenten können die akustischen Eigenschaften des Mund-Nasen-Rachen-Raumes aber mit Hilfe der menschlichen Artikulationsorgane Zunge, Lippen, Zähne, Gaumen etc. verändert werden. Jedem Laut kann also ein eigener charakteristischer Resonanzkörper zugeordnet werden. Bei verschiedenen Sprachlauten eines Sprechers bleibt die Grundfrequenz näherungsweise gleich. Die Unterscheidung der Laute wird vor allem durch die vom Resonanzraum bestimmten Formanten möglich. 3.4.3 Vokale

Ist der Mundraum bei der Lautbildung relativ weit geöffnet, so kann der Luftstrom ungehindert passieren. Die auf diese Weise entstehenden Laute sind immer an stimmhafte Klangerzeugung gebunden und werden als Vokale bezeichnet. Der Resonanzraum reicht vom geschlossenen Kehlkopf bis zum offenen Mund und kann näherungsweise als ein einseitig offenes, zylindrisches Rohr von rund 17 cm Länge modelliert werden. Den Erklärungen aus Abschnitt 3.3.6 folgend, entspricht die Wellenlänge des ersten Wellenmodus der vierfachen Länge des Rohres. Bei einer Schallgeschwindigkeit von rund 340 m/s liegt die erste Resonanzfrequenz dieses Resonanzraumes gemäß der Beziehung f = v / bei 500 Hz. Die höheren Eigenfrequenzen des Mund-Nasen-Rachen-Raums müssen ungeradzahlige Vielfache der Grundfrequenz sein. Die Formanten des offenen menschlichen Vokaltrakts liegen demnach also näherungsweise bei 500 Hz, 1500 Hz, 2500 Hz usw. Bei der Bildung von Vokalen werden nun mit der Zunge an bestimmten Stellen gezielt Verengungen im Resonanzrohr herbeigeführt und die Formanten zu höheren oder niedrigeren Werten verschoben. Die Unterscheidung von Vokalen erfolgt vor allem auf Grund der beiden ersten Formanten. Dabei lässt sich eine relativ gute Übereinstimmung mit der Zungenstellung bei der Artikulation beobachten. Ist die Zunge bei der Vokalbildung weit oben, so wird der erste Formant niedriger. Wird ein Vokal weit vorne artikuliert, so wird der zweite Formant höher. Dieser Sachverhalt lässt sich gut im so genannten Vokalviereck veranschaulichen, das in Abb. 3.7 dargestellt ist. Werden beispielsweise bei einem obertonreichen Schallsignal mit Filtern die Frequenzen um 500 Hz und um 1950 Hz angehoben, so erinnert die Klangfarbe an den Vokal „E“.

83 Bei Sprachlauten bleibt die Grundfrequenz gleich, Resonanzkörper, Formanten und Klangfarbe werden geändert. Bei Instrumenten bleiben Resonanzkörper, Formanten und Klangfarbe gleich und die Grundfrequenz wird verändert.


84

3 Schallentstehung

Abb. 3.7 Das Vokalviereck

Zu beachten ist, dass die Formanten von Vokalen keineswegs exakt definierbar sind, sondern stark vom jeweiligen Sprecher und dessen Ausdrucksweise abhängen. Jedem Vokal muss also im Vokalviereck ein größeres Gebiet zugeordnet werden. Vor allem bei undeutlicher Sprache können sich diese Bereiche auch überlappen. 3.4.4 Konsonanten

Bei der Bildung von Konsonanten wird der Luftstrom im Mundraum behindert oder sogar abgesperrt. Auf Grund der Hindernisse bilden sich turbulente Luftströmungen aus, die als rauschförmige Signalanteile wahrgenommen werden. Die Schwingungserzeugung kann bei Konsonanten sowohl stimmhaft als auch stimmlos sein. Konsonanten lassen sich auch nach der Artikulationsart in Enge-, Reibe-, Verschlusslaute etc. und nach dem Artikulationsort in labiale, nasale oder dentale Laute einteilen. 3.4.5 Das Quelle-Filter-Modell

Das Quelle-Filter-Modell ist ein einfaches Modell für die Sprachsynthese. Es stehen dabei zwei Oszillatoren zur Verfügung. Einer erzeugt ein obertonreiches, periodisches Signal und kommt für die Bildung von stimmhaften Lauten zum Einsatz, der andere erzeugt ein rauschhaftes


3.4 Die menschliche Stimme

85

Abb. 3.8 Das Quelle-Filter-Modell zur Sprachsynthese

Signal, wie es zur Erzeugung von stimmlosen Lauten benötigt wird. Zur Steuerung der Lautstärke wird das Schallsignal mit den gewünschten Amplitudenwerten multipliziert. Das Kernstück des Modells bildet ein Formantfilter. Es dient zur spektralen Nachbildung der Formantstruktur  Siehe Webseite vorgegebener Laute. () zum Buch Die Abfolge der einzelnen Laute erfolgt in der menschlichen Sprache sehr rasch. Im Durchschnitt werden zehn Laute in der Sekunde gesprochen. Die Übergänge von einem Laut zum nächsten sind dabei oft genauso lang wie die Laute selbst. Schon aus diesem Grund ist es in der Praxis nicht so einfach, ein Quelle-Filter-Modell zu realisieren, das gute Ergebnisse liefert. Schwierigkeiten bereiten aber auch übergeordnete Eigenschaften des Sprachsignals wie Sprachmelodie oder -rhythmus, die vielfach auch die Bedeutung des Gesprochenen verändern können. Beispielsweise unterscheiden sich Frage- und Aussagesatz oft nur durch eine Änderung der Sprachgrundfrequenz am Ende des Satzes.


4 Schallausbreitung 4.1 Wichtige Kenngrößen der Schallausbreitung 4.1.1 Ausbreitungsgeschwindigkeit

Frequenzbereich von Schall in Luft: 20 Hz < f < 20 kHz Wellenlängenbereich von Schall in Luft: 1,7 cm < λ < 17 m

Die Ausbreitung von Schall erfordert immer ein elastisches Medium. Die von einer Schallquelle initiierte Schwingung muss auf Moleküle des Mediums übertragen werden. Diese molekularen Schwingungen führen zu temporären lokalen Druck- bzw. Dichteschwankungen, die sich in Form von Longitudinalwellen ausbreiten. Die Schwingungsrichtung der Teilchen ist also parallel zur Ausbreitungsrichtung der Welle. Druck- bzw. Dichteschwankungen im Frequenzbereich des menschlichen Gehörs – also zwischen 20 Hz und 20 kHz – werden als Schall bezeichnet, jene bei niedrigerer Frequenz als Infraschall und jene mit höherer Frequenz als Ultraschall. Über das Verhältnis λ = v/f kann die Wellenlänge eines Schallsignals ermittelt werden. Sie beträgt für tieffrequente Schallsignale ungefähr 17 Meter, für hochfrequente Schallereignisse hingegen nurmehr 1,7 cm. Die Schallausbreitung folgt den allgemeinen Gesetzen der Wellenausbreitung, die prinzipiell auch für elektromagnetische Wellen, Wasserwellen oder Licht gültig sind. Ein Unterschied ergibt sich lediglich auf Grund anderer Größenordnungen von Frequenz, Wellenlänge und Ausbreitungsgeschwindigkeit. Schallwellen können sich umso besser in einem Medium ausbreiten, je höher dessen Elastizität EM und je geringer dessen Massendichte M ist. Das geeignete Maß für die Ausbreitungsfähigkeit ist die Schallgeschwindigkeit vM eines Mediums:

vM 

EM

M


4.1 Wichtige Kenngrößen der Schallausbreitung

87

Abb. 4.1 Schallausbreitung durch lokale Druckschwankungen

Die Schallgeschwindigkeiten in unterschiedlichen Medien können stark voneinander abweichen. Einige Werte können Tab. 4.1 entnommen werden. Auch auf die Temperaturabhängigkeit der Schallgeschwindigkeit wurde bereits in Abschnitt 1.8.5 hingewiesen. Elastische Medien dehnen sich mit steigender Temperatur aus. Dadurch nimmt ihre Dichte ab und die Schallgeschwindigkeit steigt. Es gilt der folgende Zusammenhang:

v()  v(0)

  273  v(0)  0,6  273

In dieser Formel wird für θ die Temperatur in Grad Celsius eingesetzt. v(0) ist also durch die Schallgeschwindigkeit bei 0 ºC gegeben und beträgt ca. 331 m/s. Für die üblichen Außentemperaturen gilt in guter Näherung, dass die Schallgeschwindigkeit mit jedem Grad näherungsweise um 0,6 m/s zunimmt. Auch die Elastizität des Mediums wird von äußeren Faktoren, wie Feuchte oder Verunreinigungen, beeinflusst, was ebenfalls zu gewissen Schwankungen der Schallgeschwindigkeit führen kann.


88

Tab. 4.1 Schallgeschwindigkeit verschiedener Medien bei 20 °C

4 Schallausbreitung

Medium

Schallgeschwindigkeit (bei 20 °C)

Luft

343 m/s

Wasser

1480 m/s

Gummi

50 m/s

Holz

3300 – 3400 m/s

Aluminium

5100 m/s

4.1.2 Schalldruck, Schalldichte und Schallschnelle

Neben der Geschwindigkeit ist vor allem die Stärke der sich ausbreitenden Schallwelle von Interesse. Als physikalische Messgröße können Amplitudenwerte herangezogen werden. Bei Schall stehen vier verschiedene Größen zur Auswahl: Die Auslenkung und die als Schallschnelle bezeichnete Geschwindigkeit der Moleküle, sowie die lokalen und temporären Abweichungen von Druck und Dichte vom Normalwert, die als Schalldruck bzw. Schalldichte bezeichnet werden. Alle vier Amplitudenwerte sind für die meisten Medien über Konstanten miteinander verknüpft und liefern daher die gleichen Aussagen. 4.1.3 Kugelwelle und ebene Welle


Schall breitet sich in Luft geradlinig nach allen Richtungen aus. Bei einer allseitig gleichmäßig abstrahlenden punkt- oder kugelförmigen Schallquelle liegen jene Flächen, die gleiche Verdichtung, gleichen Druck und gleiche Schallschnelle aufweisen, auf konzentrischen Kugelflächen. Wellen mit dieser Ausbreitungsform werden Kugelwellen genannt. In weiter Entfernung von der Schallquelle nähern sich die konzentrischen Kugelflächen ebenen Elementen an. Die Kugelwelle verhält sich somit nach und nach wie eine ebene Welle. Ebene Wellen sind dadurch gekennzeichnet, dass die Flächen gleicher Verdichtung, gleichen Schalldrucks bzw. gleicher Schallschnelle parallel zueinander und senkrecht zur Ausbreitungsrichtung der Welle sind. ()


4.1 Wichtige Kenngrößen der Schallausbreitung

89

4.1.4 Schallintensität

Bisher wurden für die Messung der Stärke einer Schallwelle Amplitudenwerte vorgeschlagen. Ein denkbares und vielfach aussagekräftigeres Maß wäre aber auch die Energie, die proportional zum Quadrat der Amplitude ist, oder die Leistung, also die Energie bezogen auf die Zeit. Soll die Energie gemessen werden, die von einer punktförmigen Schallquelle in alle Richtungen des Raumes gleichverteilt abgestrahlt wird, so muss beachtet werden, dass sich diese auf immer größer werdende Flächen verteilt, je weiter man sich von der Schallquelle entfernt. Es ist daher zweckmäßig, nicht die Energie oder die Leistung einer Quelle, sondern deren Energiefluss zu bestimmen, der die Energie bezogen auf die Fläche und die Zeit angibt. Der Energiefluss einer Schallquelle wird als Schallintensität bezeichnet. Die Einheit der Schallintensität ist Watt pro Quadratmeter (W/m2). Bei kugelförmiger Schallabstrahlung wird die von der Schallquelle abgestrahlte Leistung PQuelle auf immer größer werdende Kugelflächen verteilt, je weiter man sich von der Quelle entfernt. Für die Intensität I im Abstand r gilt demnach: I( r ) 

PQuelle 4 r 2

Die Schallintensität einer Kugelwelle nimmt also proportional zum Quadrat des Abstands von der Schallquelle ab. Erfolgt die Schallausbreitung jedoch in Form einer ebenen Welle, so bleiben die Flächen und somit auch die Intensität konstant. Diverse Verluste auf Grund der Interaktion mit verschiedensten Hindernissen bleiben bei diesen Überlegungen noch unberücksichtigt. Bei Pop- und Rockkonzerten wird meist eine große Anzahl von Einzellautsprechern zu oft meterhohen Lautsprechertürmen aufgebaut. Die Erhöhung der abgestrahlten Leistung bewirkt nur eine relativ geringe Steigerung des Schallpegels und spielt daher eine untergeordnete Rolle. Viel wichtiger ist, dass durch die große Lautsprecherfläche bereits die Schallabstrahlung in Form einer ebenen Welle und nicht kugelförmig erfolgt. Die Intensität nimmt somit auch in unmittelbarer Nähe der Schallquelle nicht mehr mit dem Quadrat des Abstands ab. 4.1.5 Hörschwelle und Schmerzgrenze

Es stellt sich die Frage, in welcher Größenordnung sich die Stärke einer Schallwelle bewegt. Es erscheint zweckmäßig, zwei Grenzwerte festzule-

Bei Menschen liegt die Hörschwelle bei einer Intensität von 10–12 W/m²!


90

4 Schallausbreitung

Abb. 4.2 Ausbreitungsformen einer Welle

Tab. 4.2 Typische Schallleistungen einiger Quellen (Größenordnungen)

gen. Die untere Grenze ist durch jene Schallintensität gegeben, die in einem völlig ruhigen Raum bei Menschen gerade noch eine Hörempfindung auslöst. Dieser als Hörschwelle bezeichnete Wert wurde nach statistischer Auswertung experimenteller Untersuchungen auf 10–12 W/m2 festgelegt. Er entspricht bei Schallausbreitung in Form einer ebenen Welle in Luft einem Schalldruck von rund 2 · 10–5 Pa. Die Hörschwelle ist somit auch der genormte Bezugswert für die in Abschnitt 2.1.9 erläuterten Schallpegel, die in dBSPL angegeben werden.

Schallquelle

Schallleistung PQuelle (Watt)

Schallquelle

Schallleistung PQuelle (Watt)

Sprache (Unterhaltung)

10–6...10–5

Orchester

70

(menschlicher) Schrei

10–3...10–2

Alarmsirene

1000

Geige (fff)

10–3

Raketen

bis 108

Orgel, Pauken (fff)

10

Die Schmerzgrenze wird meist mit 120 dBSPL bzw. 1 W/m2 angegeben.

Am anderen Ende der Skala wurde jene Schallintensität bestimmt, ab der Menschen im Normalfall Schmerzen empfinden. Selbstverständlich ist auch dieser als Schmerzgrenze bezeichnete Wert subjektiv und daher nur mit Hilfe statistischer Methoden experimentell ermittelbar. Meist wird die Schmerzgrenze mit einer Intensität von IS = 1 W/m2 oder bei ebener Wellenausbreitung auch mit einem Schalldruck von pS = 20 Pa angegeben. Die maximale Schallstärke, die rein theoretisch denkbare wäre, würde dann erreicht, wenn in den lokalen Minima der Schalldichte gar keine Luftmoleküle mehr anzutreffen wären. Es würde an diesen Stellen also


4.2 Besondere Eigenschaften der Wellenausbreitung

temporär Vakuum herrschen. Die Druckschwankungen müssten hierzu im Bereich des normalen Luftdrucks von 1013 hPa liegen. Dieser Schallpegel würde rund 194 dBSPL betragen. Freilich ist ein derart hoher Wert in der Praxis nicht erreichbar. Eine derartige Druckwelle würde die Umgebung verwüsten.

4.2 Besondere Eigenschaften der Wellenausbreitung 4.2.1 Interferenz und Schwebung

Überlagern sich Schallwellen mit exakt gleicher Frequenz, so hängt die resultierende Amplitude von der Phasenlage der beiden Wellen ab. Im Falle der so genannten konstruktiven Interferenz schwingen beide Wellen in Phase, und die Einzelamplituden addieren sich. Bei destruktiver Interferenz schwingen die beiden Wellen hingegen in Gegenphase, sind also um 180º phasenverschoben. Es kommt zu einer gegenseitigen Auslöschung der beiden Einzelamplituden. Überlagern sich zwei Wellen mit annähernd gleicher Frequenz, so ändert sich ihre Phasenbeziehung ständig. Konstruktive und destruktive Interferenz wechseln einander in diesem Fall also fortwährend ab. Die Amplitude der resultierenden Welle ist nicht mehr konstant, sondern kann ihrerseits durch eine Welle beschrieben werden. Dieser Sachverhalt wird als Schwebung bezeichnet. Die Frequenz der Amplitudenänderung wird als Schwebungsfrequenz bezeichnet. Sie ergibt sich aus der Differenz der beiden Frequenzen der sich überlagernden Wellen.

91

Abb. 4.3 Interferenz von Wellen gleicher Frequenz


92

4 Schallausbreitung

Abb. 4.4 Reflexion von Schallwellen

4.2.2 Reflexion

Geht man von realen Verhältnissen aus, so wird die Ausbreitung von Wellen stets durch verschiedenste Hindernisse gestört. An der Grenzfläche zwischen zwei unterschiedlichen Medien wird ein Teil der ankommenden Energie einer Welle in Richtung der Quelle zurückgeworfen. Dieser Sachverhalt heißt Reflexion. Ist die Grenzfläche groß im Vergleich zur Wellenlänge, so gilt das aus der Optik bekannte Snelliussche Gesetz, nach dem der Einfallswinkel der Schallwelle dem Ausfallswinkel gleicht. Glatte Oberflächen führen zu regelmäßiger, raue Oberflächen hingegen zu diffuser Reflexion. Die Grenze zwischen diesen beiden Qualitäten wird durch die Wellenlänge der reflektierten Welle festgelegt. Sobald in einer Oberfläche Unebenheiten in der Größenordnung der Wellenlänge auftreten, handelt es sich für die Schallwelle um eine raue Fläche. Sind die Unebenheiten hingegen kleiner als die Wellenlänge, so ist die Fläche glatt. Ob eine Schallwelle diffus oder regelmäßig reflektiert wird, hängt daher nicht nur von der Oberfläche, sondern auch von der Frequenz der Welle ab. Für tieffrequente Schallwellen mit Wellenlängen von mehreren Metern kann also auch eine Wand mit zentimetergroßen Löchern noch immer glatt sein. 4.2.3 Absorption, Dissipation und Transmission

Ein Teil der Schallenergie wird an der Grenzfläche nicht zurückgeworfen, sondern vom zweiten Medium aufgenommen. Dieser Sachverhalt wird als Absorption bezeichnet. Die Größe des absorbierten Schallanteils wird durch den Absorptionsgrad bestimmt, der in den meisten Fällen von der Wellenlänge bzw. der Frequenz der einfallenden Schallwelle abhängig ist. Von der absorbierten Schallenergie wird ein Teil durch Reibung in Wärme umgewandelt. Dieser Vorgang wird Dissipation genannt und durch den Dissipationsgrad beschrieben. Die restliche Schallenergie wird


4.2 Besondere Eigenschaften der Wellenausbreitung

93

schließlich im zweiten Medium weitergeleitet. Es wird von Transmission gesprochen. Ist die Grenzfläche im Vergleich zur Wellenlänge groß, so gilt wieder das Snelliussche Gesetz:

v2  sin(1 )  v1  sin( 2 )

Oberflächenart

Absorbtionsgrad in Abhängigkeit von der Frequenz 125 Hz

250 Hz

500 Hz

1 kHz

2 kHz

4 kHz

Ziegel

0,03

0,03

0,03

0,04

0,05

0,07

Beton (unverputzt)

0,01

0,01

0,02

0,02

0,02

0,03

Fensterglas

0,3

0,2

0,2

0,1

0,07

0,04

Teppich (mittlere Dicke)

0,05

0,08

0,2

0,3

0,35

0,4

Vorhänge

0,05

0,1

0,25

0,3

0,4

0,5

Polstersitze (unbesetzt)

0,2

0,4

0,6

0,7

0,6

0,6

Polstersitze (besetzt)

0,4

0,6

0,8

0,9

0,9

0,9

Dabei sind v1 und v2 die unterschiedlichen Ausbreitungsgeschwindigkeiten der beiden Medien, α1 ist der Einfalls- und α2 der Austrittswinkel. 4.2.4 Brechung

Ändert sich die Ausbreitungsgeschwindigkeit kontinuierlich mit dem Ort, so folgt die Schallwelle gekrümmten Ausbreitungswegen. Dieser Effekt der Wellenausbreitung wird als Brechung bezeichnet. Da die Temperatur der Luft und somit auch die Schallgeschwindigkeit im Allgemeinen mit zunehmender Höhe abnimmt, werden Schallwellen in der Regel nach oben hin abgelenkt. Bei so genannten Inversionswetterlagen kehrt sich der Temperaturgradient der Luft um, und es ist auf den Bergen wärmer als in den Tälern. Bei gleicher Entfernung erscheinen Geräusche aus der Ferne dann lauter als üblich. Auch bei Wind, der in Abhängigkeit von seiner Richtung die Schallgeschwindigkeit verändert, spielt Brechung eine Rolle.

Tab. 4.3 Frequenzabhängiger Absorptionsgrad unterschiedlicher Materialien


94

4 Schallausbreitung

α α

Abb. 4.5 Absorption und Brechung

Ist der Durchmesser eines Objekts wesentlich kleiner als die Wellenlänge, so stellt es für die Ausbreitung kein Hindernis dar.

4.2.5 Beugung

Wird die Ausbreitung von Licht betrachtet, so bildet sich hinter einem Hindernis immer ein Schatten. Für Schallwellen würde das bedeuten, dass akustische Ereignisse hinter einer Hauswand, einer Säule, einem anderen Menschen, einem Bildschirm etc. nicht mehr oder nur in stark abgeschwächter Form hörbar wären. Da dies unserer Alltagserfahrung widerspricht, stellt sich die Frage, worin in diesem Zusammenhang der grundlegende Unterschied zwischen Licht- und Schallwellen besteht, die doch beide den Gesetzen der Wellenausbreitung unterliegen. Ein Objekt wird für eine Welle nur dann zu einem Hindernis, wenn sein Durchmesser in der Größenordnung der Wellenlänge liegt. Trifft eine Welle hingegen auf einen Gegenstand, der kleiner als ihre Wellenlänge ist, so beugt sich die Welle um diesen herum, und es bildet sich kein Schatten. Da die Wellenlängen von Licht sehr klein sind, kommt es dabei immer zu einer Schattenbildung. Bei Schall bestimmt hingegen die jeweilige Wellenlänge bzw. die Frequenz, ob es zur Beugung um das Hindernis oder zur Reflexion und Absorption an diesem kommt. Ein Computerbildschirm behindert beispielsweise die Ausbreitung hoher Frequenzen mit einer Wellenlänge von ein bis zwei Zentimetern, ist aber für tieffrequente Schallsignale mit Wellenlängen von einigen Metern nicht von Bedeutung. Erhält man für ein Kirchenkonzert nur noch einen schlechten Platz hinter einer Säule, so kann das Orchester unter Umständen gar nicht mehr gesehen, sehr wohl aber noch gehört werden. Selbstverständlich wird aber auch das akustische Erlebnis durch die Säule beeinflusst werden. Signalanteile, deren Wellenlängen kleiner als der Durchmesser der Säule sind, können sich nicht um die Säule herum beugen und gelangen bestenfalls über Mehrfachreflexionen im Kirchenraum doch noch zum Hörer. Die Musik wird also hinter der Säule weniger hochfrequente Anteile haben und daher dumpfer klingen.


4.3 Schall in geschlossenen Räumen

95

Das Phänomen der Beugung ist auch dafür verantwortlich, dass Wellen, die auf eine Öffnung treffen, die kleiner als ihre Wellenlänge ist, sich hinter dieser nicht strahlenförmig fortpflanzen, sondern wieder gleichmäßig. Ist die Öffnung jedoch größer als die Wellenlänge, so kommt es dahinter sehr wohl zu einer strahlenförmigen Ausbreitung. Diese Eigenheit der Wellenausbreitung führt dazu, dass sich tiefe Frequenzen besser um Ecken ausbreiten können. Zum Beispiel werden tiefe Frequenzen um einen Türspalt gebeugt. Hohe Frequenzanteile können hingegen nur über Mehrfachreflexionen, bei denen sie einen Teil ihrer Energie verlieren, in den nächsten Raum gelangen. Musik aus einem Lautsprecher im Wohnzimmer klingt in der benachbarten Küche nicht nur leiser, sondern vor allem auch dumpfer. Grundsätzlich gilt, dass sich hohe Frequenzanteile im Allgemeinen schlechter ausbreiten als tiefe. Ein Schallereignis klingt daher umso dumpfer, je weiter der Hörer von der Quelle entfernt ist bzw. je mehr Gegenstände sich zwischen Quelle und Hörer befinden. Dies ist für das Audiodesign von großer Bedeutung, da die Anpassung eines akustischen Ereignisses an die im Bild erkennbare räumliche Situation eine wichtige Aufgabe in der Nachvertonung von Filmen, Videos oder Animationen darstellt.

Abb. 4.6 Beugung von Schallwellen an einer Säule

4.3 Schall in geschlossenen Räumen Beobachtet man die akustische Umwelt mit aufmerksamen Ohren, so wird sofort auffallen, dass auch ein von derselben Quelle hervorgerufenes akustisches Ereignis in verschiedenen Räumen oft völlig anders klingen


96

4 Schallausbreitung

kann. Aus der Hörerfahrung kann geschlossen werden, dass vor allem das Volumen und die Form des Raumes sowie die Oberflächenbeschaffenheit der Wände die wichtigsten Einflussfaktoren sind. Die Veränderungen eines Schallsignals durch einen Raum können gemäß Abschnitt 2.2 näherungsweise durch ein lineares System mit Impulsantwort und Frequenzgang beschrieben werden. Eine genauere Beschreibung der Verhältnisse müsste berücksichtigen, dass Impulsantwort und Frequenzgang auch von den Positionen von Quelle und Hörer im Raum abhängig sind. 4.3.1 Direktschall

Die Verzögerung zwischen Ereignis und dem Eintreffen des Direktschalls kann bei audiovisuellen Produktionen als störend empfunden werden.

Zunächst soll der Frage nach der Impulsantwort eines Raumes nachgegangen werden, die zumindest näherungsweise auch die Ausbreitung kurzer, perkussiver Klänge beschreibt. Jene Wellenfront, die sich ohne Umwege auf der kürzesten Verbindung von der Quelle zum Hörer ausbreitet, wird als Erstes gehört. Diese erste Wellenfront wird als Direktschall bezeichnet. Aus der zeitlichen Verzögerung Δt zwischen der Aktion, die das Schallereignis bewirkt, und dem Eintreffen des Direktschalls beim Hörer kann mit der Schallgeschwindigkeit v der Abstand a zwischen Quelle und Hörer gemäß a = v · Δt ermittelt werden. Dass der zeitliche Abstand zwischen Blitz und Donner es ermöglicht, die eigene Entfernung zum Zentrum des Gewitters abzuschätzen, lernen viele Menschen schon als Kind. Kann man langsam bis drei zählen, so ist man rund einen Kilometer entfernt und es besteht keine Gefahr. In den meisten Fällen befindet sich der Hörer jedoch so nah an der Quelle, dass die zeitliche Verzögerung gar nicht wahrgenommen wird. Trotzdem muss sie bei audiovisuellen Produktionen unter Umständen beachtet werden. Vor allem bei Videoproduktionen, die mit einem geringen Budget auskommen müssen, sind Situationen denkbar, in denen mit Zoomobjektiv und einem auf der Kamera befestigten Mikrofon ein Objekt aus größerer Entfernung gefilmt wird. Wird beispielsweise die Sprengung eines Hauses aus 300 Metern Entfernung gezeigt, so trifft der von der Explosion hervorgerufene Knall schon fast eine Sekunde nach dem visuellen Ereignis ein. Der Bildinhalt und die zugehörigen akustischen Ereignisse sind dann nicht mehr synchron. Obwohl dieser Umstand auch den realen Gegebenheiten entspricht, wird dies beim Betrachten des Videos in der Regel als störend empfunden. Die Erwartungshaltung, dass Schallquelle und -signal zusammengehören und somit gleichzeitig auftreten, überwiegt in diesem Fall gegenüber der Erfahrung, dass sich Licht schneller als Schall ausbreitet.


4.3 Schall in geschlossenen Räumen

97

Abb. 4.7 Zusammensetzung der Impulsantwort eines Raumes: Direktschall, Erstreflexionen, Nachhall

4.3.2 Erstreflexionen

Unmittelbar nach dem Direktschall treffen in kurzen Abständen mehrere Wellenfronten beim Hörer ein, die einmal an der Decke, am Boden oder an den Wänden reflektiert wurden und als Erstreflexionen bezeichnet werden. Bei der Reflexion haben sie einen Teil ihrer ursprünglichen Energie abgegeben. Der Pegel der Erstreflexion ist daher im Vergleich zum Direktschall etwas geringer. Im Normalfall beträgt die Verzögerung zwischen Direktschall und Erstreflexionen etwa 30 bis 40 Millisekunden. Um zwei aufeinander folgende Schallsignale getrennt wahrnehmen zu können, muss ihr zeitlicher Abstand etwa 50 ms betragen. Ab einer Verzögerung von rund 100 ms sind ganz deutlich zwei getrennte Ereignisse hörbar. Im Allgemeinen folgen Direktschall und Erstreflexionen also so rasch aufeinander, dass sie als ein einheitliches akustisches Ereignis wahrgenommen werden. In sehr großen Räumen und vor allem an bestimmten Orten im Freien kann es aber auch vorkommen, dass die Verzögerungen größer als 50 ms werden. Direktschall und Erstreflexionen werden dann als zwei unter-

Ist die Verzögerung zwischen zwei aufeinander folgenden Wellenfronten größer als ca. 50 ms, so ist ein Echo hörbar.


98

4 Schallausbreitung

Abb. 4.8 Die Impulsantwort eines Raumes

schiedliche Signale wahrgenommen. Die Erstreflexionen werden dann als Echo gehört. 4.3.3 Nachhall

Ist der Abstand zwischen Hörer und Quelle gering, so ist der Direktschall im Vergleich zu Erstreflexionen und Nachhall stärker ausgeprägt.

Nach den Erstreflexionen treffen jene Wellenfronten beim Hörer ein, die bereits mehrfach an Boden, Decke und Wänden reflektiert wurden. Die Abfolge der eintreffenden Mehrfachreflexionen wird immer dichter. Ihre Amplituden nehmen hingegen mehr und mehr ab, da die Welle bei jeder Reflexion Energie abgibt. Diese große Anzahl an Mehrfachreflexionen wird immer als ein einheitliches, mit der Zeit verklingendes Hörereignis wahrgenommen und als Nachhall bezeichnet. Die zeitliche Verzögerung und das Verhältnis der Amplituden zwischen Direktschall, Erstreflexionen und Nachhall ist ein wichtiges Maß für die Größe des Raumes einerseits und für den Abstand zwischen Quelle und Hörer andererseits. Befindet sich der Hörer sehr nah an der Quelle, so legt der Direktschall nur einen kurzen Weg zurück, die Verzögerung der Reflexionen ist wesentlich größer. Auf Grund seiner Nähe hat der Direktschall auch noch kaum an Intensität verloren. Er ist daher im Verhältnis zum Nachhall wesentlich stärker ausgeprägt. Ist der Hörer hingegen weit von der Quelle entfernt, so unterscheidet sich die Wegstrecke des Direktschalls oft nur geringfügig von jener der Erstreflexionen. Die zeitliche Verzögerung zwischen Direktschall und Hallsignal ist in diesem Fall also vergleichsweise gering. Außerdem verliert auch der Direktschall mit dem Quadrat zum Abstand von der Quelle an Intensität, und er wird daher nicht mehr so stark überwiegen.


4.4 Raumakustik

99

Abb. 4.9 Schallfeld eines Raumes bei anhaltendem Signal

4.3.4 Die Impulsantwort eines Raumes

Den bisherigen Ausführungen folgend können Direktschall, Erstreflexionen und Nachhall gut in der Impulsantwort eines Raumes erkannt werden. Auch Nachhallzeit und Halldichte, mit der die mehr oder weniger rasche Abfolge der Mehrfachreflexionen beschrieben wird, können unmittelbar aus der Impulsantwort abgelesen werden. Selbstverständlich sind auch eventuell auftretende Echos in der Impulsantwort erkennbar. Sind die genaue Messanordnung und die Geometrie des Raumes bekannt, so können aus den Amplitudenverhältnissen von Direktschall und Erstreflexionen die Reflexionskonstanten der maßgeblichen Begrenzungsflächen bestimmt werden. 4.3.5 Das Schallfeld von anhaltenden Signalen

Wird statt eines kurzen Impules ein dauerhaftes akustisches Ereignis in einem Raum gehört, so überlagern sich beim Hörer nach und nach Direktschall, Erst- und Mehrfachreflexionen. Erst nach der so genannten Anhallzeit nimmt der Schallpegel beim Hörer einen konstanten Wert an. Wenn das Schallereignis endet, so bemerkt der Hörer zunächst den Wegfall des Direktschalls. Die zahlreichen Reflexionen werden genau wie bei einem impulsförmigen Schallereignis erst nach und nach gemäß der Nachhallzeit des Raumes verklingen.

4.4 Raumakustik Vor allem unter Musikern wird häufig von der guten oder schlechten Akustik eines Raumes gesprochen. Was dabei unter „gut“ und „schlecht“ genau zu verstehen ist, wird hingegen eher selten genannt. Wichtig ist, dass die akustische Qualität eines Raumes immer von dessen Bestim-


100

4 Schallausbreitung

mung abhängig ist. Ein guter Konzertsaal wird kaum auch ein guter Vortragsraum sein. Einige wichtige Kriterien für die Beurteilung der akustischen Eigenschaften von Räumen sollen in der Folge kurz erläutert werden. 4.4.1 Halligkeit

Der reflektierte Anteil des Gesamtschalls soll einen geeigneten Lautstärkewert relativ zum Ausgangsschall und vor allem eine geeignete Abklingzeit aufweisen. Die wichtigste messbare Eigenschaft ist in diesem Zusammenhang die Nachhallzeit. Es wird darunter jene Zeit verstanden, in der nach Abschalten einer Schallquelle die Schallenergie in einem Raum um 60 dB abfällt. Die Nachhallzeit hängt sowohl vom Volumen des Raumes als auch vom Absorptionsvermögen der reflektierenden Oberflächen ab. Mit der so genannten Sabineschen Formel kann die Nachhallzeit eines Raumes in guter Näherung berechnet werden, wenn das Absorptionsvermögen A und das Raumvolumen V bekannt sind: T  0,163

Die Nachhallzeit eines Raumes hängt auch von der Frequenz ab.

V V  0,163 A  1 S 1   2 S2  ...   n S n

Das Absorbtionsvermögen A des Raumes erhält man durch Summation der Produkte sämtlicher Oberflächen Sn des Raumes mit den entsprechenden Absorbtionsgraden αn. Wie bereits in Abschnitt 4.2.3 erwähnt, ist der Absorptionsgrad einer Oberfläche meist von der Frequenz der einfallenden Schallwelle abhängig. Aus diesem Grund ist auch die Nachhallzeit eines Raumes keineswegs konstant, sondern ebenfalls eine frequenzabhängige Größe. Dies hat zur Folge, dass jeder Raum nicht nur den zeitlichen Verlauf von Schallereignissen verändert, sondern auch deren Klangfarbe beeinflusst. Starke Hallanteile bei tiefen Frequenzen können dabei subjektiv zur „Wärme“, solche bei hohen Frequenzen zur „Brillanz“ eines Klanges beitragen. Welche Nachhallzeit als angenehm empfunden wird, hängt einerseits vom Raum bzw. dessen Volumen und andererseits von der Beschaffenheit des Schallsignals ab. Freilich spielen für die als optimal empfundene Nachhallzeit die subjektive Wahrnehmung und der kulturelle Hintergrund eine Rolle. So weisen beispielsweise katholische Kirchen meist längere Nachhallzeiten als protestantische auf. In großen europäischen Kathedralen beträgt die Nachhallzeit beispielsweise bis zu acht Sekun-


4.4 Raumakustik

den. In kleineren katholischen Kirchen in Europa ist eine Nachhallzeit von bis zu ca. drei Sekunden üblich. Protestantische Kirchen in Amerika mit einer Nachhallzeit von mehr als zwei Sekunden sind hingegen eher selten. 4.4.2 Deutlichkeit, Klarheit

Besonders für die Sprachverständlichkeit eines Raumes ist es wichtig, dass alles klar, deutlich und unverdeckt wahrgenommen wird. Hierzu ist es notwendig, dass der Direktschall möglichst stark und ungestört beim Hörer eintrifft. Der Nachhall vorangegangener Schallereignisse soll den Direktschall möglichst wenig überlagern. Erstreflexionen mit einer Verzögerung von bis zu 50 ms können die Silbenverständlichkeit und somit die Deutlichkeit der Aussprache erhöhen. Der Deutlichkeitsgrad eines Raumes ist daher definiert als Verhältnis der Schallenergie, die innerhalb der ersten 50 ms eintrifft, zur gesamten eintreffenden Schallenergie. Die Klarheit steht immer in Konkurrenz zur Halligkeit des Raumes. Es ist eine wichtige Aufgabe für Akustiker, unter Berücksichtigung des Verwendungszwecks einen möglichst guten Kompromiss zu finden. Das nachträgliche Erhöhen der Nachhallzeit gelingt kaum, die Herabsetzung stellt hingegen meist kein Problem dar. Oft kann schon durch das Anbringen von Vorhängen, Teppichen oder anderen Oberflächen mit verhältnismäßig hohem Absorptionsgrad eine wesentliche Verbesserung erzielt werden. 4.4.3 Gleichmäßige Schallverteilung

Die Hörwahrnehmung soll nach Möglichkeit an allen Stellen im Raum zumindest annähernd gleich sein. Es sollen keine toten Winkel vorhanden sein. Die Summe aller reflektierten Schallwellen sollte überall möglichst gleich groß sein. Eine gute Durchmischung des Schalls lässt sich durch unregelmäßige Grundrisse, nicht parallele Wände, nach innen gewölbte Wandflächen, Vorsprünge und Kanten, untergliederte Wandstrukturen etc. erzielen. 4.4.4 Einbeziehung der Hörer

Der Hörer soll von allen Seiten vom Klang umgeben werden und sich nicht von der Schallquelle isoliert fühlen. Der Ursprungsort des Schalls muss dabei aber identifizierbar sein. Die Erstreflexionen sollten daher nicht nur von der Vorder- und Rückwand, sondern auch von Decke,

101


102

Tab. 4.4 Passende Nachhallzeit in Abhängigkeit von Raumvolumen und Art des Signals

4 Schallausbreitung

Art des Signals

Raumvolumen 1000 m³

2000 m³

5000 m³

Sprache

ca. 0,5 s

ca. 0,8 s

1,8 s

>2s

Orgel

Boden und Seitenwänden kommen. Genügend Unterstrukturen in den Begrenzungsflächen können ermöglichen, dass beim Hörer Reflexionen aus allen denkbaren Richtungen eintreffen. 4.4.5 Echovermeidung

Wiederholte Reflexionen des Schalls müssen vorhanden sein, dürfen aber nicht als einzelne, voneinander getrennte Ereignisse wahrgenommen werden. Die Reflexionen sollen also zeitlich so dicht aufeinander folgen, dass sie subjektiv als ein einziges Ereignis empfunden werden. Stark hervortretende Reflexionen, die später als 100 ms nach dem Direktschall beim Hörer eintreffen, werden als Einzelecho wahrgenommen. Zu einer unerwünschten Rauigkeit im Klang führen aber schon Reflexionen ab einem Zeitabstand von etwa 50 ms. Die Wegstrecke für die Erstreflexion sollte aus diesem Grund höchstens 10 m länger als der direkte Weg sein. In großen Konzertsälen kann daher die sorgfältige Positionierung von zusätzlichen Reflektorflächen notwendig sein. 4.4.6 Niedriger Geräuschpegel

Diverse Umgebungsgeräusche sollen niedrig gehalten werden. Dies wird ganz allgemein durch eine möglichst gute Schalldämmung erreicht. Ein Grundgeräusch von mehr als 40 dB macht einen Raum für musikalische Aufführungen unbrauchbar. 30 dB sind akzeptabel. Werte unter 20 dB sind nur mit sehr großem Aufwand zu realisieren und bringen keine wesentliche Verbesserung mehr.


5 Aspekte der Wahrnehmung Die semantische Lücke zwischen Schall- und Lautereignis als zentrale Problemstellung im Audiodesign wurde bereits im Abschnitt 1.6 ausführlich diskutiert. Bei der Umwandlung physikalisch bzw. signaltheoretisch beschreibbarer Schallereignisse in subjektiv empfundene Lautereignisse spielen vor allem die physiologische Beschaffenheit des Gehörs, die neurologische Verarbeitung akustischer Reize im Gehirn, die assoziative Verknüpfung mit Erinnerungen und erlernten Inhalten sowie intermodale Wechselwirkungen mit anderen Sinnesreizen eine wichtige Rolle. Die Zusammenhänge sind Forschungsgegenstand der Psychoakustik. Einige wichtige Aspekte der Wahrnehmung werden in den folgenden Abschnitten behandelt. Hinweise zu aktuellen Erkenntnissen zur neurologischen Verarbeitung akustischer Reize im Gehirn sind auf der Web-  Siehe Webseite seite zum Buch zusammengefasst. () zum Buch

5.1 Das Gehör Das menschliche Gehör hat die Aufgabe, die eintreffende Schallwelle in elektrische Nervenimpulse umzuwandeln, die dann zur Auswertung an das Gehirn weitergeleitet werden. Das Ohr lässt sich grob in die drei Teilbereiche Außenohr, Mittelohr und Innenohr untergliedern. 5.1.1 Das Außenohr Das Außenohr besteht aus Ohrmuschel und Gehörgang und endet am Trommelfell, einer aus faserigem Gewebe bestehenden dünnen Membran, die durch die Druck- bzw. Dichteschwankungen der Luft in Schwingung versetzt wird. Der Gehörgang ist ca. 2,5 bis 3 cm lang und hat im Allgemeinen einen Durchmesser von etwas weniger als einem Zentimeter. Er hat die Aufgabe, empfindliche Teile des Gehörs vor äußeren Einflüssen


104

Der Gehörgang verstärkt als Schwingungssystem Frequenzen im Bereich von ca. 3 bis 3,5 kHz.

5 Aspekte der Wahrnehmung zu schützen. Der Gehörgang bildet aber auch ein eigenständiges Schwingungssystem, das das am Trommelfell eintreffende Schallsignal beeinflusst. Er kann näherungsweise durch ein einseitig geschlossenes zylindrisches Rohr modelliert werden. Dem Abschnitt 3.3.6 entsprechend gilt für die Resonanzfrequenzen eines derartigen Systems fn = (2n–1) v / 4L. Für die Länge des Gehörgangs von ca. 2,5 bis 3 cm und eine Schallgeschwindigkeit von etwas mehr als 340 m/s beträgt die erste Resonanzfrequenz etwa 3 bis 3,5 kHz. Die am Ohr eintreffenden Schallwellen werden also in diesem Frequenzbereich durch den Gehörgang verstärkt. Die menschliche Hörwahrnehmung ist in diesem Bereich daher am empfindlichsten. 5.1.2 Das Mittelohr

Die Gehörknöchelchen bilden einen komplizierten Hebelmechanismus und wirken als mechanischer Verstärker.

Unmittelbar an das Trommelfell grenzt das Mittelohr an. Es ist über die so genannte eustachische Röhre mit der Mundhöhle verbunden. Dadurch ist sichergestellt, dass in Außen- und Mittelohr der gleiche Normaldruck herrscht und das Trommelfell tatsächlich durch Druckschwankungen bewegt wird. Nur bei raschem Anstieg oder Abfall des äußeren Normaldrucks kann es vorkommen, dass dieser Druckausgleich nicht rasch genug erfolgt. Das dabei im Ohr entstehende eher unangenehme Gefühl ist von der Start- und Landephase eines Fluges oder auch von Tauchgängen bekannt. Im Mittelohr sind die drei als Hammer, Amboss und Steigbügel bezeichneten Gehörknöchelchen zu finden. Sie wirken als Hebelmechanismus und verstärken somit die Kraft, die bei jeder Auslenkung des Trommelfells auf den damit fest verbundenen Hammer ausgeübt wird. Die verstärkte Kraft wird vom Steigbügel auf das so genannte ovale Fenster an der Grenze zum Innenohr weitergeleitet. Zusätzlich erfüllen zwei Muskeln im Innenohr eine Schutzfunktion für das empfindliche Innenohr gegenüber sehr hohen Schalldrücken. Der Steigbügelmuskel kann die Beweglichkeit der drei Gehörknöchelchen vermindern und wird durch den so genannten akustischen Reflex bei Schalldrücken über 90–100 dBSPL innerhalb einer Reaktionszeit von rund 15 ms wirksam. Der langsamer wirkende Hammermuskel erhöht die Spannung des Trommelfells. Das Zusammenspiel dieser beiden Muskeln bewirkt eine Schalldämmung bei Frequenzen größer als ein Kilohertz. Neben dem ovalen Fenster besteht mit dem runden Fenster eine zweite Verbindung zwischen Mittel- und Innenohr.


5.1 Das Gehör

105

Abb. 5.1 Die Schnecke: ausgerollt und stark vereinfacht

5.1.3

Das Innenohr

Die Schnecke – auch Cochlea genannt – mit dem Gehörorgan und das Gleichgewichtsorgan mit den drei Bogengängen im Vestibularapparat sind die Bestandteile des Innenohres. Die Schnecke besteht aus zwei Gängen. Der so genannte Vorhofgang geht vom ovalen, der Paukengang vom runden Fenster des Mittelohres aus. In der Schneckenspitze sind beide Gänge über das Schneckenloch verbunden. In ihrem restlichen Verlauf sind sie durch den mit einer zähen Lymphflüssigkeit gefüllten Schneckengang voneinander getrennt. Die untere Begrenzung des Schneckenganges wird als Basilarmembran bezeichnet. Das Cortische Organ, das aus über 20000 Haarzellen besteht, sitzt im Inneren der Basilarmembran. Bewegungen der Lymphflüssigkeit und der Membran werden auf die Haarzellen übertragen, die wiederum Signale an die mit ihnen verbundenen Nervenzellen abgeben. Die eigentliche Umwandlung der Schwingungen in Nervenimpulse erfolgt also im Cortischen Organ. Über die Gehörknöchelchen werden die Schwingungen des Trommelfells auf das ovale Fenster übertragen und von diesem wiederum in Druckschwankungen der Lymphflüssigkeit in der Schnecke umgewandelt. Auf Grund von entstehenden Druckdifferenzen zwischen Vorhofgang und Paukengang setzt sich die Basilarmembran ähnlich den Wellen einer Fahne in Bewegung. Da sich Masse und Elastizität der Membran zur Schneckenspitze hin kontinuierlich ändern, ändern sich auch ihre Schwingungseigenschaften. Trifft ein Sinussignal auf die Basilarmembran, so ändert sich aus diesem Grund der Ort ihrer maximalen Auslenkung in Abhängigkeit von der Frequenz, und es werden dadurch jeweils unterschiedliche Haarzellengruppen bzw. Nervenzellen angeregt. Um diesen Sachverhalt besser veranschaulichen zu können, soll ein Vergleich mit einer Reihe von einfachsten Schwingsystemen durchge-


106

5 Aspekte der Wahrnehmung

Abb. 5.2 Stark vereinfachtes Schwingungsmodell der Basilarmembran

führt werden, deren Elastizität und Massen nach und nach zunehmen. Dieses Modell ist in Abb. 5.2 dargestellt. Werden alle Feder-MasseSysteme mit der gleichen Frequenz angeregt, so wird jenes System mit der größten Amplitude schwingen, dessen Resonanzfrequenz am besten mit der Anregungsfrequenz übereinstimmt. Hingegen werden jene Systeme, deren Resonanzfrequenzen stark von der Anregungsfrequenz abweichen, nur schwach in Schwingung versetzt. Obwohl dieses Modell die tatsächlichen Verhältnisse im menschlichen Gehör sehr stark vereinfacht, kann es doch dabei helfen, wichtige Effekte der Wahrnehmung besser zu verstehen. Schon ein einzelner harmonischer Ton wird in diesem Modell nicht nur jenes Feder-Masse-System in Schwingung versetzen, dessen Resonanzfrequenz mit der Anregung übereinstimmt, sondern auch die benachbarten Systeme zum Schwingen bringen. Auf ähnliche Weise werden auf der Basilarmembran immer Bereiche an Stelle genau lokalisierbarer Punkte angeregt. Unterscheiden sich zwei harmonische Töne in ihren Frequenzen nur geringfügig, so regen sie die gleiche Region der Basilarmembran an. Der menschliche Gehörsinn ist nicht in der Lage, die beiden Reize zu trennen. Es wird daher nur ein einziges Schallereignis wahrgenommen, das – wie in Abschnitt 4.2.1 dargestellt – Schwebungen aufweist. Werden die Schwebungen so schnell, dass sie nicht mehr als Schwankungen der Lautstärke wahrgenommen werden können, so empfindet man sie zunächst als Rauigkeit des Schallereignisses. Damit zwei unterschiedliche, sich nicht mehr gegenseitig beeinflussende Tonhöhen gehört werden können, muss der Frequenzunterschied einen bestimmten Wert übersteigen. Beide Töne regen dann unterscheidbare Bereiche der Basilarmembran an, sodass dort zwei getrennte


5.1 Das Gehör

107

MittenFrequenz (in Hz)

50

100

150

200

400

800

1600

3200

6400

12800

% der Mittenfrequenz

66 %

38 %

28 %

24 %

17 %

13%

12 %

12 %

14 %

17 %

ERB in Hz

33,2

37,9

42,7

47,4

66,9

107,2

193,9

391,2

881,4

2244,6

ERB: Equivalent Rectangular Bandwith, ERB(fm) = 6,23–6.fm2 + 93,39–3.fm + 28,52 (Hz)

Maxima erkennbar sind. Jene Frequenzdifferenz, bei der sich die subjektive Wahrnehmung zweier harmonischer Töne ziemlich abrupt ändert, wird als kritische Frequenzbandbreite bezeichnet. Sie ist im tiefen Frequenzbereich verhältnismäßig groß und beträgt für Frequenzen unter 150 Hz mehr als 30 %. Für Frequenzen zwischen 500 und 8000 Hz ist die kritische Frequenzbandbreite kleiner als 15 % der Mittenfrequenzen. Am besten kann der menschliche Gehörsinn gleichzeitig erklingende Töne mit Frequenzen im Bereich von zwei bis drei Kilohertz voneinander unterscheiden, in dem die kritische Frequenzbandbreite etwa 12 % beträgt. Die schlechtere Frequenzauflösung im Bassbereich sollte im Audiodesign berücksichtigt werden. Obwohl in der Musik kaum harmonische Töne verwendet werden und die Obertöne der Bassklänge die Frequenzauflösung verbessern, können zwei tiefe Töne unter Umständen auch im Intervall eine Quart noch tendenziell als rau empfunden werden. Da die Unterscheidung auf Grund der Tonhöhe schwer fällt, sollten im Allgemeinen zwei unabhängige Basslinien vermieden werden und alle Instrumente im tiefen Register genau aufeinander abgestimmt werden. Eine lebendige Basslinie mit vielen Tönen kann sich mit einer durchgehend schlagenden Bassdrum reiben. Meist ist es daher empfehlenswert, dass sich die Rhythmen dieser beiden Elemente im Arrangement ergänzen. Die kritischen Frequenzbänder wirken sich auch auf die Wahrnehmung von Konsonanz und Dissonanz bei Intervallen aus. () 5.1.4 Verarbeitung im Gehirn Die Nervenbahnen des Gehörs gehen nicht direkt ins Großhirn. Die Signale werden mehrfach gemischt und an verschiedenen Stellen vorverarbeitet. So gibt es beispielsweise Verbindungen vom Gehör in das limbische System des Gehirns, in dem der Hormonhaushalt, primäre

Tab. 5.1 Kritische Frequenzbandbreite verschiedener Mittenfrequenzen Zwei harmonische Töne sind auf Grund ihrer Tonhöhe nur dann unterscheidbar, wenn ihre Frequenzdifferenz die kritische Frequenzbandbreite übersteigt.



108

5 Aspekte der Wahrnehmung Körperfunktionen und vermutlich auch die Emotionen gesteuert werden. Damit kann erklärt werden, warum akustische Ereignisse direkt die menschliche Puls- und Atemfrequenz beeinflussen und unmittelbar Emotionen auslösen können. Erst nach dieser unbewussten Vorverarbeitung in den niederen Hirnschichten geschieht die bewusste Interpretation des Signals im Hörbereich der Großhirnrinde. Die Hörwahrnehmung hängt sowohl von der Physiologie des Ohres als auch von den Prozessen der Informationsverarbeitung im Gehirn ab.

5.2 Wahrnehmung der Lautstärke Der nahe liegende Zusammenhang zwischen Amplitude bzw. Intensität einer Schallwelle und der von dieser Welle ausgelösten Empfindung von Lautstärke wurde bereits in Abschnitt 1.3.3 erwähnt. In Abschnitt 4.1.5 wurde festgestellt, dass die Schallintensität eines akustischen Ereignisses größer als die Hörschwelle von 10–12 W/m2 sein muss, um überhaupt eine Hörempfindung auszulösen. Hingegen lösen Schallintensitäten ab etwa 1 W/m2 Schmerzen im Gehör aus. 5.2.1 Unterscheidungsschwelle

Zwei Schallereignisse werden nur dann als unterschiedlich laut wahrgenommen, wenn ihre Pegeldifferenz mindestens 0,5 bis 1 dB beträgt.

Die wahrnehmbaren Intensitäten akustischer Ereignisse erstrecken sich über einen sehr großen Bereich von etwa 13 bis 14 Zehnerpotenzen. Es stellt sich nun die Frage, wie viele verschiedene Schallintensitäten innerhalb dieses Bereichs unterscheidbar sind bzw. wie stark die Intensitäten zweier Signale voneinander abweichen müssen, damit sie als unterschiedlich laut wahrgenommen werden. Die Antwort liefert der eben merkbare Unterschied, der als JND ( just noticeable difference) oder auch als Abstandsempfindung der Lautstärke bezeichnet wird. Zur Bestimmung dieser JND der Lautstärke wurden eine Reihe von psychoakustischen Experimenten durchgeführt, bei denen Versuchspersonen eine Folge von Sinustönen gleicher Frequenz hören und in ihrer Lautstärke unterscheiden sollten. Für einen harmonischen Ton mit einer Frequenz von 1000 Hz und einem Schallpegel von 40 dBSPL beträgt der JND ungefähr 0,8 dB. Die Unterscheidungsschwelle steigt bei tieferen Frequenzen und niedrigeren Schallpegelwerten an. Im Allgemeinen liegt sie aber zwischen 0,5 und 1 dB. Damit ein Schallsignal lauter empfunden wird, muss dessen Intensität also um mindestens 15 bis 30 Prozent angehoben werden.


5.2 Wahrnehmung der Lautstärke

109

Abb. 5.3 Kurven gleicher Lautstärke nach Fletcher und Mundson

5.2.2 Frequenzabhängigkeit der Lautstärke Aus den Betrachtungen des menschlichen Gehörs in Abschnitt 5.1 geht hervor, dass das Ohr als ein komplexes Schwingungssystem aufgefasst werden muss und als solches eintreffende Schallsignale maßgeblich beeinflusst. Aus diesem Grund hängt die Wahrnehmung der Lautstärke nicht nur von der Schallintensität des eintreffenden Signals ab, sondern auch von der Frequenz. Das menschliche Gehör ist im Bereich zwischen zwei und vier Kilohertz am empfindlichsten. Oberhalb von 10 kHz nimmt die Empfindlichkeit sehr rasch, unterhalb von ca. 500 Hz eher allmählich ab. Die bekannten Intensitätswerte für Hörschwelle und Schmerzgrenze wurden für eine Frequenz von 1 kHz ermittelt. Hingegen kann ein harmonisches Schallsignal mit einer Frequenz von 100 Hz erst ab einer Schallintensität von mindestens 10–9 W/m2 wahrgenommen werden. Ein Sinuston mit einer Frequenz von 1 kHz und einem Schallpegel von 20 dBSPL wird gleich laut wahrgenommen wie einer mit einer Frequenz von 100 Hz und einem Pegel von ca. 48 dBSPL oder wie einer mit einer Fre-  Siehe Webseite quenz von 10 kHz und einem Pegel von ca. 30 dBSPL. () zum Buch Um die gleiche Empfindung von Lautstärke hervorzurufen, müssen also Schallsignale mit unterschiedlichen Frequenzen im Allgemeinen auch unterschiedliche Schallpegel aufweisen. Die jeweils erforderlichen Werte können aus den von Fletcher und Munson experimentell bestimmten Kurven gleicher Lautstärke ermittelt werden.


110


Schallpegel in dBSPL und Lautstärkepegel in Phon müssen unterschieden werden. Sie entsprechen einander nur bei einem 1-kHz-Sinuston!

Damit zwei Schallsignale, die als gleich laut empfunden werden, auch den gleichen Lautstärkewert haben, wurde der so genannte Lautstärkepegel, gemessen in Phon, eingeführt. Der Lautstärkepegel eines akustischen Ereignisses in Phon entspricht definitionsgemäß immer dem Schallpegel eines 1-kHz-Tones, der die gleiche Lautstärkeempfindung auslöst. Ein 10-kHz-Ton mit einem Schallpegel von 30 dBSPL hat beispielsweise einen Lautstärkepegel von 20 phon. Auffällig bei der Betrachtung der Kurven gleicher Lautstärke ist, dass sich ihre Form abhängig vom jeweiligen Schallpegel ändert. Für sehr leise akustische Ereignisse mit einem Lautstärkepegel von bsw. 10 phon schwankt der notwendige Schallpegel zwischen ca. 70 dBSPL bei 20 Hz und nur 10 dBSPL im Bereich zwischen zwei und drei Kilohertz. Um hingegen eine Lautstärke von 100 phon wahrzunehmen, ist bis zu etwa einem Kilohertz zumindest näherungsweise ein Schallpegel von 100 dBSPL und zwischen zwei und drei Kilohertz einer von 90 dBSPL erforderlich. Im Allgemeinen wird bei der Aufnahme von akustischen Ereignissen darauf geachtet, dass alle Frequenzkomponenten möglichst gleichmäßig und ausgewogen aufgezeichnet werden. Soll nun aber ein Schallereignis, das während der Aufnahme in verschiedenen Frequenzbereichen einen hohen Schallpegel von beispielsweise 100 dBSPL hatte, mit einem geringeren Schallpegel wiedergegeben werden, so wird dadurch eine andere Kurve gleicher Lautstärke wirksam. Bässe und Höhen werden aus diesem Grund schwächer wahrgenommen als im Original, was durch einen so genannten Equalizer ausgeglichen werden sollte. Gute HiFi-Anlagen verfügen auch über einen Loudness-Regler, bei dessen Betätigung Bass- und Höhenanteile automatisch an die Lautstärke der Wiedergabe angeglichen werden. Neben dem Lautstärkepegel wird auch die so genannte Lautheit eines Schallereignisses in Sone verwendet, um die empfundene Lautstärke zu messen. Diese von Stevens experimentell ermittelte Lautheitsskala basiert auf von Testhörern durchgeführten Verhältnisschätzungen, wievielmal lauter oder leiser ein Schallsignal im Vergleich zu einem anderen ist. Als Referenzsignal wurde ein Sinuston mit einem Schallpegel von 40 dBSPL und einer Frequenz von 1 kHz festgelegt, der definitionsgemäß eine Lautheit von einem Sone verursacht. Ein Schallereignis mit einer Lautheit von 2 sone wird doppelt, eines mit 0,5 sone nur halb so laut empfunden wie dieser Referenzton. Für Lautstärkepegel größer als 40 phon gilt näherungsweise, dass eine Erhöhung um jeweils 10 phon zu einer Verdopplung der Lautheit führt. Für Lautstärkepegel unter 40 phon wird hingegen eine Halbierung der Lautheit bereits bei einer Senkung um jeweils rund 8 phon wahrgenommen. Der von einem bestimmten Schallereignis hervorgerufene Eindruck von Lautheit hängt stark von den in Abschnitt 5.1.3 beschriebenen kriti-



Lautheit in sone

1

2

4

8

16

32

64

128

256

Lautstärkepegel in phon

40

50

60

70

80

90

100

110

120

schen Frequenzbändern ab. Innerhalb eines Bandes wird die Lautheit von der empfangenen Gesamtenergie bestimmt. Werden hingegen zwei getrennte Frequenzgruppen angeregt, so tragen beide unabhängig voneinander zur Lautheit des Schallereignisses bei. Als Beispiel soll zunächst die Gesamtlautstärke zweier Sinustöne mit den Frequenzen 990 Hz und 1010 Hz ermittelt werden, die allein einen Lautstärkepegel von jeweils 80 phon bzw. eine Lautheit von ca. 16 sone auslösen. Da beide Töne in einem kritischen Frequenzband liegen, müssen ihre Intensitäten addiert werden. Da sich die Frequenzen beider Signale nur geringfügig von 1000 Hz unterscheiden, entsprechen ihre Lautstärkepegel in recht guter Näherung auch ihrem Schallpegel, und beide Signale haben somit die gleiche Intensität. Eine Verdopplung der Intensität entspricht einer Erhöhung des Schallpegels um drei Dezibel. Der gesamte Lautstärkepegel beträgt somit rund 83 phon, was einer Lautheit von etwas weniger als 21 sone entspricht. Das heißt, die empfundene Lautstärke erhöht sich in diesem Fall um das Verhältnis von 21 zu 16 bzw. um den Faktor 1,3. Liegt die Frequenz des zweiten Tones hingegen bei 2000 Hz, so fällt dieser in ein anderes Frequenzband, und die gesamte Lautheit wird von der Summe der Einzelereignisse bestimmt. Haben beide Töne wieder einen Lautstärkepegel von 80 phon bzw. eine Lautheit von 16 sone, so wird eine Lautheit von 32 sone – also die doppelte Lautstärke – wahrgenommen, wenn beide Töne gleichzeitig gehört werden. Ganz allgemein gilt, dass sich die empfundene Lautstärke erhöht, wenn sich die vom Ohr empfangene Energie über einen größeren Frequenzbereich verteilt. Daraus folgt die wichtige Grundregel für Instrumentation, Arrangement und Mix, dass der gesamte zur Verfügung stehende Frequenzbereich optimal ausgenutzt werden soll. 5.2.3 Simultanmaskierung Im alltäglichen Leben ist man permanent mit dem Umstand konfrontiert, dass viele Schallereignisse in einer leisen Umgebung noch gut wahrgenommen werden können, aber in einer lauten vom herrschenden Lärm unterdrückt werden. Ein weinendes Kind, das in einem Wohnzimmer

111

Tab. 2.2 Lautheit und Lautstärkepegel

Schallsignale, deren Energie sich über einen größeren Frequenzbereich verteilt, werden lauter empfunden als Signale mit der gleichen Energie, die jedoch nur in einem einzigen kritischen Frequenzband wirksam wird.

Akustische Ereignisse mit hohem Pegel verdecken solche mit niedrigem. Dieser Effekt wirkt umso stärker, je geringer die Differenz ihrer Frequenzen ist.


112

Der Maskierungseffekt sollte im Audiodesign berücksichtigt werden!

5 Aspekte der Wahrnehmung durchaus als laut empfunden werden kann, wird in einer Fabrikhalle mit lärmenden Maschinen mitunter gar nicht gehört. Durch die Anwesenheit eines lauten akustischen Ereignisses wird die Hörschwelle eines zweiten Schallsignals umso mehr erhöht, je weniger die beiden Frequenzen voneinander abweichen. Dieser psychoakustische Effekt wird Simultanmaskierung oder simultaner Verdeckungseffekt genannt. Aus dem Maskierungseffekt kann eine weitere wichtige Grundregel für Instrumentation, Arrangement und Mix abgeleitet werden: Jedes Element soll einen möglichst eigenständigen Bereich im Gesamtspektrum einnehmen, damit es zu keinen Verdeckungen kommt. Die gleichzeitige Verwendung von zwei Schallereignissen in einem ähnlichen Frequenzbereich macht meist wenig Sinn, da vielfach eines das andere verdecken wird. 5.2.4 Vor- und Nachmaskierung

Abb. 5.4 Maskierungseffekte

Maskierung tritt nicht nur bei zwei gleichzeitig erklingenden akustischen Ereignissen auf. Auch unmittelbar vor bzw. nach einem lauten akustischen Ereignis wird ein leises Schallsignal maskiert. Die Nachmaskierung kann damit erklärt werden, dass die Basilarmembran nicht unendlich stark gedämpft wird und daher nach einer verhältnismäßig starken Anregung durch ein Schallsignal mit hohem Pegel eher langsam ausschwingt, anstatt ohne Verzögerung in ihre Ruhelage zurückzukehren. Unmittelbar nach einem akustischen Ereignis mit hohem Lautstärkepegel benötigt das Gehör in den betroffenen kriti-



113

schen Frequenzbändern eine bestimmte Erholzeit, um wieder die volle Empfindlichkeit zu erlangen. Diese Recovery time kann in Abhängigkeit vom Lautstärkepegel des vorangegangenen Signals bis zu 100 ms betragen. Dass auch zwei bis fünf Millisekunden vor einem lautem Ton Maskierung stattfinden kann, hängt mit der Trägheit des Gehörs zusammen.

Nach einem lauten Schallereignis benötigt das Ohr eine Erholungsphase von bis zu 100 ms.

5.2.5 Lautstärke und Dauer Auch die Dauer eines akustischen Ereignisses kann sich auf die wahrgenommene Lautstärke auswirken. Um überhaupt eine Tonempfindung hervorzurufen, muss ein harmonischer Ton eine Dauer von mindestens 10 bis 15 Millisekunden haben. Kürzere Schallereignisse werden unabhängig von ihrer Beschaffenheit als „Klick“ wahrgenommen. Bei kurzen Schallereignissen ist die empfundene Lautstärke von der Schallenergie abhängig und somit proportional zur Dauer des Signals. Ab einer Dauer von ca. 0,5 s erreicht die Lautheit schließlich ihren Endwert und ist dann unabhängig von der Zeit. Sehr kurze akustische Ereignisse müssen also einen höheren Pegel aufweisen, um gleich laut wie längere Signale wahrgenommen zu werden. Dies ist selbstverständlich auch für die Musik von Bedeutung. Beispielsweise müssen Pianisten kurze Staccato-Noten mit mehr Kraft anschlagen als gebundene Passagen, wenn beide mit der gleichen Lautstärke erklingen sollen. Bei vielen Schallereignissen wird dieser Effekt dadurch verstärkt, dass das Amplitudenmaximum im Allgemeinen erst nach einer bestimmten Einschwingzeit erreicht wird. Etwas abgeschwächt kann der Effekt hingegen dadurch werden, dass Schallereignisse abhängig vom Raum durch Nachhall verlängert werden. Bei lange andauernden Schallsignalen tritt der Effekt der Adaption oder auch Anpassung auf, der bewirkt, dass bei gleich bleibender Schallintensität die wahrgenommene Lautstärke nach einiger Zeit wieder sinkt. Die Adaption ist vor allem bei niedriger Schallintensität und hohen Frequenzen wirksam. Ein Indiz dafür, dass Adaption für die Musik von Bedeutung ist, stellt die häufige Verwendung von Trillern – also einer raschen Abfolge zweier benachbarter Tonhöhen – oder ein oft ausgeprägtes Vibrato – also die permanente kontinuierliche Veränderung der Tonhöhe – an Stelle von hochfrequenten Dauertönen dar. Hingegen sind im Bassbereich, in dem die Adaption kaum wirksam ist, lang ausgehaltenen Töne, die auch als Orgelpunkt oder Bordun bezeichnet werden, in verschiedensten Musikstilen und -kulturen weit verbreitet. Die Adaption darf nicht mit dem psychologischen Vorgang der Ermüdung verwechselt werden, durch den dauerhafte, eher belanglose Geräu-

Bei gleichem Pegel klingen sehr kurze Schallereignisse leiser als etwas längere.

Vor allem hohe, lange andauernde Schallereignisse werden bei gleich bleibendem Pegel auf Grund von Adaption nach einer gewissen Zeit leiser wahrgenommen. Dauerhafte Hintergrundgeräusche werden auf Grund von Ermüdung nach einer Weile nicht mehr wahrgenommen.


114

5 Aspekte der Wahrnehmung sche, wie sie zum Beispiel von diversen Lüftern oder Kühlschränken etc. erzeugt werden, ignoriert werden.

5.3 Wahrnehmung der Tonhöhe Tonhöhe ist jene Wahrnehmung, die es einem Hörer ermöglicht, akustische Ereignisse auf einer Skala zwischen hoch und tief zu ordnen. Erfahrungsgemäß ist es jedoch nicht möglich, jedem beliebigen Schallsignal eine entsprechende Tonhöhe zuzuordnen. Bereits in Abschnitt 1.8 wurde erwähnt, dass die wahrgenommene Tonhöhe eines periodischen Schallsignals vor allem von dessen Grundfrequenz beeinflusst wird. Im Falle von Geräuschen kann keine eindeutige Tonhöhe bestimmt werden. Der hörbare Frequenzbereich liegt theoretisch zwischen 20 und Der hörbare Frequenzbereich ist individuell sehr 20000 Hz. In der Praxis weichen die von einzelnen Personen wahrnehmverschieden und hängt baren Frequenzbereiche aber mehr oder weniger stark voneinander ab. unter anderem vom Alter Die wenigsten Menschen hören tatsächlich bis zu 20 kHz. Bei gesunden, der betreffenden Perjungen Personen stellen 16 bis 18 kHz eine realistischere obere Frequenzsonen ab. grenze dar. Außerdem nimmt diese Grenze mit zunehmendem Alter mehr und mehr ab und sinkt bei Frauen bis auf rund 12 kHz, bei Männern mitunter sogar unter 10 kHz. Schallsignale mit Frequenzen unter 30 Hz müssen eine sehr große Intensität aufweisen, um wahrgenommen zu werden. Das Subkontra-C von großen Kirchenorgeln hat eine Grundfrequenz von 16 Hz. Die Hörbarkeit solch tiefer Klänge hängt aber vor allem von den mitschwingenden Obertönen ab. Etwa ab 20 Hz geht die Wahrnehmung von Hören in Fühlen über. Experimente mit Infraschall bei Frequenzen von 7 bis 10 Hz haben gezeigt, dass diese bei hohen Intensitäten zu Übelkeit, Durchfall, Erbrechen oder gar zu Blutungen innerer Organe führen können. 5.3.1 Unterscheidungsschwelle

Schallereignisse mit Grundfrequenzen über 5 kHz können auf Grund der wahrnehmbaren Tonhöhe kaum unterschieden werden.

Ähnlich wie bei der Wahrnehmung der Lautstärke führt nicht jede beliebige Differenz zweier Grundfrequenzen zu einem wahrnehmbaren Tonhöhenunterschied. Es kann also wieder durch psychoakustische Versuche eine wahrnehmbare, als JND (just noticeable difference) bezeichnete Schwelle ermittelt werden. Bei Sinustönen mit Frequenzen unterhalb von 1 kHz beträgt die JND ungefähr ein Hertz. Für komplexe Wellenformen ist die Unterscheidungsschwelle vor allem auf Grund der vorhandenen Obertöne geringer. Im tiefen Frequenzbereich kann sie sogar bis auf 0,1 Hz sinken. Oberhalb von ca. 1 kHz steigt der JND zunächst allmählich und ab ca. 5 kHz sehr rasch an. Ungefähr ab Fre-


5.3 Wahrnehmung der Tonhöhe quenzen von 10 kHz ist das menschliche Unterscheidungsvermögen für Tonhöhen fast gar nicht mehr ausgeprägt. Aus diesem Grund werden in der Musik im Allgemeinen keine Grundfrequenzen verwendet, die höher als 4,2 kHz liegen. 5.3.2 Tonhöhenwahrnehmung bei komplexen Tönen Klänge oder auch komplexe Töne setzen sich gemäß Abschnitt 2.1.3 aus einer Reihe von Teiltönen zusammen. Jeder dieser Teiltöne regt in Abhängigkeit von seiner Intensität einen bestimmten Bereich auf der Basilarmembran an. Vergleichbar mit einem Frequenzanalysator können auf diese Weise die Lage und die relative Stärke der Teiltöne bzw. des Grundtons ermittelt werden. Mit dieser so genannten Ortstheorie können jedoch nicht alle Aspekte der Tonhöhenwahrnehmung erklärt werden. Die Ortstheorie muss daher mit der so genannten Periodizitätstheorie erweitert werden, der zufolge dem Gehirn von den Nervenzellen der Schnecke auch Informationen über die Wellenform übermittelt werden, mit der die Periodendauer des Schallsignals bestimmt werden kann. Die menschliche Wahrnehmung ist deshalb in der Lage, einem Schallereignis einen Grundton entsprechend dem Reziprokwert der Periodendauer zuzuordnen, auch wenn dieser im Spektrum gar nicht enthalten ist. Das Signal in Abb. 5.5 setzt sich beispielsweise aus Teiltönen mit Frequenzen von 100, 150, 200 und 350 Hertz zusammen. Da sich die Signalform alle 20 ms wiederholt, wird in diesem Fall eine Tonhöhe wahrgenommen, die jener eines harmonischen Signals mit einer Frequenz von 50 Hz entspricht. Aktuelle Theorien der Tonhöhenwahrnehmung gehen davon aus, dass das Gehirn versucht, bestimmte Muster in der empfangenen Information zu erkennen. Mit dieser Mustererkennungstheorie kann auch eine Tonhöhenwahrnehmung bei Glocken oder Pauken erklärt werden, deren Spektren Teiltöne aufweisen, die keine ganzzahligen Vielfachen einer Grundfrequenz sind. Es wird dabei jene Tonhöhe wahrgenommen, deren ganzzahlige Vielfache am geringsten von den tatsächlich im Signal auftretenden Teiltönen abweichen. 5.3.3 Tonhöhen gebräuchlicher Instrumente Eine Übersicht und weiterführende Hinweise zu den Tonhöhen gebräuchlicher Instrumente und von einigen natürlichen oder technischen  Siehe Webseite Klängen sind auf der Webseite zum Buch zusammengestellt. () zum Buch

115


116


Abb. 5.5 Wahrnehmung der Tonhöhe: Tonlage und Tonigkeit

5.3.4 Oktavenphänomen, Tonigkeit und Tonhöhenlage Eine Verdopplung der Grundfrequenz wird als Oktave bezeichnet. Klänge im Abstand einer Oktave bewirken eine ähnliche Tonhöhenwahrnehmung.

Besonders bemerkenswert ist im Zusammenhang mit der Wahrnehmung von Tonhöhen, dass eine Verdopplung der Grundfrequenz immer zu einer besonderen Ähnlichkeit in der Wahrnehmung führt. Diese Ähnlichkeit geht so weit, dass ungeübte Hörer unter Umständen gar keinen Unterschied feststellen können. Dieses besondere Frequenzverhältnis von 2 : 1 wird als Oktave bezeichnet. Die bei jeder Oktave empfundene Ähnlichkeit lässt sich dadurch erklären, dass sowohl der Grundton als auch sämtliche Teiltöne des höheren Klangs stets exakt mit Teiltönen des niedrigeren zusammenfallen. Auf Grund des Oktavenphänomens können bei der Wahrnehmung von Tonhöhen die beiden Komponenten Tonigkeit und Tonhöhenlage – auch kurz als Tonlage oder Register bezeichnet – unterschieden werden. Die Tonlage beschreibt die mit zunehmender Grundfrequenz ansteigende Empfindung. Die Tonigkeit, die auch als Toncharakter oder Toneigenfarbe bezeichnet wird, beschreibt die sich in jeder Oktave wiederholende, zyklische Empfindung. Im Gegensatz zur Lautstärke kann die Tonhöhe also in gewissem Sinne als eine zweidimensionale Größe angesehen werden. 5.3.5 Intervalle Bei der Wahrnehmung der Tonhöhe wird nicht nur jede Verdopplung der Grundfrequenz eines Klanges stets als Oktave wahrgenommen, sondern


5.3 Wahrnehmung der Tonhöhe

117

Intervall

Oktave

Quint

Quart

Große Terz

Kleine Terz

Große Sekunde

Große Sexte

Kleine Sexte

Frequenzverhältnis

1:2

2:3

3:4

4:5

5:6

8:9

5:3

8:5

es wird auch ganz allgemein jede Multiplikation mit einem konstanten Faktor immer als gleich bleibender Abstand empfunden. Die Tonhöhenwahrnehmung erfolgt also logarithmisch und nicht linear. Feststehende Frequenzverhältnisse werden als Intervalle bezeichnet und kennzeichnen einen bestimmten, stets als konstant empfundenen Abstand der Tonhöhen zweier Klänge. Wie bereits erwähnt, ist die Oktave jenes Intervall mit dem einfachsten Frequenzverhältnis von 1 : 2 und sie entspricht auch dem Verhältnis vom Grundton zum ersten Teilton eines Klanges. Jene Intervalle, die in der westlich geprägten Musik von Bedeutung sind, erbgeben sich aus den Frequenzverhältnissen der weiteren Teiltöne eines Klanges. Da diese Teiltonfrequenzen gemäß Abschnitt 2.1.3 stets Vielfache der Grundfrequenz sind, müssen Grundfrequenz und erste Teiltonfrequenz im Verhältnis 1 : 2, erste und zweite Teiltonfrequenz im Verhältnis 2 : 3, zweite und dritte Teiltonfrequenz im Verhältnis 3 : 4 usw. stehen. 5.3.6 Konsonanz und Dissonanz Die Intervalle können als konsonant oder dissonant bezeichnet werden. Konsonante Intervalle werden als wohlklingend, glatt und angenehm, dissonante hingegen tendenziell als spannungsvoll, rau, eher unangenehm und „auseinander klingend“ empfunden. Diese Einteilung ist für das Audiodesign insofern von Relevanz, als durch das Wechselspiel von Intervallqualitäten formale und dramaturgische Gestaltung möglich wird. Allerdings kann zwischen Konsonanz und Dissonanz keine eindeutige Trennlinie gezogen werden. Der Übergang ist fließend und mehr oder weniger stark von der jeweiligen Kultur und individuellen Hörerfahrungen geprägt. In der frühen mehrstimmigen Musik des Mittelalters wurden zum Beispiel lediglich Oktave, Quinte und Quarte als konsonant empfunden. Erst später wurde der Konsonanzbegriff auf kleine und große Sext sowie kleine und große Terz erweitert. Schon Pythagoras stellte die so genannte Proportionstheorie auf, dass ein Intervall umso konsonanter empfunden wird, je einfacher sein Frequenzverhältnis ist. Nach der Klangverwandtschaftstheorie von Helmholtz ist ein Intervall dann konsonant, wenn ein oder mehrere Obertöne der beiden

Tab. 5.3 Wichtige Intervalle undihr Frequenzverhältnis

Intervalle sind definierte Frequenzverhältnisse. Ein Intervall wird unabhängig von den genauen Frequenzen immer als ähnlich klingend empfunden.


118


Abb. 5.6 Wahrnehmung von Konsonanz und Dissonanz bei Sinussignalen

Klänge zusammenfallen. Die Tonverschmelzungstheorie nach Stumpf basiert darauf, dass ungeschulte Hörer nicht immer in der Lage sind, zwei Töne getrennt wahrnehmen zu können. Ein Intervall ist demnach umso konsonanter, je mehr Personen statt der tatsächlich erklingenden zwei Klänge nur einen einzigen hören. Psychoakustische Versuche ergaben, dass 75 % der ungeschulten Hörer eine Oktave, 50 % die Quint, 33 % die Quart und 25 % die Terz eher als ein Klangereignis wahrnehmen. Neuere Erkenntnisse über das Empfinden von Konsonanz und Dissonanz zeigen, dass zwei reine Sinussignale dann als dissonant wahrgenommen werden, wenn sie innerhalb eines kritischen Frequenzbandes der Basilarmembran liegen und ihr Frequenzunterschied zwischen 5 und 50 Prozent dieses Frequenzbandes beträgt. Abschnitt 5.1.3 folgend, hängt die kritische Frequenzbandbreite von der jeweiligen Mittenfrequenz ab. Die Einteilung in konsonante und dissonante Intervalle ist daher auch von der absoluten Tonhöhe abhängig. Im Frequenzbereich zwischen 1000 und 3000 Hz werden nur Verhältnisse, die kleiner als 1 : 1,06 sind, als dissonant empfunden, was etwa einem Halbtonschritt entspricht. Im Bassbereich werden hingegen Frequenzverhältnisse bis etwa 5 : 6, also bis zu einer kleinen Terz, als dissonant empfunden. Aus diesem Grund gilt im klassischen vierstimmigen


5.3 Wahrnehmung der Tonhöhe

119

Abb. 5.7 Bezeichnung der Tonstufen auf einer Klaviatur

Chorsatz die Regel, dass die Stimmen von Tenor und Bass um mindestens eine Quart auseinander liegen oder zusammenfallen sollen. Diese Regel wurde freilich intuitiv aufgestellt, noch bevor überhaupt mit wissenschaftlichen Untersuchungen der auditiven Wahrnehmung durch die Psychoakustik begonnen wurde. Bei komplexen Klängen hängt die Konsonanzempfindung nun davon Der gute ab, wie viele Teiltöne des einen Klanges in den kritischen Frequenz- Zusammenklang zweier bändern des anderen fallen. Dabei spielen nach derzeitigen Erkenntnis- Schallereignisse ist von deren spektraler sen vor allem die ersten sieben Teiltöne eine wichtige Rolle. Je mehr in Zusammensetzung einem kritischen Frequenzband zusammenfallende Teiltöne nach obiger abhängig. Erklärung dissonant klingen, als desto schlechter wird der Zusammenklang der beiden Schallereignisse empfunden. Ob zwei akustische Ereignisse als konsonant empfunden werden, hängt demnach nicht nur vom Verhältnis der Grundfrequenzen ab, sondern wird auch von deren spezifischen Obertonstrukturen entscheidend mitbestimmt. Wie auf der Webseite zum Buch näher erklärt, kann es dabei auch eine Rolle spielen, welches der beiden Schallereignisse höher bzw. tiefer  Siehe Webseite klingt. () zum Buch 5.3.7 Tonskalen und Stimmungen Das menschliche Gehör nimmt im Allgemeinen keine absoluten Tonhöhen wahr. Die exakte Frequenz eines Signals spielt für die Tonhöhenwahrnehmung eine eher untergeordnete Rolle. Die verschiedenen Grundfrequenzen wahrgenommener akustischer Ereignisse werden vielmehr miteinander verglichen und zueinander in Beziehung gesetzt. Aus diesem Grund wird in nahezu allen bekannten Musikkulturen der nutzbare Frequenzbereich in eine verhältnismäßig kleine, diskrete Anzahl von Tonstufen aufgeteilt, obwohl auf Grund der geringen Unterscheidungsschwelle innerhalb einer Oktave eigentlich sehr viele verschiedene Tonhöhen wahrgenommen werden könnten. In unserer westlich geprägten Musik wird jede Oktave in zwölf Halbtöne

In allen bekannten Musiktraditionen wird nur eine bestimmte Anzahl diskreter Tonstufen verwendet.


120

Die Aufteilung der Oktave in 12 Halbtonschritte ist willkürlich.

Eine perfekte Stimmung, die bei konstantem Frequenzverhältnis für einen Tonschritt alle Intervalle der Teiltonreihe exakt einhält, ist nicht möglich!

5 Aspekte der Wahrnehmung unterteilt, die mit c, cis, d, dis, e, f, fis, g, gis, a, ais, h und wieder c bezeichnet werden. Obwohl sich diese Einteilung, vor allem, was das mehrstimmige Zusammenspiel verschiedener Instrumente betrifft, durch eine große Praktikabilität auszeichnet, ist sie im Grunde als eher willkürlich anzusehen. Es wäre genauso denkbar, jede Oktave in elf, dreizehn oder jede andere beliebige Zahl von Tonstufen zu unterteilen. Im arabischen Raum werden vielfach 24 Stufen verwendet. Die vedische Musiktradition in Indien teilt die Oktave in 22 so genannte Shrutis. Sobald die Entscheidung getroffen wurde, in wie viele Tonstufen eine Oktave unterteilt werden soll, stellt sich die Frage nach der genauen Stimmung des verwendeten Tonmaterials. Dabei sollten einerseits die Abstände zwischen den einzelnen Tönen möglichst gleich sein, andererseits aber die aus der Teiltonreihe abgeleiteten Proportionen der Intervalle möglichst erhalten bleiben. Beim Versuch, diese Forderungen zu erfüllen, stellt sich schnell heraus, dass es unmöglich ist, eine perfekte Stimmung zu finden. Bei einer Folge von sechs aufeinander folgenden Ganztonschritten oder großen Sekunden sollte beispielsweise nach c, d, e, fis, gis und ais letztlich wieder der nun jedoch um eine Oktave höher liegende Ton c erklingen. Die große Sekunde tritt in der Teiltonreihe zwischen dem achten und neunten Teilton auf. Da jeder Ganztonschritt einer Multiplikaion mit 9/8 entspricht und sechs Ganztonschritte eine Oktave ergeben sollen, müsste also auch (9/8)6 = 2 statt 2,0273 gelten. Auch nach vier kleinen Terzen sollte eine Oktave erreicht sein. Das heißt, auch (6/5)4 müsste für eine perfekte Stimmung zwei und nicht 2,0736 ergeben. In der so genannten pythagoräischen Stimmung wurden zwölf reine Quinten übereinandergeschichtet, die in Summe sieben Oktaven ergeben sollten. Dies entspricht zum Beispiel der Tonfolge c–g–d–a–e–h–fis–cis– gis–dis–ais–eis–c. Es sollte also (3/2)12 = 27 sein. Der fehlende Quotient von (3/2)12 : 27 = 1,01364 wird pythagoräisches Komma genannt. In der so genannten reinen Stimmung werden die durch die Teiltonreihe gegebenen Frequenzverhältnisse der Intervalle genau eingehalten. Allerdings kann dabei das für praktisches Musizieren wichtige Prinzip der enharmonischen Verwechslung nicht mehr angewendet werden. Beispielsweise würden die beiden Töne fis und ges oder ais und b einander nicht mehr entsprechen, was vor allem sämtliche Tasteninstrumente unbrauchbar machen würde. Etwa seit der ersten Hälfte des 18. Jahrhunderts ist in der westlich geprägten Musik die so genannte wohltemperierte Stimmung gebräuchlich. Dabei wird jede Oktave in zwölf gleiche Halbtonschritte unterteilt. Zwischen der Grundfrequenz eines beliebigen Klanges fn und jener Grund-


5.4 Wahrnehmung der Klangfarbe

121

frequenz fn+1 des um genau einen Halbton höher klingenden gilt somit der folgende Zusammenhang: f n  1  12 2  f n

Soll die Tonhöhe eines Klanges um zwölf Halbtöne erhöht werden, so muss die Grundfrequenz zwölfmal mit dem Faktor 12 2 – also mit zwei – multipliziert werden, und die Oktave wird wie gewünscht erreicht. Musiktheorie und technische Akustik unterteilen jeden Halbtonschritt noch weiter in hundert Cent. Die große Verbreitung der wohltemperierten Stimmung ist in ihren Vorteilen für die Musizierpraxis begründet. Ihr Nachteil liegt darin, dass die ganzzahligen Frequenzverhältnisse der Intervalle mit Ausnahme der Oktave nicht exakt erreicht werden. Beispielsweise wird der für eine Frequenzerhöhung um eine Quint erforderliche Faktor 1,5 bei Verwendung der wohltemperierten Stimmung durch 1,4983 ersetzt. Auch wenn sich die Hörer westlicher Musik längst an diesen, vor allem für das praktische Musizieren mit Tasteninstrumenten notwendigen Kompriss, gewöhnt haben, wirkt sich dieser trotzdem vor allem bei Mehrstimmigkeit auf den Gesamtklang aus. Auf Grund der Verstimmung der Intervalle werden diese viel eher als dissonant wahrgenommen. Solange Streicher oder auch Bläser ohne Tasteninstrumente musizieren, intonieren Musiker Intervalle eher in reiner Stimmung, wodurch ein angenehmeres, wärmeres Klangbild erzielt werden kann.

5.4 Wahrnehmung der Klangfarbe Als Klangfarbe wird jene primäre Eigenschaft eines andauernden Schallereignisses verstanden, die es der menschlichen Wahrnehmung ermöglicht, zwei akustische Ereignisse zu unterscheiden, die die gleiche Lautstärke- und Tonhöhenempfindung auslösen. 5.4.1 Messbare Eigenschaften der Klangfarbe Auf den Zusammenhang zwischen der Klangfarbe und dem mittels Frequenzspektrum quantifizierbaren Aufbau bzw. der Form des Schallsignals wurde bereits mehrfach hingewiesen. Dabei wurde auch der grundlegende Unterschied zwischen Geräuschen und Klängen festgehalten. Demnach weist das Spektrum eines Klanges ausgeprägte Maxima bei Frequenzen auf, deren kleinster gemeinsamer Teiler als Grundfrequenz

Der spektrale Aufbau eines Schallsignals ist ein wichtiges Kriterium für die wahrnehmbare Klangfarbe.


122

Die Lage der Formanten im Spektrum ist charakteristisch für eine bestimmte Klangfarbe.

Auch der zeitliche Verlauf eines Klanges beeinflusst die Wahrnehmung der Klangfarbe!

5 Aspekte der Wahrnehmung des Klanges wahrgenommen wird. Für Geräusche ist hingegen ein kontinuierlicher Verlauf des Spektrums ohne stark hervortretende Maxima kennzeichnend. Dazwischen liegen akustische Ereignisse, die sowohl geräuschhafte als auch klangliche Wahrnehmungen hervorrufen, wie beispielsweise manche Tierlaute, quietschende Objekte oder einige Schlaginstrumente, die zwar ausgeprägte Maxima aufweisen, deren Frequenzen aber nicht oder nur in grober Näherung als ganzzahlige Vielfache einer Grundfrequenz dargestellt werden können. Diese mehr oder weniger starken Ausprägungen spektraler Maxima werden in der Psychoakustik als Klanghaftigkeit eines akustischen Ereignisses bezeichnet. Ganz wesentlich für den Parameter Klangfarbe sind die Formanten. Wie im Abschnitt 3.1.3 erklärt, handelt es sich dabei um Frequenzbereiche, die auf Grund der Schwingungseigenschaften eines Resonanzkörpers im Spektrum verstärkt werden. Da diese Bereiche völlig unabhängig von der Grundfrequenz bzw. der wahrnehmbaren Tonhöhe sind, können sie als wesentliches Merkmal der Klangfarbe angesehen und zu deren Beschreibung verwendet werden, wie das beispielsweise bei dem in Abb. 3.7 dargestellten und in Abschnitt 3.4.3 beschriebenen Vokalviereck gemacht wird. Bei genauerer Analyse der Klangfarbe stellt sich rasch heraus, dass das Spektrum eines Klanges keinesfalls für die Beschreibung ausreicht. Beispielsweise wird weißes Rauschen zunächst meist als unangenehmes Störgeräusch empfunden. Wird allerdings der Amplitude dieses Schallsignals eine sich wiederholende langsam ansteigende und gleichmäßig abfallende Hüllkurve aufgeprägt, so erinnert das gleiche weiße Rauschen an Meereswellen. Eine Hüllkurve mit einer Attack-Time nahe null und einer eher kurzen Decay-Time führt zu einem Klang, der dem einer Snaredrum ähnlich ist. Beim Vergleich der Spektren eines singenden Teekessels mit jenem einer zischenden Schlange oder dem Konsonanten „S“ der menschlichen Sprache lassen sich nur schwer quantifizierbare Unterschiede feststellen. Es handelt sich jeweils um schmalbandiges Rauschen im höheren Frequenzbereich. Wird bei einem Instrumentalklang die Einschwingphase weggeschnitten oder der Klang rückwärts abgespielt, so können selbst erfahrene Musiker das Schallereignis meist nicht mehr zweifelsfrei einem Instrument zuordnen. Da in diesen Beispielen das Spektrum immer weitgehend unverändert bleibt, sich aber die wahrgenommene Klangfarbe deutlich verändert, spielen ganz offensichtlich auch der makroskopische Zeitverlauf des Schallsignals und die permanenten geringfügigen Variationen der Klangparameter, die in den Zeitbereich der Transienten fallen, eine wichtige Rolle.


5.4 Wahrnehmung der Klangfarbe

123

5.4.2 Psychoakustische Merkmale der Klangfarbe Im Gegensatz zu Lautstärke und Tonhöhe ist die Klangfarbe eine mehrdimensionale Eigenschaft, die sich daher nicht auf einer Skala zwischen laut und leise oder hoch und tief erfassen lässt. Wichtige psychoakustische Attribute sind Schwankungsstärke, Rauigkeit, Volumen und Dichte, Schärfe und Helligkeit sowie die oben bereits beschriebene  Siehe Webseite Klanghaftigkeit. () zum Buch Mit Schwankungsstärke werden Variationen von Amplitude und Frequenz im Zeitbereich der Transienten beschrieben. Da die Änderungen dabei vergleichsweise langsam sind, können sie auch als solche wahr- Parameterveränderungen in einem Zeitbereich genommen werden. Beispiele wären die musikalischen Klangeffekte Vibgrößer als 50 ms werden rato und Tremolo, die technisch durch Amplituden- oder Frequenzmodu- durch die Schwankungslation erzeugt werden können und von Menschen auch richtig als rasche stärke beschrieben. Die Änderungen der Lautstärke bzw. der Amplitude empfunden werden. sich ändernde EigenAuch Schwebungen, die gemäß Abschnitt 4.2.1 bei der Überlagerung schaft kann dabei noch zweier harmonischer Schwingungen entstehen, können durch die erkannt werden. Schwankungsstärke erfasst werden, solange die von der Differenz der beiden Schwingungen bestimmte Schwebungsfrequenz unterhalb von rund 20 Hz liegt. Beispielsweise beruhen Attribute wie pulsierend, brodelnd, brutzelnd, hämmernd oder zwitschernd, die häufig zur Beschreibung einer Klangfarbe herangezogen werden, maßgeblich auf der Schwankungsstärke. Ändern sich Amplitude und Frequenz zu rasch, um als Schwankungen Sehr rasche Parametervon Lautstärke oder Tonhöhen empfunden zu werden, so führen sie zur änderungen, die nicht Wahrnehmung von Rauigkeit. Als quantifizierbares Maß für die Rauigkeit mehr als solche wahrgenommen werden kann die Anzahl jener ausgeprägten Maxima im Spektrum herangezogen können, führen zur werden, die in ein gemeinsames kritisches Frequenzband fallen. Empfindung von RauigUnter dem Volumen oder auch der Reichhaltigkeit eines Schallsignals keit. wird dessen subjektiv empfundene Größe, dessen Mächtigkeit verstanden. Es beschreibt also jene Eigenschaft, die es beispielsweise ermög- Volumen und Dichte licht, zwischen zarten und kräftigen Stimmen oder dem vollen Klang eines Schallsignals einer Pauke und dem dünnen eines Triangels zu unterscheiden, ohne hängen vor allem von der Bandbreite des Spektdabei Lautstärke oder Tonhöhe berücksichtigen zu müssen. Das Volu- rums ab. men wird vor allem von Anzahl, Dichte und Amplitude der Teiltöne bzw. der spektralen Maxima bestimmt. Das Volumen kann aber auch durch Erhöhen des Schallpegels oder durch Absenken der Frequenzlage innerhalb bestimmter Grenzen gesteigert werden. Mit dem Volumen vergleichbar ist die Dichte eines Schallereignisses. Kennzeichnet das Volumen eher Klänge, so wird Dichte eher zur Charakterisierung von Geräuschen herangezogen. Die Dichte entspricht im Wesentlichen jener Eigenschaft eines Schallsignals, die technisch durch


124

Die Schärfe eines Schallsignals hängt vom Anteil hoher Frequenzen ab. Sehr scharfe Signale bewirken meist unangenehme Wahrnehmungen.

5 Aspekte der Wahrnehmung die Bandbreite im Spektrum erfasst werden und auf einer Skala zwischen breit und schmal beschrieben werden kann. Das Zirpen von Grillen oder das Plätschern eines kleinen Baches sind eher schmale Geräusche. Ein Haarföhn oder ein mächtiger Wasserfall bewirken hingegen breite Schallereignisse. Die Schärfe eines Klanges ist von der Balance zwischen hohen und tiefen Frequenzanteilen abhängig und kann daher technisch vor allem durch den Schwerpunkt des Spektrums beschrieben werden. Je höher der spektrale Schwerpunkt liegt, desto schärfer wird ein Klang empfunden. Scharfe Klänge werden meist als sehr störend wahrgenommen und lösen vielfach unangenehme Empfindungen aus. Im Audiodesign werden scharfe Schallereignisse häufig für akustische Hinweise, wie etwa das Klingeln von Telefonen, eingesetzt. Ihre Funktion als Alarm erfüllen diese Klänge zwar einerseits hervorragend, andererseits wirken sie sowohl für betroffene als auch für unbeteiligte Personen störend. Ein Absenken des spektralen Schwerpunkts durch Hinzufügen von tiefen Frequenzanteilen wäre oft empfehlenswert. Außerdem muss die Dringlichkeit eines Schallsignals nicht zwangsläufig über den Parameter Schärfe ausgedrückt werden. Eine geeignete Gestaltung der Schwankungsstärke würde meist ebenso gut funktionieren. Eng verwandt mit der Schärfe ist der Parameter der Helligkeit, der ebenso mit der Gewichtung von hohen und tiefen Frequenzen zusammenhängt. Ein akustisches Ereignis, dessen spektraler Schwerpunkt bei tiefen Frequenzen liegt, wird als dunkel empfunden. Ausgeprägte Frequenzanteile im hohen Bereich können als hell, brillant, schrill oder eben scharf empfunden werden. 5.4.3 Semantische Aspekte der Klangfarbe


Unbestritten bringt die Problematik der Beschreibung von akustischen Ereignissen mitunter große Schwierigkeiten für das Audiodesign mit sich. Beispielsweise wird die Kommunikation zwischen Sounddesigner, Medienkomponist, Regisseur, Produzent, Auftraggeber etc. dadurch genauso erheblich erschwert, wie das Finden von passenden Sounds in großen digitalen Klangbibliotheken. Ein Versuch, diese Problematik zu vereinfachen, wurde im Forschungsprojekt AllThatSounds unternommen. Die Online-Sounddatenbank stellt verschiedene Möglichkeiten für Beschreibung und Suche von akustischen Ereignissen zur Verfügung. Weiterführende Hinweise zu den semantischen Aspekten der Klangfarbe sind auf der Webseite zum Buch zusammengefasst. ()


5.5 Wahrnehmung des Raumes

125

5.5 Wahrnehmung des Raumes Wie in Kapitel 4 ausführlich dargestellt wurde, beeinflusst die Art der Schallausbreitung jedes akustische Ereignis auf vielfältige Weise. Jedem Schallsignal wird also eine Reihe von Informationen über die räumliche Umgebung aufgeprägt, ehe es von einem Hörer wahrgenommen wird. Im Falle der Wiedergabe aufgezeichneter Schallsignale überlagern sich die Rauminformationen der Umgebung der aufgezeichneten Schallquelle und jene des Raumes, in dem sich der Hörer befindet. Um beispielsweise in einem Kino eine möglichst authentische Wiedergabe des aufgezeichneten bzw. auf der Leinwand abgebildeten Raumes zu ermöglichen, sollte der Kinosaal möglichst neutrale akustische Eigenschaften aufweisen. Das menschliche Gehör kann vor allem die räumliche Tiefe – also nah und fern – und die räumliche Richtung – also links und rechts – unterscheiden. Etwas schwieriger ist die Unterscheidung zwischen vorne und hinten bzw. oben und unten, vor allem dann, wenn entsprechende Vergleichsmöglichkeiten fehlen. 5.5.1 Wahrnehmung der räumlichen Tiefe Die einfachste Möglichkeit, zwischen nahen und fernen akustischen Ereignissen zu unterscheiden, ist die Bewertung der Lautstärke. Bei kugelförmiger Schallausbreitung nimmt die Schallintensität mit dem Quadrat des Abstandes ab. Jede Verdopplung des Abstandes von der

Abb. 5.8 Wahrnehmung der räumlichen Tiefe

kap05_raffaseder.fm Seite 126 Dienstag, 5. Januar 2010 1:17 13

126

Die Wahrnehmung der räumlichen Tiefe wird vom Pegel des Signals und vor allem von den Pegelverhältnissen und Verzögerungen zwischen Direktschall, Erstreflexionen und Nachhall bestimmt.


Siehe Abschnitt 8.4


Schallquelle führt also zu einer Abnahme des Schallpegels um 6 dB. Die Bestimmung der räumlichen Tiefe allein auf Grund der Lautstärke ist aber insofern schwierig, als hierfür der Schallpegel in unmittelbarer Nähe der Quelle als Vergleichswert bekannt sein müsste. Obwohl einige solcher Werte zumindest näherungsweise im menschlichen Gedächtnis gespeichert sind, ist im Allgemeinen dieser notwendige Referenzpegel nicht bekannt. Wichtig für die Wahrnehmung der Entfernung von der Schallquelle sind daher sowohl das Pegelverhältnis von Direktschall und Erstreflexionen bzw. Erstreflexionen und Nachhall als auch die Verzögerungszeit zwischen Direktschall und Erstreflexionen bzw. Erstreflexionen und Nachhall. Ist der Abstand zwischen Schallquelle und Hörer nur gering, so kommt der Direktschall mit nur geringer Abschwächung und Verzögerung beim Hörer an. Erstreflexionen und Nachhall müssen hingegen zusätzlich zu den Dämpfungen bei der Reflexion im Vergleich zum Direktschall wesentlich längere Wegstrecken zurücklegen. Ihre Verzögerungen sind daher vergleichsweise groß und ihre Pegel gering. Ist hingegen der Hörer eher weit von der Schallquelle entfernt, so trifft auch schon der Direktschall mit größerer Verzögerung und abgeschwächtem Schallpegel ein. Die Wegstrecken, die die Erstreflexionen zurücklegen müssen, werden nur unwesentlich länger sein. Daraus folgt, dass sowohl die Verzögerung zwischen Direktschall und Erstreflexion als auch deren Pegelunterschied im Vergleich zu einer nahen Schallquelle gering sein werden. () In der Postproduktionsphase des Audiodesigns ist beim Mischen stets darauf zu achten, jeder Schallquelle eine entsprechende Position im Raum zuzuweisen. Klarheit, Durchhörbarkeit, Transparenz eines Audioproduktes werden durch eine geeignete Tiefenstaffelung verschiedener Schallquellen erhöht. Es ist hierfür notwendig, die Parameter des zur Raumsimulation verwendeten Hall-Effektes den Erkenntnissen aus Schallausbreitung, Raumakustik und Raumwahrnehmung entsprechend einzustellen. () 5.5.2 Wahrnehmung der räumlichen Richtung

Zur Wahrnehmung der räumlichen Richtung wird einerseits der Intensitätsunterschied zwischen linkem und rechtem Ohr – auch interauraler Intensitätunterschied genannt – und andererseits der Laufzeit- bzw. Phasenunterschied zwischen linkem und rechtem Ohr ausgewertet. Befindet sich eine Schallquelle rechts von einem Hörer, so wird das Schallsignal zuerst vom rechten Ohr empfangen. Um auch zum linken Ohr zu gelangen, muss das Signal eine Wegstrecke zurücklegen, die dem halben Umfang des Kopfes entspricht. Das Schallsignal trifft daher erst


5.5 Wahrnehmung des Raumes

127

Abb. 5.9 Richtungswahrnehmung auf Grund von Laufzeitunterschieden

sin

nach einer bestimmten Verzögerung beim linken Ohr ein. Befindet sich die Schallquelle hingegen direkt vor dem Hörer, so wird das Schallsignal gleichzeitig von linkem und rechtem Ohr wahrgenommen. In Abhängigkeit von der Auslenkung der Schallquelle aus der Mittelposition kommt es also zu einer als Laufzeitunterschied bezeichneten Zeitdifferenz bei der Wahrnehmung des Schallsignals zwischen linkem und rechtem Ohr. Der maximale Laufzeitunterschied ergibt sich bei einer Auslenkung der Schallquelle um 90º bzw. /2 aus der Mittelachse. Er beträgt bei einem mittleren Kopfdurchmesser von rund 18 cm und einer Schallgeschwindigkeit von 443 m/s etwa 0,7 ms. Es sind also sehr kleine Zeitdifferenzen, die es ermöglichen, die räumliche Richtung eines Schallsignals wahrzunehmen. Die unterschiedliche Laufzeit kann nur für die erste beim Hörer eintreffende Wellenfront ausgewertet werden und ist daher vor allem bei impulsartigen Schallereignissen wichtig. Bei dauerhaften Signalen ist nach der Zeitdifferenz der ersten Wellenfront ein Phasenunterschied gemäß  = 2f .t zwischen beiden Ohren wahrnehmbar. Diese Phasendifferenz  darf einen Winkel von 180º nicht übersteigen, da andernfalls das Ergebnis nicht mehr eindeutig interpretiert werden kann. Da die Phasendifferenz nicht nur vom Laufzeitunterschied, sondern auch von der Frequenz des Schallsignals bestimmt wird, existiert eine Grenzfrequenz bei etwa 740 Hz, oberhalb der der Phasenunterschied nicht mehr zur Richtungswahrnehmung herangezogen werden kann. Auch wenn die Grenzfrequenz für kleinere Auslenkungen ansteigt, sind Laufzeit- bzw. Phasenunterschiede nur im unteren Frequenzbereich für die Richtungswahrnehmung wirksam.

Laufzeitunterschiede ermöglichen die Richtungswahrnehmung bei Frequenzen unter etwa 1 kHz.


128


Intensitätsunterschiede ermöglichen die Richtungswahrnehmung bei Frequenzen höher als etwa 1 kHz.

Um auch bei höheren Frequenzen die Richtung eines Schallsignals bestimmen zu können, muss auch der Intensitätsunterschied zwischen den beiden Ohren ausgewertet werden. Dieser besteht deswegen, weil der Kopf für Schallwellen, deren Wellenlängen kleiner als der Kopfdurchmesser sind, ein Hindernis darstellt. Die untere Grenzfrequenz liegt daher bei etwa 1900 Hz. Da der Übergang aber ganz allmählich erfolgt, kann auch ab Frequenzen von ca. 1 kHz ein signifikanter Intensitätsunterschied wahrgenommen werden. Für hohe Frequenzen von ca. 10 kHz beträgt der Intensitätsunterschied bis zu 20 dB, wenn die Schallquelle um 90º aus der Mittelachse ausgelenkt wurde. Bei 5 kHz beträgt er unter gleichen Bedingungen ca. 12 dB und bei 1 kHz nur mehr rund 6 dB. Viele audiotechnische Geräte ermöglichen die Einstellung der räumlichen Richtung mit Hilfe eines so genannten Panorama-Reglers. Die Panoramastellung bestimmt die Pegeldifferenz zwischen den beiden Stereokanälen. Es wird also auf diese Weise ausschließlich ein Intensitätsund kein Laufzeit- bzw. Phasenunterschied erzeugt, weshalb die Panorama-Regelung nur für den höheren Frequenzbereich wirksam werden kann. Die Unterscheidung, ob eine Schallquelle vor oder hinter einem Hörer positioniert wurde, ist auf Grund der Form des Außenohres und der Ohrmuschel möglich, die bewirken, dass vor allem Frequenzen oberhalb von 5 kHz richtungsabhängig gebündelt und verstärkt bzw. abgeschwächt werden. Wandert also eine Schallquelle von vorne nach hinten, so scheint sich ihr Signalanteil im hohen Frequenzbereich nach und nach zu verringern. Die Unterscheidung zwischen hinten und vorne ist dadurch zumindest in einem beschränkten Ausmaß möglich. Um eine Schallquelle genauer lokalisieren zu können, sind geringfügige Kopfbewegungen notwendig.

Die Panorama-Regler audiotechnischer Geräte sind im Bassbereich unwirksam.

Auf Grund einer richtungsabhängigen Verstärkung vonFrequenzen oberhalb von ca. 5 kHz durch Außenohr und Ohrmuschel wird die Unterscheidung zwischen vor und hinter dem Hörer positionierten Quellen möglich.


129

6 Schallaufzeichnung Schallspeicherung ist eine wichtige Voraussetzung für eine umfassende rationale Bewertung, Beschreibung und Kategorisierung von akustischen Ereignissen. Sie bildet die Grundlage für eine kreative Auseinandersetzung und gezielte Gestaltung der akustischen Umwelt. Zu beachten ist aber auch, dass einige der im Abschnitt 1.3 besprochenen Eigenschaften der akustischen Wahrnehmung eng mit der ursprünglichen Flüchtigkeit der Schallenergie zusammenhängen und daher aufgrund der Möglichkeiten der Schallaufzeichnung zu hinterfragen sind. Im Abschnitt 1.4 wurde auf mögliche Änderungen von Hörerfahrungen aufgrund der Möglichkeiten zur Speicherung und Bearbeitung akustischer Ereignisse eingegangen.

6.1 Grundprinzipien der Schallaufzeichnung Im Prinzip sind zwei verschiedene Vorgehensweisen zur Übertragung und Aufzeichnung von Signalen denkbar: Signalformcodierung und parametrische Schallaufzeichnung. Bei der Signalformcodierung wird die Schwingung selbst als Funktion der Zeit, also die Form des Signals, mit geeigneten Mitteln möglichst originalgetreu aufgezeichnet. Es handelt sich um eine direkte Aufzeichnung eines akustischen Ereignisses. Bei der parametrischen Codierung wird hingegen versucht, die wichtigen Eigenschaften des Signals zu bestimmen und diese dann aufzuzeichnen. Können die Eigenschaften des Signals nicht eindeutig bestimmt werden, so ist es auch denkbar, den Entstehungsprozess des Schallereignisses zu beschreiben. Da in diesem Fall eben nicht das Signal selbst, sondern lediglich dessen wichtigste Merkmale festgehalten werden sollen, handelt es sich um eine indirekte Aufzeichnung.


130

6 Schallaufzeichnung

Abb. 6.1 Grundprinzipien der Schallaufzeichnung

6.1.1 Signalformcodierung Für Speicherung und Wiedergabe signalformcodierter Schallaufzeichnungen werden geeignete Wandler benötigt. Der Aufwand ist von der Länge des Signals abhängig.

Voraussetzung für Signalformcodierung ist die Umwandlung der flüchtigen Schallenergie in eine speicherbare Energieform. Je nach Art der Aufzeichnung werden hierfür verschiedene Wandler wie beispielsweise Mikrofon, Aufnahme-Tonkopf oder Analog/Digital-Konverter benötigt. Im Allgemeinen wird das Schallsignal mit einem elektroakustischen Wandler in ein elektrisches Signal umgewandelt. Je nach Art der Speicherung kann nun ein Analog/Digital-Wandler folgen. Ein elektromagnetischer Wandler führt das Signal in magnetische Energie über, die auf Magnetbändern oder Festplatten gespeichert werden kann. Für die Wiedergabe ist dann eine entsprechende Rückwandlung beispielsweise mit Lautsprecher, Digital/Analog-Konvertern, Tonkopf, etc. erforderlich. Die ursprüngliche Schallquelle wird hingegen nicht mehr benötigt. Bekannte Beispiele für diese Verfahrensweise wären Schallplatte, Compact Disc, Tonband, Digital Audio Tape (DAT) etc. Sind die entsprechenden Wandler verfügbar, so hängt der technische Aufwand für die Speicherung im Wesentlichen nurmehr von der Dauer und nicht von der Komplexität, der Zusammensetzung oder dem Aufbau des Signals ab.


6.1 Grundprinzipien der Schallaufzeichnung

131

6.1.2 Parametrische Codierung Die schwierige Aufgabe bei der indirekten Schallaufzeichnung ist, die wichtigen Eigenschaften des Schallsignals zu extrahieren. Welche Eigenschaften wichtig sind, mit welchen Mitteln und in welcher Genauigkeit diese festgehalten werden müssen, wird von der Beschaffenheit des Signals bestimmt. Ist es gelungen, die wichtigen Parameter vollständig zu beschreiben, so stellt deren Aufzeichnung im Allgemeinen kein Problem mehr dar. Der Aufwand dieses Verfahrens hängt weniger von der Dauer als vielmehr von der Komplexität des Signals ab. Hierin liegt ein ganz wesentlicher Unterschied zur Signalformcodierung. Soll beispielsweise ein einfaches harmonisches Signal von rund 74 Minuten Länge direkt aufgezeichnet werden, so wird dafür die gesamte Spiellänge einer Compact Disc, also ein Speicherplatz von 650 MB, benötigt. Für eine indirekte Aufzeichnung des Signals genügt es hingegen, die drei Werte für Amplitude, Frequenz und Dauer festzuhalten, wofür sechs Byte ausreichen würden. Soll hingegen statt des einfachen Signals eine umfangreiche klassische Sinfonie von 74 Minuten Länge aufgezeichnet werden, so genügen für die parametrische Aufzeichnung keinesfalls drei Werte. Eine Möglichkeit der indirekten Aufzeichnung der Sinfonie ist die viele Seiten starke Partitur, die meist eine Reihe spezielle, genau für diese Art der Schallaufzeichnung entwickelte Zeichen enthält. Für die Signalformcodierung besteht hingegen kein Unterschied zum einfachen Signal. Für die Wiedergabe eines indirekt aufgezeichneten Schallsignals wird die ursprüngliche Schallquelle – oder zumindest eine vergleichbare – benötigt, die den aufgezeichneten Vorgaben entsprechend angeregt werden muss. Es ist daher in den meisten Fällen kaum möglich, das aufgezeichnete Signal vollkommen originalgetreu wiederzugeben. Für die Wiedergabe eines indirekt aufgezeichneten, einfachen harmonischen Signals muss ein Sinusgenerator, an dem Frequenz und Amplitude richtig eingestellt sind, für die Dauer des aufgezeichneten Schallereignisses eingeschaltet werden. Um hingegen die Partitur einer klassischen Sinfonie in ein klingendes Ereignis zu verwandeln, ist ein Orchester mit Dirigent notwendig. Wurden diese Ereignisse hingegen direkt aufgezeichnet, so genügt für die Wiedergabe in beiden Fällen ein dem Aufzeichnungsmedium entsprechendes Abspielgerät. Da die wichtigsten Eigenschaften in der Aufzeichnung direkt und unabhängig voneinander zugänglich sind, können diese in der Aufzeichnung auch jederzeit sehr einfach verändert werden. Es stellt somit kein Problem dar, falsche Noten auszubessern, das Tempo oder die Lautstärke veränderten Wiedergabebedingungen anzupassen oder das Schallsignal

Für parametrisch codierte Schallspeicherung müssen die wichtigen Eigenschaften des Signals mit geeigneten Mitteln aufgezeichnet werden. Für die Wiedergabe wird die Schallquelle benötigt. Der Aufwand ist von der Komplexität des Signals abhängig.


132

6 Schallaufzeichnung in einer anderen Klangfarbe wiederzugeben. Diese Eigenheit der parametrischen Aufzeichnung ist in der Konzeptions- und Produktionsphase für das Audiodesign ein wichtiger Vorteil und ermöglicht die Anpassung der Wiedergabe an geänderte Rahmenbedingungen, wie das beispielsweise bei Computerspielen und anderen interaktiven Anwendungen notwendig ist. Ein wichtiges Beispiel für die parametrische Aufzeichnung ist die traditionelle Notenschrift. Diese ermöglicht es, mit einem erstaunlich geringen Zeichenvorrat und einigen Vorschriften auch äußerst komplexe Musikstücke festzuhalten. Ein weiteres Beispiel wäre die Aufzeichnung eines Sprachsignals mit Hilfe der Lautschrift. Auch so genannte MIDISignale (Musical Instruments Digital Interface) können zu den indirekten Aufzeichnungsverfahren gezählt werden.

6.2 Digitale Schallaufzeichnung Ganz allgemein wird zwischen digitalen und analogen Verfahren zur Signalformcodierung von Schallereignissen unterschieden. Das Nadeltonverfahren, mit dem ein Schallsignal auf einer Schallplatte gespeichert wird, das Magnettonverfahren zur Speicherung auf Tonband oder Kassette und das Lichttonverfahren, das beim Film Anwendung findet, sind die wichtigsten Vertreter der analogen Schallaufzeichnung. Obwohl es nach wie vor Expertenstreite über die diversen Vor- und Nachteile von analoger und digitaler Technik gibt und zum Teil – vor allem in bestimmten Spezialbereichen – noch immer analoge Verfahren bevorzugt eingesetzt werden, hat doch die Digitaltechnik in den letzten Jahren die analogen Verfahren weitgehend abgelöst, weshalb auf deren Beschreibung verzichtet wird. Digitale Signale sind sowohl zeitdiskret als auch wertdiskret. Das heißt, Signalwerte existieren nur zu genau definierten Zeitpunkten und ihre Amplitudenwerte müssen Teil einer vorgegebenen endlichen Menge sein. Sieht man von der Quantenphysik ab, so können in der Natur vorkommende Signale in der Regel zu beliebigen Zeiten beliebige Werte annehmen. Im Allgemeinen hat man es also zunächst mit analogen Signalformen zu tun. Für die digitale Aufzeichnung ist daher eine Umwandlung mit einem Analog/Digital-Konverter unbedingt erforderlich. Die Analog/Digital-Wandlung lässt sich grundsätzlich in zwei Stufen unterteilen: Zuerst wird durch Abtastung im Zeitbereich das analoge Signal in ein zeitdiskretes übergeführt. Anschließend erfolgt die Quantisierung im Wertebereich, die das zeitdiskrete Signal in ein digitales umwandelt.


6.2 Digitale Schallaufzeichnung

133

Abb. 6.2 Analog/Digital-Wandlung

6.2.1 Abtastung Bei der Abtastung wird zu genau festgelegten Zeitpunkten ein als Abtastwert oder Sample bezeichneter Messwert des analogen Signals ermittelt. Die Dauer zwischen diesen Messpunkten ist immer konstant und wird Abtastintervall TS genannt. Der Kehrwert des Abtastintervalls 1/TS ist die Samplingfrequenz fS. Sie gibt an, wie viele Abtastwerte innerhalb einer Sekunde erfasst werden. Es ist naheliegend, dass ein analoges Signal umso genauer durch das entsprechende zeitdiskrete Signal beschrieben wird, je mehr Messpunkte dieses hat bzw. je höher die Samplingfrequenz ist. Für die Wiedergabe ist eine Rückwandlung des zeitdiskreten in das analoge Signal notwendig. Es lässt sich zeigen, dass das dies nur dann möglich ist, wenn die höchste Frequenzkomponente des analogen Signals fG kleiner als die halbe Samplingfrequenz fS/2 ist. Diese Bedingung ist für die digitale Schallaufzeichnung von fundamentaler Bedeutung und wird als Abtast-, Nyquist- oder Samplingtheorem bezeichnet. Wird das Abtasttheorem eingehalten, so ist es möglich, das zeitdiskrete Signal fehlerfrei wieder in das ursprüngliche Analogsignal rückzuwandeln. Wird das Abtasttheorem hingegen nicht beachtet, so treten bei der Rückwandlung als Aliasing bezeichnete Fehler auf, die im Allgemeinen sehr störend sind. 6.2.2 Samplingfrequenz Eine Abtastung im Zeitbereich ist nur dann sinnvoll, wenn eine verlustfreie Rückwandlung möglich ist. Es muss daher stets sichergestellt werden, dass die höchste Frequenz des Analogsignals keinesfalls die halbe

Bei der Abtastung muss das Samplingtheorem (auch Nyquist- oder Abtasttheorem genannt) unbedingt eingehalten werden. Die Samplingfrequenz muss mindestens doppelt so groß sein wie die höchste im Spektrum des Signals vorkommende Frequenz.


134


Damit das Abtasttheorem ganz sicher eingehalten wird, müssen die analogen Signale mit einem Tiefpass gefiltert werden!

Samplingfrequenz übersteigt. Die analogen Signale müssen daher mit einem Tiefpassfilter bandbgegrenzt werden. Da es technisch unmöglich ist, ideale, unendlich steilflankige Filter zu realisieren, setzt die Filterung schon bei Frequenzen ein, die tiefer als die halbe Samplingfrequenz sind. Je höher die Qualität des verwendeten Filters ist, desto bessere Eigenschaften weist auch der Wandler auf. Die Wandler von Multimediaprodukten sind nicht immer von bester Qualität. Um etwa in Verbindung mit einem PC professionelle Resultate zu erzielen, ist daher der Einsatz eines hochwertigen externen Wandlers, der digital mit dem Computer verbunden wird, an Stelle der herkömmlichen Soundkarte empfehlenswert. Gute AD-Wandler arbeiten meist mit der so genannten Oversamplingtechnik, bei der zunächst mit einer wesentlich höheren Samplingfrequenz als eigentlich vorgesehen abgetastet wird. Da dadurch die vom Abtasttheorem vorgegebene Grenzfrequenz des analogen Signals wesentlich höher liegt, sind die Anforderungen an die notwendige Filterung geringer. Die anschließend noch erforderliche Reduktion der Samplingfrequenz kann dann bereits im digitalen Bereich mit hoher Genauigkeit durchgeführt werden. In der professionellen Audiotechnik ist stets zumindest der gesamte Hörbereich zwischen 20 Hz und 20 kHz von Interesse. Die höchste Frequenzkomponente des Signals fG sollte also zumindest 20 kHz sein können. Daraus folgt, dass für professionelle Anforderungen die Samplingfrequenzen größer als 40 kHz sein sollen. Für manche Schallereignisse spielen aber sehr wohl auch Frequenzen eine Rolle, die außerhalb des menschlichen Hörbereichs liegen. Ein wichtiges Beispiel stellen hochfrequente, perkussive akustische Ereignisse wie verschiedene Beckenklänge oder zerbrechendes Glas dar. Mittlerweile sind A/D-Wandler und Softwarepakte in Audiostudios verbreitet, die Samplingfrequenzen bis zu 192 kHz verarbeiten können. Es sind auch vergleichsweise preisgünstige mobile Aufnahmegeräte erhältlich, die mit einer Samplingfrequenz von 96 kHz aufzeichnen.

Tab. 6.1 Samplingfrequenzen unterschiedlicher Medien Medium

CD Compact Disc

MD Mini Disc

DAT Digital Audio Tape

DV Digital Video

DVD-Audio Digital Versatile Disc

Digitale Telefonie

Samplingfrequenz in Hz

44100

44100

48000 (auch 44100 und 32000)

48000

96000

8000



135

Trotzdem ist es keineswegs immer und überall sinnvoll, den menschlichen Hörbereich vollständig aufzuzeichnen bzw. zu übertragen. Im Spektrum der menschlichen Sprache sind keine wichtigen Frequenzen oberhalb von rund 10 kHz mehr enthalten. Die Verständlichkeit ist sogar schon einwandfrei sichergestellt, wenn das Sprachsignal Frequenzanteile bis etwa 3400 Hz enthält. Bei der digitalen Telefonie kann daher mit einer Samplingfrequenz von 8 kHz gearbeitet werden. Im Sinne einer möglichst effizienten Übertragung oder Aufzeichnung eines akustischen Ereignisses sollte die Samplingfrequenz immer sowohl an das Schallsignal als auch an die zu erwartenden Wiedergabebedingungen bestmöglich angepasst werden. Diese Anpassung sollte jedoch immer als letzter Produktionsschritt erfolgen. Während der Produktion wird hingegen mit der höchstmöglichen Samplingfrequenz gearbeitet, um eine optimale Klangqualität zu erhalten.

Um eine effiziente Übertragung und Speicherung zu garantieren, sollte sich die Samplingfrequenz nach dem Signal und den zu erwartenden Wiedergabebedingungen richten. Während einer Audioproduktion soll immer mit der höchstmöglichen Samplingfrequenz gearbeitet werden!

6.2.3 Quantisierung Im Anschluss an die Abtastung im Zeitbereich des analogen Signals muss die als Quantisierung bezeichnete Abtastung der Signalamplitude erfolgen, um das zeitdiskrete Signal in ein digitales umzuwandeln. Für die Amplitude des Signals wird hierfür ein zulässiger Bereich zwischen +Amax und –Amax festgelegt und in eine bestimmte Anzahl von Intervallen unterteilt. Bei der Quantisierung muss zuerst ermittelt werden, in welches der Intervalle die jeweilige Amplitude des abgetasteten Signals fällt. Danach wird die Nummer des Intervalls als binäres Codewort gespeichert. Dieses hier beschriebene Verfahren von Abtastung und Quantisierung wird auch als Puls-Code-Modulation (PCM) bezeichnet. Die Genauigkeit, mit der das Signal aufgezeichnet wird, ist umso höher, je größer die Anzahl der Intervalle ist, in die der zulässige Amplitudenbereich aufgeteilt wird. Die Anzahl der Intervalle bestimmt auch die Länge der binären Codewörter und ist daher ein wichtiger Faktor für den für die Aufzeichnung benötigten Speicherplatz. Werden PCM-Codewörter der Länge n Bit verwendet, so wird von n-Bit-Quantisierung gesprochen. Die Anzahl der Quantisierungsintervalle q entspricht dann q = 2n. Bei 16-Bit-Quantisierung stehen dementsprechend 65536 Amplitudenwerte zur Verfügung, bei 8-Bit-Quantisierung sind es nur 256, bei 24-BitQuantisierung hingegen 16777216 mögliche Werte. Es muss stets darauf geachtet werden, dass die analoge Signalamplitude immer im zulässigen Bereich bleibt. Wird ihr Betrag nämlich größer als Amax, so führt dies zu unvorhersehbaren Fehlern im Digitalsignal. Diese Fehler werden als Clipping oder als digitale Verzerrung bezeichnet.

Die Quantisierung wird umso genauer, je mehr Bits zur Aufzeichnung des digitalen Signals verwendet werden.

Der vom AD-Wandler vorgegebene maximale Amplitudenwert darf vom analogen Signal nicht überschritten werden, da sonst störende digitale Verzerrungen (Clipping) auftreten.


136


Abb. 6.3 AD-Wandlung durch Puls-Code-Modulation

Sie sind in einem digital aufgezeichneten Signal im Allgemeinen recht deutlich hörbar, sehr störend und daher unbedingt zu vermeiden. 6.2.4 Quantisierungsfehler und Quantisierungsrauschen Bei der Rückwandlung des Digitalsignals werden die Mittelwerte der entsprechenden Intervalle als Signalamplituden verwendet. Im Allgemeinen wird dieser Mittelwert nicht mit dem ursprünglichen Signalwert des Originalsignals übereinstimmen. Die Differenz zwischen dem Originalwert und dem Mittelwert des entsprechenden Intervalls wird als Quantisierungsfehler bezeichnet. Im schlechtesten Fall entspricht der Betrag des Quantisierungsfehlers der halben Intervallgröße ΔA/2. Für einen beliebigen Verlauf des ursprünglichen Analogsignals ist der mit jedem Abtastwert einhergehende Quantisierungsfehler Δsn eine zunächst zufällige, von der jeweiligen Signalform abhängig Störgröße, deren Betrag jeden Wert zwischen null und der halben Intervallgröße annehmen kann. Nach der Rückwandlung setzt sich das Signal aus dem ursprünglichen Originalsignal und dem Quantisierungsfehler zusammen. Ähnlich wie weißes Rauschen ist der Quantisierungsfehler demnach eine zufällige additive Störgröße. Es wird daher von Quantisierungsrauschen gesprochen.



137

Abb. 6.4 Quantisierungsfehler

|

Eine wichtige Systemeigenschaft zur Erfassung des Störverhaltens ist das in Abschnitt 2.2.3 beschriebene Signal-Rausch-Verhältnis. Für die Digital/Analog-Wandlung kann es zumindest näherungsweise über das Verhältnis von maximaler Signalamplitude zum maximalen Quantisierungsfehler ermittelt werden. Jedes zusätzliche Quantisierungsbit verdoppelt die Anzahl der Intervalle und halbiert somit den maximalen Fehler. Daraus folgt unmittelbar, dass das Signal-Rausch-Verhältnis pro Bit um jeweils etwa 6 dB ansteigt. Da das Quantisierungsrauschen nicht immer seinen Maximalwert annimmt, erhöht sich das Signal-Rausch-Verhältnis in der Regel um einen geringfügigen, von der Form des Signals abhängigen Betrag, der beispielsweise für harmonische Signale 1,8 dB beträgt. Wie aus Tab. 6.2 ersichtlich ist, verwenden weit verbreitete Medien zur digitalen Schallspeicherung meist 16 Bit für die Quantisierung. Neuere Aufzeichnungsstandards ermöglichen aber auch 24 Bit. Einige Softwarepakete zur Audiobearbeitung arbeiten intern mit einer 32-Bit-Auflösung. Auch wenn am Ende einer Produktion die Bitanzahl reduziert werden muss, um dem gewünschten Format zu entsprechen, empfiehlt es sich vielfach, während der Produktion mit höherer Quantisierung zu arbeiten. Bei jedem digitalen Bearbeitungsschritt treten nämlich Rundungsfehler auf, die sich ebenfalls als additive Störgröße bemerkbar machen und umso kleiner sind, je mehr Bit zur Verfügung stehen.

Mit jedem Bit, das für die Aufzeichnung eines Abtastwertes verwendet wird, steigt das SignalRausch-Verhältnis um rund 6 dB an.


138

Tab. 6.2 Quantisierung bei wichtigen Medien der digitalen Schallaufzeichnung


Intervalle q = 2n

SNR(n)

8

256

50 dB

CD, MD, DAT

16

65536

98 dB

DVD-Audio

24

16777216

146 dB

Medium Digitale Telefonie

n Bit Quantisierung

6.2.5 System-Dynamik Vor allem bei Vergleichen mit analogen Systemen muss beachtet werden, dass das für die Digital-Analog-Wandlung ermittelte Signal-Rausch-Verhältnis ein theoretischer Wert ist, der meist nicht der tatsächlich nutzbaren Dynamik entspricht. Wie erwähnt, führt im Digitalbereich jede geringfügige ÜbersteueBei digitalen Schallaufzeichnungen sollte rung zu störenden Fehlern. Da aber die maximale Amplitude eines Sigimmer ein Digitalnals vor der Aufnahme oft noch nicht feststeht, muss für die AussteueHeadroom von etwa rung eine gewisse Reserve vorgesehen werden, die als Digital-Headroom 12 dB als Aussteuerungsreserve vorgesehen wer- bezeichnet wird und in der Regel ca. 10 bis 12 dB betragen soll. Dadurch wird sichergestellt, dass die Aufnahme auch dann noch fehlerfrei ist, den, da der maximale wenn der tatsächliche Höchstwert des Signalpegels den vor der AufSignalpegel meist noch nicht bekannt ist. nahme eigentlich erwarteten doch um einige Dezibel übersteigt. Es muss aber auch darauf geachtet werden, dass die niedrigsten Signalpegel nicht beliebig klein werden dürfen, da diese andernfalls komplett vom Quantisierungsrauschen verdeckt würden. Es ist daher auch ein als Footroom bezeichneter Sicherheitsabstand von rund 20 dB vorzusehen. Die nutzbare Dynamik eines digitalen Aufnahmesystems muss also gegenüber dem theoretischen Wert des Signal-Rausch-Verhältnisses um den Head- und den Footroom reduziert werden und beträgt somit bei einer Quantisierung mit 16 Bit rund 66 dB. Dieser Wert kann beispielsweise von der Dynamik eines klassischen Sinfonieorchesters, die vom Pianissimo einer Solovioline zum Fortissimo des gesamten Orchesters reichen kann, durchaus um mehrere Dezibel übertroffen werden. Eine Aufnahme in der herkömmlichen 16-Bit-Technologie wird dabei ohne zusätzliche technische Eingriffe schon schwierig.



139

6.2.6 Übertragungsrate Ein wichtiges Kriterium für die Beurteilung eines digitalen Aufzeichnungssystems ist die Datenmenge, die bei der Speicherung oder der Übertragung eines Signals bezogen auf dessen Länge anfällt. Die Anzahl der Bit, die pro Sekunde aufgezeichnet werden müssen, heißt Bitrate BR. Sie ergibt sich aus der Multiplikation der Anzahl n der für die Quantisierung verwendeten Bits mit der Samplingfrequenz fS. Die Übertragungsrate UR gibt an, wie viele Bits für die Aufzeichnung eines Signals auf einem bestimmten digitalen Medium notwendig sind. Die Bitrate muss hierfür mit der Anzahl A der aufgezeichneten Tonspuren multipliziert werden.Üblicherweise wird die Übertragungsrate in Kilobit pro Sekunde kbps angegeben, was eine Division durch 1024 notwendig macht: BR = n·fS (bit/s) UR = A·BR = A·n·fS (bit/s) = A·n·fS / 1024 (kbps) S = UR·TSignal / 8 (KB) = UR·TSignal / (8·1024) (MB) Auf einer Compact-Disc sind Schallsignale mit einer Quantisierungstiefe von 16 Bit und einer Samplingfrequenz von 44,1 kHz in Stereo aufgezeichnet. Die Übertragungsrate beträgt für dieses Medium daher 1378,123 kbps. Um den für eine Aufzeichnung benötigten Speicherplatzbedarf S bestimmen zu können, muss die Übertragungsrate mit der Länge des aufzuzeichnenden Signals TSignal multipliziert werden. Soll der erforderliche Speicherplatz in Kilobyte angegeben werden, muss durch acht dividiert werden. Eine Angabe in Megabyte erfordert eine weitere Division durch 1024. Für eine digitale Schallaufzeichnung von einer Minute in CD-Qualität, also stereo, 16 Bit Quantisierung und 44,1 kHz Samplingfrequenz, werden also rund 10 MB an Speicherplatz benötigt.

Für eine Schallaufzeichnung in CD-Qualität (16 Bit, 44,1 kHz, stereo) werden pro Minute rund zehn Megabyte an Speicherplatz benötigt.

6.2.7 Harddisc-Recording und Dateiformate In den 1990er Jahren wurden analoge Aufzeichnungsverfahren auf Magentbänder nahezu vollständig durch digitale Schallaufzeichnung ersetzt. Für das so genannte Harddisc- oder kurz HD-Recording stehen zahlreiche Software-Tools und unterschiedliche Dateiformate zur Verfügung. Einen Einblick in die Arbeitsweise und einen Überblick über verfügbare Werkzeuge und gängige Formate finden sich auf der Webseite  Siehe Webseite zum Buch zum Buch. ()


140


6.3 Datenreduktion Eine effiziente Reduktion der anfallenden Datenmenge, um bestmögliche Audioqualität möglichst rasch bzw. mit möglichst niedriger Datenrate zu übertragen bzw. zu speichern, ist eine wichtige Herausforderung im Bereich der Informations- und Kommunikationstechnologien. In den letzten Jahren wurden nicht nur große Fortschritte bei der Datenkompression gemacht, sondern auch die Bandbreiten und möglichen Datenraten diverser Übertragungskanäle und Speicherungsmedien drastisch erhöht. Da gleichzeitig auch die Informationsflut wächst, ist der Bedarf nach effizienten Algorithmen zur Datenreduktion ungebrochen. 6.3.1 Verlustlose Audiokompression Die verlustlose Audiokompression verwendet ganz ähnliche Algorithmen wie Programme zur Komprimierung beliebiger digitaler Daten. Bekannte Beispiele hierfür wären WinZIP oder WinRAR. Es wird dabei versucht, die im Datenstrom enthaltene Redundanz zu entfernen. Als Redundanz werden jene Abschnitte eines Signals bezeichnet, die grundsätzlich auch aus vorhergehenden Anteilen abgeleitet werden könnten, also vorhersehbar sind. Zur Minimierung dieser redundanten Daten kommt vor allem der so genannte Huffmann-Code zum Einsatz. Dabei werden häufige Singalwerte mit möglichst wenigen Bits dargestellt. Obwohl für eine eindeutige digitale Codierung des Signals nun für seltene Werte mehr Bits als ursprünglich verwendet werden müssen, kann auf diese Weise die durchschnittliche Datenmenge im Allgemeinen verringert werden. Da allerdings die Häufigkeiten der verschiedenen Amplitudenwerte bei Audiodaten meist nicht allzu sehr voneinander abweichen, ist der Erfolg eher gering und kaum ausreichend. Abb. 6.5 Predictive Coding


6.3 Datenreduktion

141

6.3.2 Verlustbehaftete Audiokompression Bei der verlustbehafteten Audiokompression wird versucht, die so genannten Irrelevanzen aus dem Datenstrom zu entfernen. Es handelt sich dabei um jene Information, die vom menschlichen Gehör nicht wahrgenommen werden kann, obwohl sie im Signal enthalten ist. Predictive Coding Beim so genannten Predictive Coding wird die Tatsache ausgenutzt, dass sich die Werte von Schallsignalen im Allgemeinen nicht beliebig sprunghaft ändern und sich aufeinander folgende Werte daher meist nur geringfügig unterscheiden. Werden nicht die Werte selbst, sondern lediglich die Differenz zum vorhergegangenen übertragen, so sind die zu übertragenden Werte also in der Regel recht klein und können mit nur wenigen Bits dargestellt werden. Das Verfahren kann noch dadurch verbessert werden, indem nicht einfach die Differenz zum vorhergegangenen Wert übertragen wird, sondern aus dem bereits bekannten Signalverlauf ein Schätzwert für das nächste Sample ermittelt und dann die Differenz zwischen dieser Schätzung und dem tatsächlichen Signalwert übertragen wird. Nach dem Prinzip des Predictiv Coding arbeiten die Differenz-Pulscodemodulation DPCM und die Adaptive Differenz-Pulscodemodulation ADPCM. Perceptual Coding Beim so genannten Perceptual Coding werden einige der in Kapitel 5 besprochenen Aspekte der Wahrnehmung ausgenutzt, um die Datenmenge eines digital aufgezeichneten Schallsignals zu reduzieren. Mit Hilfe eines psychoakustischen Modells werden dabei jene Teile, die von einem menschlichen Gehör nicht ausgewertet werden können mit schlechter Qualität übertragen. Vor allem die frequenzabhängige Hörschwelle und die verschiedenen Maskierungseffekte, die in Abschnitt 5.2 behandelt wurden, sowie die Besonderheiten der Richtungswahrnehmung – in Abschnitt 5.5.2 dargestellt – ermöglichen eine verhältnismäßig große Reduktion der anfallenden Datenmenge, ohne dabei subjektiv einen großen Qualitätsverlust wahrzunehmen. Nach Abtastung und Quantisierung des Schallsignals müssen die digitalen Audiodaten hierfür einen speziellen Encoder durchlaufen, damit das Perceptual Coding durchgeführt werden kann. Um die auf diese Weise codierten Daten schließlich wieder in ein hörbares Schallsignal umwan-

Perceptual Coding nützt Erkenntnisse der Psychoakustik, um die Übertragungsrate zu reduzieren.


142


6 Schallaufzeichnung deln zu können, ist vor der Digital-Analog-Wandlung ein entsprechender Decoder erforderlich. Ganz allgemein wird beim Perceptual Coding das Spektrum des Schallsignals zunächst in eine bestimmte Anzahl von Frequenzbändern unterteilt. Diese Vorgangsweise wird auch als Sub-Band Coding bezeichnet. In jedem dieser Frequenzbänder wird untersucht, welche psychoakustischen Effekte darin wirksam werden und welche Bedeutung die enthaltenen Signalanteile für die Wahrnehmung des akustischen Ereignisses haben. In Abhängigkeit von der Beschaffenheit des Signals sind die verschiedenen Frequenzbänder also mehr oder weniger wichtig. Da es daher auch nicht notwendig ist, alle mit der gleichen Qualität aufzuzeichnen, besteht die Möglichkeit zur Reduktion der Daten. Am deutschen Fraunhofer-Institut für Integrierte Schaltungen wird seit den 1980er-Jahren an Verfahren zur Reduktion von Mediendaten gearbeitet. Einer Gruppe um Karlheinz Brandenburg gelang mit der Entwicklung des MP3 (MPEG-1 Audio Layer 3)-Formats der entscheidende, die Distribution von Musik völlig verändernde Durchbruch bei der Kompression von Audiodaten. Eine Zusammenfassung der Funktionsweise von MP3 und aktuellen Formaten zur effizienten Übertragung und Speicherung von Audiodaten ist auf der Webseite zum Buch zu finden. ()

6.4 MIDI und OSC MIDI (Musical Instruments Digital Interface) wurde 1983 von der MIDI Manufacturers Assosiation MMA standardisiert. Es handelt sich dabei um ein für den Austausch von Daten zwischen mehreren digitalen Geräten unabhängig vom Hersteller konzipiertes, für den Einsatz in der Audioproduktion optimiertes Datenübertragungsprotokoll. Etwas vereinfacht ausgedrückt dient MIDI der indirekten Übertragung und Aufzeichnung – also der parametrischen Codierung – von Schallsignalen, die mit elektronischen Instrumenten erzeugt werden. Da bei der Wiedergabe von indirekt aufgezeichneten Schallsignalen eine dem Original ähnliche Schallquelle benötigt wird, wird immer auch ein elektronisches Instrument benötigt, um aufgezeichnete MIDI-Daten hörbar zu machen. Von wenigen Erweiterungen abgesehen, beruht MIDI auch heute noch auf den 1983 festgelegten, mittlerweile völlig veralteten technischen Rahmenbedingungen. Aus heutiger Sicht ist es daher einerseits sehr stabil und effizient, andererseits in vielen Aspekten der Musikproduktion und der akustischen Gestaltung sehr eingeschränkt. Während MIDI daher als mögliches Format zur parametrischen Schallaufzeichnung in


6.5 Mehrkanalton der praktischen Anwendung keine Rolle mehr spielt, ist es nach wie vor ein wichtiges Werkzeug für die Audioproduktion. Auch wenn die Benutzerführung in vielen Digital Audio Workstations mittlerweile so gestaltet ist, dass in der praktischen Anwendung kaum mehr Unterschiede zwischen MIDI-Steuerungsdaten und signalformcodierten Audiosignalen bestehen, ist eine Auseinandersetzung mit den theoretischen Grundlagen und praktischen Anwendungsfeldern von MIDI empfehlenswert. Nach wie vor lassen sich nahezu alle elektronischen Musikinstrumente, Effektgeräte und vielfach auch diverse Software-Parameter über MIDI steuern. Eine ausführliche Einführung ist daher auf der Webseite zum  Siehe Webseite Buch zu finden. () zum Buch Um die altersbedingten Schwachstellen von MIDI zu kompensieren, wurden immer wieder neue Ansätze für musikbezogene Protokolle zur Datenübertragung diskutiert und teilweise umgesetzt. Bisher ist es jedoch noch nicht gelungen, MIDI in Frage zu stellen oder gar zu ersetzen. Relativ weite Verbreitung hat mittlerweile das an der University of California in Berkeley entwickelte Kommunikationsprotokoll OSC (Open Sound Control). Es wird vor allem im Bereich der Echtzeitsteuerung von Syntheseparametern sowie bei interaktiven Medieninstallationen eingesetzt und von Software zur modularen Audioprogrammierung, z.B. Max/ MSP, PD, Supercollider, NI Reaktor, ChucK, EyesWeb oder VVVV unterstützt. Weiterführende Informationen zu OSC sind auf der Webseite zum  Siehe Webseite zum Buch Buch zu finden. ()

6.5 Mehrkanalton 6.5.1 Ziele von Mehrkanalton Mehrkanalton ist im Kino seit Jahren etabliert und ist durch die DVD mittlerweile auch für Heimanwender interessant. Ziel von Mehrkanalton ist vor allem eine Verbesserung des Raumeindrucks von Schallaufzeichnungen. Die wichtige Fähigkeit des menschlichen Ohres, Sinneseindrücke aus allen Richtungen wahrzunehmen, soll auch für die Wiedergabe von akustischen und audiovisuellen Medien nutzbar gemacht werden. Dabei kann sowohl eine möglichst originalgetreue Abbildung der ursprünglichen Raumsituation als auch die Gestaltung von neuen Räumen im Studio angestrebt werden. Sowohl die Ortung von Schallereignissen als auch die Einhüllung von diffusen Raumgeräuschen müssen dabei berücksichtigt werden. Ein weiteres Ziel ist die Vergrößerung jenes als Hörzone bezeichneten Bereichs im Raum, in dem möglichst optimale Verhältnisse für die räumliche Wahrnehmung der Wiedergabe herrschen.

143


144

6 Schallaufzeichnung 6.5.2 Formate Das Format einer Mehrkanalton-Anwendung wird durch die Anzahl der verwendeten Kanäle bestimmt. Dabei wird zwischen Front-, Surroundund LFE-Kanälen unterschieden, deren Funktionen im folgenden Abschnitt erklärt werden sollen. Die räumliche Wirkung des Stereoverfahrens kann nur dann optimal genützt werden, wenn die beiden Lautsprecher mit der Hörposition ein gleichseitiges Dreieck aufspannen. Wird die optimale Hörposition nicht eingehalten, so scheint der Schall vornehmlich aus der durch den nächstgelegenen Lautsprecher vorgegebenen Richtung zu kommen. Dies ist vor allem auch bei Filmen und Videos sehr störend, da gesehener und gehörter Ort nicht übereinstimmen. Um die von den Lautsprechern aufgespannte Hörzone zu vergrößern, wurde im Kino bereits in den 1940erJahren – also in einer Zeit, in der auch die Zweikanal-Stereofonie noch nicht verbreitet war – begonnen, einen dritten Lautsprecher in der Mitte zu positionieren. Auf diese Weise konnte eine größere Hörzone und eine Verbesserung bei der Ortung von Schallsignalen erreicht werden. Dies war vor allem auf Grund der Größe von Kinosälen und auf Grund der Tatsache wichtig, dass Dialoge im Film nahezu ausschließlich aus der Mitte wiedergegeben werden sollen. Um auch die Einhüllung von diffusen Geräuschatmosphären verbessern zu können, wurde 1952 im Kino erstmals mit der Möglichkeit eines weiteren Lautsprechers experimentiert, der hinter den Hörern positioniert wird. Diese ersten Versuche mit Mehrkanalton führten zuerst in den 1970er-Jahren zur Quadrofonie. Da dabei vier Lautsprecher möglichst den gleichen Abstand zum Hörer aufweisen sollen, leidet dieses Konzept wie die Stereofonie am Problem einer genau definierten, aber nur selten einhaltbaren optimalen Hörposition und konnte sich deshalb auch nicht durchsetzen. Es wird daher bei den heutigen Mehrkanalanwendungen davon ausgegangen, dass das bevorzugte Hörfeld mit dem Sehfeld zusammenfällt und somit im vorderen Bereich liegt. Es stellte sich also bald heraus, dass durch eine funktionale Trennung der Lautsprecher vor und hinter dem Hörer bessere Ergebnisse erzielt werden können. Aus diesem Grund wird bei Mehrkanalanwendungen zwischen Frontlautsprechern, die Schallsignale gerichtet abstrahlen und im Panorama zwischen links, Mitte und rechts aufteilen, und Surround-Lautsprechern unterschieden, die seitlich oder hinter dem Hörer positioniert sind und vor allem für die Wiedergabe diffuser Umgebungs- bzw. Raumund Effektgeräusche gedacht sind. Die Verwendung mehrerer SurroundKanäle ermöglicht eine deutlich bessere räumliche Abbildung von Effektund Umgebungsgeräuschen.


6.5 Mehrkanalton

Formate für Mehrkanalton Bezeichnung

Front

Surround

LFE

1/0, Mono

M

–

–

2/0, Stereo

L, R

–

–

3/0

L, M, R

–

–

3/1

L, M, R

S

–

3/2

L, M, R

LS, LR

3/2/1 oder 5.1

L, M, R

LS, LR

LFE

3/4/1 oder 5/2/1 oder 7.1

L, M, R

LS1, LS2, LR1,LR2

LFE

145

Tab. 6.3 Formate für Mehrkanalton

Bei der Weiterentwicklung der Formate wurde schließlich auch noch die Erkenntnis ausgenutzt, dass dem Bassbereich zugeordnete Schallereignisse von der menschlichen Wahrnehmung nicht einwandfrei geortet werden können. Da tiefe Frequenzen außerdem mit höheren Pegeln wiedergegeben werden, um entsprechend laut gehört zu werden, und spezielle Lautsprecher für die Wiedergabe empfehlenswert sind, bringt die Trennung der Bässe von Mitten und Höhen zusätzliche Vorteile für die Wiedergabe. Es wurde daher ein weiterer Kanal eingeführt, der mit LFE bzw. Low Frequency Enhancement bezeichnet wird. Über einen LFE-Kanal werden also ausschließlich tieffrequente Signale zwischen 20 und maximal 240 Hertz übertragen, wobei die obere Grenze allerdings meist bereits bei etwa 120 Hertz gezogen wird. Die Einteilung und Bezeichnung der unterschiedlichen Formate erfolgt entweder nach der Anzahl der verwendeten Front-, Surround und LFE-Kanäle oder es wird nur der LFE-Kanal extra angeführt und alle anderen zusammengezählt. Beim 3/2/1-Format wird also auch als 5.1-Format bezeichnet und verwendet drei Frontkanäle für links, Mitte und rechts, zwei Surround-Kanäle für links-hinten und rechts-hinten sowie einen LFE-Kanal für Basseffekte. 6.5.3 Aufzeichnungsstandards Bei den verschiedenen Aufzeichnungsstandards für Mehrkanalton wird vor allem zwischen matrizierten und diskreten Verfahren unterschieden. Bei matriziert aufgenommenem Mehrkanalton werden alle Kanäle mit Hilfe einer speziellen Matrixschaltung auf zwei Tonspuren untergebracht und

Zur Aufzeichnung von Mehrkanalton wird ein geeigneter Encoder benötigt!


146

Bei der Aufzeichnung von Mehrkanalton wird meist mit Datenreduktion nach dem Prinzip von Perceptual Coding gearbeitet.

Zur Aufzeichnung und Wiedergabe von Mehrkanalton existiert eine Reihe unterschiedlicher Techniken.

6 Schallaufzeichnung bleiben dabei auch noch mono- und stereokompatibel. Bei indizierten Aufnahmetechniken, die erst durch die Digitaltechnik praktikabel wurden, werden hingegen alle Kanäle getrennt aufgezeichnet. Um Speicherplatz zu sparen, kommen bei indizierten Verfahren im Allgemeinen Techniken des Perceptual Coding für die Datenreduktion zum Einsatz. Sowohl matrizierte als auch indizierte Verfahren benötigen somit spezielle Encoder für die Aufzeichnung des Mehrkanaltons. Ein Problem bei der Einführung von Mehrkanalton war die preiswerte Aufzeichnung mehrerer Spuren auf geeignete Tonträger, da dabei zusätzlich die Kompatibilität zu Mono- und Stereoaufzeichnung ermöglicht werden sollte. Die Lösung dieses Problems ist eng mit der Firma Dolby verbunden, deren Entwicklung Dolby Stereo die Codierung von Mehrkanalton auf einer Stereospur ermöglichte. Der Erfolg dieses Verfahrens begann 1976 und steht in einem engen Zusammenhang mit dem ersten Star-Wars-Film. Das Verfahren, das unter dem Namen Dolby-Surround-ProLogic auch im Konsumentenbereich auf VHS-Kassetten eingesetzt wird, zeichnet im 3/1-Format auf, verwendet also drei Front- und einen Surroundkanal. Anfang der 1990er-Jahre wurde das Dolby-Digital-Verfahren entwickelt, das in den Formaten 3/2 und 5.1 aufzeichnen kann. Bei Kinofilmen wird zusätzlich zu Dolby Digital auch der analoge Stereoton übertragen, um die Ausfallssicherheit zu erhöhen und das Abspielen in Kinos ohne entsprechende Surroundausstattung zu ermöglichen. Vor allem im Konsumentenbereich ist dieses Verfahren auch unter dem Namen AC-3, der für Dolby Audio Coding 3 steht, bekannt. AC-3-Decoder ermöglichen wahlweise stets auch eine Wiedergabe mit nur zwei Lautsprechern in Stereo, was durch eine entsprechende Additionsmatrix im Wiedergabegerät sichergestellt wird. Beim Verfahren Dolby Digital-Surround EX wird der 5.1Ton durch einen zusätzlichen, matriziert aufgezeichneten hinteren Mittenkanal zu einem 3/3/1-Format erweitert. MPEG 2 ermöglicht die Aufzeichnung von Mehrkanalton im 5.1- und 7.1-Format in verschiedenen Bitraten. Beim Digital Theater System DTS wird ein 5.1-Mehrkanalton auf zwei CD-ROMs gespeichert, die mit einem speziellen Verfahren zum Film synchronisiert werden. Das Mehrkanalformat der Firma Sony SDDS (Sony Dynamic Digital Sound) bietet die Möglichkeit, bis zu acht vollständige Kanäle aufzuzeichnen. Meist wird dabei ein LFE-Kanal verwendet und im 7.1-Format aufgezeichnet.


6.5 Mehrkanalton

Surround

Decoder

. . . .

Encoder

. . . .

Lautsprecher Front

AV-Verstärker

Mehrkanal--Mischung Mehrkanal

147

Verstärker

6.5.4 Wiedergabe von Mehrkanalton Zur Wiedergabe von Mehrkanalton wird ein geeigneter Decoder benötigt. Im Falle von Dolby Stereo bzw. Dolby-Surround-Pro-Logic muss dieser aus der aufgezeichneten Stereospur die vier unabhängigen Tonkanäle ermitteln. Bei den diskreten Mehrspurformaten muss der Decoder hingegen die datenreduzierten Signale in entsprechende Audiosignale umwandeln. Da zusätzlich zum Decoder auch eine den vorhandenen Kanälen entsprechende Anzahl an Verstärkern und Lautsprechern benötigt wird, steigt der technische Aufwand im Vergleich zur Mono- oder Stereowiedergabe doch beträchtlich. Im Konsumentenbereich kommen für die Mehrkanalwiedergabe vor allem so genannte Audio-Video-Verstärker zum Einsatz. Diese AV-Verstärker besitzen ausreichend viele Verstärkerkanäle und verfügen je nach Preisklasse auch über Decoder für eines oder mehrere der gängigen Formate. Im Allgemeinen werden zumindest Dolby-Sourround-Pro-Logic als analoges Tonformat von VHS-Kasseten und die digitalen Formate AC-3 und MPEG 2 unterstützt. In der Regel wird das analoge Pro-Logic-Signal über zwei im HiFi-Bereich übliche koaxiale Kabel mit Cinch-Steckern vom VHS-Videogerät bzw. dem verwendeten Medium zum Verstärker geführt. Das digitale Mehrkanalsignal gelangt über optische oder koaxiale SPDIF-Kabel vom DVD-Player oder Computer in den Mehrkanalverstärker. Viele AV-Verstärker verfügen zusätzlich auch über zumindest sechs weitere Eingänge, die den Anschluss eines externen Mehrkanal-Decoders und damit die Wiedergabe von beliebigen Formaten ermöglichen. Auch mehrere Hersteller von Soundkarten bieten mittlerweile Produkte für Mehrkanalton mit einer entsprechenden Anzahl von Ausgängen an, die meist zum Anschluss von

Abb. 6.6 Mehrkanalton 5.1-Format


148


Abb. 6.7 Optimale Lautsprecheranordnung für das 5.1-Format

aktiven Lautsprechern für diverse Multimedia-Anwendungen verwendet werden. Weder Tonformat und Aufzeichnungsverfahren noch eine exakte AufTonformat und Aufzeichnungsverfahren komstellung der Lautsprecher können eine optimale Tonwiedergabe garantiemen nur dann richtig zur ren. Im Allgemeinen ist es wesentlich wichtiger, bestmögliche BedingunGeltung, wenn auch die gen für die Wiedergabe zu schaffen. Das heißt, das großer Wert auf eine Wiedergabebedingungute Raumakustik, richtige Platzierung und gute Qualität der Lautspregen optimiert werden! cher gelegt werden muss. Aus diesem Grund blieben beispielsweise die großen Anstrengungen der Produktionsfirma Lucas-Film für eine bessere Qualität beim Filmton in vielen Kinos, deren Tonanlage und akustische Ausstattung seit mehreren Jahrzehnten nicht erneuert wurde, zwangsläufig ohne Erfolg. Die Firma beauftragte daher den Toningenieur Tomlinson Holman, um Mindestanforderungen an Verstärker, Lautsprecher und Kinoakustik zu entwickeln und im THX-Standard (Tomlinson Holman Experience) festzuschreiben. Das THX-Zertifikat ist also eine Art Gütesigel, das von Lucas-Film für eine hervorragende akustische Ausstattung von Kinos vergeben wird. Die Lautsprecher sollten für Mehrkanalton auf einem gedachten Kreis um den Hörer platziert werden. Der Mittenlautsprecher soll keine seitliche Verschiebung aufweisen. Linker und rechter Lautsprecher werden um jeweils 30º ausgelenkt und bilden mit dem Hörer ein gleichseitiges Dreieck. Die Surround-Lautsprecher sollen um 110º verschoben werden, wobei ein Toleranzwert von 10º angegeben wird. Die Platzierung des für die Wiedergabe der tiefen Frequenzen des LFE-Kanals optimierten Subwoofers ist mehr oder weniger beliebig, da das menschliche Ohr in diesem Frequenzbereich ohnehin über keine Richtungswahrnehmung ver-


6.5 Mehrkanalton

149

fügt. Diese optimale Anordnung der Lautsprecher soll vor allem in Tonstudios unbedingt eingehalten werden. Da im Konsumentenbereich die vorgeschlagene Aufstellung nicht immer eingehalten werden kann und im Kino für möglichst viele Besucher gute Hörbedingungen geschaffen werden sollen, ist der Einsatz mehrerer Lautsprecher für jeweils ein Surround-Signal oft empfehlenswert. Dadurch kann die Hörzone vergrößert und der Eindruck vermittelt werden, dass sich die Effektgeräusche aus den Surround-Lautsprechern tatsächlich im Raum befinden und nicht aus einer einzigen Richtung kommen. 6.5.5 Produktion von Mehrkanalton Nur wenige akustische Ereignisse gehen von derart großen Schallquellen aus, dass bereits eine Aufzeichnung in einem Stereo- oder gar Mehrkanalformat anzuraten wäre. Ausnahmen wären beispielsweise Orchester oder Chöre und manche nicht lokalisierbare Geräuschkulissen. Das Geräusch eines vorbeifahrenden Autos ist räumlich weit ausgedehnt, spielt sich aber trotzdem ausschließlich vor dem Hörer ab. Eine StereoAufzeichnung scheint in diesem Fall sinnvoll, von einer Mehrkanalaufnahme ist hingegen abzuraten. Soll das Auto später von links vorne nach links hinten fahren, wird die Stereo-Aufnahme eben auf den linken Frontund den rechten Surround-Lautsprecher gelegt. Allerdings wird diese Vorgangsweise in den seltensten Fällen wirklich Sinn machen, da dabei der Hörer ja förmlich überfahren wird. Einzelne Schallsignale, die den Hörer tatsächlich umkreisen und daher eine Aufnahme in Mehrkanalton rechtfertigen würden, sind äußerst selten. Ein mögliches Einsatzgebiet von Surround-Mikrofonierung könnten Konzerte mit klassischer Musik sein, bei denen die besondere Akustik des Konzertsaals in die Aufnahme einbezogen werden soll. Ähnlich wie bei vielen herkömmlichen Stereomischungen empfiehlt es sich daher auch bei der Mehrkanal-Produktion, zunächst eher von Monosignalen auszugehen. Dazu wird die akustische Szene eines Raumes in einzelne Schallereignisse aufgeteilt, die sich links oder rechts bzw. vorne oder hinten befinden oder von einem Ort zu einem anderen bewegen. Während der Mischung werden diese Monosignale jenen Summensignalen zugeordnet, die ihrer Position im Raum entsprechen. Kann bei Stereomischungen diese Zuordnung ganz einfach mit dem Panoramaregler des Mischpultes erfolgen, so bedeutet dieser Vorgang bei Mehrkanalton vor allem bei Verwendung analoger Technik doch einen wesentlich größeren Aufwand. Mittlerweile bieten aber die meisten Recordingsysteme

Die direkte Aufnahme von Mehrkanalton erfordert spezielle Mikrofontechniken und ist nur in Ausnahmefällen sinnvoll.

Im Allgemeinen sind Monosignale als Ausgangsmaterial für Produktionen von Mehrkanalton sinnvoll.


150


auf Softwarebasis auch Mehrkanal-Unterstützung an. Dabei wird der Panoramaregler üblicherweise durch ein zweidimensionales Feld ersetzt, mit dem die gewünschte Positionierung der Schallereignisse recht einfach vorgenommen werden kann. Da Harddisc-Recording-Systeme im Allgemeinen auch automatisiert werden können, sind auch bewegte Quellen problemlos zu erzielen. Vor allem bei Film- und Videoproduktionen sollte aber unbedingt beachtet werden, dass sowohl die Besucher als auch die Protagonisten in der Produktion das Geschehen aus einer bestimmten akustischen Perspektive wahrnehmen, aus der heraus die Positionierung und vor allem die Bewegung von Schallquellen verständlich bleiben und authentisch wirken muss. Bewegte Schallereignisse aus allen Richtungen führen keineswegs automatisch zur beabsichtigten Einbindung der Hörer in den Mittelpunkt des Geschehens und der damit einhergehenden Steigerung von Spannung, Abwechslung und Lebendigkeit. Sind akustische Ereignisse aus den Surround-Lautsprechern nicht aus der Handlung heraus begründbar, so werden diese eher den Betrachter vom Filmerlebnis ablenken. Beim Einsatz von Effektgeräten ergibt sich im Vergleich zu StereoproErstreflexionen und Nachhall sollten entspre- duktionen vor allem beim künstlichen Hall eine Änderung. Der natürlichend dem nachzubilche Nachhall eines Schallsignals umgibt den Hörer und setzt sich aus denden Raum aus allen einer Vielzahl von Reflexionen aus allen Richtungen zusammen. Ein Lautsprechern kommen. Hallgerät für Surround-Produktionen sollte daher ein mehrkanaliges Signal liefern, das wiederum richtig in die Mischung zurückgeführt wird. Allerdings gibt es nur ganz wenige Hardwaregeräte und einige SoftwarePlugins, die dieser Anforderung tatsächlich gerecht werden, weshalb man sich – von teuren Produktionen abgesehen – bisher vielfach mit Stereohall bzw. zwei Hallgeräten begnügen muss. Dem Einsatz von Hall muss daher auf alle Fälle große Aufmerksamkeit geschenkt werden. Gerade für eine bessere Einbeziehung des Hörers und eine gleichmäßigere Schallverteilung im Raum ist es wichtig, dass Erstreflexionen und Nachhall aus allen Lautsprechern zu hören sind. Am Ausgang des Mischpults liegen zunächst Monosignale an, die jeweils einem der verschiedenen Kanäle zugeordnet werden müssen. Um die Signale mit einem der gängigen Verfahren, wie Dolby Pro-Logic, AC-3, MPEG 2 etc. zu speichern, wird abschließend ein geeigneter Encoder benötigt. Waren vor einigen Jahren ausschließlich Hardware-Encoder verfügbar, so sind mittlerweile vielfach bereits Encoder auf Softwarebasis in die Recordingsysteme integriert.


151

7 Schallwandler Um Schallsignale aufzeichnen zu können, müssen diese zuerst in eine speicherbare Energieform umgewandelt werden. Umgekehrt muss ein gespeichertes akustisches Ereignis für die Wiedergabe in Schallenergie rückgewandelt werden. Für die Speicherung wird die Schallenergie in der Regel zuerst mit Hilfe einer Membran in mechanische Energie umgewandelt. Die Fläche der Membran bestimmt dabei den Wirkungsgrad bzw. den Übertragungsfaktor des Wandlers. Wie in Abschnitt 3.3 besprochen, ist jede Membran selbst ein schwingungsfähiges System, dessen Eigenschaften die Schallwandlung entscheidend beeinflussen. Die mechanischen Schwingungen der Membran werden dann in elektrische Energie umgewandelt. Für die Wiedergabe gespeicherter Schallenergie wird diese Kette in umgekehrter Reihenfolge durchlaufen. Gewünscht wird eine möglichst fehlerfreie Umwandlung der ursprünglichen Signalform bzw. die Erhaltung der gesamten im Signal enthaltenen Information. Ein idealer Schallwandler sollte also sowohl den von Menschen wahrnehmbaren Dynamikbereich, der sich von der Hörschwelle bis zur Schmerzgrenze erstreckt und rund 120 dB beträgt, als auch den wahrnehmbaren Frequenzbereich zwischen 20 Hz und 20 kHz verzerrungsfrei umwandeln können. Die technische Realisierung von derart idealen Wandlern ist in der Praxis aber unmöglich. Jeder Schallwandler stellt stets auch ein Schwingungssystem dar, das – wie in Abschnitt 2.2 beschrieben – das Spektrum des zu wandelnden Signals beeinflusst. Außerdem müssen auch systembedingte Grenzen, wie etwa das in Abschnitt 6.2.1 behandelte Abtasttheorem, beachtet werden. Bei jeder Schallwandlung werden Fehler begangen, die im Allgemeinen umso kleiner gehalten werden können, je größer der technische bzw. finanzielle Aufwand ist. Unter bestimmten Voraussetzungen ist es aber möglich, objektive Fehler der Schallwandlung für das Audiodesign zu nützen. Dazu ist es not-

Schallwandlung ist immer mit Fehlern behaftet, die durch technischen Mehraufwand verkleinert werden können.


152

7 Schallwandler

Abb. 7.1 Schallwandlung

Technisch fehlerfreie Wandlung ist nicht immer erforderlich. Die Eigenschaften des Wandlers müssen aber an die Erfordernisse des Schallsignals angepasst werden. Die Auswahl geeigneter Wandler ist unter Berücksichtigung der Eigenschaften der Schallsignale und der Anforderungen der Produktion wichtig.

wendig, dass die aufzuzeichnende Schallquelle und ihr Frequenzbereich schon vor der Aufnahme bekannt sind. Vielfach ist dann der Einsatz eines Schallwandlers sinnvoll, der genau diesen Frequenzbereich fehlerfrei wandelt, alle Frequenzen außerhalb jedoch ausblendet. Beispielsweise sind bei einem Gesangssignal sehr tiefe und sehr hohe Frequenzen meist eher unerwünscht. Anstatt diese Frequenzen nachträglich wegzufiltern, wäre der Einsatz eines Schallwandlers sinnvoll, der nur die gewünschten Frequenzen in ein elektrisches Signal transformiert. Für ein erfolgreiches Audiodesign ist es also unbedingt erforderlich, sowohl die Eigenschaften der verschiedenen Schallwandler als auch die Eigenheiten der zu wandelnden Signale möglichst genau zu kennen. Nur so ist es möglich, für einen konkreten Anwendungsfall den besten Wandler auszuwählen oder eventuell unvermeidbare Verzerrungen eines Wandlers gegebenenfalls nachträglich zu korrigieren.

7.1 Grundprinzipien elektromechanischer Wandler 7.1.1 Elektrostatische Wandler Die Kapazität eines Kondensators ist vom Abstand der Kondensatorplatten abhängig. Dies wird bei elektrostatischen Wandlern ausgenützt. Eine der Kondensatorplatten wird dabei als metallisierte dünne Membran ausgeführt, die von den eintreffenden Schallwellen in Bewegung versetzt wird. Dadurch ändert sich die Kapazität und somit auch der kapazitive elektrische Widerstand des Systems. Der Verlauf von Spannung und Strom entspricht damit jenem der eintreffenden Schallwelle.


7.2 Eigenschaften von Mikrofonen

153

7.1.2 Elektrodynamische Wandler Dieses Verfahren hat das so genannte Induktionsgesetz zur Grundlage und folgt somit dem gleichen physikalischen Prinzip wie ein Generator zur Erzeugung elektrischer Energie oder ein Elektromotor. Wird leitfähiges Material in einem Magnetfeld bewegt, so wird im Leiter eine zu seiner Geschwindigkeit proportionale elektrische Spannung induziert. Umgekehrt bewegt sich ein Leiter in einem Magnetfeld, sobald er von Strom durchflossen wird. Entweder fungiert die Membran selbst als bewegter Leiter oder es wird an der Membran eine Spule befestigt, die sich in einem starken konstanten Magnetfeld befindet. 7.1.3 Piezoelektrische Wandler Piezoelektrische Wandler nützen die Eigenschaft bestimmter kristalliner oder keramischer Materialien aus, dass durch geringste Verformungen eine elektrische Spannung erzeugt wird. Ein großer Nachteil ist die Abhängigkeit der Empfindlichkeit und des Frequenzganges von der Temperatur, weshalb sie für den Einsatz im HiFi- und Studiobereich ungeeignet sind. Ein Vorteil sind die geringen Herstellungskosten. Einsatzgebiete der piezoelektrischen Wandler sind Kopf- und Ohrhörer und Hochtöner, also Lautsprecher für den hohen Frequenzbereich. 7.1.4 Kohle-Wandler Beim Kohle-Wandler drückt die Membran auf eine Seite eines dicht mit Kohlegranulat gepackten Behälters. Dadurch wird die Dichte und somit auch der elektrische Widerstand des Granulats verändert. Für Anwendungen im HiFi- bzw. Studiobereich ist das Frequenzverhalten solcher Wandler unzureichend. Sie zeichnen sich aber durch Robustheit, Ansprechverhalten und niedrige Herstellungskosten aus und werden beispielsweise als Telefonmikrofone eingesetzt.

7.2 Eigenschaften von Mikrofonen 7.2.1 Empfindlichkeit Die von einem Mikrofon erzeugte elektrische Spannung bezogen auf den einwirkenden Schalldruck bei einer bestimmten Frequenz von meist 1000 Hz wird als Empfindlichkeit oder Übertragungsfaktor bezeichnet und in Millivolt pro Pascal (mV/Pa) angegeben. Typisch sind Werte im Bereich

Kodensatormikros sind um 10 bis 20 dB empfindlicher als dynamische Mikrofone.


154

7 Schallwandler von 1 bis 2 mV/Pa bei dynamischen Mikrofonen und zwischen 5 und 20 mV/Pa bei Kondensatormikrofonen. Kondensatormikrofone geben somit im Durchschnitt einen um 10 bis 20 Dezibel höheren Pegel als dynamische Mikrofone ab. 7.2.2 Übertragungsbereich Der zur Schallaufnahme mit einem bestimmten Mikrofon nutzbare Frequenzbereich wird als Übertragungsbereich bezeichnet. Ein direkter Vergleich der Übertragungsbereiche unterschiedlicher Mikrofone ist in der Regel nicht zulässig, da die verwendeten Toleranzen und Übertragungseigenschaften je nach Hersteller voneinander abweichen können. Ein typischer Übertragungsbereich für ein universell einsetzbares Studiomikrofon wäre etwa 40 Hz bis 20000 Hz. 7.2.3 Frequenzgang

Der Frequenzgang eines Mikrofons ist von der Einfallsrichtung des Schallsignals abhängig.

Der Verlauf des Übertragungsmaßes in Abhängigkeit von der Frequenz bei senkrecht einfallendem Direktschall wird als Frequenzgang des Mikrofons bezeichnet. Wünschenswert wäre ein möglichst konstanter Frequenzgang im gesamten Frequenzbereich. Das Mikrofon würde dann die Form bzw. das Spektrum des aufzuzeichnenden Schallsignals nicht verändern. Wichtig ist, dass der Frequenzgang eines Mikrofons und somit die Klangfarbe des aufgezeichneten Signals im Allgemeinen von der Einfallsrichtung der Schallwelle abhängig ist. Sollen während einer Aufnahmesession mehrere Varianten desselben Signals aufgezeichnet werden, so ist zu beachten, dass sich die Einfallsrichtung nicht ändern soll. Vor allem bei der Aufnahme von Sprechern kann dies leicht passieren, da schon eine geringfügige Kopfbewegung zu einer Änderung des Einfallswinkels und somit der Klangfarbe führen kann. Der so genannte Frequenzgang für das Diffusfeld wird mit einem größeren Abstand von der Schallquelle ermittelt. Auf Grund von Reflexionen trifft der Schall dann aus allen Richtungen auf die Membran. 7.2.4 Störpegel und Geräuschspannungsabstand Der Pegel, den ein Mikrofon abgibt, wenn kein Schallsignal einwirkt, wird als Störpegel bezeichnet. Unterschiedliche Geräuschbewertungen erschweren den direkten Vergleich diverser Herstellerangaben. Der Geräuschspannungsabstand eines Mikrofons ist das Verhältnis zwischen dem Störpegel und der Spannung, die das Mikrofon bei einem


7.3 Mikrofontypen

155

Schalldruck von einem Pascal und einer Frequenz von einem Kilohertz erzeugt. Für Studiomikrofone sollte der Geräuschspannungsabstand im Bereich von 75 bis 80 dB (bei so genannter A-Bewertung) liegen. 7.2.5 Grenzschalldruck und Dynamikumfang Hohe Amplituden des Nutzsignals führen zu Verzerrungen, die im Allgemeinen durch den Klirrfaktor beschrieben werden. Bei Mikrofonen ist es üblich, nicht den Klirrfaktor für einen bestimmten Schalldruck anzugeben, sondern umgekehrt jenen Schalldruck, der zu einem bestimmten Klirrfaktor führt. Unterhalb des so genannten Grenzschalldrucks (für Frequenzen von 1 kHz) bleibt der Klirrfaktor garantiert kleiner als 0,5 %. Der Pegelwert des Grenzschalldrucks entspricht dem Dynamikumfang des Mikrofons. Der Grenzschalldruck für Kondensatormikrofone liegt zwischen 20 und 200 Pascal. Dies entspricht einem Dynamikumfang von 120 bzw. 140 Dezibel. Dynamische Mikrofone können sehr hohe Schalldrücke verarbeiten, ohne dass diese zu größeren Verzerrungen führen, weshalb bei diesem Mikrofontyp meist auf die Angabe des Grenzschalldrucks verzichtet wird.

Dynamische Mikrofone können auch sehr hohe Schalldrücke noch unverzerrt in ein elektrisches Signal umwandeln.

7.2.6 Impulsverhalten Vor allem auf Grund von Masse, Elastizität und Dämpfung der Membran können Mikrofone auf Änderungen des Schalldrucks nicht beliebig schnell reagieren. Die Fähigkeit von Mikrofonen, auch rasche, impulsförmige Signaländerungen entsprechend zu übertragen, wird durch das Impulsverhalten beschrieben. Da es kaum objektiv bewertet werden kann, fehlen entsprechende Angaben in den meisten Datenblättern. Auf Grund der geringeren Membranmasse ist das Impulsverhalten von Kondensatormikrofonen besser als jenes von dynamischen Mikrofonen.

7.3 Mikrofontypen 7.3.1 Kondensatormikrofon Kondensatormikrofone basieren auf dem elektrostatischen Wandlerprinzip. Da bei diesem Mikrofontyp die Membranmasse sehr gering gehalten werden kann, verfügt es über hervorragende Eigenschaften, vor allem was den Frequenzgang und das Impulsverhalten betrifft. Auch die Empfindlichkeit von Kondensatormikrofonen liegt um ca. 10 dB höher als jene von anderen Mikrofontypen. Im Studio werden daher nahezu aus-

Kondensatormikrofone zeichnen sich u.a. durch ein gutes Impulsverhalten aus.


156

7 Schallwandler schließlich Kondensatormikrofone eingesetzt. Im Live-Einsatz sind Kondensatormikrofone auf Grund ihres höheren Übertragungsfaktors anfälliger für Rückkopplungen. Ein weiterer Nachteil von Kondensatormikrofonen ist, dass sie mit einer entsprechenden Vorspannung versorgt werden müssen. Meist werden Kondensatormikrofone in Form der so genannten 48-V-Phantomspeisung vom Mischpult oder einer zusätzlichen externen Spannungsversorgung gespeist. 7.3.2 Elektretmikrofon Dieser Mikrofontyp funktioniert ebenfalls nach dem elektrostatischen Wandlerprinzip. Im Unterschied zu Kondensatormikrofonen wird die notwendige Vorspannung der Mikrofonkapsel an Stelle der Phantomspannung dabei aber durch eine dauerhaft polarisierte Folie – ein so genanntes Elektret – erzielt. Dies ist vor allem im Außeneinsatz oder für semiprofessionelle Anwendungen interessant. Die hohe Qualität von Kondensatormikrofonen wird allerdings nicht erreicht. Außerdem können Elektretmikrofone einer gewissen Alterung unterliegen. 7.3.3 Elektrodynamisches Mikrofon

Dynamische Mikrofone werden meist für einen bestimmten Anwendungsbereich optimiert.

Um das elektrodynamische Wandlerprinzip für Mikrofone nutzbar machen zu können, wird an der Membran eine Spule befestigt, die sich in einem Magnetfeld bewegt. Die Masse von Membran und Spule ist vergleichsweise groß. Aus diesem Grund ist das Eigenschwingverhalten im Vergleich zu Kondensatormikrofonen schlechter. Der Frequenzgang ist nicht im gesamten Bereich linear und das Impulsverhalten ist träger. Die robuste Bauweise von dynamischen Mikrofonen ist vor allem im Live-Einsatz von Vorteil. Außerdem können auch extrem hohe Schalldrücke noch ohne Verzerrungen wiedergegeben werden. Da es ohnehin kaum möglich ist, den Frequenzgang von dynamischen Mikrofonen für den gesamten Hörbereichbereich linear zu machen, werden dynamische Mikrofone meist für einen bestimmten Anwendungsbereich optimiert. So sind beispielsweise Mikrofone wie das D112 der Firma AKG oder das M380 von Beyerdynamik auf die Aufnahme von tieffrequenten Klängen wie zum Beispiel jene einer Bassdrum spezialisiert. Das Mikrofon SM58 der Firma Shure ist hingegen ein ausgesprochenes Vokalmikrofon.


7.3 Mikrofontypen

157

Abb. 7.2 Frequenzgang eines Lavalier-Mikrofons

Hz

7.3.4

Lavalier-Mikrofon

Lavalier-Mikrofone sind für das Anstecken im Brustbereich von Sprechern konstruiert. Sie sind meist unempfindlich gegen Körperschall wie beispielsweise Reibegeräusche der Kleidung. Bei manchen Lavalier-Mikrofonen ist der Frequenzgang an die Besonderheiten der Schallabstrahlung bei menschlicher Sprache angepasst. Hohe Frequenzen werden direkt nach vorne und weniger zur Brust hin abgestrahlt. Außerdem kommt es zu resonanzartigen Überhöhungen im Bereich von ca. 700 Hz bis 800 Hz, in dem Schall auch über den Brustkorb abgestrahlt wird. Eine schematische Darstellung des Frequenzgangs eines Lavallier-Mikrofons findet sich in Abb. 7.2. 7.3.5 Grenzflächenmikrofon Die so genannten Grenzflächenmikrofone werden direkt an reflektierenden Flächen wie etwa Wänden, Böden oder Tischen angebracht und nicht, wie bei anderen Mikrofontypen üblich, an Stativen montiert oder in der Hand gehalten. In jeder Grenzfläche weist der Schalldruck immer ein Maximum auf. Dadurch ist der Wirkungsgrad von Mikrofonen an solchen Orten höher. Ein weiterer Vorteil solcher Grenzflächenmikrofone ist, dass sich damit mitunter störende Phaseneffekte, die zu Interferenz zwischen Direktschall und Reflexionen führen können, vermeiden lassen. 7.3.6 Körperschallmikrofon Körperschall- oder auch Pick-up-Mikrofone werden direkt am Resonanzkörper von Instrumenten befestigt. Das heißt, dass dessen Schallwellen ganz direkt und unmittelbar aufgenommen werden. Im Allgemeinen hat dieser Körperschall aber andere Eigenschaften als die in die Umgebungsluft


158

7 Schallwandler

Abb. 7.3 Grenzflächen-Mikrofon

Interferenz

abgestrahlten und von Zuhörern wahrnehmbaren Schallwellen. Im professionellen Studiobetrieb konnten sich Pick-ups daher nicht durchsetzen. Im Live-Einsatz werden sie hingegen relativ häufig eingesetzt, wenn akustische Gitarren oder Bässe verstärkt werden müssen. Ein Vorteil ist, dass ausschließlich der vom Instrument erzeugte Schall und keine wie auch immer gearteten Umgebungsgeräusche aufgezeichnet werden.

7.4 Richtcharakteristik Die bei einem Mikrofon eintreffenden Schallwellen werden im Allgemeinen nicht gleichmäßig aufgezeichnet. Viel mehr werden in den meisten Fällen bestimmte Richtungen bevorzugt. Diese Abhängigkeit des Übertragungsmaßes von der Richtung der eintreffenden Schallwelle wird durch die so genannte Richtcharakteristik eines Mikrofons beschrieben. 7.4.1 Achtförmige Richtcharakteristik Mikrofone mit achtförmiger Charakteristik nehmen bevorzugt Schallwellen auf, die von vorne oder von hinten auf die Membran fallen.

Bei einer achtförmigen Richtcharakteristik werden Schallwellen, die direkt von vorne oder von hinten auf das Mikrofon treffen, mit dem größten Übertragungsfaktor aufgezeichnet. Treffen hingegen Schallwellen von der Seite ein, so werden diese nicht oder nur mit einem sehr geringen Übertragungsfaktor gewandelt. Eine achtförmige Richtcharakteristik wird durch die so genannte Druckgradientenbauweise erzielt. Dabei können die Schallwellen von beiden Seiten auf die Membran einwirken. Für die Auslenkung der Membran ist somit die Differenz der Schalldrücke auf der Vorder- bzw. der Rückseite der Membran entscheidend. Ein seitlicher Schalleinfall bewirkt auf beiden Seiten den gleichen Schalldruck, also keine Differenz und somit auch keine Auslenkung der Membran.


7.4 Richtcharakteristik

159 Abb. 7.4 Druckgradienten-Mikrofon und achtförmige Richtcharakteristik

Der Einsatz von Mikrofonen mit achtförmiger Richtcharakteristik kann vor allem bei Interviews vorteilhaft sein. Die beiden Interviewpartner können einander gegenüber sitzen und mit einem Mikrofon aufgezeichnet werden. Zusätzlich werden störende Umgebungsgeräusche von seitlich positionierten Schallquellen die Aufnahme kaum stören. 7.4.2 Kugelförmige Richtcharakteristik Mikrofone mit kugelförmiger Charakteristik haben keine bevorzugten Einfallswinkel, nehmen also Schallwellen aus allen Raumrichtungen mit dem gleichen Wirkungsgrad auf. Erzielt wird eine kugelförmige Richtwirkung durch einen so genannten Druckempfänger bei dem Vorder- und Rückseite der Membran durch eine Kapsel schalldicht voneinander getrennt sind. Weicht der Luftdruck vor der Membran vom Druck im Inneren der Kapsel ab, so wird die Membran in Bewegung versetzt. Schallwellen, deren Wellenlänge größer als der Durchmesser der Mikrofonkapsel ist, werden um die Kapsel gebeugt. Es bildet sich also auch dann ein Druckunterschied aus, wenn die Schallwellen seitlich oder von hinten auf das Mikrofon treffen. Mit kleinen Mikrofonkapseln kann daher eine kugelförmige Charakteristik zumindest annähernd für den gesamten Hörbereich erreicht werden.

Kugelmikrofone nehmen Schall aus allen Richtungen gleichmäßig auf.


160

7 Schallwandler

Abb. 7.5 Nierenförmige Richtcharakteristik

7.4.3 Nierenförmige Richtcharakteristik Nierenmikrofone nehmen vor allem Schallwellen auf, die von vorne auf die Membran treffen. Schall von hinten wird ausgeblendet. Seitlich einfallende Schallsignale werden abgeschwächt aufgezeichnet.

Mikrofone mit einer nierenförmigen Richtcharakteristik reagieren auf jene Schallwellen am empfindlichsten, die von vorne auf das Mikrofon treffen. Seitlich oder von hinten eintreffender Schall wird schwächer übertragen. Diese nierenförmige Richtwirkung kann am einfachsten durch Überlagerung von kugel- und achtförmiger Richtcharakteristik erzielt werden. Durch spezielle konstruktive Maßnahmen oder durch eine gewichtete Überlagerung lassen sich weitere Chrakteristiken erzielen. Bei der Hypernierencharakteristik beträgt die Empfindlichkeit des Mikrofons 25% für seitlich einfallenden und 50 % für von hinten einfallenden Schall im Vergleich zum Schalleinfall von vorne. Bei der Supernierencharakteristik beträgt die Empfindlichkeit des Mikrofons 38 % für seitlich einfallenden und 25% für von hinten einfallenden Schall im Vergleich zum Schalleinfall von vorne. 7.4.4 Richtrohrmikrofon

Richtrohre haben im mittleren und hohen Frequenzbereich eine keulenförmige Charakteristik und blenden alle Schallquellen weitgehend aus, die nicht von vorne auf die Membran treffen. Allerdings ist die Charakteristik stark frequenzabhängig.

Richtrohrmikrofone sind dadurch gekennzeichnet, dass sie alle Schallsignale, die nicht von vorne auf das Mikrofon treffen, weitgehend ausblenden. Die Richtwirkung solcher Mikrofone ist also besonders ausgeprägt. Sie müssen häufig für Aufnahmen von Filmdialogen verwendet werden, um störende Nebengeräusche möglichst auszublenden. Um diese hohe Richtwirkung zu erreichen, wird vor der Membran ein so genanntes Interferenzrohr angebracht. Durch Löcher oder Schlitze in diesem Rohr wird der Schall so in seiner Phase beeinflusst, dass sich die seitlich eintreffenden Wellen durch destruktive Interferenz nach Möglichkeit gegenseitig auslöschen, bevor sie die Membran erreichen. Die auf diese Weise tatsächlich erzielbare Richtwirkung ist von der Wellenlänge des eintreffenden Schalls – bezogen auf die Länge des Inter-


7.5 Stereo-Mikrofonverfahren ferenzrohres – abhängig. Für tiefe Frequenzen unterscheidet sich die Charakteristik eines Richtrohrmikrofons kaum von einem Nierenmikrofon. Mit steigender Frequenz nimmt die Richtwirkung aber mehr und mehr zu. Bei mittleren bzw. hohen Frequenzen weisen Richtrohrmikrofone eine so genannte keulenförmige Charakteristik auf. Auf Grund der starken Abhängigkeit des Aufnahmebereichs von der Frequenz kann es bei bewegten Schallquellen bzw. bei Bewegungen des Mikrofons rasch zu Änderungen der Klangfarbe kommen. Interferenzempfänger sollen aus diesem Grund daher nur dort eingesetzt werden, wo es unbedingt notwendig erscheint.

7.5 Stereo-Mikrofonverfahren Aus Abschnitt 5.5 ist bereits bekannt, dass für die Wahrnehmung der Richtung, aus der ein Schallsignal beim Hörer eintrifft, einerseits die Intensitätsunterschiede, andererseits aber auch Laufzeit- und Phasenunterschiede zwischen den beiden Ohren ausgewertet werden. Es liegt also nahe, diese zwei Effekte auch bei der Mikrofonierung für Stereoaufnahmen zu nützen. Es kann daher zwischen Intensitäts- und Laufzeitstereofonie unterschieden werden. Die wichtigsten Kriterien für die Beurteilung von Stereo-Mikrofonverfahren sind Ortungsschärfe, Tiefenstaffelung, Präsenz der einzelnen Schallquellen und die vermittelte Räumlichkeit. Die Ortungsschärfe gibt an, wie gut bzw. wie originalgetreu eine aufgezeichnete Schallquelle im Stereopanorama zwischen links und rechts lokalisiert werden kann. Die Tiefenstaffelung einer Aufnahme ist umso besser, je genauer sich aufgezeichnete Schallquellen auf Grund ihrer Position in der räumlichen Tiefe – also gemäß hinten oder vorne – unterscheiden lassen. Die Präsenz einer einzelnen aufgezeichneten Schallquelle ist umso höher, je klarer sie zu hören ist. Unter Räumlichkeit wird jene Qualität einer Aufnahme verstanden, die das Empfinden des Raumes, das allgemeine Raumgefühl wiedergibt. Diese Kriterien stehen teilweise zueinander in Konkurrenz und werden von den verschiedenen Stereo-Mikrofonverfahren besser oder schlechter erfüllt. Welches Verfahren jeweils das beste ist, hängt vom gewünschten Ergebnis ab, und die richtige Wahl ist somit eine wichtige Entscheidung für das Audiodesign.

161


162

7 Schallwandler 7.5.1 Intensitätsstereofonie Ziel der Intensitätsstereofonie ist es, die räumliche Position einer Schallquelle durch einen Pegelunterschied zwischen den beiden Kanälen abzubilden. Soll ein Signal ganz links bzw. rechts erklingen, so ist hierfür eine Pegeldifferenz von rund 15 bis 20 Dezibel erforderlich. Es kann daher einen breiteren Winkelbereich geben, innerhalb dessen die vollständige Kanaltrennung erfüllt wird. Der praktisch nutzbare Aufnahmebereich wird dadurch eingeengt. Mit dem XY- und dem MS-Mikrofonverfahren, dem Einzelmikrofonverfahren und der Kombination dieser Praktiken zum HauptmikrofonStützmikrofonverfahren können vier verschiedene Techniken unterschieden werden. XY-Mikrofonverfahren

Das XY-Verfahren zeichnet sich durch hohe Präsenz aus.

Abb. 7.6 XY-Mikrofonverfahren

Beim XY-Mikrofonverfahren werden zwei Mikrofone mit Nierencharakteristik möglichst nahe beieinander aufgestellt und um einen bestimmten Öffnungswinkel – meist 90 oder 120 Grad – gegeneinander verdreht. Durch den Öffnungswinkel Š kann der erforderliche Aufnahmebereich U eingestellt werden, wobei die Beziehung  = 360º – 2 Š gilt. Für einen Öffnungswinkel von 90º beträgt der Aufnahmebereich also 180º. Bei einem Öffnungswinkel von 120º beträgt auch der Aufnahmebereich 120º. Auf Grund der leichten Richtwirkung des XY-Verfahrens nach vorne werden Störgeräusche und Raumhall gegenüber der Schallquelle abgeschwächt. Die Räumlichkeit ist aus diesem Grund nicht optimal. Dafür lässt sich ein hohe Präsenz der Schallquellen erzielen. XY-Mikrofonie eignet sich gut für die Aufnahme von Schallquellen, die sich am Hörer vorbei bewegen, wie beispielsweise vorbeifahrende Autos oder Züge.

Mittelachse

Aufnahmebereich φ φ = 360 ° – 2δ

Öffnungswinkel δ


7.5 Stereo-Mikrofonverfahren

106˚Aufnahmebereich M+S

M–S

MS-Mikrofonverfahren Beim MS-Mikrofonverfahren – MS steht dabei für Mitte-Seite – wird ein Mikrofon mit Nierencharakteristik direkt auf die Mitte der Schallquelle gerichtet. Ein zweites Mikrofon mit achtförmiger Richtcharakteristik wird um 90º aus der Mittelachse gedreht. Der Aufnahmebereich dieses Verfahrens beträgt 106º. Die beiden Mikrofone geben nicht unmittelbar die Signale für den linken bzw. rechten Kanal ab. Diese müssen erst durch Summen- bzw. Differenzbildung aus Mitten- und Seitensignal ermittelt werden. Da hierfür eine eigene elektrische Schaltung notwendig ist und somit ein zusätzlicher technischer Aufwand entsteht, besteht darin auch der Nachteil des Verfahrens. Präsenz und Räumlichkeit betreffend, lässt sich dieses Verfahren mit der XY-Mikrofonie vergleichen. Allerdings wird der Klang jener Schallquellen, die sich in der Mitte befinden, etwas klarer abgebildet, da das Nierenmikrofon direkt angestrahlt wird. Die Position im Stereopanorama kann auch nachträglich noch verändert werden. Durch Addition der beiden Stereokanäle wird das Seitensignal vollständig ausgeblendet. Das Verfahren ist daher vollständig monokompatibel, was vor allem für den Rundfunkbereich wichtig ist. Einzelmikrofonverfahren Beim Einzelmikrofonverfahren wird jeder der aufzuzeichnenden Schallquellen ein eigenes Monomikrofon zugeordnet. Die gewünschte Position im Stereopanorama wird mit dem entsprechenden Regler am Mischpult eingestellt. Dieses Verfahren wird vor allem in der Pop-, Rock- und Jazzmusik angewendet. Es zeichnet sich durch hohe Ortungsschärfe und Präsenz aus. Dafür gehen Raumtiefe und Räumlichkeit nahezu vollständig verloren und werden meist mit Halleffekten künstlich simuliert.

163 Abb. 7.7 MS-Mikrofonierung mit acht- und nierenförmiger Charakteristik


164

7 Schallwandler 7.5.2 Laufzeitstereofonie

Hohe Räumlichkeit und räumliche Tiefe zeichnen das AB-Verfahren aus.

Abb. 7.8 Laufzeitstereofonie

Ähnlich wie beim menschlichen Hören werden bei diesem Verfahren Laufzeit- bzw. Phasenunterschiede zwischen zwei Mikrofonen ausgenutzt, die um einen bestimmten, als Mikrofonbasis bezeichneten Abstand voneinander entfernt sind. Im Allgemeinen werden für diese auch als AB-Verfahren bezeichnete Technik Mikrofone mit kugelförmiger Richtcharakteristik verwendet. Der Aufnahmebereich beträgt dann 360º. Es wird also der gesamte Raum aufgezeichnet. Wichtig ist die richtige Wahl der Mikrofonbasis. Ist sie zu klein, so kann sich in der Aufnahme keine Raumwirkung entfalten, ist sie hingegen zu groß, so droht die Aufnahme scheinbar in zwei voneinander unabhängige Monosignale zu zerfallen. Der optimale Wert hängt einerseits von den Ausmaßen der Schallquelle und andererseits von der Größe und der Beschaffenheit des Aufnahmeraumes ab. Bei der Aufnahme einer Athmo – also der Geräuschkulisse einer bestimmten Umgebung – sind die verschiedenen Geräuschquellen normalerweise in allen Raumrichtungen gleichmäßig verteilt. In solchen Fällen hat sich eine Mikrofonbasis von ca. 20 bis 30 Zentimetern bewährt. Kommen die aufzuzeichnenden Schallsignale hingegen vorwiegend aus einer Richtung, wie es zum Beispiel der Fall wäre, wenn die Geräuschkulisse an einer stark befahrenen Straße aufgezeichnet werden soll, so kann die Mikrofonbasis etwas vergrößert werden. Zusätzlich gilt, dass die Stereobasis umso größer gewählt werden kann, je größer der Aufnahmeraum ist. In einem kleinen Raum sind 20 Zentimeter meist die beste Wahl. In einem Saal mittlerer Größe kann die Mikrofonbasis bis zu ca. 50 cm, im Freien sogar bis zu einem Meter und mehr betragen. Das AB-Verfahren zeichnet sich vor allem durch eine herausragende Räumlichkeit und räumliche Tiefe aus. Präsenz und Ortungsschärfe sind hingegen bei anderen Mikrofonverfahren besser.


7.5 Stereo-Mikrofonverfahren

165

7.5.3 Äquivalenzverfahren Bei den so genannten Äquivalenzverfahren wird versucht, die Vorteile von Intensitäts- als auch Laufzeitstereofonie zu vereinen und somit das menschliche Hörvermögen möglichst gut nachzubilden. ORTF-Verfahren Beim ORTF-Verfahren wird das AB-Verfahren mit dem XY-Verfahren kombiniert. Die Mikrofonbasis entspricht dabei dem durchschnittlichen menschlichen Ohrabstand von rund 17,5 Zentimetern. Als Öffnungswinkel werden 110º gewählt. Der Aufnahmebereich des ORTF-Verfahrens beträgt rund 180º. Es ist universell einsetzbar und erzielt einen guten Kompromiss zwischen Ortungsschärfe, Tiefenstaffelung und Räumlichkeit. OSS-Verfahren Das so genannte Optimale-Stereo-Signal-Verfahren – auch kurz als OSS-Verfahren oder Jecklin-Verfahren bezeichnet – ist mit dem ORTF-Verfahren vergleichbar. Allerdings wird zusätzlich auch berücksichtigt, dass beim menschlichen Hören die Pegelunterschiede zwischen den beiden Ohren auf Grund des Beugungseffektes frequenzabhängig sind. Dies wird durch eine Schall absorbierende Scheibe mit einem Durchmesser von 30 cm erreicht, die als Trennung zwischen den beiden Mikrofonen dient. Im Vergleich zum ORTF-Verfahren wird der Stereoeindruck dadurch noch vergrößert. Abb. 7.9 Mikrofonanordnung beim ORTF-Verfahren


166

7 Schallwandler Kugelflächenmikrofon Durch die Verwendung eines so genannten Kugelflächenmikrofons kann eine weitere Verbesserung erzielt werden. Statt die Mikrofone mit einer Scheibe zu trennen, werden diese auf zwei gegenüberliegenden Seiten einer Holz- oder Kunststoffkugel eingebaut, die das Beugungs- bzw. Reflexionsverhalten des menschlichen Kopfes simulieren soll. Der Durchmesser der Kugel soll dem durchschnittlichen menschlichen Kopfdurchmesser von rund 30 Zentimetern entsprechen. Kunstkopf-Stereofonie Bei der Kunstkopf-Stereofonie wird eine möglichst exakte Nachbildung eines menschlichen Kopfes verwendet, bei dem die Trommelfelle durch hochwertige Mikrofone mit kugelförmiger Richtcharakteristik ersetzt werden. Damit können sehr realistische Aufnahmen gemacht werden. Allerdings kann eine optimale Wiedergabe von Kunstkopf-Aufnahmen nur mit Kopfhörern sichergestellt werden. Da das Verfahren darüber hinaus teuer und in der Anwendung unhandlich ist, wird es in der Praxis nur selten eingesetzt. Originalkopf-Mikrofonverfahren Bei der Originalkopf-Stereofonie wird in jedes Ohr ein fingernagelgroßes Mikrofon gesteckt. Die Mikrofone sind dabei in der Regel nicht zu erkennen oder sehen wie Walkman-Kopfhörer aus. Der erzielte Effekt ist mit der Kunstkopf-Stereofonie vergleichbar. 7.5.4 Hauptmikrofon-Stützmikrofon-Verfahren

Bei Hauptmikrofonverfahren ist die richtige Wahl des Mikrofonabstandes zur Schallquelle entscheidend.

Mit Ausnahme des Einzelmikrofonverfahrens wurden bis jetzt so genannte Hauptmikrofonverfahren besprochen, bei denen sämtliche Schallquellen lediglich mit einem Mikrofonpaar aufgezeichnet werden. Die Balance zwischen den einzelnen Schallquellen kann nur dann sichergestellt werden, wenn mit einem relativ großen Mikrofonabstand gearbeitet wird. Aus diesem Grund ist der Anteil an Diffusschall im Vergleich zum Direktschall relativ hoch. Deshalb ist die Räumlichkeit solcher Aufnahmen gut und es kann in der Regel auf künstlichen Nachhall verzichtet werden. Wird der Mikrofonabstand jedoch zu groß gewählt, so führt dies zu einer Verschlechterung von Ortungsschärfe und Tiefenstaffelung. Es muss also immer ein geeigneter Kompromiss bei der Wahl des Mikrofonabstandes gefunden werden.


7.6 Mikrofonierung Durch das so genannte Hauptmikrofon-Stützmikrofon-Verfahren kann die Situation verbessert werden. Es wird das Einzelmikrofonverfahren mit einem geeigneten Verfahren der Laufzeit-, Intensitäts- oder Äquivalenzmikrofonie kombiniert. Die Einzelmikrofone tragen dann zur notwendigen Präsenz und Ortungsschärfe bei. Durch das zusätzliche Mikrofonpaar einer der gebräuchlichen Stereotechniken gewinnt die Aufnahme an Räumlichkeit und Tiefe.

167 Durch die Verwendung von Stützmikrofonen können Präsenz und Ortungsschärfe erhöht werden.

7.5.5 Aufzeichnungsverfahren für Mehrkanal-Stereofonie Die zunehmende Verbreitung von Wiedergabesystemen für SurroundSound macht die Erweiterung der Mikrofonierungsverfahren von Zweiauf Mehrkanal-Stereofonie erforderlich. Die bereits in den vorangegangenen Abschnitten bei Laufzeit- und Äquivalenzstereofonie angestellten Überlegungen gelten dabei weitgehend unverändert. Abhängig von der jeweiligen Zielsetzung der Aufnahme muss selbstverständlich auch bei Mehrkanal-Stereofonie immer der bestmögliche Kompromiss zwischen Präsenz der Schallquellen und Räumlichkeit gesucht werden. In der Literatur sind beispielsweise mit OCT, Decca-Tree, Hamasaki-Square, INA5 verschiedenste Verfahren beschrieben, die sich auch im praktischen Einsatz bewähren. Eine zusammenfassende Darstellung ist auf der Webseite  Siehe Webseite zum Buch zu finden. () zum Buch

7.6 Mikrofonierung Die Auswahl eines bestimmten Mikrofontyps, einer geeigneten Richtcharakteristik und die genaue Platzierung des Mikrofons im Verhältnis zur Schallquelle für eine konkrete Aufnahmesituation wird als Mikrofonierung bezeichnet. Diese wirkt sich nicht nur auf mögliche Störgrößen und somit auf die technische Qualität der Aufnahme aus, sondern beeinflusst auch den Raumeindruck und den Gesamtklang. Wird während der Aufnahme eine bestimmte Klangästhetik erzielt, so kann diese in späteren Produktionsschritten nicht mehr oder höchstens mit großem Aufwand nachträglich verändert werden. Wird aber bei der Aufnahme versucht, alles so neutral wie möglich zu halten, so wird es auch mit noch so perfekter Nachbearbeitung im Studio kaum gelingen, die gleiche Räumlichkeit, Lebendigkeit und Authentizität zu erzielen, die man während der Aufnahme durch eine gezielte Mikrofonierung hätte erreichen können. Es ist somit eine der wichtigsten Entscheidungen im Audiodesign, welches Klangideal mit einer Aufnahme verfolgt wird und wie die Auf-

Durch die Mikrofonierung werden technische Qualität, Raumeindruck und Gesamtklang einer Aufnahme beeinflusst.


168

7 Schallwandler

Neben den technischen Faktoren sollten bei der Mikrofonierung immer auch das akustische, visuelle und emotionale Umfeld berücksichtigt werden.

nahme gestaltet werden soll. Dabei ist es zu wenig, nur mehr oder weniger technische Fragen wie Mikrofontyp, Richtcharakteristik, Stereoverfahren oder Mikrofonabstand festzulegen. Es sollte vielmehr auch das gesamte Umfeld des aufzuzeichnenden akustischen Ereignisses abgeklärt und hinterfragt, also die Situation der Aufnahme gestaltet werden. Ein einfaches Beispiel dafür ist die Frage, ob eine CD live aufgenommen oder im Studio produziert werden soll. Zweifelsohne liefern Studioproduktionen auf Grund der vielfältigen technischen Korrektur- und Gestaltungsmöglichkeiten die objektiv bessere technische Qualität. Dafür werden Live-Mitschnitte im Allgemeinen als lebendiger und authentischer empfunden. Eine passende Atmosphäre herzustellen, in die sich alle an der Aufnahme Beteiligten einfühlen können, ist oft sogar wichtiger als die Wahl des Mikrofontyps. Ähnliche Fragen stellen sich aber auch bei der Aufnahme von beliebigen Geräuschen. Beispielsweise wird zerbrechendes Glas unterschiedlich klingen, wenn es in einem Sammelcontainer für Altglas zerbricht oder wütend zu Boden geworfen wird oder unabsichtlich im Wohnzimmer aus der Hand fällt oder bei einem Unfall zerstört oder in einer neutralen Studioumgebung für eine Aufnahme zerschlagen wird. 7.6.1 Veränderungen des Raumeindrucks

Durch den Mikrofonabstand wird der Raumeindruck verändert.


Für die Tiefenstaffelung verschiedener Schallquellen und somit für den räumlichen Eindruck einer Aufnahme ist, wie in Abschnitt 5.5 dargestellt, vor allem das Pegelverhältnis von Direktschall, Erstreflexionen und Diffusschall von Bedeutung. Dieses Verhältnis kann durch die Wahl des Mikrofonabstandes von der Schallquelle gezielt beeinflusst werden. Bei naher Mikrofonierung überwiegt der Direktschall und die Schallquelle klingt sehr präsent und nahe. Die Aufnahme vermittelt aber fast keinen Raumeindruck. Bei größerem Mikrofonabstand wirkt der Höreindruck natürlicher. Die akustischen Eigenschaften des Raumes und atmosphärische Umgebungsgeräusche wirken in die Aufnahme hinein. Wird der Mikrofonabstand jedoch zu groß, so kann die Aufnahme rasch diffus, konturlos und indifferent wirken. Je nach Situation und Zielsetzung muss für eine Aufnahme stets der beste Kompromiss für den Mikrofonabstand gefunden werden. () 7.6.2 Veränderungen des Klanges Im Wesentlichen können vier Faktoren den Klang von Mikrofon-Aufnahmen beeinflussen: das Abstrahlverhalten der Schallquellen bzw. die Positionierung des Mikrofons, die Frequenzabhängigkeit der Richtcharakte-


7.6 Mikrofonierung

169 Abb. 7.10 Abstrahlverhalten einer Violine

800 Hz

1000 – 1250 Hz

2000 – 5000 Hz

ristik des Mikrofons, der Nahbesprechungseffekt und Interferenzen zwischen Direktschall und Erstreflexionen. Abstrahlverhalten von Schallquellen Die meisten Schallquellen strahlen nicht alle Frequenzen gleichmäßig in alle Raumrichtungen ab, sondern weisen ein gerichtetes Abstrahlverhalten auf. Das heißt, es werden manche Frequenzbereiche in bestimmte Richtungen besser und in andere schlechter abgestrahlt. Die Positionierung des Mikrofons kann aus diesem Grund den Klang einer Aufnahme mitunter ganz entscheidend beeinflussen.

Die Positionierung des Mikrofons beeinflusst die Klangfarbe.

Frequenzabhängige Richtcharakteristik des Mikrofons Wie das Abstrahlverhalten von Schallquellen, so ist auch die Richtcharakteristik eines Mikrofons immer von der Frequenz des aufzunehmenden Schallsignals abhängig. Das heißt, dass der Frequenzgang eines Mikrofons und somit auch der Klang der Aufnahme von der Einfallsrichtung des Schalls abhängig ist. Nahbesprechungseffekt Der Nahbesprechungseffekt ist eine Besonderheit von Druckgradienten-Mikrofonen und tritt bei allen Mikrofonen mit acht- oder nierenförmiger Richtcharakteristik auf. Er bewirkt die Anhebung der tiefen Frequenzanteile bei Mikrofonabständen, die kleiner als ein Meter sind. In vielen Fällen führt der Nahbesprechungseffekt zu einer unerwünschten Verfärbung des Klanges. Manche Mikrofone bieten daher einen zuschaltbaren Filter zur Kompensierung. Verfügt das Mikrofon über keinen eigenen Filter zur Absenkung des tiefen Frequenzbereichs, so können dazu freilich

Bei naher Mikrofonierung wird der Bassbereich stärker betont.


170

7 Schallwandler auch die Filter eines Mischpults verwendet werden. Vor allem von Musikern im Pop-, Rock- oder Jazzbereich wird der Nahbesprechungseffekt oft aber auch ganz bewusst zur gezielten Veränderung der Klangfarbe eingesetzt. Interferenz zwischen Direktschall und Reflexionen

Stark reflektierende Flächen in der Nähe eines Mikrofons können zu Klangfärbungen führen.

Schon in Abschnit 7.3.5 wurde erwähnt, dass zwischen Direktschall und Erstreflexionen unerwünschte Phasenunterschiede auftreten können. Abhängig von der Frequenz können diese zu konstruktiver oder destruktiver Interferenz führen. Vergleichbar mit der Funktion eines Kammfilters werden dadurch manche Frequenzbereiche verstärkt, andere hingegen abgeschwächt. Dieser Kammfiltereffekt tritt grundsätzlich immer dann auf, wenn zwei einander sehr ähnliche Schallereignisse mit sehr geringer Verzögerung aufeinander folgen. Der Klang der Aufnahme wird dadurch im Allgemeinen negativ beeinflusst. Stärker reflektierende Flächen in der Nähe eines Mikrofons sollten daher vermieden bzw. entsprechend bedämpft werden. 7.6.3 Das Mikrofon als akustische Lupe


Wird ein sehr kleiner Mikrofonabstand gewählt, so können Schallereignisse hörbar gemacht werden, die im Alltag üblicherweise kaum wahrnehmbar sind. Das Mikrofon übernimmt sozusagen die Funktion einer akustischen Lupe. Es kann auf diese Weise gelingen, vermeintliche Nebengeräusche in den akustischen Vordergrund zu rücken und bewusst zu machen. () Im Allgemeinen klingen Schallereignisse, die mit sehr geringem Mikrofonabstand aufgezeichnet wurden, in einer Wiedergabe größer, mächtiger und näher. Die im Audiodesign zur Verfügung stehende Geräuschpalette wird dadurch erweitert, und es können wesentlich feinere Nuancen und Klangschattierungen erzielt werden. Bei Sprach- oder Gesangsaufnahmen werden Lippen- und Zungenbewegungen, Atemgeräusche und Schmatzen ganz deutlich hörbar. Dies wird beispielsweise bei Popballaden sehr häufig als Stilmittel eingesetzt und soll vor allem Nähe suggerieren. Der individuelle Gesangsstil vieler Interpreten in Rock und Pop wäre ohne den bewussten Einsatz von Mikrofonen kaum erzielbar. Ganz leises Singen und Sprechen oder gar Flüstern beeinflusst nicht nur die Lautstärke. Es werden dadurch auch interessante Variationen im Klang und im Charakter der Stimme erzielt, die jedoch nur mit naher Mikrofonierung musikalisch nutzbar gemacht werden können. Bei Stereoaufnahmen mit sehr geringem Mikrofonab-


7.6 Mikrofonierung stand können bereits Bewegungen auf engem Raum bei der Wiedergabe das gesamte Stereopanorama ausfüllen und somit wesentlich weiträumiger wirken. 7.6.4 Störungen Wind- und Popgeräusche Turbulente Luftströmungen an der Membran führen in der Regel zu erheblichen Störungen im aufgenommenen Signal. Solche Luftwirbel entstehen einerseits bei Wind im Falle von Außenaufnahmen und andererseits bei Explosivlauten wie T oder P und manchen Frikativen wie S und SCH im Falle von Sprach- und Gesangsaufnahmen. Bei Wind sollte zuerst versucht werden, das Mikrofon möglichst geschickt im Windschatten von Häusern, Bäumen, Menschen, Kleidungsstücken etc. zu platzieren. Kann die Aufnahmesituation dadurch nicht verbessert werden, so muss ein so genannter Windschutz verwendet werden, der den Luftstrom möglichst gut abbremst, dabei aber den Nutzschall so wenig wie möglich beeinträchtigt. Ein stark dämmender Windschutz führt allerdings meist auch zu einem geringen Verlust an Höhen. Bei starkem Wind wird auch der beste Windschutz die Probleme nur bedingt lösen. Die als Popgeräusche bezeichneten Störungen bei Sprach- und Gesangsaufnahmen können vermieden werden, indem nicht direkt, sondern etwas darüber, darunter oder auch leicht seitlich in das Mikrofon gesprochen wird. Auch durch die Vergrößerung des Mikrofonabstandes können Popgeräusche vermieden werden. Außerdem sollte bei Sprach- und Gesangsaufnahmen ein Popschutz verwendet werden. Bis zu einem gewissen Grad ist eine nachträgliche Korrektur von Wind- und Popgeräuschen durch Absenkung der Frequenzen unterhalb von etwa 50 Hz  Siehe Webseite möglich. () zum Buch Trittschall Eine weitere Fehlerquelle, die bei Mikrofonaufnahmen beachtet werden muss, ist Tritt- und Körperschall. Schritte und ähnliche Anregungen führen zu Schwingungen, die sich über den Mikrofonständer auf die Membran übertragen können. Die Verwendung einer so genannten MikrofonSpinne bewirkt eine elastische Halterung und kann auf diese Weise derartige Störungen weitgehend unterdrücken.

171


172

7 Schallwandler

7.7 Lautsprecher Die Mehrzahl der Lautsprecher arbeitet nach dem elektrodynamischen Prinzip. Allerdings werden beispielsweise in PCs, Telefonhörern und verschiedenen elektronischen Kleingeräten auch Piezo-Lautsprecher eingesetzt. 7.7.1 Eigenschaften von Lautsprechern Die wichtigsten Eigenschaften eines Lautsprechers sind Größe, Wirkungsgrad, Frequenzgang, Richtwirkung und die Art der Aufhängung bzw. des Einbaus. All diese Eigenschaften beeinflussen einander gegenseitig. Für die jeweilige Anwendung muss der bestmögliche Kompromiss gefunden werden. Um für alle Frequenzen gleiche Schallintensitäten zu erhalten, muss das Produkt aus Amplitude und Frequenz konstant sein. Für hohe Schallpegel bei tiefen Frequenzen muss ein großes Luftvolumen bewegt werden. Bei hohen Frequenzen wird der Pegel jedoch durch die rascheren Bewegungen der Luftmolekühle schon mit einem geringeren Volumen erreicht. Lautsprecher-Membranen für tiefe Frequenzen müssen daher größere Durchmesser aufweisen. Ein entscheidender Faktor für den Frequenzgang eines Lautsprechers ist das mechanische Schwingungsverhalten der Membran, wobei Masse und Dämpfung die entscheidenden Einflussgrößen sind. Um auch rasche Signaländerungen übertragen zu können, sollte die Masse möglichst gering sein. Neben der Membrangröße, die ja auf Grund der zu übertragenden Frequenzen nicht beliebig gewählt werden kann, ist hierfür das Material der Membran ausschlaggebend. In der Regel werden Kunststoff und Zellulose verwendet. Bei sehr hochwertigen Lautsprechern kommt glasfaserverstärkter Kunststoff zum Einsatz, bei billigen Produkten auch Pappe. Damit es zu keinem ungewünschten Nachschwingen kommt, muss die Membran möglichst stark bedämpft werden. Dies wird vor allem durch eine elastische Aufhängung der Membran erzielt. Das Abstrahlverhalten und somit die Richtcharakteristik des Lautsprechers ist in erster Linie von der Größe der Membran im Vergleich zur Wellenlänge des abzugebenden Signals abhängig. In den meisten Fällen ist bei Lautsprechern eine kugelförmige Schallabstrahlung vorteilhaft. Diese wird aber nur dann erzielt, wenn der Lautsprecher im Vergleich zur Wellenlänge klein ist.


7.7 Lautsprecher

173

Abb. 7.11 Bauformen von Lautsprechern A2 F2

F1 A1

7.7.2 Bauformen von Lautsprechern Konuslautsprecher Der Übertragungsbereich des Konuslautsprechers ist nach unten durch die Eigenfrequenz der konusförmigen Membran begrenzt. Die MembranMasse ist daher relativ hoch und die Spannung der Membran vergleichsweise gering. Bei mittleren und höheren Frequenzen schwingt nicht mehr die gesamte Membran. Vielmehr regt die Schwingspule – vergleichbar mit einem Stein, der ins Wasser geworfen wird – konzentrische Schwingungen an, die zum Teil am Membranrand reflektiert werden. Dies führt zu recht komplizierten Schwingungsmustern, die sich auf den Frequenzgang und die Abstrahlcharakteristik des Lautsprechers negativ auswirken. Der Konuslautsprecher wird daher vor allem für den tiefen Frequenzbereich eingesetzt. Durch eine zum Rand hin dünner werdende Membran oder durch die spezielle Formgebung der so genannten Nawi-Membran (Nawi steht für nicht abwickelbar) kann das Schwingverhalten bei höheren Frequenzen verbessert werden. Dadurch wird der Einsatz von Konuslautsprechern als Breitbandlautsprecher im gesamten Frequenzbereich möglich.

Im tiefen Frequenzbereich werden meist Konuslautsprecher eingesetzt.

Kalottenlautsprecher Beim Kalottenlautsprecher wird eine (halb)kugelförmige Membran mit einer Schwingspule verbunden und seitlich elastisch befestigt. Die Kalotte ist mit einem möglichst steifen Material hergestellt, das über eine starke innere Dämpfung verfügt. Der Durchmesser ist im Allgemeinen kleiner als die zu übertragende Wellenlänge. Aus diesen Gründen schwingt ein Kalottenlautsprecher im gesamten Frequenzbereich kol-

Kalottenlautsprecher werden vorwiegend im hohen Frequenzbereich verwendet.


174

7 Schallwandler benförmig. Konzentrische Biegeschwingungen wie bei einer konusförmigen Membran treten dabei nicht auf. Die Abstrahlung erfolgt in einem weiten Winkelbereich gleichmäßig. Kalottenlautsprecher eignen sich vor allem für den hohen Frequenzbereich und werden bevorzugt mit einem Membrandurchmesser von etwa 20 bis 25 Millimetern hergestellt. Druckkammerlautsprecher

Druckkammerlautsprecher haben einen höheren Wirkungsgrad, eine starke Richtwirkung und führen zu einer starken Klangfärbung.

Bei Druckkammerlautsprechern, die oft auch als Hornlautsprecher bezeichnet werden, wird der Membran ein Schalltrichter vorgesetzt, der als akustischer Verstärker wirkt. Der Wirkungsgrad des Lautsprechers kann dadurch um bis zu zehn Dezibel erhöht werden. Das Horn vor der Druckkammer führt zu einer gebündelten Abstrahlung. Der Frequenzgang ist somit nur in Abstrahlrichtung ausgewogen. Außerdem neigen Druckkammerlautsprecher dadurch zu einem hornähnlichen, nasalen Klang. 7.7.3 Akustischer Kurzschluss – Lautsprecherbox

Der Einbau eines Lautsprechers in eine Box verhindert den akustischen Kurzschluss. Die halbe Schallleistung geht dabei aber verloren.

Schwingt die Membran nach vorne, so werden die Luftmoleküle dadurch auf der Vorderseite des Lautsprechers zusammengepresst, und es entsteht lokal ein Überdruck. Gleichzeitig haben die Luftmoleküle auf der Rückseite der Membran aber mehr Platz, und es entsteht dort ein Unterdruck. Die Lautsprechermembran gibt die Schallleistung also gegenphasig sowohl nach vorne als auch nach hinten ab. Sind nun die Abmessungen des Lautsprechers klein im Verhältnis zur abgestrahlten Wellenlänge, so kommt es sofort zu einem Ausgleich des lokalen Druckunterschiedes zwischen Vorder- und Rückseite. Es kann vom Lautsprecher dann fast keine Schallleistung abgestrahlt werden. Dieses Phänomen wird als akustischer Kurzschluss bezeichnet. Der akustische Kurzschluss kann durch den Einbau in eine Schallwand verhindert werden, deren Durchmesser der halben Wellenlänge der tiefsten Frequenz entspricht. Für eine Frequenz von 50 Hertz ergibt sich somit ein Schallwanddurchmesser von mindestens 3,4 Metern. Durch die Verwendung einer geschlossenen Lautsprecherbox kann die Wirkung einer unendlich großen Schallwand erzielt und der akustische Kurzschluss auf diese Weise verhindert werden. Die nach hinten abgestrahlte Schallleistung bleibt dabei aber ungenützt. Der Wirkungsgrad des Lautsprechers wird also halbiert. Sowohl der Hohlraum als auch die Wände der Box sind schwingungsfähige Systeme mit bestimmten Resonanzeigenschaften, die den Frequenzgang des gesamten Lautsprechers beeinflussen. Das Innere einer


7.7 Lautsprecher

175

Lautsprecherbox muss daher durch geeignete Maßnahmen entsprechend stark bedämpft werden. Dies wird durch Dämm- bzw. Schafwolle und verschiedenartige Verstrebungen in der Lautsprecherbox erzielt. Die in der Box eingeschlossene Luft wirkt als zusätzliche Dämpfung auf die Membran. Dies verbessert zwar das Schwingungsverhalten, reduziert aber ebenfalls den Wirkungsgrad. Bass-Reflex-Box Durch den Einbau des Lautsprechers in ein Gehäuse wird rund die Hälfte der Schallleistung unterdrückt. Durch geeignete konstruktive Maßnahmen kann aber zumindest ein Teil des nach hinten abgestrahlten Schalls nutzbar gemacht werden. Ein Loch im Gehäuse ermöglicht dabei das Ein- bzw. Austreten von Schallwellen. Durch eine entsprechende Bauweise werden diese nun gezielt so umgelenkt, dass es zu einer konstruktiven Interferenz und somit zu einer Verbesserung des Wirkungsgrades Abb. 7.12 kommt. Diese Maßnahmen können vor allem im Bassbereich wirkungs- Bass-Reflex-Box voll ausgenutzt werden, weshalb von Bass-Reflex-Boxen gesprochen wird. 7.7.4 Mehrweg-Lautsprechersysteme Ein über den gesamten hörbaren Frequenzbereich linearer Frequenzgang ist mit einem einzigen Lautsprecher technisch nicht ohne Qualitätsverlust zu realisieren. Lautsprecher werden aus diesem Grund im Allgemeinen jeweils für den Einsatz in einem bestimmten Frequenzbereich optimiert und in ein gemeinsames Lautsprechersystem integriert. Das vom Lautsprechersystem zu wandelnde Audiosignal wird mit Hilfe einer so genannten Frequenzweiche in Teile zerlegt und zum jeweils passenden Lautsprecher geleitet.

Frequenzweiche Audiosignal

Höhen Mitten Bässe

Abb. 7.13 Mehrweg-Lautsprechersystem


176

7 Schallwandler Die Optimierung der Lautsprecher würde umso besser gelingen, je mehr getrennte Frequenzbereiche verwendet werden. Allerdings bewirken die Frequenzweichen mitunter elektrische Phasenfehler. Da die Phase vor allem für die Richtungswahrnehmung eine wichtige Rolle spielt, kann sich dadurch die Abbildung des Stereobildes verschlechtern. Dieser Effekt wird zusätzlich noch dadurch verstärkt, dass bei der Mehrwegtechnik mehrere Lautsprecher auf eine größere Fläche verteilt werden müssen. Aus diesen Gründen kann die Anzahl der Lautsprecher nicht beliebig erhöht werden. Es muss der beste Kompromiss zwischen dem erzielbaren klanglichen Ergebnis und der möglichst originalgetreuen räumlichen Abbildung der Schallereignisse gefunden werden. Die besten Ergebnisse lassen sich im Allgemeinen mit Zwei- bzw. Dreiwegsystemen erzielen. 7.7.5 Verstärker

Verstärker haben einen wesentlichen Einfluss auf das gesamte Wiedergabesystem.

Einen wesentlichen Einfluss auf die Qualität der Schallwiedergabe haben auch die verwendeten Verstärker. Vor allem das Signal-Rausch-Verhältnis, die abzugebende elektrische Leistung und der Klirrfaktor des gesamten Wiedergabesystems hängen maßgeblich davon ab. Je nach Einsatzgebiet werden unterschiedliche Verstärkersysteme – oft auch als Endstufen bezeichnet – verwendet. Bei Live-Auftritten kommen so genannte PA-Systeme zum Einsatz. Sie zeichnen sich durch hohe Ausgangsleistung und Robustheit aus. Außerdem bieten sie in der Regel Schutz gegen Einschaltknacksen, Überlastung und Kurzschluss. Allerdings weisen diese Systeme einen vergleichsweise hohen Klirrfaktor auf. Auf Grund der großen Leistungen ist das Lüftergeräusch relativ laut. Auch die übertragbare Dynamik ist meist etwas reduziert, da PA-Systeme gegen Überlastung geschützt werden und daher eine Pegelbegrenzung eingebaut wird. Aus diesen Gründen sind diese Wiedergabesysteme für den Einsatz im HiFi- oder Studiobereich ungeeignet. Endstufen, die im HiFi-Bereich eingesetzt werden sollen, müssen vor allem einen möglichst linearen Frequenzgang und einen geringen Klirrfaktor aufweisen. Der Nenneingangspegel beträgt in diesem Bereich –10 dBu, was einer Eingangsspannung von 0,32 Volt entspricht. Für Studio-Endstufen gelten ähnliche Anforderungen. Im Allgemeinen sind sie aber etwas leistungsfähiger, und der Nenneingangspegel beträgt +4 dBu, also 1,23 Volt.


7.7 Lautsprecher

177

Bei den Wiedergabesystemen wird in der Audiotechnik zwischen aktiven und passiven Lautsprechern unterschieden. Passive Systeme setzten sich aus getrennten Einheiten für Verstärker und Lautsprecher zusammen. Im Gegensatz dazu sind bei aktiven Systemen die Verstärker direkt in die Lautsprecherbox integriert. Dies hat den Vorteil, dass die speziellen Eigenschaften der Verstärker bei der Konstruktion des Lautsprechers berücksichtigt werden können und umgekehrt. Im besten Fall erfolgt die Verstärkung des Audiosignals erst nach der Aufteilung des Signals auf die einzelnen Lautsprecher durch die Frequenzweiche. Das heißt, dass jeder Frequenzbereich über einen eigenen Verstärker verfügt. Dieser Mehraufwand ermöglicht, Lautsprecher, Frequenzbereiche und Verstärker optimal aufeinander abzustimmen. Aus diesen Gründen werden insbesondere im Studiobereich aktive Wiedergabesysteme bevorzugt.

Aktive Lautsprechersysteme ermöglichen ein optimales Zusammenwirken von Frequenzbereich, Verstärker und Lautsprecher.

Aktive und passive Lautsprechersysteme

7.7.6 Auswahl geeigneter Lautsprecher Werden Wiedergaberaum, Hörgewohnheiten, kulturelles Umfeld etc. vernachlässigt, so stellen Lautsprecher bei vielen akustischen Kommunikationsketten das letzte Glied dar. Die Auswahl geeigneter Lautsprecher bzw. die Kenntnis der speziellen Eigenschaften ist daher für ein erfolgreiches Audiodesign von großer Bedeutung. Aus den bisherigen Ausführungen geht hervor, dass es den perfekten Lautsprecher nicht geben kann. Es ist daher wichtig, jenes Wiedergabesystem zu wählen, das sich für eine konkrete Anwendung am besten eignet. In einem Sprachsignal sind beispielsweise sehr hohe und sehr tiefe Frequenzen kaum vorhanden. Starke Bässe oder Höhen weisen bei Sprache meist auf eine fehlerhafte Kommunikationskette hin und sind unerwünscht. Für die Wiedergabe wird es daher häufig nicht nur genügen, sondern unter Umständen sogar von Vorteil sein, einen Lautsprecher zu verwenden, der den mittleren Frequenzbereich sehr gut überträgt, Bässe und Höhen jedoch abschwächt. In professionellen Tonstudios ist es hingegen unbedingt erforderlich, dass alle Schallsignale möglichst unverfälscht wiedergegeben werden, um die Produktionen objektiv beurteilen zu können. In der Praxis ist es vielfach nicht möglich, die Wahl der Lautsprecher zu beeinflussen. In diesen Fällen sollten während der Produktion die Eigenschaften jener Lautsprecher berücksichtigt werden, die im konkreten Fall üblicherweise Verwendung finden. Zum Beispiel werden im Bereich der neuen Medien in Verbindung mit PCs nach wie vor häufig Lautsprecher von eher schlechter Qualität eingesetzt, die vor allem Bässe und Höhen unzureichend wiedergeben. Zu versuchen, mit Bassklängen

Die Lautsprecher sollen auf die konkreten Anforderungen der Produktionabgestimmtwerden.

Kann die Wahl der Lautsprecher nicht bestimmt werden, so muss während der Produktion auf deren Eigenschaften geachtet werden.


178

7 Schallwandler bestimmte Stimmungen zu erzielen, macht daher für diesen Anwendungsbereich kaum Sinn. Auch die Musik für das Fernsehen sollte sich von Filmmusik für das Kino unterscheiden, da Fernsehlautsprecher bis jetzt vor allem in Hinblick auf den Frequenzbereich und die Dynamik die Qualität der oft recht aufwendigen Wiedergabesysteme in Kinos nicht erreichen können. Auch wenn die objektive Beurteilung von Audioproduktionen über qualitativ hochwertige Studiolautsprecher unabdingbar ist, sollten stets die Ergebnisse auch minderwertiger Wiedergabesysteme, wie Auto-, Fernseh- oder Multimedialautsprecher überprüft werden. 7.7.7 Positionierung der Lautsprecher Die optimale Positionierung von Stereolautsprechern ist dann gegeben, wenn diese zusammen mit dem Hörer ein gleichseitiges Dreieck aufspannen. Die Lautsprecher sollen direkt auf die Ohren des Hörers strahlen, da die Abstrahlung der Lautsprecher vor allem im hohen Frequenzbereich meist gerichtet erfolgt. Auf Grund der sich ergebenden Reflexionsmuster überträgt ein Lautsprecher, der in einer Ecke positioniert wird, tiefe Frequenzen etwas besser. Es ist daher wichtig, dass die Umgebung der Lautsprecher möglichst symmetrisch und der Wandabstand gleich ist, damit Lautsprecher über die gleichen Wiedergabeeigenschaften verfügen. Near-Field-Monitoring

Abb. 7.14 Positionierung von Lautsprechern

Wie bereits mehrfach erwähnt, hat der Raum, in dem sich eine Schallwelle ausbreitet, mitunter erheblichen Einfluss darauf, wie ein akustisches Ereignis wahrgenommen wird. In professionellen Tonstudios werden die Abhörräume daher durch bauliche Maßnahmen wie besondere Dämpfung der Wände oder asymmetrische Grundflächen akustisch mög-


7.8 Mischpulte

179

lichst neutral gestaltet. Eine andere Möglichkeit, den Einfluss des Raumes auf die Wahrnehmung von Schallereignissen möglichst gering zu halten, ist das so genannte Near-Field-Monitoring. Dabei wird eine Abhörposition im Direktfeld der Lautsprecherboxen gewählt. Das heißt, dass der Direktschall gegenüber den Erstreflexionen bzw. dem Diffusschallanteil, die vor allem durch die Akustik des Raumes bestimmt werden, überwiegt. Der Abstand zwischen Boxen und Hörer sollte hierfür etwa einen Meter betragen. Der Einfluss des Raumes auf das Klangbild wird dadurch minimiert und eine objektive Beurteilung der Aufnahme ermöglicht.

7.8 Mischpulte Das Mischpult ist die zentrale Schaltstelle in jedem Tonstudio und gehört somit zu den wichtigsten Werkzeugen im Audiodesign. Hier laufen die verschiedenen Audiosignale mit unterschiedlichen Pegeln zusammen, werden in Klang und Lautstärke aufeinander abgestimmt, auf verschiedene Geräte zur klanglichen Nachbearbeitung verteilt und schließlich zu den Lautsprechern und Aufnahmegeräten geleitet. Auch wenn die analogen Mischpulte schon vielfach durch digitale ersetzt wurden und so genannte digitale Audioworkstations versuchen, die gesamte Studioumgebung im PC auf Softwarebasis nachzubilden, blieben die grundlegenden Konzepte bisher weitgehend unverändert. Jedes in das Pult eingehende Signal durchläuft zuerst den Eingangskanal. Den dort getätigten Einstellungen folgend wird es in die Stereo-Summe und gegebenenfalls auch in eine der Subgruppen weitergeleitet. Mischpulte werden oft nach der Anzahl der vorhandenen Eingangskanäle und Subgruppen eingeteilt. Die Bezeichnung 32/8/2-Mischpult bedeutet beispielsweise, dass das Pult über 32 Eingangskanäle verfügt, die zu Subgruppen zusammengefasst werden können und über eine Stereo-Summe, die sich im Grunde immer aus zwei Monokanälen zusammensetzt, ausgegeben wird. Ein 8/2Mischpult verfügt hingegen nur über acht Eingangskanäle und eine Ste-  Siehe Webseite zum Buch reo-Summe. () 7.8.1 Eingangskanal Vorverstärker Die Pegel der eingehenden Schallsignale können sich mitunter stark voneinander unterscheiden. Es ist daher wichtig, diese mit dem Vorverstärker an den Arbeitspegel des Mischpultes anzupassen. Null Dezibel entsprechen dabei dem genormten Studiowert von 1,55 Volt.

Am Eingang eines Mischpultes wird zwischen Signalen mit Mikrofonund solchen mit LinePegel unterschieden.


180

7 Schallwandler

Abb. 7.15 Aufbau eines Mischpults

Eingangskanal X Eingangskanal 3 Eingangskanal 2 Eingangskanal 1 Vorverstärker

Prefaded AUX Kanalregler Postfaded AUX

Stereo-Summe

Equalizer

Subgruppen

Insert

Panoramaregler

Mit dem Vorverstärker muss für jedes Schallsignal die optimale Aussteuerung eingestellt werden.

Im Allgemeinen müssen zwei Kategorien von Eingangssignalpegeln unterschieden und entsprechend verarbeitet werden: Mikrofon- und Linepegel. Da Mikrofone nur ein sehr schwaches elektrisches Signal abgeben, ist ein hoher Verstärkungsfaktor notwendig. Hochwertige Mikrofon-Vorverstärker müssen aber unbedingt rauscharm und verzerrungsfrei sein. Sie stellen ein wichtiges Qualitätskriterium von Mischpulten dar. Im professionellen Einsatz kommen auch spezielle externe Vorverstärker zum Einsatz, die den Mikrofonpegel bereits vor dem Eingang in das Mischpult auf den Line-Pegel anheben. Elektrische Instrumente liefern bereits den Line-Pegel, und es ist keine wesentliche Vorverstärkung mehr notwendig. Der Vorgang der Pegelanpassung wird als Aussteuern oder Einpegeln des Mischpults bezeichnet und stellt immer den ersten Schritt beim Mischen von Audiosignalen dar. Für die Qualität der Produktion ist entscheidend, dass dabei für jedes Schallereignis der optimale Wert für die Vorverstärkung ermittelt und eingestellt wird. Wie bereits in Abschnitt 2.2.3 näher erläutert, führen zu geringe Werte zu einem schlechten Signal-RauschVerhältnis, zu hohe Werte hingegen zu Verzerrungen. Der Vorverstärker muss also stets so eingestellt werden, dass die maximale Amplitude des Eingangssignals gerade noch zu keinen Verzerrungen führt. Wird dies


7.8 Mischpulte

181

nicht beachtet, so spricht man von Übersteuerung des Mischpults. Die Aussteuerungs- oder Pegelanzeige des Mischpults dient dabei als Kontrollinstrument. Die Vorverstärkung darf allerdings nur dann an die eben beschriebene Grenze gesetzt werden, wenn die maximale Signalamplitude mit Sicherheit vorhergesagt werden kann. In den meisten Fällen ist dies aber nicht im Vorhinein möglich, und es muss eine Aussteuerungsreserve von etwa 12 dB vorgesehen werden, die auch als Headroom bezeichnet wird. Die Vorverstärkung muss also so eingestellt werden, dass die erwartete maximale Signalamplitude 12 dB unterhalb der Übersteuerungsgrenze liegt. Treten dann während der Produktion unerwartet doch höhere Signalpegel auf, was vor allem bei Live-Aufnahmen häufig der Fall ist, so verhindert der Headroom, dass die gesamte Produktion auf Grund von Verzerrungen unbrauchbar wird. Eine fehlerhafte Aussteuerung zählt zu den häufigsten Fehlerquellen im Audiodesign. Wie schon erwähnt, wird bei einer digitalen Audioworkstation das Mischpult von der Software nachgebildet. In diesen Fällen ist der Vorverstärker nicht Teil des virtuellen Mischpultes, sondern eine Funktionseinheit der verwendeten Audiohardware. Bei der Arbeit mit digitaler Audiosoftware ist daher unbedingt zu beachten, dass die Vorverstärkung in den Steuerungsprogrammen der Audiokarte eingestellt werden muss. Kanal-Insert

Input Effekt

Über den Kanal-Insert können zusätzliche externe Geräte zur Bearbei(extern) Insert tung des Schallsignals in den Eingangskanal integriert werden. Es wird dabei das Signal des betreffenden Kanals zum externen Gerät umgeleitet, von diesem bearbeitet und wieder in den Eingangskanal rückgeführt. Sollen mehrere Eingangskanäle mit dem gleichen Effekt bearbeitet werden, so wird bei einer Ansteuerung über den Kanal-Insert für jeden dieser Kanäle ein eigenes Effektgerät benötigt. Dies bedeutet freilich einen finanziellen Mehraufwand und ist nur in einigen Fällen wirklich sinnvoll. Effekte, die das Signal ganzheitlich umformen sollen, wie dies Abb. 7.16 beispielsweise bei der Bearbeitung der Dynamik notwendig ist, müssen Effekteinbindung über aber grundsätzlich immer über den Kanal-Insert in den Eingangskanal den Insertweg eines Mischpults eingebunden werden. Equalizer Der Equalizer, auch als Entzerrer bezeichnet, setzt sich aus mehreren Filtern zusammen, mit denen das Spektrum des Eingangssignals beeinflusst werden kann. Er wird einerseits dazu verwendet, um bekannte line-


182


7 Schallwandler are Verzerrungen der akustischen Kommunikationskette zu korrigieren, und stellt andererseits ein wichtiges Werkzeug zur kreativen Klanggestaltung dar. () Einige Mischpulte bieten zusätzlich zum Equalizer die Möglichkeit, ein Hochpass- bzw. Low-Cut-Filter mit einer Grenzfrequenz von meist 75 Hertz in den Kanalzug einzuschalten. Es sollen damit tieffrequente Störungen wie Trittschall, Wind- und Popgeräusche, Brummen etc. abgesenkt werden. Ausspielwege

Ausspielwege werden zur Ansteuerung von Effektgeräten und zum Monitoring verwendet.

Mit Hilfe der Ausspielwege – auch als Sends oder kurz mit Aux bezeichnet – ist es möglich, einen bestimmten Anteil des Eingangssignals zu einem externen Effektgerät oder zu einem eigenen Lautsprecher zu leiten. Bei Mischpulten der niedrigsten Preisklasse stehen meist zwei, bei professionellen Pulten zumindest sechs Ausspielwege zur Verfügung. Es muss dabei zwischen pre- und postfaded Sends unterschieden werden. Postfaded Sends befinden sich hinter dem Kanalregler und senden daher nur dann ein Signal, wenn dieser nicht ganz zurückgeregelt wurde. Der Pegel des Send-Signals, das zu einem externen Gerät geleitet werden soll, wird demnach durch das Zusammenwirken von Kanal- und SendRegler festgelegt. Prefaded Sends leiten das Signal hingegen schon vor dem Kanalregler zu einem externen Gerät. Der Pegel des Sendsignals wird in diesen Fällen also ausschließlich vom Send-Regler bestimmt. Eine wichtige Anwendung für postfaded Sends ist der Einsatz von Effekten, wie zum Beispiel Hall, Chorus oder Delay, die in Kapitel 8 besprochen werden. Im Gegensatz zur Ansteuerung von Effektgeräten über Insert wird hier nicht für jeden Kanal ein eigenes Effektgerät benötigt, sondern es genügt ein Gerät für alle Kanäle. Je stärker der Effekt auf ein Eingangssignal wirken soll, desto weiter muss der Send-Regler geöffnet werden. Da der Effekt nur dann wirksam sein soll, wenn auch das unbearbeitete Signal präsent ist, werden zur Effektansteuerung üblicherweise postfaded Sends verwendet. Prefaded Sends sind zum Beispiel für das so genannte Monitoring im Live-Betrieb von Nutzen. Die ausführenden Musiker wollen dabei oft eine etwas andere Mischung der Schallsignale hören als das Konzertpublikum. Meist werden daher mit den Kanalreglern die gewünschten Pegelverhältnisse für den Saal bzw. die Hauptlautsprecher eingestellt. Mit prefaded Sends ist es dann möglich, für die Musiker eigene Mischungen herzustellen und auf den für sie gedachten Monitorlautsprechern hörbar zu machen. Die Möglichkeit, dass alle Ausspielwege wahlweise pre- oder postfaded verwendet werden können, bieten im Allgemeinen nur digitale


7.8 Mischpulte oder sehr teure analoge Mischpulte. In den anderen Fällen wird vom Hersteller festgelegt, um welche Art von Ausspielweg es sich handelt. Panorama-Regler Mit dem Panorama-Regler kann die Position des Signals in der Stereobasis festgelegt bzw. verändert werden. Zu beachten ist, dass dabei ausschließlich ein Pegelunterschied zwischen den beiden Summenkanälen erzeugt wird und Laufzeitunterschiede unberücksichtigt bleiben. Kanal-Regler Mit dem auch als Fader bezeichneten Kanal-Regler wird der Pegel des betreffenden Eingangssignals im Summensignal bestimmt. Der Regelbereich liegt meist zwischen –90 und +10 dB. Im Allgemeinen steht auch der so genannte Mute-Knopf zur Verfügung, mit dem der Eingangskanal rasch stummgeschaltet werden kann. Der Solo-Knopf ermöglicht es hingegen, alle anderen Kanäle zu unterdrücken, damit nurmehr der gewählte Kanal gehört wird. 7.8.2 Subgruppen Bei vielen Anwendungen kommt es vor, dass mehrere Schallsignale eine Einheit bilden und daher auf die gleiche Weise klanglich bearbeitet werden sollen. Subgruppen – oft auch als Busse bezeichnet – ermöglichen für diese Fälle, wie der Name schon sagt, die Zusammenfassung mehrerer Eingangskanäle zu einer Gruppe. Auf welche Subgruppe ein Eingangssignal gelegt werden soll, wird durch das so genannte Signal-Routing festgelegt. Im Allgemeinen kann mit eigenen Auswahlschaltern bestimmt werden, auf welche Subgruppe der Kanal geroutet werden soll. Häufig werden zwei Busse zu einem Stereopaar zusammengefasst. In diesem Fall bestimmt der Panorama-Regler, auf welchen Bus des Paares das Eingangssignal mit welchem Pegel geleitet wird. Durch einen weiteren Schalter kann bestimmt werden, ob der jeweilige Eingangskanal auch auf die Stereo-Summe geroutet werden soll. Jede Subgruppe verfügt schließlich über einen eigenen Regler, mit dem der Pegel der Gruppe im StereoSignal bestimmt werden kann. Ein wichtiges Einsatzgebiet von Subgruppen ist beispielsweise die Mischung von Drum-Sets. Das Schlagzeug stellt zwar innerhalb eines Popsongs eine Einheit dar, setzt sich aber meist aus einer Vielzahl einzelner Trommeln, Becken etc. zusammen. Die Einzelklänge werden mit Mikrofonen abgenommen und zunächst in eigene Eingangskanäle gelei-

183


184

7 Schallwandler tet. Dort wird die richtige Position im Stereopanorama und der gewünschte Pegel innerhalb des Drum-Sets bestimmt. All diese Eingangskanäle werden dann auf ein Subgruppen-Paar geroutet. Zwei Subgruppen werden benötigt, um die Stereoposition der Einzelklänge abbilden zu können. Die Lautstärke des Schlagzeugs innerhalb der gesamten Produktion kann nun einfach mit den entsprechenden Subgruppen-Reglern festgelegt bzw. verändert werden. Eines der wichtigsten Kriterien für das Gelingen einer Produktion ist, dass stets der Überblick über sämtliche beteiligten Schallereignisse behalten wird. Bei größeren Produktionen kann das durchaus schwierig werden, da meist eine enorme Vielzahl an unterschiedlichen Schallsignalen zum Endergebnis beiträgt. Es ist daher grundsätzlich immer ratsam, zunächst zusammengehörende Schallsignale zu entsprechenden Gruppen zusammenzufassen und passende Submixes zu erstellen. 7.8.3 Tape-Return

Abb. 7.17 Tape-Returns und Mastersektion eines Studiomischpults

Bei Aufnahmen in einem Tonstudio müssen einerseits all jene Schallsignale abgehört werden, die gerade aufgenommen werden sollen, andererseits aber gleichzeitig auch jene, die bereits vorher aufgezeichnet wurden. Dazu müssen die auf Band oder Harddisc aufgezeichneten Tonspuren in das Mischpult zurückgeführt und auf die Lautsprecher ausgegeben werden können. Es wird daher im Allgemeinen zwischen Record-Chain, in der die noch aufzunehmenden Signale gemischt werden, und Monitor-Chain – zur Rückführung der bereits aufgenommenen Signale – bzw. zwischen Input und Tape-Return unterschieden.


7.8 Mischpulte Bei der Bauweise von Studiomischpulten wird zwischen Split- und Inline-Technik unterschieden. Bei der Split-Technik werden sowohl für die Record- als auch für die Monitor-Chain eigene Kanäle verwendet. Der Nachteil dieses Verfahrens ist, dass die Anzahl der benötigten Kanäle rasch sehr groß werden kann. Deshalb wird meist die so genannte InlineTechnik angewandt. Die Tape-Return-Kanäle werden dabei räumlich in den Input-Kanal integriert. Die verschiedenen Bedienelemente des Kanals sind also doppelt belegt und können wahlweise für die Recordoder die Monitor-Chain verwendet werden. 7.8.4 Stereo-Summe Die Schallsignale sämtlicher Eingangskanäle werden unter Berücksichtigung der Einstellungen von Panorama- und Kanal-Regler in der StereoSumme des Pults zusammengeführt. Zusätzlich werden die Rückführungen der Ausspielwege – auch als Aux-Returns, Effekt-Returns oder SendReturns bezeichnet – der Stereo-Summe beigemischt. Bei manchen Mischpulten ist die Stereo-Summe mit einem eigenen Equalizer ausgestattet, der eine klangliche Feinabstimmung des Stereosignals an die konkreten Wiedergabe- bzw. Aufnahmebedingungen ermöglicht. Oft verfügt die Stereo-Summe auch über eigene Inserts, damit das Signal abschließend mit so genannten Mastereffekten bearbeitet werden kann. Im Bereich der Popularmusik ist beispielsweise eine abschließende Bearbeitung der Dynamik des Schallsignals unbedingt erforderlich, um die Lautheit der Produktion zu maximieren. Der Gesamtpegel der Aufnahme kann mit dem Masterfader beeinflusst werden.

185


8 Bearbeitung von Schallsignalen Ziele der Bearbeitung von Schallereignissen sind die Korrektur von nichtlinearen Verzerrungen, die Anpassung an bestimmte Wiedergabebedingungen und die Schaffung neuer bzw. anderer Klangobjekte.


Nach der Umwandlung in elektrische Signale können die Eigenschaften akustischer Ereignisse gezielt verändert werden. Dabei können verschiedene Ziele verfolgt werden. Ein wichtiger Aspekt ist die Korrektur von linearen Verzerrungen, die in einem oder mehreren Teilsystemen der akustischen Kommunikationskette auftreten. Art und Beschaffenheit dieser Verzerrungen müssen freilich bekannt sein oder zumindest gut abgeschätzt werden können. Eine andere Zielsetzung wäre die Anpassung von Schallsignalen an spezielle Wiedergabebedingungen. Es können aber auch weitgehende Verfremdungen oder Umdeutungen der Eigenschaften beabsichtig werden, um auf diese Weise neue Klangkreationen zu schaffen. Die verschiedenen Möglichkeiten der Bearbeitung von Schallsignalen sind somit für das Audiodesign von enormer Bedeutung. Noch Mitte der 1990er Jahre waren fast ausschließlich HardwareEffektgeräte im Einsatz, und es war kaum möglich Software-Effekte in Echtzeit anzuwenden. Mittlerweile hat sich die Situation grundlegend verändert. Effekte werden meist über gängige Schnittstellen, wie zum Beispiel VST, Direct-X oder Audio-Unit als Software-Plugin in eine Digital Audio Workstation eingebunden. Zum Teil werden noch vergleichsweise teure, sehr spezielle Hardware-Effekte für besondere Aufgaben im Studio eingesetzt. Kostengünstige Multieffekt-Geräte sind fast nur mehr auf der Bühne im Live-Einsatz zu finden. Einen Überblick über das breite Angebot an Hard- und Software zur Bearbeitung von Schallereignissen ist auf der Webseite zum Buch zu finden. () Um in der Vielzahl von Bearbeitungsmöglichkeiten halbwegs den Überblick bewahren zu können, ist eine Einteilung der Effektalgorithmen nach den zu bearbeitenden Signaleigenschaften sinnvoll.


8.1 Bearbeitung der Amplitude

8.1 Bearbeitung der Amplitude 8.1.1 Normalizing Unter Normalizing wird die nachträgliche Verstärkung eines digital aufgezeichneten Signals auf Vollaussteuerung verstanden. Das Signal wird demnach so verstärkt, dass die größte im Signal vorkommende Amplitude gerade nicht verzerrt wird. Zu beachten ist, dass dabei zwar einerseits der Pegel des Signals und damit auch dessen Durchsetzungskraft und Lautstärke erhöht werden, dabei aber auch unerwünschte Signalanteile wie zum Beispiel Rauschen mitverstärkt werden. Bei den meisten Normalizing-Algorithmen kann eingestellt werden, ob der maximale Signalpegel tatsächlich der Vollaussteuerung entsprechen oder um einen  Siehe Webseite bestimmten Dezibelwert bzw. Prozentsatz darunter liegen soll. () zum Buch 8.1.2 Bearbeitung der Hüllkurve Wie im Abschnitt 2.1.8 bereits erläutert, wird durch die Hüllkurve der makroskopische Zeitverlauf akustischer Ereignisse beschrieben. Dass die Hüllkurve großen Einfluss auf die wahrgenommene Klangfarbe haben kann, wurde im Abschnitt 5.4 erläutert. Der Charakter eines Schallsignals kann durch die Bearbeitung der Hüllkurve also stark verändert werden. Vergleicht man beispielsweise die Geräusche einer Meeresbrandung, eines vorbeifahrenden LKWs, einer kleinen Trommel oder der Sendersuche bei einem Radio miteinander, so wird man rasch feststellen, dass, auch wenn all diese Schallereignisse ganz unterschiedliche Wahrnehmungen hervorrufen, der wesentliche Unterschied im Verlauf der Hüllkurve zu suchen ist. Mit den meisten Sampleeditoren ist es möglich, einem aufgezeichneten Schallereignis eine beliebige Hüllkurve aufzuprägen. Häufig benötigt werden vor allem das auch als Fade-In bzw. Fade-Out bezeichnete Ein- bzw. Ausblenden eines Schallsignals. Im Allgemeinen werden lineare, logarithmische und exponentielle Fades unterschieden. Es können meist aber auch alle möglichen Zwischenstufen eingestellt werden. 8.1.3 Bearbeitung der Dynamik Kompressor Wie aus Abschnitt 5.2 hervorgeht, hängt das menschliche Lautstärkeempfinden nicht primär vom maximalen Pegel eines akustischen Ereignisses ab, sondern von der Energie und somit vom durchschnittlichen

187


188

Ein Kompressor verringert die Dynamik eines Signals. Bei gleich bleibender Maximalamplitude wird das Signal anschließend lauter wahrgenommen.


8 Bearbeitung von Schallsignalen Pegel des Signals. Schallereignisse mit großer Dynamik – also mit großen Unterschieden zwischen maximalen und minimalen Signalamplituden – werden daher leiser wahrgenommen als Signale mit annähernd konstantem Pegel, wenn beide Signale eine ähnliche Spitzenamplitude aufweisen. Aufgabe eines Kompressors ist, die Dynamik eines Signals zu verringern. Alle Signalamplituden, die den als Threshold bezeichneten Wert überschreiten, werden um einen bestimmten Faktor, der als Kompressionsverhältnis oder Ratio bezeichnet wird, abgeschwächt. Die Einstellungen für Threshold und Ratio sind bei einem Kompressor frei wählbar und müssen an die konkrete Anwendung bzw. das gewünschte Ergebnis angepasst werden. Da durch die Kompression der maximale Pegel abgeschwächt wurde, kann das gesamte Signal nachträglich wieder bis auf Vollaussteuerung verstärkt werden. Der Pegel oder der Faktor, um den das komprimierte Signal nachträglich verstärkt werden soll, kann eingestellt werden. () Eine Verdichtung des Klanges gelingt mit niedrigen Ratio- und Threshold-Werten. Wird der Threshold bei niedrigem Ratio relativ hoch gewählt, so kann ein Schallsignal näherungsweise auf einem konstanten Pegel gehalten werden, um es zum Beispiel besser in einen Mix integrieren zu können. Zur Bearbeitung des Summensignals ist ein mittlerer Threshold bei geringem Ratio-Wert geeignet. Zwei weitere wichtige Kenngrößen eines Kompressors sind die Attack- und die Release-Time. Wird der Threshold über- bzw. unterschritten, so soll der Kompressor in der Regel nicht abrupt, sondern innerhalb gewisser Übergangszeiten wirksam werden. Diese Zeiten werden mit der Attack-Time für das Überschreiten des Thresholds und der Release-Time für das Unterschreiten eingestellt. Die eingestellten Werte müssen an die speziellen Anforderungen des zu bearbeitenden Signals angepasst werden. Falsche Einstellungen führen meist zu störenden Nebengeräuschen. In vielen Fällen kann es hilfreich sein, die Auto-Funktion zu wählen. Attack- und Release-Time werden dann automatisch angepasst. Die menschliche Stimme – egal ob gesprochen oder gesungen – verfügt über eine verhältnismäßig große Dynamik. Oft kann sie sich ohne zusätzliche dynamische Bearbeitung im Zusammenklang mit anderen akustischen Ereignissen nur schwer durchsetzen. Da aber die Stimme bei vielen Produktionen im Vordergrund stehen soll, werden Sprache und Gesang häufig mit einem Kompressor bearbeitet, um lauter zu wirken und mehr Durchsetzungskraft zu erlangen. Vor allem im Bereich der Popularmusik ist eine unkomprimierte Stimme nahezu undenkbar. Viele Instrumentalklänge, wie zum Beispiel Techno-Bass-Sounds oder Bass-


8.1 Bearbeitung der Amplitude

Kompressor

Limiter

Expander

Gate

Drums, werden meist stark komprimiert, um ihnen mehr Druck zu verleihen. Im Bereich der klassischen Musik sollte hingegen immer bedacht werden, dass die dynamische Gestaltung der Musik ein wichtiges Element von Komposition und Interpretation darstellt. Ein Kompressor sollte in diesem Bereich also höchstens äußerst sparsam eingesetzt werden. Für den Erfolg von Popsongs, Werbespots und Radiojingles ist maßgeblich, dass sich diese im Vergleich mit den davor und danach gesendeten Produkten gut durchsetzen können. Aus diesem Grund werden beim so genannten Mastering die fertigen Produktionen komprimiert. Eine besondere Ausführung ist der so genannte Multiband-Kompressor. Dabei wird das Signal zuerst in eine bestimmte Anzahl von Frequenzbändern aufgegliedert. Anschließend kann jeder Frequenzbereich mit eigenen Kompressoreinstellungen bearbeitet werden. Es ist mit einem Multiband-Kompressor also beispielsweise möglich, ganz gezielt nur den Bassbereich zu verdichten und somit lauter erklingen zu lassen.

189

Abb. 8.1 Bearbeitung der Dynamik


190

8 Bearbeitung von Schallsignalen Limiter Ein Limiter begrenzt oberhalb des Thresholds das Signal auf einen einstellbaren Pegel. Bei Aufnahmen können Limiter dazu eingesetzt werden, um Übersteuerungen zu verhindern. Expander Ein Expander hat im Gegensatz zu einem Kompressor die Aufgabe, die Dynamik eines Signals zu erhöhen. Das heißt, dass alle Signalamplituden oberhalb des Thresholds verstärkt werden. Gate


Bei einem Gate wird das Eingangssignal unterhalb des Schwellwertes vollständig unterdrückt. Zu den wichtigsten Einsatzgebieten eines Gates gehört die Unterdrückung von Rauschen in Signalpausen. Es wird daher häufig auch von Noise-Gate gesprochen. Um nicht auch irrtümlich Teile des Nutzsignals zu unterdrücken, muss dabei ein geringer ThresholdWert gewählt werden. Wie beim Kompressor sind auch beim Gate richtige Einstellungen für Attack- und Release-Time wichtig. () Ein spezieller Effekt kann mit einem hohen Threshold-Wert erzielt werden. Da dann von beliebigen Geräuschen nurmehr die hohen Amplitudenwerte durchgelassen werden, können damit ein im Signal vorhandener „innerer Rhythmus“ hörbar gemacht und auf experimentellem Weg zum Beispiel in Naturgeräuschen rhythmische Muster gefunden werden.

8.2 Bearbeitung des zeitlichen Verlaufs 8.2.1 Cut, Copy und Paste


Jede Audiosoftware bietet die Funktionen Cut, Copy und Paste. Der zeitliche Aufbau eines akustischen Ereignisses lässt sich durch Schneiden, Kopieren und Einfügen im Grunde nach Belieben verändern. Wichtige Anwendungsbeispiele sind das Entfernen von Versprechern, Husten oder Räuspern aus Interviews oder das Zusammenschneiden der besten Passagen aus mehreren Aufnahmen eines Musikstücks, um ein optimales Ergebnis für eine CD zu erhalten. In den meisten Fällen sollen die Schnitte dabei möglichst unbemerkt bleiben. Dies gelingt, wenn die in der Folge behandelten Grundregeln beachtet werden. ()


8.2 Bearbeitung des zeitlichen Verlaufs

Schnitt in Signalpausen

191

Abb. 8.2 Grundregeln beim Schneiden von Audiosignalen

! Schnitt von einem Klang zu einem ähnlichen

Schnitt zu einem lauten Schallereignis mit kurzer Attack-Time

Grundsätzlich sollte wenn möglich in Pausen geschnitten werden. Beim Bearbeiten von Sprache kommt dabei erschwerend hinzu, dass einerseits Pausen häufig innerhalb eines Wortes zu finden sind und andererseits zwei aufeinander folgende Worte fließend ineinander übergehen können. Beispielsweise gehen im Satz „Vielleicht hast du etwas versäumt“, dessen Schallsignal in Abb. 8.2 dargestellt ist, alle Wörter mit Ausnahme von „etwas“ und „versäumt“ ohne Pause ineinander über. Obwohl in Pausen des Signals geschnitten wird, ist dieser Schnitt nur

Nach Möglichkeit soll in Pausen geschnitten werden!


192

Schnitte von einem Schallsignal zu einem ähnlichen gelingen im Allgemeinen gut!

Ein Schnitt von einem leisen zu einem lauten Schallsignal gelingt meist problemlos.

Nach einem Schnitt innerhalb dauerhafter Schallereignisse muss ein gleichmäßiger Verlauf der Signalform sichergestellt sein.

8 Bearbeitung von Schallsignalen deswegen sinnvoll, weil das „t“ des Wortes „vielleicht“ durch jenes des Wortes „etwas“ ersetzt wird. Schnitte vom Beginn eines Schallsignals zum Beginn eines ähnlichen gelingen in vielen Fällen, ohne dass diese gehört werden. Soll der Satz aus Abb. 8.2 durch einen entsprechenden Schnitt in „Vielleicht was versäumt“ umgewandelt werden, so empfiehlt es sich in diesem Fall nicht in den Signalspausen, sondern jeweils direkt am Beginn des Lautes „t“ zu schneiden, um den Sprachfluss möglichst nicht zu stören. Relativ einfach lassen sich auch Schnitte von einer eher leisen Stelle eines akustischen Ereignisses zu einem anderen Schallsignal gestalten, das laut beginnt, also einen raschen Pegelanstieg bzw. eine kurze AttackTime aufweist. Der Schnitt wird in diesem Fall vom lauten Signal verdeckt. Solange das Ende des Cuts in Abb. 8.2 genau an den Beginn des Drumloops gesetzt wird, ist es technisch betrachtet kaum von Bedeutung, an welcher Stelle im Flächenklang der Beginn des Cuts gesetzt wird. Ein Schnitt innerhalb eines kontinuierlichen Schallereignisses ist hingegen grundsätzlich schwierig. Ein falscher Schnitt führt zu einem Sprung bzw. zu einer plötzlichen Änderung der Signalform und wird deutlich als störendes Knacksen wahrgenommen. Diese Fehler können nur vermieden werden, wenn auch nach dem Schnitt ein gleichmäßiger Signalverlauf sichergestellt ist. Dies gelingt nur, wenn Beginn und Ende des Cuts in einem Nulldurchgang der Signalform gesetzt werden und das Signal an diesen Stellen zumindest annähernd die gleiche Steigung aufweist. Vor allem die zweite Forderung kann in der Praxis oft Probleme bereiten. 8.2.2 Gestaltung von Übergängen

Bei der Aneinanderreihung zweier akustischer Signale wird zwischen Schnitt und Blende unterschieden.


Die Techniken zur Manipulation der Hüllkurve und Cut, Copy bzw. Paste eröffnen verschiedene Möglichkeiten, unterschiedliche akustische Ereignisse aneinanderzureihen. Grundsätzlich muss zwischen einem abrupten, als Schnitt bezeichneten Wechsel und einem allmählichen, kontinuierlichen, als Blende bezeichneten Übergang unterschieden werden. Da die Art der Aneinanderreihung unterschiedlicher Materialien ein wesentliches Stilmittel im Audiodesign ist, empfiehlt sich eine weitere Differenzierung dieser beiden Grundtypen. () Beim harmonischen Schnitt folgen beiden Elemente unmittelbar aufeinander. Wenn das verwendete Material gewisse Ähnlichkeiten aufweist und an der richtigen Stelle geschnitten wird, so können solche Übergänge durchaus harmonisch wirken. Der Höreindruck wird zwar meist überraschen, dabei aber als angenehm oder zumindest nicht als stören-


8.2 Bearbeitung des zeitlichen Verlaufs der Bruch empfunden werden. Es lassen sich auf diese Weise Tempo und Spannung erzeugen. Als harter Schnitt wird der plötzliche Wechsel zweier akustischer Ereignisse bezeichnet, die sich stark voneinander unterscheiden. Der Höreindruck wirkt im Allgemeinen erschreckend, brüskierend, unangenehm und zieht die gesamte Aufmerksamkeit auf sich. Krasse Gegensätze, unangenehme Entwicklungen etc. können auf diese Weise unterstrichen werden. Einen kontinuierlichen Übergang zwischen zwei Schallsignalen nennt man Kreuzblende. Während die Lautstärke des ersten Elements nach und nach reduziert wird, wird jene des zweiten allmählich erhöht. Die Kreuzblende führt in der Regel zu einem ruhigen, harmonischen Übergang. Dauert der Übergang allerdings zu lange, so kann mitunter auch Verwirrung oder Orientierungslosigkeit der Wahrnehmung eintreten. Bei der so genannten Sturzblende werden die akustischen Elemente nicht unmittelbar aneinandergereiht, der Übergang erfolgt jedoch sehr rasch. Sturzblenden stellen durch das Enttäuschen von Hörgewohnheiten und Erwartungen meist wiederum ein geeignetes Mittel dar, um Spannung, Tempo oder Unruhe zu erzeugen.

193

Ein harter Schnitt wird überraschen oder erschrecken.

Eine Kreuzblende ermöglicht ruhige, kaum merkbare Übergänge.

Sturzblenden können Spannung und Unruhe hervorrufen.

8.2.3 Loop Unter einer Loop wird das wiederholte Abspielen eines definierten Bereiches verstanden. Es wird dadurch möglich, ein akustisches Ereignis beliebig zu verlängern. Im Allgemeinen soll dabei die Loop möglichst  Siehe Webseite zum Buch unbemerkt bleiben. () Um gute Start- und Endpunkte für eine Loop zu finden, müssen die gleichen Regeln wie beim Schneiden beachtet werden. Es ist also wieder ein gleichmäßiger Verlauf der Signalform beim Übergang vom Ende zum Anfang der Loop sicherzustellen. Anfang und Ende müssen also in einen Nulldurchgang gesetzt werden, und die Signalform sollte vor und nach dem Übergang möglichst ähnlich sein. Am leichtesten ist es demnach, möglichst gleich bleibende, also zumindest annähernd periodische Abschnitte eines Schallsignals zu loopen. Viele akustische Ereignisse entwickeln sich aber mit der Zeit fortwährend weiter. Da sich Tonhöhe, Rhythmus, Tempo, Klangfarbe ständig verändern, ist es oft schwierig, geeignete Start- und Endpunkte zu finden. Vor allem bei Hintergrundsounds kann aber auch die folgende Vorgangsweise zum gewünschten Ergebnis führen: Eine einfache Wiederholung des Schallsignals führt am Übergang vom Ende zurück zum Anfang zu einer plötzlichen Änderung von Lautstärke, Klangfarbe etc. Dieser deutlich wahrnehmbare Sprung lässt sich oft


194

8 Bearbeitung von Schallsignalen durch die in Abb. 8.3 dargestellte Vorgangsweise verhindern. Dabei wird eine Kopie des Schallsignals mit dem Bearbeitungsbefehl Reverse, der von allen gängigen Editorprogrammen angeboten wird, umgekehrt und somit vom Ende zum Anfang hin abgespielt. Da diese Vorgangsweise eine unterschiedliche Steigung im Übergang bewirkt, muss die Kopie des Signals zusätzlich noch mit dem Befehl Invert um 180º phasenverschoben werden, um eine kontinuierliche Fortsetzung der Signalform zu garantieren. 8.2.4 Resampling

Wird die Wiedergabegeschwindigkeit eines aufgezeichneten Schallsignals variiert, so ändern sich neben Tempo und Dauer immer auch die Grund- und Formantfrequenz.


Wird ein Schallsignal mit einer anderen Geschwindigkeit bzw. einer anderen Samplingfrequenz wiedergegeben, als es aufgezeichnet wurde, so ändert sich selbstverständlich auch der zeitliche Verlauf des Signals. Wichtig ist, dass dabei nicht nur das Tempo bzw. die Dauer, sondern dass immer auch die Tonhöhe verändert wird. Eine Verdopplung der Abspielgeschwindigkeit bewirkt sowohl eine Halbierung der Dauer als auch eine Verdopplung der Frequenz. Zu beachten ist, dass sich nicht nur die Grundfrequenz verändert, sondern das gesamte Signalspektrum entsprechend verschoben wird. Das heißt, dass auch die Formantfrequenzen, die für das Erkennen von Instrumenten oder den Vokalen der menschlichen Sprache von Bedeutung sind, verändert werden. Es wird also auch die Farbe bzw. der Charakter des Klanges verändert. So werden aus menschlicher Sprache rasch „Mickey-Mouse-Stimmen“. Deshalb eignet sich Resampling höchstens in einem sehr begrenzten Rahmen für die Anpassung eines Schallsignals an ein gewünschtes Tempo. Dafür ist diese Bearbeitungsmethode im kreativen Sounddesign sehr beliebt, da sich aus vorhandenen Klangmaterialien rasch „neue“ Klänge erzeugen lassen. So kann es durchaus gelingen, Straßenverkehr in ein rauschendes Meer zu verwandeln, das Zerreißen oder Zerknittern von Papier in entferntes Donnergrollen oder einen Schlag auf ein Backblech aus der Küche in den großen Gong eines Tempels. () In gewisser Weise kann Resampling mit Vergößerung oder Verkleinerung im visuellen Bereich verglichen werden. Auch bei Vergrößerung sind die ursprünglichen Darstellungen rasch nicht mehr erkennbar. Bestimmte Eigenschaften, die sonst im Verborgenen liegen, werden hervorgehoben. In den meisten Fällen werden aus realen Objekten abstrakte Gebilde. Sind die hervorgehobenen Eigenschaften aber aus einem anderen Kontext bekannt, so können den Objekten auch neue Bedeutungen zugeschrieben werden. Beispielsweise prallen bzw. reiben sich im Falle von Donnergrollen unterschiedliche Luftschichten aneinander. Beim Zerreißen oder Zerknittern von Papier passiert in mikroskopischer Form


8.2 Bearbeitung des zeitlichen Verlaufs

195

Abb. 8.3 Erzeugen von Hintergrundloops

Ähnliches. Wird nun dieses Klangobjekt durch extrem langsames Abspielen akustisch stark „vergrößert“, so verwandeln sich diese Mikroin Makrostrukturen und können unter bestimmten Bedingungen mit Donner assoziiert werden. Rein technisch gesehen wird bei digital aufgezeichneten Schallsignalen nicht die Abspielgeschwindigkeit bzw. die Samplingfrequenz geändert. Vielmehr werden Abtastwerte eingefügt oder weggelassen. Die eingefügten Werte werden dabei durch Interpolation aus den benachbarten Abtastwerten berechnet. 8.2.5 Timestretching In vielen Anwendungsfällen soll zwar die Länge eines Audiosignals verändert werden, die Tonhöhe bzw. das gesamte Spektrum dabei aber unverändert bleiben. Dies wird durch Timestretching ermöglicht. Es sollte dabei jedoch nicht vergessen werden, dass bei aufgezeichneten Schallereignissen grundsätzlich Tonhöhe und Dauer direkt miteinander zusammenhängen. Um nur eine dieser beiden Eigenschaften zu verändern, muss die Physik gewissermaßen mit Tricks überlistet werden. Der Bearbeitung der Dauer eines Schallsignals sind daher im Allgemeinen Grenzen gesetzt. Die meisten Timestretching-Algorithmen unterteilen das Signal zunächst in mehrere möglichst periodische Abschnitte. Durch Weg-


196


8 Bearbeitung von Schallsignalen lassen bzw. Hinzufügen einzelner Perioden kann dann die Länge des Signals verändert werden. Dieses Verfahren ist als Time Domain Harmonic Scaling bekannt und mit der im Abschnitt 9.3.7 behandelten Granularsynthese verwandt. Das Grundproblem ist dabei, dass in natürlichen Schallsignalen höchstens näherungsweise periodische Signalabschnitte zu finden sind. Hinzufügen oder Herausnehmen von einzelnen Perioden führt daher meist zu Nebengeräuschen. Um diese Fehler möglichst gering zu halten, werden die Perioden nicht einfach eingefügt, sondern die Übergänge aneinander angepasst. Wie sinnvoll bzw. notwendig diese Anpassung ist, hängt sehr stark vom Ausgangsmaterial ab. Bei Flächenklängen, die sich wenig verändern, lassen sich damit in der Regel gute Ergebnisse erzielen. Bei perkussiven, ihren Charakter rasch wechselnden Schallereignissen sind derartige Anpassungen hingegen meist hörbar. Wie stark die Übergänge nach dem Einfügen korrigiert werden sollen, kann bei vielen Algorithmen vom Anwender bestimmt werden. Der einzustellende Parameter wird üblicherweise mit „Smoothing“ bezeichnet. () Zu beachten ist auch, dass nicht zu viele gleiche Perioden hintereinander eingefügt werden. Dies würde zu einem tatsächlich periodischen Abschnitt führen, der sehr unnatürlich klingt. Die Bearbeitung von Stereosignalen ist insofern schwieriger, als beide Kanäle gemeinsam bearbeitet werden müssen. Es ist dabei stets darauf zu achten, dass das Einfügen oder Weglassen einzelner Perioden zu keinen Phasenverschiebungen führt, da dies eine Änderung der Richtungswahrnehmung bewirken würde. Setzt sich das Signal näherungsweise aus einer Folge von Impulsen zusammen und weist dazwischen Pausen auf, so kann die Signaldauer auch durch Korrektur dieser Pausen erreicht werden. Diese Methode führt vor allem bei Drum-Loops zu guten Ergebnissen, kann aber auch bei Sprachsignalen angewendet werden, die vor Explosivlauten Pausen aufweisen. Es muss dabei vor allem darauf geachtet werden, dass das rhythmische Gefüge nicht verändert oder gar zerstört wird. Gelingt es tatsächlich, die Impulsfolge in Einzelereignisse zu unterteilen, so kann nicht nur die Dauer bzw. das Tempo variiert, sondern das Schallereignis in vielen Parametern verändert und völlig neu zusammengesetzt werden. Viele Programme zu Audiobearbeitung ermöglichen ein derartiges auch als Beatslicing bezeichnetes Zuschneiden von rhythmischen Samples in einzelne Beats, was zahlreiche Möglichkeiten zur kreativen Klanggestaltung eröffnet. Die Beschaffenheit des zu bearbeitenden Schallsignals beeinflusst demnach die Wahl des Timestretching-Algorithmus sowie dessen optimale Systemparameter ganz wesentlich. Die Effekte unterschiedlicher


8.3 Bearbeitung im Frequenzbereich Hersteller lassen eine mehr oder weniger genaue Anpassung an das Ausgangsmaterial zu. Die Wahl zwischen Flächenklängen und Drum-Loops bleibt aber bei nahezu allen Timestretching-Effekten dem Anwender selbst überlassen. Zu den wichtigsten Anwendungsgebieten von Timestretching zählen die Anpassung eines vorproduzierten Drum-Loops an ein neues Songtempo oder auch die Angleichung der Dauer eines Musiktakes an eine spezielle Filmszene. Beliebt ist auch die nachträgliche Beschleunigung des Sprechtempos in der Werbung. In einem Spot soll in möglichst kurzer Zeit viel Information transportiert werden. Damit die Sprache auch verständlich ist, wird der Text zunächst langsam gesprochen und nachträglich mit einem Timestretching-Effekt etwas beschleunigt. Timestretching-Effekte gehören bei Software zur Audiobearbeitung zur Standardausstattung. Darüber hinaus werden eine Vielzahl von Plugins angeboten. Die Qualität der implementierten Algorithmen ist aber zum Teil recht unterschiedlich.

197 Die Systemparameter von TimestretchingEffekten müssen dem Schallsignal angepasst werden.

8.3 Bearbeitung im Frequenzbereich 8.3.1 Bearbeitung der Tonhöhe Da das erläuterte Resampling nicht nur die Dauer eines Schallereignisses verändert, sondern immer auch dessen Spektrum verschiebt, kann es auch für die Bearbeitung im Frequenzbereich verwendet werden. Mit dem so genannten Pitch-Shifting-Effekt ist es möglich, nur die Tonhöhe zu verändern, die Dauer des Signals dabei aber gleich zu lassen. Im Allgemeinen wird dies durch Timestretching mit nachfolgendem Resampling erreicht. Soll also ein Pitch-Shifting um eine Oktave nach oben durchgeführt werden, so wird vom Algorithmus zuerst die Dauer des Signals und anschließend die Abspielgeschwindigkeit verdoppelt. Dadurch gleicht sich die Längenkorrektur wieder aus und es bleibt nur die Änderung der Tonhöhe bestehen. Wie beim Resampling werden auch beim Pitch Shifting die Formanten und somit der Charakter des Signals verändert. Gute Pitch-Shifting-Algorithmen erlauben daher wahlweise eine Formantkorrektur einzuschalten. Wichtige Anwendungsgebiete von Pitch Shifting sind das künstliche Erzeugen von Chorpassagen oder das nachträgliche Korrigieren falsch gespielter oder gesungener Tonhöhen. Beliebt ist Pitch Shifting auch in der kreativen Klanggestaltung zum Erzeugen von verschiedenen Effektklängen. In einigen elektronischen Dance-Stilen soll der Gesang beispielsweise unnatürlich hoch und maschinell klingen. Dabei erfolgt die

Mit Pitch-Shifting kann die Tonhöhe eines Schallsignals bei gleichbleibender Dauer verändert werden.


198

8 Bearbeitung von Schallsignalen


Aufnahme zunächst normal und wird anschließend um mehrere Halbtöne nach oben gepitched. Selbstverständlich muss dabei auch das gesamte Arrangement des Songs an diese Tonhöhenänderung angepasst werden. Meist unter dem Begriff Elastic Audio zusammengefasst, ist es seit einigen Jahren aufgrund von neuen Entwicklungen in der digitalen Signalverarbeitung möglich, den Verlauf der Tonhöhe in einstimmigen akustischen Ereignissen gezielt zu verändern und nahezu wie MIDI-Daten zu bearbeiten. Weiterführende Informationen zu den technischen und gestalterischen Möglichkeiten sind auf der Webseite zum Buch zusammengestellt. () 8.3.2 Bearbeitung des Spektrums


Filter werden zur Korrektur von linearen Verzerrungen eingesetzt.

Das Frequenzspektrum eines akustischen Ereignisses kann mit den in Abschnitt 2.2.5 beschriebenen Filtern verändert werden. In fast allen Geräten zur elektronischen Klangerzeugung gehören Filter zu den wichtigsten Werkzeugen der Klangformung und erlauben markante Eingriffe in das Spektrum, die das Erstellen neuer Klangkreationen zum Ziel haben. () Filter werden im Audiodesign aber auch dazu verwendet, um im bisherigen Verlauf der Kommunikationskette aufgetretene lineare Verzerrungen so gut wie möglich zu korrigieren. Werden zum Beispiel minderwertige Mikrofone mit nichtlinearem Frequenzgang eingesetzt, so sollen die vom Mikrofon mit abgeschwächtem Pegel übertragenen Frequenzbereiche mit einem Filter wieder angehoben werden. Auch wenn in elektronischen Klangerzeugern spezielle Einzelfilter zur Anwendung kommen, werden zur Bearbeitung des Spektrums in den meisten Fällen Equalizer verwendet, die sich aus einer bestimmten Anzahl von Filtern zusammensetzen und – wie in Abschnitt 7.8.1 beschrieben – zur Standardausstattung jedes Mischpults gehören. Ein wichtiges Kriterium von Equalizern ist die Anzahl der zur Verfügung stehenden Filter bzw. die Anzahl der zu bearbeitenden Frequenzbänder. Die Entzerrer hochwertiger Mischpulte setzen sich meist aus vier Filtern zusammen, jene von Mischpulten der untersten Preiskategorie oft nur aus zwei. Je nach Anzahl der Frequenzbänder wird von 2-, 3- oder 4Band-Equalizer gesprochen. Jedes dieser Frequenzbänder kann meist um +/– 15 dB angehoben bzw. abgesenkt werden. Bessere Equalizer ermöglichen auch eine Anhebung von +/– 18 oder sogar +/– 24 dB. Kann für jedes Frequenzband neben dem Verstärkungsfaktor auch die Mittenfrequenz des Filters eingestellt werden, so handelt es sich um einen so genannten semiparametrischen Equalizer. Bei einem vollpara-


8.3 Bearbeitung im Frequenzbereich

199

Abb. 8.4 Verzahnung von Einzelspektren beim Mischen

Bassdrum

Bass

Perkussion Gesang MelodieInstrument Flächenklang

metrischen Equalizer ist die auch als Q-Faktor bezeichnete Güte des Filters, die die Breite des zu beeinflussenden Frequenzbandes bestimmt, ebenfalls wählbar. Bei Equalizern vieler Digitalmischpulte kann auch die Filtercharakteristik gewählt werden. Eine weit verbreitete Bauform sind grafische Equalizer. Sie setzen sich meist aus einer größeren Anzahl an Filterbändern zusammen. Mittenfrequenz und Güte der Bänder sind dabei nicht veränderbar. Lediglich der Verstärkungsfaktor kann vom Anwender für jedes Band eingestellt werden. Verwendung der Equalizer beim Mischen Sollen mehrere Schallereignisse gemischt werden, so ist der richtige Einsatz eines Equalizers für ein optimales Ergebnis entscheidend. Die verschiedenen Parameter sind so einzustellen, dass sich die Frequenzspektren der Einzelklänge möglichst wenig gegenseitig stören. Die Einzelsignale sollten einander im Spektrum des resultierenden Gesamtsignals gegenseitig Platz lassen. Anstatt sich zu überdecken, sollten sie sich möglichst ineinander verzahnen. Um dies zu erreichen, müssen zunächst in jedem einzelnen akustischen Ereignis all jene Frequenzbereiche bestimmt werden, die den Charakter des Klanges entscheidend beeinflussen. Sind diese wichtigen Bereiche bekannt, so können alle weniger wichtigen Frequenzanteile mit einem passend eingestellten Equalizer abgesenkt werden, um Platz für andere Schallereignisse zu machen. Beim Gesang spielen beispielsweise Frequenzen unter 80 Hz keine Rolle. Dieser Bereich soll daher abgesenkt werden, damit Bassklänge besser zur Geltung kommen können. Bei einer Bassdrum sind einerseits

Bei der Mischung mehrerer akustischer Ereignisse sollen sich die einzelnen Spektren möglichst ineinander verzahnen. Geeignete Equalizer-Einstellungen ermöglichen dies.


200


die Frequenzen rund um 80 Hz, andererseits aber auch jene um etwa 3 kHz von Bedeutung, da diese das Anschlagen bzw. den Kick der Trommel betonen. Im Klang einer Snare-Drum sind hingegen keine Frequenzen unterhalb von ca. 120 Hz enthalten. Der Bassbereich sollte also abgesenkt werden. Für den Grundklang dieser Trommel sind die Frequenzen um ca. 300 Hz wichtig. Für den geräuschhaften Charakter sind die hohen Frequenzbereiche verantwortlich. Beim Equalizing ist nicht nur der Klang an sich, sondern auch dessen Auch die Funktion eines Klanges im GesamtFunktion in der Mischung zu berücksichtigen. Bei einer akustischen kontext muss beim Equa- Gitarre kann es vorkommen, dass weniger die gespielten Akkorde als lizing berücksichtigt vielmehr das rhythmische Anschlagsgeräusch von Bedeutung ist. Der werden. eigentliche Gitarrenklang im Frequenzbereich um 1000 Hz könnte dann abgesenkt werden und die Höhen, die das Anschlagsgeräusch ausmachen, sollten angehoben werden. Wichtig für die Klanggestaltung mit dem Equalizer ist grundsätzlich immer der Gesamtklang. Es kann daher durchaus vorkommen, dass die Einzelklänge „schlecht“ oder unnatürlich klingen, wenn diese solo abgehört werden, sich aber in Summe zu einer perfekten Mischung ergänzen. Die Gestaltung des Frequenzspektrums einer Audioproduktion sollte Tragen mehrere Einzelereignisse zum Gesamt- aber keinesfalls erst beim Equalizing einsetzen. Es ist unbedingt notklang bei, so muss wendig, schon bei der Auswahl von Klängen und Geräuschen darauf zu bereits bei der Auswahl achten, dass jedes akustische Ereignis eine definierte Funktion im der Schallsignale auf die Gesamtergebnis übernimmt und den richtigen Platz im Spektrum erhält, Gestaltung des Spektum diese Aufgabe bestmöglich zu erfüllen. Erfüllen zwei Einzelelemente rums geachtet werden. ähnliche Aufgaben im gleichen Frequenzband, so ist es fast immer besser, auf eines der beiden Schallereignisse zu verzichten. Werden in einem Orchesterwerk ein Triangel und ein kleines Becken, die beide einen hohen metallischen Klang erzeugen, gleichzeitig eingesetzt, so werden sie sich im Allgemeinen gegenseitig stören, auch wenn die Einzelrhythmen noch so interessant klingen. Auch zwei voneinander unabhängige Linien im Bassbereich führen kaum zu einem guten Ergebnis. Unterschiedliche, voneinander unabhängige Einzelstimmen sollen daher stets in getrennten Frequenzbereichen liegen, wenn diese auch als solche wahrgenommen werden sollen und kein anderes kompositorisches Konzept verfolgt wird. Zu beachten ist dieses Grundprinzip der akustischen Gestaltung auch bei der Nachvertonung von Filmen und Videos. Da viele Hintergrundgeräusche und die Geräuschkulissen unserer Umwelt einen hohen Mittenanteil aufweisen, stehen diese häufig in Konkurrenz zur Sprache. Wird nun einfach der Pegel der Geräusche abgesenkt, um die Sprachverständlichkeit nicht zu gefährden, so klingt der gesamte Soundtrack eher dünn und leer. Der richtige Einsatz von Equalizern wird diese Situation


8.3 Bearbeitung im Frequenzbereich

Frequenzbereich in Hz

Positive Wirkung

Negative Wirkung

Fundament

Dröhnen, Wummern

250 – 500

Wärme, Klangfülle

Matsch

500 – 2000

Verständlichkeit, Definition

Telefon-Klang

2000 – 8000

Präsenz

schneidend, aufdringlich

8000 – 20000

Transparenz, Brillanz

zischend

20 – 250

schon verbessern. Zusätzlich ist es aber auch empfehlenswert, die Geräuschkulisse im Hintergrund genau durchzuhören. So kann mit dem Gehör analysiert werden, welche charakteristischen Einzelereignisse in welchen Frequenzbereichen zur konkreten Atmospäre beitragen. Ist im Video zum Beispiel eine Gesprächsszene an einer stark befahrenen Ampelkreuzung zu sehen, so ist es meist ungünstig, einfach den Verkehrslärm mit der Sprache zu mischen. In der Regel wird ein besseres Ergebnis erzielt, wenn der Lärm einerseits aus dem tieffrequenten Motorengeräuschen von haltenden und wegfahrenden Autos und andererseits den hektischen Schritten von Passanten, die vor allem im höheren Frequenzbereich angesiedelt sind, zusammengestellt wird. Der Bereich der Mitten wird so auch dann für das Gespräch freigehalten, wenn Bässe und Höhen eine hektische Atmosphäre durch ein dichtes Gewirr von unterschiedlichen Geräuschen erzeugen. Sind die charakteristischen Frequenzbereiche eines akustischen Ereignisses nicht bekannt, so können sie durch Spektralanalyse mit FFT ermittelt werden. Ganz einfach funktioniert auch die Verwendung eines Filters mit möglichst hohem Verstärkungsfaktor und hoher Güte. Wird die Filterfrequenz nun ganz langsam von tiefen zu hohen Frequenzen geregelt, so sind bei allen wichtigen Frequenzbereichen sehr deutliche Änderungen des Klanges wahrnehmbar. Um den besonderen Charakter eines Klanges zu unterstreichen, wird der entsprechende Frequenzbereich angehoben. Der Bassbereich bildet das tragende Fundament des Klangbildes. Ist dieses Frequenzband jedoch zu stark ausgeprägt, so beginnt der Klang zu wummern oder zu dröhnen. Ein Anheben der Frequenzen zwischen 250 Hz und 500 Hz kann zu mehr Wärme und Klangfülle führen. Bei zu starker Betonung wirkt das Klangbild jedoch undifferenziert und matschig. Da zwischen 500 Hz und 2 kHz die ersten beiden Formantfrequenzen der menschlichen Sprache und wichtige Formanten von Musikinstrumenten liegen,

201

Tab. 8.1 Wirkungen von Equalizing in verschiedenen Frequenzbereichen


202

8 Bearbeitung von Schallsignalen ist es vor allem für die Verständlichkeit bzw. die Definition von akustischen Ereignissen bedeutsam. Eine zu starke Anhebung führt zu einem telefonartigen, unnatürlichen Klang. Der Frequenzbereich zwischen 2 kHz und 8 kHz beeinflusst die Präsenz des Klangbildes. Ist dieses Frequenzband zu wenig vorhanden, so wirkt das Schallsignal distanziert, indirekt bzw. entfernt. Eine Anhebung in diesem Bereich lässt ein Schallereignis daher meist näher erscheinen. Eine zu starke Betonung führt allerdings zu unangenehmen, schneidenden Geräuschen. Der hohe Frequenzbereich oberhalb von 8 kHz führt im Idealfall zu transparenten, brillanten Klängen. Sind keine Höhen vorhanden, so ist das Klangbild dumpf. Zu viele hohe Frequenzanteile bewirken aber ein unangenehmes, zischendes akustisches Ereignis. Auch wenn es sich bei diesen in Tab. 8.1 zusammengefassten Aussagen über die klanglichen Wirkungen der einzelnen Frequenzbereiche um grobe, eigentlich unzulässige Vereinfachungen handelt, können sie doch zumindest als erste Anhaltspunkte dienen.

8.4 Bearbeitung der Raumwirkung

Die räumliche Gestaltung erfolgt vielfach bei der Bearbeitung im Tonstudio. Wichtige Ausnahmen bilden räumlich ausgedehnte und bewegte Schallquellen.

Die räumliche Gestaltung zählt zweifellos zu den wichtigsten Qualitätskriterien einer Audioproduktion. In manchen Fällen wird bereits während der Aufzeichnung der Schallereignisse versucht, ein angenehmes Raumgefühl zu erzielen und die einzelnen Schallereignisse richtig im Klangbild zu positionieren. In diesen Fällen ist die Wahl geeigneter Mikrofone und Aufnahmeverfahren und die richtige Positionierung der Mikrofone wichtig, wie dies in Abschnitt 7.5 beschrieben wurde. Viele Produktionen werden aber aus einer Vielzahl von Einzelereignissen zusammengesetzt, sodass es während der Aufnahme kaum gelingt, für jedes Schallsignal den gewünschten Raumanteil und die richtige Position optimal aufzunehmen. Vielfach steht die Position, die ein akustisches Ereignis im Endprodukt einnehmen soll, während der Aufnahme überhaupt noch nicht fest. Bei der Aufnahme der einzelnen Schallereignisse wird daher sehr oft möglichst ohne natürlichen Raumeindruck – es wird in diesen Fällen von einer trockenen Aufnahme gesprochen – und häufig in mono aufgenommen. Die räumliche Gestaltung erfolgt dann ausschließlich mit geeigneten Effekten, Filtern und Panoramaeinstellungen im Tonstudio. Ausnahmen müssen bei räumlich ausgedehnten Schallquellen gemacht werden. Auch Schallsignale, die von Bewegungen ganz wesentlich bestimmt werden, wie beispielsweise ein vorbeifahrendes Auto, müssen freilich bereits unter Berücksichtigung der räumlichen Komponente aufgenommen werden.



203

In manchen Fällen ist der räumliche Charakter eines akustischen Ereignisses nicht nur von den Ausmaßen der Quelle, vom Raum oder von Bewegungsverläufen geprägt, sondern vor allem auch stark vom gesamten akustischen Umfeld abhängig. In solchen Fällen wird auch ein noch so perfekter Einsatz von Effektgeräten, Equalizern und Panoramareglern zur räumlichen Gestaltung der Produktion allein nicht zum gewünschten Ergebnis führen. Das richtige Hinzumischen des gewünschten akustischen Umfelds in Form von so genannten Atmo-Aufnahmen ist unerlässlich. Soll beispielsweise in einer Videoszene während einer Autofahrt eine spezielle Schlagzeile vom Nachrichtensprecher aus einem Radio zu hören sein, so wird zunächst die Stimme in perfekter Qualität im Studio aufgezeichnet. Danach wird versucht, den speziellen Frequenzgang von einfachen Autolautsprechern und mit einem Halleffekt die Raumakustik eines Autos nachzubilden. Abschließend wird die akustische Atmosphäre während einer Autofahrt, die sich aus Motorengeräusch, vorbeifahrenden Autos, Stimmen von Mitfahrern etc. zusammensetzen wird, beigemischt. Diese Vorgangsweise erfordert Zeit und vor allem auch Geschick und Know-how im Umgang mit der Studiotechnik. Es ist daher in solchen Fällen oft zielführender, zu versuchen, die gesamte Situation akustisch gut nachzubilden und diese aufnahmetechnisch möglichst optimal zu erfassen. Im beschriebenen Beispiel wäre es insbesondere für Low-Budget-Produktionen also durchaus auch denkbar, die Nachricht im Studio aufzunehmen, diese dann über CD oder Kassette während der Fahrt im Auto abzuspielen und die Situation mit einem geeignet platzierten Stereomikrofon wieder aufzuzeichnen. Ähnliche Überlegungen können beim Einsatz von Schallsignalen von Geräuscharchiven zutreffen. In diversen CD-Bibliotheken ist nahezu jedes erdenkliche Geräusch greifbar und muss eigentlich nicht nochmals mühsam aufgezeichnet werden. Ist aber im Kontext mit Bildern eine ganz bestimmte Raumsituation erforderlich, so wird kaum ein Sample zu finden sein, das den Anforderungen bereits entspricht, und es ist eine Anpassung notwendig. Der vor dem Fenster des eigenen Arbeitszimmers Rasen mähende Nachbar wird in keiner Geräuschesammlung zu finden sein. Die schnellste und in der Regel auch beste Lösung wird es in diesem Fall sein, ein Stereomikrofon im Arbeitszimmer zu installieren, den Rasenmäher zu starten und die akustische Situation selbst aufzuzeichnen. Obwohl die eben anhand von Beispielen beschriebene Nachbildung eines akustischen Umfelds vor allem bei komplizierten Raumsituationen durchaus Sinn machen kann, wird im Allgemeinen die räumliche Komponente einer Produktion mit den entsprechenden audiotechnischen Geräten im Studio gestaltet. Diese Vorgangsweise führt in der Regel zu einer wesentlich besseren Klangqualität. Außerdem kann die Szene

Das akustische Umfeld kann für die Raumwahrnehmung entscheidend sein.

Die räumliche Aufnahme einer für diesen Zweck nachgestellten realen akustischen Situation kann unter Umständen durchaus zielführend sein.


204

8 Bearbeitung von Schallsignalen durch bewusstes Weglassen oder Hinzufügen einzelner Komponenten gezielt gestaltet werden, was sich vor allem auf die Transparenz der Mischung und die Klarheit der Aussage auswirken sollte. Zur erfolgreichen räumlichen Gestaltung von Audioproduktionen sind daher gute Kenntnisse sowohl über die in Kapitel 4 behandelte Schallausbreitung als auch über die in der Folge zu beschreibenden Techniken der digitalen Bearbeitung wichtig. 8.4.1 Reverb – künstlicher Nachhall

Die Nachbildung von Räumen erfolgt im Tonstudio mit Hilfe des Hallbzw. Reverb-Effekts, der in verschiedensten Ausführungen und Preiskategorien erhältlich ist. Dementsprechend unterschiedlich fallen auch die Qualität und die Anzahl der einstellbaren Parameter aus, die eine individuelle Anpassung des Effekts an konkrete Anforderungen ermögli Siehe Webseite zum Buch chen. () Zu den wichtigsten Größen gehört die Nachhallzeit. Wie im Abschnitt Zu den wichtigsten Para- 4.3 beschrieben, ist sie von der Größe des Raumes und den Dämpfungsmetern von künstlichem faktoren der Begrenzungsflächen abhängig. Typische Werte liegen bei Nachhall zählen Nachwenigen Zehntelsekunden für kleine, gut bedämpfte Räume und bis zu hallzeit, Halltyp, Raumsechs und mehr Sekunden bei großen Kathedralen. Für besondere größe, Halldichte oder Effekte können im Studio auch Nachhallzeiten eingestellt werden, die ein Diffusion, frequenzVielfaches natürlicher Werte betragen. abhängige Dämpfung, Predelay und Mixlevel. Bei vielen Halleffekten kann ein Halltyp aus einer mehr oder weniger großen Anzahl von Möglichkeiten gewählt werden. Meist stehen Grundtypen wie Raum, Konzerthalle, Kirche, Kammer oder ähnliches zur Auswahl. Die Einstellung Plate ermöglicht die Simulation von Hallplatten, die vor dem Siegeszug der Digitaltechnik in den Tonstudios zur Raumsimulation verwendet wurden. Mit dem Halltyp Ambience werden sehr kleine Räume simuliert, in denen relativ viele, jedoch sehr rasch abklingende Erstreflexionen dicht aufeinander folgen. Die mit solchen Hallprogrammen bearbeiteten Schallsignale erhalten Raumtiefe, ziehen aber keine lange Hallfahne nach sich. Großen Einfluss auf den Klang des Hallsignals hat selbstverständlich auch die Raumgröße, die bei fast allen verfügbaren Hallprogrammen eingestellt werden kann. Über den Parameter Halldichte – oft auch als Diffusion bezeichnet – kann auf die Beschaffenheit des nachgebildeten Raumes Einfluss genommen werden. Je höher die Halldichte gewählt wird, desto kürzer sind die Abstände der einzelnen Erst- bzw. Vielfachreflexionen, die beim Hörer eintreffen. Wichtig sind auch die Einstellungen Predelay und Mix-Level. Der Parameter Predelay bestimmt die Zeit, um die das mit dem Effekt erzeugte, ver-



205

hallte Signal gegenüber dem unbearbeiteten Signal werden soll. Über den Mix-Level wird der Pegel geregelt, mit dem das Hallsignal dem Originalsignal beigemischt werden soll. Diese Einstellungen ermöglichen eine Tiefenstaffelung der Schallsignale, da der Nachhall im Vergleich zum Direktschall umso schwächer und später beim Hörer eintrifft, je näher sich dieser bei der Schallquelle befindet. Bessere Hallgeräte lassen nicht nur die Änderung von Predelay und Level zu, sondern ermöglichen die Einstellung von Verzögerung und Intensität der verschiedenen Erstreflexionen und des diffusen Nachhalls, wodurch eine sehr feine Gestaltung von unterschiedlichen Raumsituationen und Entfernungen möglich wird. Bei vielen Reverb-Programmen kann auch der Frequenzverlauf des Nachhalls verändert werden. Über die Parameter HF-Damp und LF-Damp wird geregelt, wie stark die hohen bzw. tiefen Frequenzen des Hallsignals gedämpft werden sollen. Auf diese Weise wird berücksichtigt, dass sich verschiedene Frequenzen sowohl auf Grund diverser Schallausbreitungsphänomene als auch wegen der frequenzabhängigen Dämpfungskonstanten der meisten Materialien unterschiedlich gut in Räumen ausbreiten. So klingt der Nachhall eines Raumes mit harten Wandmaterialien wie zum Beispiel Fliesen wesentlich heller als ein Raum, dessen Wände mit Holz verkleidet sind. Bei manchen Reverb-Plugins werden nicht die eben beschriebenen technischen Parameter eingestellt, sondern es kann zwischen verschiedenen Formen, Größen, Wandmaterialien des Raumes gewählt und die Entfernungen von der Schallquelle können eingestellt werden. Sehr authentische Raumsimulationen können mit Hilfe der in Abschnitt 2.2.6 erwähnten Faltung erzeugt werden. Einige Effekt-Plugins nützen diese Möglichkeit. Unter der Voraussetzung, dass die Impulsantwort bekannt ist, kann auf diese Weise im Grunde jede beliebige Raumsituation nachgebildet werden. Faltungshall ermöglicht die Simulation von Räumen, deren Impulsantwort bereits aufgenommen wurde. Wie bereits erwähnt, ist der richtige Einsatz von künstlichem Hall für die Qualität einer Musikproduktion sehr wichtig. Ein häufiger Fehler ist dabei der übertriebene Einsatz von überdimensionalem Hall mit zu langen Nachhallzeiten. Oft ist hierin der Grund für undifferenziert, unnahbar, diffus und entfernt klingende Audioprodukte zu suchen. Vor allem die Sprachverständlichkeit und rhythmische Passagen leiden enorm unter langen Nachhallzeiten. Lange Hallfahnen sollen höchstens ganz sparsam und als Spezialeffekt zur besonderen räumlichen Betonung eines bestimmten akustischen Ereignisses eingesetzt werden. Der Hall sollte stets den Charakter einer Stimme oder eines Instruments unterstützen. Ein künstlicher Nachhall mit geringer Höhendämp-

Mit den Einstellungen von Pegel und Verzögerungen von Erstreflexionen und Nachhall im Vergleich zum unbearbeiteten Signal kann die räumliche Tiefe nachgebildet werden.

Übertriebener Einsatz von Hall ist ein häufiger Fehler bei der Audioproduktion.


206


Nachhall soll den Klangcharakter unterstützen!

fung kann beispielsweise einer Stimme mehr Brillanz verleihen. Ein besonders dichter Hallalgorithmus verhilft zu mehr Klangvolumen. Ist der Hallanteil zu groß im Vergleich zum Direktsignal, so klingt der Gesang zu weit entfernt. Trotzdem soll gerade Gesang häufig das Klanggefühl von weiten Räumen vermitteln und mit einem großen, verhältnismäßig langen Hallanteil bearbeitet werden. Damit das Ergebnis verständlich bleibt und aus der Nähe klingt, muss unbedingt ein langes Predelay eingestellt werden. Bei der Bearbeitung von Schlagzeug und Perkussion kommt Raumeffekten meist die Aufgabe zu, die Klänge zu verdichten und ihnen mehr Volumen und Druck zu verleihen. Vielfach werden dafür AmbienceEffekte eingesetzt. Da damit wie gesagt sehr kleine Räume simuliert werden, wird vor allem das klangliche Ergebnis und weniger das Raumempfinden verändert. Vielfach sollen einzelne Schlaginstrumente wie etwa die Snare-Drum durch mehr Raumvolumen besonders hervorgehoben werden. Dafür ist eine Bearbeitung mit hohem Effektanteil und einer langen Nachhallzeit erforderlich. Ohne zusätzliche Maßnahmen würde aber die lange Hallfahne nachfolgende Schläge überdecken und so den rhythmischen Verlauf stören. Daher wird das Ausgangssignal des Hallgeräts durch ein Noise-Gate mit hohem Threshold geleitet. Dadurch wird der Nachhall abrupt unterbrochen, sobald der Pegel unter den Schwellwert fällt. Dieser besondere Effekt wird Gated Reverb bezeichnet und wird von vielen Geräten angeboten, sodass meist kein eigenes Noise-Gate notwendig ist, sondern der gewünschte Threshold direkt im Hallprogramm eingestellt werden kann. 8.4.2 Bearbeitung der räumlichen Richtung

Die räumliche Richtung wird mit der Panoramaregelung eingestellt.

Durch zusätzliche Laufzeitunterschiede zwischen den Kanälen kann die Richtungswirkung verbessert werden.

Bei der Mischung unterschiedlicher Schallereignisse ist nicht nur die in Abschnitt 8.3 behandelte Aufteilung im Frequenzspektrum, sondern auch eine geeignete räumliche Staffelung unbedingt zu beachten. Für jedes akustische Ereignis müssen sowohl Richtung als auch Raumtiefe festgelegt werden. Die räumliche Richtung wird dabei bekanntlich mit den Panorama-Reglern des Mischpults eingestellt. In nahezu allen gängigen Programmen zur Audiobearbeitung können Richtungsänderungen relativ einfach mit so genannten Panoramakurven automatisch gesteuert werden. Es sollte dabei aber nicht vergessen werden, dass die Panoramaregelung grundsätzlich nur Intensitätsunterschiede, aber keine Laufzeitunterschiede erzeugt. Ein wichtiger Aspekt der Richtungswahrnehmung bleibt somit ausgespart. Die räumliche Wirkung vieler Schallsignale kann daher erhöht werden, indem zwischen den Kanälen Verzögerungen



207

Abb. 8.5 Verbesserung der Richtungswahrnehmung durch Verzögerungen zwischen den Kanälen

eingefügt werden. Manche Effekt-Plugins – als StereoImager, StereoEnhancer etc. bezeichnet – bieten die eben beschriebene Vorgangsweise  Siehe Webseite zum Buch auch in automatisierter und verfeinerter Form an. () 8.4.3 Bearbeitung der räumlichen Tiefe Zusätzlich zur Aufteilung der akustischen Ereignisse im Panorama ist es auch notwendig, diese in der Raumtiefe zu staffeln. Meist erklingen wichtige Schallsignale sehr nahe und jene, denen eine begleitende Funktion zugeschrieben wird, eher fern. Vor allem im multimedialen Kontext ist die Tiefenstaffelung von Schallereignissen in vielen Fällen ein überaus wirksames dramaturgisches Gestaltungsmittel. Wie in Abschnitt 5.5.1 dargestellt, sind neben der empfundenen Lautstärke und dem Ausmaß an hochfrequenten Signalanteilen vor allem die Verhältnisse von Pegel und Verzögerungen zwischen Direktsignal, Erstreflexionen und Nachhall für die Wahrnehmung der räumlichen Tiefe entscheidend. Sie könnte also durch die richtige Wahl der entsprechenden Parameter am Hallgerät sehr differenziert eingestellt werden. Allerdings würde dann für jedes akustische Ereignis ein eigenes Gerät bzw. ein eigenes Plugin benötigt werden. Meist reicht es aber aus, die verschiedenen Schallereignisse je nach gewünschter Position mehr oder weniger stark zu verhallen. Es kann dann ein einziges Hallgerät, das über einen Ausspielweg angesteuert wird, für alle Einzelereignisse benutzt werden. Bleibt der AuxRegler eines Kanalzugs geschlossen, so wird das entsprechende Signal

Tiefenstaffelung ist ein wichtiges Gestaltungsmittel. Die Verhältnissse zwischen Direktschall, Erstreflexionen und Nachhall sind für die Wahrnehmung der räumlichen Tiefe entscheidend.


208


Die Tiefenwirkung soll durch das Equalizing unterstützt werden.

nicht verhallt und klingt demnach nahe. Je weiter der Ausspielweg geöffnet wird, desto stärker wird das Schallereignis verhallt und desto ferner klingt es. Wird der Ausspielweg vor dem Kanalregler – also prefaded – verwendet, so können recht einfach Bewegungen im Klangbild von vorne nach hinten realisiert werden. Wird der Aux-Regler geöffnet und der Kanalregler geschlossen, so ist ausschließlich Nachhall zu hören. Wird nun nach und nach der Aux-Regler zurück- und der Kanalregler aufgedreht, so ändert sich allmählich das Verhältnis von unverhalltem Signal und Nachhall, und das Schallereignis wird von hinten nach vorne bewegt. Die Tiefenwirkung sollte immer auch durch entsprechende Einstellungen am Equalizer unterstützt werden. Da hohe Frequenzen im Normalfall rascher gedämpft werden, klingen ferne Schallereignisse dumpfer. 8.4.4 Echo und Delay

 Siehe Webseite zum Buch Delays müssen auf das akustische Umfeld abgestimmt werden, um richtig zur Geltung zu kommen.

Das Phänomen von Echos – also die scheinbare Wiederholung von Klängen in der Ferne – kann in der Natur beispielsweise in den Bergen oder auch zwischen Hochhäusern beobachtet werden. Es handelt sich dabei um Erstreflexionen, die mit einer vergleichsweise langen Verzögerung von mindestens 50 Millisekunden nach dem Originalsignal beim Hörer eintreffen. Mit Hilfe der Digitaltechnik lässt sich der Echoeffekt recht leicht im Tonstudio simulieren. Das Signal wird in einem Zwischenspeicher verzögert und gegebenenfalls abgeschwächt und gefiltert. Verzögerungszeit, Abschwächungsfaktor und Filterfrequenz sind also wichtige Parameter eines Echo- bzw. Delay-Effekts. Sollen mehrere aufeinander folgende Echos erzeugt werden, so wird ein über den Parameter Feedback regelbarer Prozentsatz des Ausgangssignals an den Eingang zurückgeführt, sodass die Verzögerungskette erneut durchlaufen wird. Viele der aktuellen Effektprogramme erlauben die gleichzeitige Realisierung mehrerer Verzögerungsketten mit unterschiedlichen Verzögerungszeiten. Es können also auch recht komplexe Reflexionsmuster erzeugt werden. Meist kann die Position der Delays im Stereopanorama bestimmt bzw. variiert werden. () Auffällige Delays werden meist eingesetzt, um ein bestimmtes Schallereignis besonders hervorzuheben. Dabei ist vor allem zu beachten, dass sich die einzelnen Echos gut in den Gesamtklang einfügen und weder den rhythmischen noch den harmonischen Kontext stören. Häufig sind solche Echoeffekte an dramaturgisch wichtigen Übergängen zu finden. Kurze Pausen steigern in solchen Fällen einerseits die Spannung und ermöglichen andererseits, dass der Effekt gut und störungsfrei zur Geltung kommt.


8.5 Bearbeitungen der Phase

209

Vielfach sollen Delay-Effekte gar nicht als solche wahrgenommen werden, sondern unauffällig den Klang verändern. Das Audiosignal wird verdichtet und nimmt durch Verteilung der Delays im Stereopanorama mehr Raum ein. Soll die Klangfülle auf diese Weise erhöht werden, ist die perfekte Integration der Echos in den Gesamtkontext der Produktion entscheidend. Im Falle von rhythmischer Musik wird die Verzögerungszeit daher meist auf das Tempo bzw. den Beat abgestimmt. In diesem Fall wird häufig von Tempodelay gesprochen. Bei vielen Effektprogrammen kann zu diesem Zweck das Songtempo und die gewünschte Verzögerung als Notenwert – meist Viertel-, Achtel- oder Sechzehntelnote – eingegeben werden. Steht diese Option nicht zur Verfügung, kann die Verzögerungszeit TDelay aber auch einfach berechnet werden:

Tempo-Delays verleihen einem Schallsignal mehr räumliche Fülle.

60 s TDelay = 4 –––––––––––––––––– · Notenwert Songtempo (in bmp) Soll also zum Beispiel ein Schallsignal in einem Song mit einem Tempo von 120 bpm um eine Achtelnote verzögert werden, so ist eine Verzögerungszeit TDelay von 250 ms einzustellen.

8.5 Bearbeitungen der Phase Das menschliche Ohr kann zwei unmittelbar aufeinander folgende Phaseneffekte können Klänge erst dann getrennt voneinander wahrnehmen, wenn ihr zeitlicher Schallereignisse voller Abstand mindestens 30 Millisekunden beträgt. Ist der Zeitabstand klei- und lebendiger erscheinen lassen. ner, so wird statt der Zeitdifferenz ein Phasenunterschied wahrgenommen, der den resultierenden Gesamtklang mehr oder weniger stark beeinflusst. Delay-Effekte mit Verzögerungszeiten von weniger als 30 Millisekunden werden somit zu Phaseneffekten. () Generell muss beim Einsatz von Phaseneffekten auf Monokompatibi-  Siehe Webseite zum Buch lität geachtet werden. Durch die Addition der beiden Stereokanäle im Monobetrieb löschen sich alle Anteile aus, die um 180º phasenverschoben sind. Das Klangbild wird dadurch negativ beeinflusst. 8.5.1 Chorus Mit dem Chorus-Effekt soll der im Vergleich zu Soloinstrumenten oder -sängern wesentlich vollere Klang eines Orchesters oder eben eines Chores simuliert werden. Die Musiker einer Instrumentengattung spielen zwar in der Regel eine gemeinsame Stimme, können dabei aber unmöglich jede einzelne Note vollkommen gleichzeitig beginnen und in der


210

8 Bearbeitung von Schallsignalen exakten Tonhöhe intonieren. Genau diese permanenten geringfügigen Abweichungen führen zu einem wesentlich lebendigeren, volleren Klang. Einerseits sind die Abweichungen also für den gewünschten Klang unerlässlich, andererseits müssen diese aber in ganz engen Grenzen gehalten werden, um nicht als falsche Rhythmisierung oder Intonation wahrgenommen zu werden. Beim Chorus-Effekt wird eine Kopie des Originalsignals geringfügig verzögert, in der Tonhöhe minimal verändert und wieder dem Original beigemischt. Die Verzögerungszeit und die Tonhöhenänderung werden dabei ständig variiert. Der Effekt kann freilich auch mit mehreren Verzögerungsketten erzeugt werden. Er wird dann oft auch als EnsembleEffekt bezeichnet. 8.5.2 Flanger Ein Flanger funktioniert sehr ähnlich wie der Chorus-Effekt, die Verzögerungszeiten sind dabei jedoch noch geringer und betragen rund eine bis etwa acht Millisekunden. Außerdem wird die Tonhöhe konstant gehalten. Die Überlagerung von Original- und Effektsignal führt je nach Verzögerungszeit zu konstruktiver oder destruktiver Interferenz. Bei konstanter Verzögerungszeit werden also manche Frequenzbereiche des Signalspektrums verstärkt und andere abgeschwächt, und es wird der Effekt eines Kammfilters erreicht. Wird nun die Verzögerungszeit ständig mit variiert, so ändert sich die Charakteristik des Kammfilters und somit der resultierende Klang. Ein weiterer wichtiger Parameter ist das Feedback, mit dem das Effektsignal an den Eingang zurückgeführt wird. Bei hohen Feedback-Werten ist der Kammfilter-Effekt besonders ausgeprägt und das Originalsignal wird stark verfremdet. Meist wird der Flanger-Effekt nur sparsam eingesetzt. Vor allem Gitarren- und Beckenklänge erscheinen dadurch lebendiger. Deutlicher hörbar ist dieser Effekt gelegentlich in der Rockmusik in Kombination mit verzerrten Gitarren. 8.5.3 Phasing Ein Phaser arbeitet wie ein Flanger, jedoch ohne Feedback und mit etwas längeren Verzögerungszeiten, die darüber hinaus frequenzabhängig sind. Meist werden höhere Frequenzen stärker verzögert. Auf Grund der Ähnlichkeit der Effekte Flanger und Phaser überschneiden sich auch ihre Anwendungsgebiete. Wegen der Frequenzabhängigkeit klingt ein Phaser jedoch synthetischer und eignet sich gut für die Bearbeitung gleichförmiger Synthesizersounds.


8.6 Klangrestauration

211

8.6 Klangrestauration Zur Bearbeitung alter oder defekter Audioaufnahmen existieren verschiedenste Algorithmen. Dabei muss grundsätzlich zwischen regelmäßigen und unregelmäßigen Störungen unterschieden werden. 8.6.1 Reduktion unregelmäßiger Störgeräusche Kurze unregelmäßige Störgeräusche wie zum Beispiel laute Knackser von alten Schallplatten, kurze digitale Verzerrungen auf Grund von Übersteuerung oder Dropouts von Tonbändern werden auch als Klicks bezeichnet. Diese Störungen können mit einem so genannten Declicker reduziert werden. Hierzu müssen vom Algorithmus zunächst die Störungen im Signal aufgefunden werden. Da laute, geräuschhafte Stellen ebenso gut von Perkussionsinstrumenten stammen können, ist dies meist gar nicht so einfach. Danach muss die fehlerhafte Stelle ersetzt werden. Hierzu wird das Signal davor und danach analysiert und dann ein passender Übergang errechnet. Mit aufwändigen, teuren Plugins werden vollautomatisch recht gute Ergebnisse erzielt. Andere Algorithmen funktionieren halbautomatisch. Nach der Signalanalyse werden alle Signalbereiche markiert, die fehlerhaft sein könnten. Vor der Korrektur entscheidet der Anwender, ob der Bereich tatsächlich fehlerhaft ist. Außerdem können manuell weitere mit Fehlern behaftete Stellen ergänzt werden.

Mit einem Declicker können kurze, unregelmäßig auftretende Störgeräusche entfernt werden.

8.6.2 Reduktion dauerhafter Störgeräusche Zu den dauerhaften Störgeräuschen gehören vor allem Rauschen, Knis- Mit Denoising kann die tern und Brummen. Um das Rauschen einer Aufnahme zu reduzieren, Qualität von stark rauwird meist eine kurze Stelle benötigt, in der ausschließlich das Rauschen schenden Aufnahmen verbessert werden. ohne Nutzsignal zu hören ist. Die spektrale Zusammensetzung dieses Noise-Samples wird nun genau analysiert. In einem zweiten Schritt wird das Nutzsignal untersucht. Ist der Pegel in einem Frequenzband höher als der vorher für dieses Band ermittelte Rauschpegel, so bleibt dieses Band unbearbeitet. Entspricht der Pegel eines bestimmten Frequenzbandes aber näherungsweise dem ermittelten Rauschpegel, so kann davon ausgegangen werden, dass in diesem Bereich kein nennenswertes Nutzsignal vorhanden ist. Durch Herabsetzen des Pegels in diesem Frequenzbereich wird der Rauschpegel des Signals verringert. Da Denoising-Algorithmen aber grundsätzlich nicht zwischen Nutzsignal und Rauschen unterscheiden können, treten vor allem in leisen Passagen oft hörbare  Siehe Webseite zum Buch Nebengeräusche auf. ()


212

8 Bearbeitung von Schallsignalen Vor allem bei alten, verstaubten Schallplattenaufnahmen tritt Knistern auf. Das Nutzsignal wird in diesem Fall von feinen, dicht aufeinander folgenden Signalspitzen überlagert. Solche Aufnahmen können mit so genanntem Decrackling restauriert werden. Brummen kann mit möglichst schmalbandigen Filtern reduziert werden. Dabei ist zu beachten, dass das Brummgeräusch im Allgemeinen auch Obertöne aufweist, die ebenso zur Störung beitragen.


213

9 Elektronische Klangerzeugung 9.1 Aufgaben, Ziele und aktuelle Entwicklungen Aufgabe und Ziel elektronischer Klangsynthese sind zunächst ganz allgemein die Erzeugung komplexer Klangereignisse mit elektronischen Mitteln. Die Nachahmung akustischer Instrumente aus Gründen der Wirtschaftlichkeit oder einer möglichst genauen Reproduzierbarkeit ist dabei ein Teilaspekt, die Synthese von „neuen“ Klängen, die von herkömmlichen Instrumenten nicht erzeugt werden können, ein weiterer. Für den Erfolg eines Syntheseverfahrens ist die richtige Anzahl der kontrollierbaren, klangbestimmenden Parameter entscheidend. Einerseits soll das klangliche Ergebnis möglichst vielseitig veränderbar sein, andererseits ist es wichtig, dass die Parameter für den Anwender immer überschaubar und kontrollierbar bleiben. Die Auswirkungen von Parameteränderungen auf den resultierenden Klang sollen vorhersehbar sein und einen Bezug zu natürlichen und daher vertrauten Klangentstehungsprozessen haben. Darüber hinaus sollen Synthesizer mehrstimmig spielbar sein (Polyphonie) und mehrere unterschiedliche Klangfarben gleichzeitig erzeugen können (Multitimbralität). Um Qualität und Leistungsfähigkeit eines elektronischen Klangerzeugers richtig einschätzen zu können, ist eine Auseinandersetzung mit der geschichtlichen Entwicklung empfehlenswert. Vor allem für diverse interaktive Medien sind algorithmische Komposition und generative Musik vielversprechend. Verfahren zur digitalen Klangsynthese spielen dabei ebenso eine wichtige Rolle, wie bei Übertragungsverfahren für Audiodaten bei extrem niedrigen Bitraten, die auf parametrischer Schallaufzeichnung beruhen. Eine Zusammenfassung und weiterführende Hinweise auf die geschichtliche Entwicklung, den aktuellen Stand der Technik und neuere Anwendungsfelder für die digitale Synthese von akustischen Ereignissen sind auf der Webseite zum  Siehe Webseite Buch zu finden. () zum Buch


214

9 Elektronische Klangerzeugung

9.2 Wichtige Grundelemente Im Allgemeinen kann der Aufbau von elektronischen Klangerzeugern auf eine einfache Grundstruktur zurückgeführt werden. Ein Oszillator liefert ein Signal, das mit Hilfe von Filtern und Verstärkern in seiner spektralen Zusammensetzung und im Pegelverlauf variiert werden kann. Damit die erzeugten Klänge nicht völlig starr und leblos wirken, müssen die verschiedenen Grundelemente von außen gesteuert werden können, weshalb diese als Controlled Oszillator, Controlled Filter und Controlled Amplifier oder auch kurz als CO, CF und CA bezeichnet werden. Die in der Analogtechnik verwendeten spannungsgesteuerten und als „voltage controlled“ bezeichneten Elemente wurden mittlerweile weitgehend von digital gesteuerten (digital controlled) Elementen ersetzt. Die Steuerung – vielfach als Modulation bezeichnet – kann mit unterschiedlichen Elementen wie Keyboards, MIDI-Sequenzern, niederfrequenten Oszillatoren, Hüllkurvengeneratoren oder beliebigen, beispielsweise von externen Sensoren stammenden Steuersignalen erfolgen. Die hier kurz beschriebene Struktur wird zwar vielfach vor allem mit analogen Synthesizern und der im Abschnitt 9.3.2 beschriebenen subtraktiven Synthese in Verbindung gebracht, ist aber zumindest in abgewandelter Form in nahezu jedem elektronischen Instrument zu finden. 9.2.1 Oszillator Der Oszillator erzeugt ein mehr oder weniger obertonreiches Signal, das die Grundfrequenz und vielfach auch den Charakter des erzeugten Klanges bestimmt, auch wenn es mit den nachfolgenden Elementen weiter bearbeitet und geformt wird. Da viele Möglichkeiten zur Erzeugung dieses Signals bekannt sind, ist der Aufbau bzw. die Funktionsweise des Oszillators meist namensgebend für ein bestimmtes Verfahren zur elektronischen Klangerzeugung. 9.2.2 Filter In den seltensten Fällen soll die Farbe bzw. die spektrale Zusammensetzung eines Klanges konstant bleiben. Um die gewünschten Änderungen zu erzielen, wird das vom Oszillator erzeugte Signal mit Filtern weiterbearbeitet. Oft kann der Anwender zwischen unterschiedlichen Filtercharakteristiken wählen. Wichtige Filterparameter wie Grenzfrequenz oder Resonanz können im zeitlichen Verlauf variiert werden und die resultierende Klangfarbe bestimmen.


9.2 Wichtige Grundelemente

215

Abb. 9.1 Grundstruktur vieler Synthesizer

9.2.3 Verstärker Mit Hilfe eines steuerbaren Verstärkers wird der Pegelverlauf des Schallsignals bestimmt. Dadurch wird keineswegs nur die Lautstärke verändert, sondern der Gesamtcharakter des erzeugten Schallereignisses wesentlich beeinflusst. Der Pegelverlauf eines akustischen Ereignisses ist vor allem von der Art der Anregung abhängig, die ihrerseits eine ganz wichtige Rolle für die menschliche Wahrnehmung und Kategorisierung von Schallsignalen spielt. Liefert der Oszillator beispielsweise ein rauschförmiges Signal und wird der Verstärker so eingestellt, dass dieses wiederholt langsam einund ausgeblendet wird, so erinnert das klangliche Ergebnis – eine geeignete Einstellung der Parameter vorausgesetzt – an Meeresrauschen. Wird das Rauschsignal des Oszillators hingegen mit maximaler Amplitude gestartet und dann innerhalb weniger Zehntelsekunde ausgeblendet, so ist das Ergebnis dem perkussiven Schlag auf eine Snare Drum ähnlich. 9.2.4 Modulation Entscheidend für den musikalischen Einsatz elektronischer Klangerzeuger ist, dass die erzeugten Klänge auch während der Wiedergabe auf möglichst vielfältige Weise variiert werden können. Abhängig von der Bauweise des jeweiligen Instruments können unterschiedliche Steuersignale verarbeitet werden. Diese können einerseits extern erzeugt und in Form eines geeigneten MIDI-Befehls oder bei Analogsynthesizern auch direkt als Steuerspannung empfangen werden. Andererseits verfügen elektronische Instrumente auch intern über verschiedene Bauelemente wie beispielsweise eine Tastatur, verschiedene Dreh- und Schieberegler, niederfrequente Oszillatoren oder Hüllkurvengeneratoren, mit denen der

Permanente geringfügige Änderungen der Eigenschaften synthetischer Klänge sind für deren Lebendigkeit wichtig.


216

9 Elektronische Klangerzeugung Klangverlauf beeinflusst werden kann. Die Anzahl der verarbeitbaren Steuersignale ist ein wichtiges Qualitätskriterium für elektronische Instrumente. Bei einfachen Ausführungen ist die Wirkung eines bestimmten Steuersignals vom Hersteller fix vorgegeben. So wird beispielsweise mit dem MIDI-Control-Change-Befehl Nr. 10 meist das Panorama und mit dem Control-Change-Befehl Nr. 7 der Pegel des erzeugten Klanges verändert. Bei aufwändiger konzipierten Geräten kann hingegen der Klangprogrammierer bestimmen, welchen Einfluss ein bestimmtes Steuersignal auf den zu erzeugenden Klang haben soll. Es ist also durchaus denkbar, dass das Panorama des Klanges mit dem Signal eines niederfrequenten Oszillators gesteuert wird, damit der Klang ständig seine Position zwischen den beiden Lautsprechern verändert. Die Frequenz des Oszillators bestimmt dann, wie schnell der Klang von links nach rechts und wieder zurück wandert. Vielfach steht eine bestimmte Anzahl an Steuersignalen verschiedenen steuerbaren Klangparametern gegenüber, die einander mit einer so genannten Modulationsmatrix zugewiesen werden können. Im Allgemeinen kann für jedes Steuersignal auch die Modulationsintensität gewählt werden. Auf diese Weise wird festgelegt, in welchem Intervall der Parameter vom entsprechenden Steuersignal variiert wird. 9.2.5 Echtzeit-Steuerung In den meisten Fällen werden elektronische Musikinstrumente nach wie vor von einem Keyboard gesteuert. In der Regel stellt es also das wichtigste Verbindungsglied zwischen Musiker und Instrument dar. Ist der Klangerzeuger nicht mit einer eigenen Tastatur ausgestattet, so erfolgt diese Steuerung meist von einem externen MIDI-Keyboard aus oder über MIDI-Befehle, die zuvor in einem Sequenzer gespeichert wurden. Es muss in diesem Zusammenhang darauf hingewiesen werden, dass die Spieltechnik – also die Art, wie ein Instrument zum Klingen gebracht wird – immer auch die Musik und die Klänge beeinflusst, die mit diesem Instrument erzeugt werden. So sind auf den Tasten eines Klaviers bestimmte Akkordfolgen und Melodien naheliegend und einfach zu spielen und andere hingegen kaum ausführbar. Es ist mit Tasteninstrumenten beispielsweise unmöglich, einen Klang ganz leise zu beginnen, ihn dann mehrmals unregelmäßig an- und abschwellen und schließlich verklingen zu lassen. Mit Streich- oder Blasinstrumenten ist ein derartiger Klangverlauf hingegen recht einfach über eine entsprechende Variation des Bogen- bzw. Anblasdrucks möglich. Ähnliches gilt auch für die Erzeugung gleitender Tonhöhenveränderungen. Durch die nahezu ausschließliche Verwendung eines Keyboards als wichtigstes Steuerungselement besteht die Gefahr, dass das reichhaltige Potenzial elektronischer



217

Abb. 9.2 Modulationsmatrix

Instrumente zur Erzielung feiner, ausdifferenzierter Klangnuancen ungenützt bleibt und diese zu einem billigen Klavier- oder Orgelersatz verkommen. Der Tastendruck bzw. die Notennummer des MIDI-Befehls steuert im Allgemeinen die Tonhöhe, die üblicherweise pro Taste bzw. Notennummer um einen Halbton erhöht wird. Der menschlichen Wahrnehmung entsprechend, handelt es sich dabei um eine logarithmische Steuerung, bei der eine Addition von zwölf Halbtönen immer zu einer Verdopplung der Grundfrequenz führt. Gerade elektronische Instrumente würden sich gut eignen, das Konzept der wohltemperierten Stimmung zu erweitern, mit alternativen Möglichkeiten zu experimentieren und auf diese Weise neue Klang-, Harmonie- und Melodiewelten zu erforschen. Da aber Tasteninstrumente und ihre musikalischen Möglichkeiten eng mit der wohltemperierten Stimmung in Verbindung gebracht werden – man denke beispielsweise nur an die Preludien und Fugen aus dem wohltemperierten Klavier von Johann Sebastian Bach –, ist es wenig verwunderlich, dass bisher dahingehend nur wenige Versuche unternommen wurden. Häufig sind auch noch andere Klangparameter von der angeschlagenen Taste oder der gesendeten Noten-Nummer abhängig. Vielfach soll beispielsweise die Filterfrequenz nicht fix auf einen Wert eingestellt werden, sondern mit der Tonhöhe ansteigen. Hat die Tastatur Einfluss auf den Wert eines Klangparameters, so wird von Keytracking gesprochen.


218

9 Elektronische Klangerzeugung Wenn bei akustischen Instrumenten eine Taste härter angeschlagen oder das Instrument stärker angestrichen oder angeblasen wird, so ändert sich die Lautstärke und meist auch die Farbe des Klanges. Aus diesem Grund wird bei elektronischen Instrumenten der im MIDI-Befehl „Note on“ enthaltene Velocity-Wert zur Steuerung des Klanges verwendet. Fast immer beeinflusst der Velocitiy-Wert die maximale Verstärkung, häufig auch die Filterfrequenz. In den meisten Fällen reicht eine Tastatur für die Steuerung eines elektronischen Klangerzeugers nicht aus, da viele Parameter auch kontinuierlich veränderbar sein sollen. In der Regel verfügen Keyboards daher auch über Räder, die den MIDI-Befehl „Pitch-Shift“ bzw. auch einen Controller-Change-Befehl erzeugen können. Das Drehen am Pitch-Shift-Rad bewirkt üblicherweise eine gleitende Veränderung der Tonhöhe. Mit einem zweiten, oft als Modulation-Wheel bezeichneten Rad wird meist die Modulationstiefe eines LFOs (Low Frequency Oscillator) verändert. Nur bei einfachen Synthesizern ist die Wirkung vom Hersteller vorgegeben. Im Allgemeinen kann der Anwender während der Klangprogrammierung bestimmen, welches Rad welchen Klangparameter beeinflussen soll. Manche Geräte verfügen auch über ein paar Dreh- oder Schieberegler. Vielfach werden diese Möglichkeiten durch so genannte MIDI-Controller- oder MIDI-Faderboxen erweitert. Jeder Regler erzeugt einen „Controller Change“-MIDI-Befehl, mit dem dann ein bestimmter Parameter des Klangerzeugers verändert wird. Die meisten Faderboxen ermöglichen eine freie Zuordnung der Controller-Nummer zu einem Regler. Hat der Anwender an der Faderbox eingestellt, welcher Controller verändert werden soll, muss er am Klangerzeuger einstellen, welcher Parameter dadurch variiert werden soll. Erst dann ist festgelegt, wie sich das Drehen an einem der Regler auf das klangliche Ergebnis auswirkt. Welche bzw. wie viele Klangparameter auf welche Weise in Echtzeit gesteuert werden können, ist für das Erzielen lebendiger Klänge mindestens ebenso wichtig wie das verwendete Syntheseverfahren. Die Entwicklung guter Bedienkonzepte bzw. die Anpassung derselben an individuelle Bedürfnisse ist also ebenso wichtig wie die Klangprogrammierung an sich. 9.2.6 Hüllkurvengenerator

Klangänderungen, die nur einmal stattfinden sollen, werden mit Hüllkurven realisiert.

Hüllkurven ermöglichen einen einmaligen Änderungsverlauf von klangbestimmenden Parametern. Die Verstärkung und somit der Verlauf der Lautstärke wird fast immer mit einer Hüllkurve gesteuert. Häufig ist auch eine Beeinflussung der Filterfrequenz. Wie in Abschnitt 2.1.8 besprochen, lässt sich der makroskopische Zeitverlauf von Schallereignissen



219

Abb. 9.3 Verschiedene Hüllkurvenformen

durch die vier Phasen Attack, Decay, Sustain und Release annähern. Aus diesem Grund stehen in vielen elektronischen Klangerzeugern auch vierstufige ADSR-Hüllkurven zur Verfügung. Die Hüllkurve wird immer von einem Gatesignal, das in den meisten Fällen einem Tastendruck entspricht, ausgelöst. Innerhalb der Attack-Time erreicht die Hüllkurve ihren Maximalwert und fällt während der Decay-Time auf den eingestellten Sustain-Level zurück. Nach dem Loslassen der Taste bzw. dem Verschwinden des auslösenden Gatesignals klingt die Kurve während der Release-Time aus. Neben der vierstufigen Hüllkurve kommen auch einfachere zum Einsatz. Für perkussive Klänge eignet sich eine AD-Hüllkurve. Da dabei der Sustain-Level gleich null ist, können nur Attack- und Decay-Time bestimmt werden. Bei AR-Hüllkurven entspricht der Sustain-Level hingegen dem Maximalwert, weshalb der gesamte Verlauf durch Attack- und Release-Time beschrieben werden kann. Manche elektronischen Instrumente bieten auch mehrstufige Hüllkurven an, bei denen für verschiedene unterschiedliche Phasen Level und Time eingegeben werden können. 9.2.7 LFO – Low Frequency Oscillator Um einen klangbestimmenden Parameter innerhalb eines einstellbaren Intervalls kontinuierlich zu verändern, wird meist ein nierderfrequenter Oszillator – kurz als LFO (Low Frequency Oscillator) bezeichnet – verwendet. Die Amplitude des LFOs bestimmt dabei, wie stark der betreffende Parameter um seinen Mittelwert schwankt. Die Frequenz des LFOs legt fest, wie oft das Intervall innerhalb einer Sekunde durchlaufen wird. Im Allgemeinen liegt diese unterhalb des menschlichen Hörbereichs, also

Mit LFOs können sich wiederholende Klangänderungen erzeugt werden.


220

9 Elektronische Klangerzeugung zwischen 0 und 20 Hertz. Gelegentlich liegt die maximale LFO-Frequenz aber auch etwas höher und reicht in den hörbaren Bassbereich hinein. Wichtig ist auch die Wahl der Wellenform des LFOs. Sinus, Dreieck und Sägezahn bewirken eine kontinuierliche Änderung. Bei Rechteck und Puls wird hingegen zwischen zwei Parameterwerten gewechselt. Vielfach kann der LFO auch Zufallswerte liefern. Bei modularen Analogsynthesizern wird hierfür ein Rauschgenerator an den Eingang eines so genannten Sample & Hold-Moduls gelegt, das zu definierbaren Zeitpunkten eine Probe aus dem Rauschsignal entnimmt und diesen Amplitudenwert bis zur nächsten Probenentnahme ausgibt. Da der zeitliche Amplitudenverlauf eines Rauschsignals nicht vorhersehbar ist, entsteht auf diese Weise eine Folge von Zufallswerten. Bei digitalen Geräten werden meist Pseudozufallszahlen verwendet, die auch als Random-Werte bezeichnet werden. Zur Simulation des Vibrato-Effekts – also einer permaneten geringfügigen Schwankung der Tonhöhe – wird ein LFO zur Steuerung der Grundfrequenz des Oszillators verwendet. Häufig werden auch Parameter wie Amplitude, Filterfrequenz oder Resonanz mit einem LFO gesteuert. Um die in der aktuellen elektronischen Musik beliebten Parameteränderungen im Takt der Musik zu erzielen, kann ein LFO zum Songtempo synchronisiert werden. Eine alternative Möglichkeit wäre, die betreffenden Parameter über Controller-Change-Befehle zu steuern, die in einem Sequenzer entsprechend eingegeben wurden.

9.3 Wichtige Verfahren 9.3.1 Additive Klangsynthese


Bei der additiven Klangsynthese werden die theoretischen Erkenntnisse der Fourier-Analyse in die Praxis umgesetzt. Die Klänge werden also durch additive Überlagerung einer bestimmten Anzahl harmonischer Schwingungen mit unterschiedlichen Frequenzen erzeugt. () Der große Vorteil dieses Verfahrens ist der direkte, detaillierte Zugriff auf jede am Klang beteiligte Frequenzkomponente und die sich daraus ergebende große Vielfalt an Gestaltungsmöglichkeiten. Die Amplituden der einzelnen Teiltöne sind zeitabhängig und können unabhängig voneinander gesteuert werden. Es lassen sich daher interessante dynamische Veränderungen der Klangfarbe erzielen. Um komplexe, musikalisch verwertbare Klänge erzeugen zu können, sind jedoch relativ viele Teilschwingungen erforderlich. Die Anzahl der


9.3 Wichtige Verfahren klangbestimmenden Parameter wird somit rasch unüberschaubar, der Implementierungsaufwand steigt und eine intuitive, kreative Klangprogrammierung ist nurmehr eingeschränkt möglich. Die additive Klangsynthese hatte vor allem in der Anfangszeit der elektronischen Musik um 1950 praktische Bedeutung. Komponisten wie zum Beispiel Karlheinz Stockhausen generierten mit aus heutiger Sicht einfachsten Mitteln neue elektronische Klänge. Zunächst wurde der Grundton auf einem Sinusgenerator eingestellt und auf Tonband aufgezeichnet. Im nächsten Schritt wurde ebendieser Ton vom Tonband abgespielt, der erste Teilton im gewünschten Pegel hinzugemischt und dieser Klang auf einem weiteren Tonband aufgezeichnet. Dies wurde so lange wiederholt, bis der gewünschte Klang erreicht war. Auch wenn am Markt immer wieder Synthesizer zu finden sind, die die additive Klangsynthese verwenden, kommt diesem Algorithmus heute eher theoretische Bedeutung zu. 9.3.2 Subtraktive Klangsynthese Bei der subtraktiven Klangsynthese werden vom Oszillator mehr oder weniger obertonreiche Grundwellen erzeugt. Wichtige Wellenformen sind Sinus, Dreieck, Rechteck, Sägezahn und Rauschen. Meist stehen auch Impulsfolgen zur Verfügung, deren Pulsweite eingestellt werden kann. Die Spektren dieser Grundwellen können mit einem steuerbaren Filter verändert werden. Die Amplitude wird mit einem steuerbaren Verstärker variiert. Der Aufbau eines einfachen subtraktiven Synthesizers entspricht also der in Abb. 9.1 dargestellten Grundstruktur. Im Allgemeinen wird dieser Aufbau aber durch zusätzliche Oszillatoren, Filter, Hüllkurven und LFOs erweitert. Ein entscheidender Vorteil der subtraktiven Synthese ist, dass das Verfahren mit relativ wenigen Parametern auskommt. Da zwischen diesen klangbestimmenden Parametern und dem klanglichen Ergebnis ein anschaulicher Zusammenhang besteht, gestaltet sich die Klangprogram-  Siehe Webseite zum Buch mierung verhältnismäßig einfach. () Zu beachten ist, dass die Grundwelle mit Filter und Verstärker nicht beliebig verändert werden kann. Daher beeinflusst die Wahl der Grundwelle das klangliche Ergebnis mehr oder minder stark. Da die Grundwelle immer unverändert bleibt, können die erzielten Klänge rasch starr und leblos wirken. Auch das Klangpotenzial scheint eingeschränkt, da nur eine kleine Zahl an Grundwellen zur Verfügung steht. Trotzdem hat die subtraktive Klangsynthese für die elektronische Musik eine große Bedeutung. Alle analogen Synthesizer der ersten Stunde – darunter zum Beispiel der berühmte Moog-Synthesizer – basieren auf diesem Prinzip. Vor allem im Zuge der Technobewegung in den

221


222

9 Elektronische Klangerzeugung 90er-Jahren sind diese frühen Analogsynthesizer und somit auch die subtraktive Klangsynthese wieder in Mode gekommen. Vielfach wird versucht, diese analogen Geräte mit Hilfe der digitalen Technik nachzubauen. Obwohl für solche Synthesizer die für virtuell-analog stehende Bezeichnung VA-Synthese weit verbreitet ist, handelt es sich dabei nach wie vor um das Prinzip der subtraktiven Klangerzeugung. 9.3.3 Wavetable-Synthese Die Wavetable-Synthese erweitert die klanglichen Möglichkeiten des subtraktiven Syntheseprinzips, da zusätzlich zu den einfachen, statischen Grundwellen eine Vielzahl weiterer Wellenformen als Ausgangsmaterial für die Klangprogrammierung zur Verfügung stehen. Eine bestimmte Anzahl solcher Wellenformen – meist 32 oder 64 – wird dabei in einer so genannten Wavetable zusammengefasst. Innerhalb dieser Table kann der Oszillator beliebig herumspringen und so seine Wellenform im Verlauf des Klanges verändern. Zum Beispiel kann der Oszillator von einem LFO oder einer Hüllkurve gesteuert werden und alle in der Wavetable enthaltenen Signalformen durchlaufen. Auf diese Weise können sehr lebendige Klangverläufe erzielt werden. Abhängig davon, wie die einzelnen Wellenformen innerhalb der Table angeordnet sind bzw. wie stark sich diese voneinander unterscheiden, können die Klänge weich und fließend, aber auch sehr abwechslungsreich, sprunghaft oder experimentell wirken. Ein großer Vorteil des Verfahrens ist, dass auf einfache Weise eine große Vielfalt an Klangvariationen erzielt werden kann. 9.3.4 FM-Synthese


Bei der Frequenzmodulation wird die Frequenz eines Trägersignals fT durch ein Modulationssignal verändert. Ähnliches geschieht auch bei der Steuerung der Grundfrequenz eines Oszillators mit einem LFO. Der wesentliche Unterschied ist aber, dass bei der FM-Synthese auch die Frequenz des Modulationssignals fM im hörbaren Bereich liegt. Die Stärke der Frequenzmodulation wird vom so genannten Modulationsindex beeinflusst. () Durch die Frequenzmodulation entstehen im Spektrum des Signals y(t) eine Vielzahl neuer Obertöne, deren Amplituden vom Modulationsindex m abhängen. Es ist auf diese Weise also möglich, bereits mit zwei harmonischen Oszillatoren ein recht komplexes Spektrum und somit einen interessanten Klang zu erzielen. Die Wirkungsweise kann noch weiter gesteigert werden, indem auch die Frequenz des Modulationssignals moduliert wird. Schon mit drei


9.3 Wichtige Verfahren

Oszillatoren sind verschiedene Arten der Verschaltung möglich. Zusätzlich wäre es auch denkbar, mit dem Ausgangssignal eines Oszillators dessen eigene Frequenz zu modulieren. Schon mit wenigen Bauelementen kann also eine große Vielfalt komplexer Klänge und Klangverläufe erzielt werden, was ganz wesentlich zum Erfolg dieses Verfahrens zur elektronischen Klangerzeugung beigetragen hat. Der große Nachteil der FM-Synthese ist, dass keine anschaulichen Zusammenhänge zwischen den technischen Parametern wie Modulationsfrequenz und -index und den damit verknüpften Klangänderungen bestehen. Die Programmierung eigener Klänge erfordert deshalb bei der FM-Synthese einen verhältnismäßig großen Aufwand und eine hohe Einarbeitungszeit. Zur Erzeugung von elektronischen Klängen wurde die Frequenzmodulation, die in der Nachrichtentechnik erfolgreich zur Rundfunkübertragung eingesetzt wird, erstmals gegen Ende der 60er-Jahre von John Chowning genutzt. Weltweite Verbreitung erlangte dieses Verfahren aber durch eine Reihe von digitalen Synthesizern der Firma Yamaha. Das 1983 erschienene Modell DX-7 bzw. das Nachfolgemodell DX-7II sind bis heute die meistverkauften elektronischen Musikinstrumente und prägten den Klang der Musik der 80er-Jahre ganz entscheidend. 9.3.5 Waveshaping-Synthese Bei der Waveshaping-Synthese werden nichtlineare Verzerrungen gezielt dazu genutzt, um aus einer einfachen Schwingung ein obertonreiches Signal zu erzeugen. Durch die Wahl der Waveshaping-Funktion kann die

223

Abb. 9.4 Verschaltung von drei Oszillatoren für die FM-Synthese


224

9 Elektronische Klangerzeugung Anzahl der erzeugten Teiltöne gesteuert werden. Da gemäß Abschnitt 2.2.1 die Stärke einer nichtlinearen Verzerrung von der Amplitude des Eingangssignals abhängt, können dabei auf einfache Weise dynamische Klangänderungen erzielt werden. Ein Nachteil des Verfahrens ist, dass auf diese Weise nur Frequenzkomponenten erzeugt werden können, die einem ganzzahligen Vielfachen der Grundfrequenz des Eingangssignals x(t) entsprechen. Bei Verwendung komplexer Waveshaping-Funktionen besteht darüber hinaus kein anschaulicher Zusammenhang zwischen den Syntheseparametern und dem akustischen Ergebnis. 9.3.6 Sampling


Beim Sampling werden beliebige, digital aufgezeichnete akustische Ereignisse – so genannte Samples – auf Tastendruck wiedergegeben. Der wesentliche Unterschied zu einfachen Aufzeichnungs- und Wiedergabesystemen besteht darin, dass die Schallsignale auch in unterschiedlichen Tonhöhen und mehrstimmig wiedergegeben werden können. Die Idee dahinter ist also, einen einzigen Klang eines Instruments aufzunehmen und damit das Instrument nachahmen zu können. () Die einfachste und bis zum Ende der 90er-Jahre auch einzige Methode, das gespeicherte Klangmaterial in einer vom Original abweichenden Tonhöhe wiederzugeben, ist eine Änderung der Abspielgeschwindigkeit bzw. der Samplingrate. Wie schon in Abschnitt 8.2.4 beschrieben, wird dabei aber nicht nur die Höhe des Grundtons verändert, sondern auch das gesamte Spektrum, und somit werden die klangbestimmenden Formanten entsprechend verschoben. Solange nur ein einziges Originalsample zum Einsatz kommen soll, sind also einer Veränderung der Tonhöhe enge Grenzen gesetzt. Der Grundton ist bei der Betrachtung von Klängen freilich nur ein Aspekt unter vielen. Auch bei konstanter Tonhöhe können durch unterschiedliche Spielweise mit Instrumenten ganz unterschiedliche Klänge erzielt werden. Der geänderte Verlauf der Hüllkurve beim Vergleich von gestrichenen und gezupften Violinklängen oder der geänderte Pegel beim Vergleich eines hart und eines weich angeschlagenen Klavierklangs können elektronisch noch vergleichsweise einfach nachgebildet werden. Auch einfache Änderungen der Klangfarbe können mit Hilfe von Filtern simuliert werden. Da sich aber durch eine geänderte Spielweise Klänge oft ganz entscheidend verändern, kann die Sampling-Technik rasch an ihre Grenzen stoßen. Der übliche Lösungsansatz für dieses Problem ist die so genannte Multisampling-Technik. Soll beispielsweise ein Konzertflügel mit elektroni-


9.3 Wichtige Verfahren

225

schen Mitteln nachgebildet werden, so wird nicht nur ein einziger Klang des Instruments, sondern eine Vielzahl von Samples in verschiedenen Tonlagen und in unterschiedlichen Spielweisen aufgezeichnet. Es wäre denkbar, jede der 88 Tasten eines Klaviers mit hartem, mittlerem und weichem Anschlag aufzuzeichnen, also statt einem 264 unterschiedliche Samples des Instruments abzuspeichern. Nun muss der Sampler noch so programmiert werden, dass je nach Ansteuerung, also im Allgemeinen in Abhängigkeit von Noten-Nummer und Velocity-Wert der empfangenen MIDI-Befehle, das für diesen Fall beste Sample ausgegeben wird. Durch diese Multisampling-Technik können zwar viele Instrumente halbwegs authentisch nachgeahmt werden, der Speicherplatzbedarf und der Programmieraufwand steigen dabei freilich enorm. Ein weiteres Problem beim Sampling ist, dass die Länge des erzeugten Klanges zunächst von der Länge des aufgenommenen Materials abhängt. Um die aufgezeichneten Klänge auch beliebig lange wiedergeben zu können, kommt die in Abschnitt 8.2.3 beschriebene Loop-Technik zum Einsatz. Sampling ist sehr effizient und weit verbreitet. Es kann im Prinzip jeder beliebige Klang, jedes beliebige Geräusch mittels Sampling im Studio spielbar gemacht und recht authentisch wiedergegeben werden. Die Technik funktioniert dabei mittlerweile so gut (oder auch das menschliche Ohr so schlecht), dass etwa bei Film- und Werbemusik, aber auch im Bereich der Popmusik Orchester und Chor vielfach aus Kostengründen von einem Sampler ersetzt werden. Unabhängig davon, wie viel Aufwand bei Multisampling auch getrieben wird, bleibt eine perfekte Nachahmung von Instrumenten mit ihren unendlich vielen möglichen Klangnuancen unmöglich. Da gerade die bei der Sampling-Technik eingeschränkten Möglichkeiten, durch differenzierte Spielweise unterschiedlichste Klangvariationen zu erzielen, die Musik lebendig machen, kann Sampling rasch abgenützt und leblos klingen.

Durch die Multisampling-Technik können Klangänderungen von der Spielweise abhängig gemacht werden.

Die Loop-Technik ermöglicht die Erzeugung beliebig langer Schallereignisse.

9.3.7 Granularsynthese Bei der Granularsynthese wird ein beliebiges Schallsignal in eine Vielzahl von nur wenige Millisekunden lange, als Grains bezeichnete Abschnitte unterteilt. Diese Schallpartikel können dann in beliebiger Reihenfolge zusammengesetzt werden. Dabei müssen permanente Sprünge in der Signalform bzw. die daraus resultierenden deutlich wahrnehmbaren Störgeräusche verhindert werden. Dies wird erreicht, indem die einzelnen Grains nicht einfach nacheinander abgespielt, sondern ineinander überblendet werden.

Bei der Granularsynthese wird das Ausgangsmaterialinkleinste Bestandteile zerlegt. Dadurch werden Wiedergabegeschwindigkeit und Tonhöhe voneinander entkoppelt.


226


9 Elektronische Klangerzeugung Wie schon im Abschnitt 8.2.5 beschrieben, gelingt mit Hilfe der Granularsynthese die Entkopplung von Wiedergabegeschwindigkeit und Tonhöhe eines Schallsignals. Es ist damit sogar möglich, das akustische Ereignis zu einem bestimmten Zeitpunkt quasi einzufrieren, indem ein einziges Grain fortwährend wiederholt, also in einer Loop abgespielt wird. Da die Schallpartikel in einer beliebigen Reihenfolge ausgegeben werden können, kann auch die Richtung der Wiedergabe verändert werden. Auf diese Weise können ähnliche Effekte wie beim Scratchen, einer Technik, bei der DJs Schallplatten manuell vor und zurück bewegen, erzeugt werden. Allerdings bleibt bei der Granularsynthese die Tonhöhe konstant. Die wichtigsten Parameter der Granularsynthese sind die Startposition des Grains innerhalb des gesamten Schallereignisses, die Länge des Grains, die meist als Smooth bezeichnete Länge der Überblendung zwischen zwei aufeinander folgenden Grains und die Wiedergabegeschwindigkeit eines Grains. () Ähnlich wie bei Sample-Loops können zu lange Grains rasch leblos und maschinell klingen. Zu kurze Grains können im Klang hingegen den Wellenformen der subtraktiven Synthese sehr ähnlich werden. Dies kann am besten durch Zufallsmodulationen von Länge und Startposition der Grains verhindert werden. Sieht man von den wichtigen Anwendungen der Granularsynthese für Timestretching bzw. Pitch-Shifting ab, so eignet sich das Verfahren weniger für konventionelle Synthesizersounds oder zur Nachahmung akustischer Instrumente. Da damit aber die innere Struktur von Schallereignissen erforscht und völlig neu zusammengesetzt werden kann, bietet die Granularsynthese hervorragende Möglichkeiten zur experimentellen Klanggestaltung. 9.3.8 Physical Modeling

Bei Physical Modeling wird nicht der Klang, sondern dessen Entstehungsprozess nachgebildet.

Physical Modeling ist ein verhältnismäßig junges Verfahren für die elektronische Erzeugung von Klängen, das erst seit Mitte der 90er-Jahre in kommerziellen, anfänglich unverhältnismäßig teuren Synthesizern zum Einsatz kommt. Im Gegensatz zu allen anderen heute bekannten Verfahren wird dabei nicht versucht, Klänge bzw. deren zeitlichen Verlauf und spektrale Zusammensetzung nachzubilden, sondern die Entstehungsmechanismen, die einen bestimmten Klangverlauf hervorrufen, zu simulieren. Statt mit Oszillatoren, Filtern oder Hüllkurvengeneratoren hat man es beim Physical Modeling mit Computersimulationen von schwingenden Saiten, Membranen, Luftröhren etc. zu tun, die – ebenfalls als Computersimulation – angeschlagen, angestrichen oder angeblasen werden kön-


9.3 Wichtige Verfahren nen. Bei den veränderbaren, klangbestimmenden Parametern kann es sich beispielsweise um Material, Saitenspannung, Bogen- oder Anblasdruck usw. handeln. Zwischen den Syntheseparametern und den resultierenden akustischen Ereignissen besteht also ein recht anschaulicher, aus der Erfahrung mit akustischen Instrumenten lange bekannter Zusammenhang. Es können sehr lebendige, sich in der Klangfarbe dynamisch entwickelnde Klänge erzeugt werden. Da sich im Computer die Physik auch umgehen lässt, ist es möglich, neuartige Klänge zu generieren. Es wäre virtuell beispielsweise denkbar, das Material einer Saite allmählich von Metall über Nylon in Holz zu verwandeln, einen kontinuierlichen Übergang zwischen Anzupfen und Anstreichen zu erzwingen oder Saiten mit einem Meter Durchmesser, aber geringer Masse über einem riesigen Resonanzkörper schwingen zu lassen. Die auf diese Weise erzeugten Klänge werden dabei aber nicht völlig abstrakt klingen, sondern immer auch etwas Vertrautes haben, da sie einem Material, einem Oszillator, einem Resonanzkörper oder einer bestimmten Anregung zugeordnet werden können. Ein entscheidender Nachteil dieses Verfahrens liegt im hohen Rechenaufwand. Obwohl vor allem für Saiten- und Blasinstrumente leistungsfähige Algorithmen bekannt sind, sind Synthesiszer auf der Basis physikalischer Modelle in puncto Stimmenanzahl und Multitimbralität anderen Verfahren nach wie vor unterlegen. Zu beachten ist, dass die Modelle viele unterschiedliche physikalische Eigenschaften berücksichtigen müssen und daher im Allgemeinen einen hohen Komplexitätsgrad aufweisen. Dies kann rasch dazu führen, dass die Parameterzahl nicht mehr überschaut werden kann. Es könnte auch leicht passieren, dass die Parameter so vom Anwender eingestellt werden, dass das Modell gar nicht zu schwingen beginnt und daher Stille erzeugt. Dem Klangprogrammierer geht es dann ähnlich wie einem Geigenschüler, der zum ersten Mal versucht, seinem Instrument einen Ton zu entlocken. Aus diesen Gründen werden von den Herstellern meist nur einige Parameter zur Programmierung überlassen, wodurch aber viele klanglichen Möglichkeiten auf der Strecke bleiben müssen und das große Potenzial des Verfahrens eingeschränkt wird. Vor allem für die digitale Nachbildung alter Analog-Synthesizer wird Physical Modeling – meist unter dem Namen VA- bzw. Virtuell-AnalogSynthese – seit Ende der 1990er-Jahre vielfach eingesetzt. Eine gewisse Weiterentwicklung dieser Technologie vorausgesetzt, wird der Einsatz physikalischer Modelle für die Vertonung von Computeranimationen interessant werden. Die akustischen Ereignisse könnten automatisch mit dem entsprechenden Bildinhalt generiert werden. Eine Figur könnte mit ihren Bewegungen den Fußboden direkt in Schwingung

227

Bei der so genannten VA-Synthese werden physikalische Modelle zur Nachbildung von Analogsynthesizern verwendet.


228

9 Elektronische Klangerzeugung versetzen, und die Schritte wären unmittelbar hörbar. Eine aufwendige Nachvertonung wäre nicht mehr notwendig. Wird das Material des Bodens von beispielsweise Holz in Stein umgewandelt, verändert sich automatisch auch das Geräusch der Schritte. 9.3.9 Software-Instrumente

Software-Synthesizer ermöglichen eine enge Verbindung von MIDI- und Audiodaten innerhalb der Produktionssoftware.


Software-Synthesizer konnten sich gegen Ende der 1990er-Jahre am Markt etablieren. Dabei muss zwischen so genannten Native-Lösungen, bei denen die Klänge von der CPU des verwendeten Rechners in Echtzeit berechnet werden und die PC-Soundkarte als Ausgabemedium dient, und Systemen, die zwar eine eigene DSP-Hardware als Erweiterungskarte für den Computer verwenden, aber jederzeit mittels Software erweitert werden können und weitgehend frei programmierbar sind, unterschieden werden. Software-Synthesizer können meist sowohl stand-alone betrieben werden als auch über Schnittstellen in die gewohnte Sequenzer- oder HD-Recording-Umgebung – die so genannte Hostsoftware – eingebunden werden. Dadurch kann der Arbeitsablauf wesentlich vereinfacht werden. Da der Software-Synthesizer im Allgemeinen über MIDI-Befehle gesteuert wird und die erzeugten Klänge als digitale Audiodaten in die Mixer-Umgebung der Hostsoftware zurückgeführt werden, können auf diese Weise die Vorzüge beider Technologien perfekt genützt werden. Beispielsweise können die MIDI-Spuren beim so genannten Track-Bouncing – also bei Errechnen einer Stereo-Datei aus mehreren Sequenzer-Spuren – sofort berücksichtigt werden. Beim Einsatz von Hardwaresynthesizern müssen hingegen zuerst die MIDI-Daten zum Synthesizer gesendet werden, der diese dann in Audiosignale umsetzt, die wiederum in einer eigenen Spur im Squenzer- bzw. HD-Recording-Sytem aufgezeichnet werden müssten, um schließlich das Track-Bouncing bzw. den Mixdown der Audiospuren durchführen zu können. Software-Schnittstellen, die von vielen Herstellern unterstützt werden, sind VST-2 der Firma Steinberg und DirectConnect der Firma Digidesign. () Mittlerweile sind Nachbildungen und Weiterentwicklungen vieler herkömmlicher Synthesizer am Markt erhältlich, die sich vor allem durch ihr Preis-Leistungs-Verhältnis und die gute Bedienbarkeit auf Grund des – zumindest verglichen mit den Displays der Hardwaregeräte – großen Computerbildschirms auszeichnen, jedoch klanglich keine neuen Möglichkeiten bieten. Wesentlich innovativer sind modulare Softwarekonzepte, die auch bereits von verschiedenen Herstellern angeboten werden. Obwohl auch dabei meist keine wirklich neuen Verfahren zu Klangerzeugung zu finden sind und auch das Modulkonzept bereits bei den Ana-


9.4 Einfache Praxisbeispiele

229

logsynthesizern verbreitet war, bieten diese Systeme in der Regel die Möglichkeit, unterschiedlichste Verfahren mehr oder minder nach Belieben zu kombinieren und auf diese Weise zu neuartigen Lösungen zu kommen.

9.4 Einfache Praxisbeispiele 9.4.1 Flächenklänge Unter einer Fläche wird in der Sprache der Musikproduzenten meist ein andauernder, sich nur geringfügig oder ganz allmählich verändernder Klang mit warmem, oft an Streicher erinnerndem Charakter für den klanglichen Hintergrund einer Produktion verstanden. Meist wird ein lebendiger und voller Klang angestrebt. Dabei soll er sich allerdings nicht in den Vordergrund drängen und – sowohl was das Spektrum als auch die Dynamik betrifft – genug Platz für Melodie, Gesang, Sprache, Geräu- Flächenklänge bilden sche, etc. lassen. In Musikproduktionen bilden Flächen meist das harmo- meist das harmonische nische Fundament. Im Kontext mit visuellen Medien sollen Flächen oft Fundament einer Probestimmte Stimmungen vermitteln. Welcher emotionale Gehalt vermit- duktion und sollen bestimmte Stimmungen telt wird, hängt einerseits freilich stark vom Umfeld ab, kann aber ande- vermitteln. rerseits vor allem über die Art der klanglichen Entwicklung beeinflusst werden. Flächenklänge, deren spektraler Aufbau und Amplitude sich in rascher Folge, eher sprunghaft und nach zufälligen Mustern verändern, werden tendenziell eher Nervosität und Anspannung bewirken als solche, deren Aufbau sich langsam, kontinuierlich und kaum merkbar verändert und so eine ruhige Atmosphäre suggerieren. Vollkommen statische, leblose Flächenklänge wirken im Allgemeinen unnatürlich und  Siehe Webseite zum Buch fremd. () Bei der Klangprogrammierung sollten die Eigenschaften bereits auf Oszillatorebene so gut wie möglich erzielt werden. Da Flächenklänge in der Regel sanft einund ausschwingen, werden verhältnismäßig lange Attack- und Release-Zeiten eingestellt. Um den Einschwingvorgang nicht nachträglich durch einen Pegelabfall zu betonen, wird der Sustain-Level eher hoch gewählt. Unabhängig davon, ob sich der Klangcharakter rasch oder nur allmählich, ganz deutlich oder kaum wahrnehmbar verändern soll, wird fast immer ein abwechslungsreicher Klangverlauf angestrebt. Bei der subtraktiven Synthese wird dies am einfachsten durch einen zweiten Oszillator erreicht, der gegenüber dem ersten um wenige Hertz verSchwebungen zweier stimmt wird, sodass die in Abschnitt 4.2.1 beschriebenen Schwebungen leicht verstimmter Oszilentstehen. Wird nun die Verstimmung nicht fix eingestellt, sondern per- latoren machen Flächenmanent von einem LFO geringfügig variiert, so erhält der Klang die klänge lebendiger.


230

9 Elektronische Klangerzeugung gewünschte Lebendigkeit. Als Wellenform eignen sich Sägezahn oder Rechteck bzw. Pulswelle. Letztere ist vor allem dann interessant, wenn die Pulsweite moduliert werden kann, da dies bereits bei einem Oszillator zu schwebungsähnlichen Klängen führt. Der Einsatz von Sägezahn und modulierter Pulswelle bewirkt obertonreiche Klänge, die als brillant oder gar scharf empfunden werden. Der meist angestrebte warme Klangcharakter kann aber mit einer entsprechenden Tiefpassfilterung erreicht werden. Für besonders lebendige Variationen der Klangfarbe eignet sich vor allem die Wavetable-Synthese, aber auch mit der Frequenzmodulation lassen sich interessante Ergebnisse erzielen. 9.4.2 Bassklänge

Sägezahn- und Rechteckschwingung eignen sich gut fürelektronische Bassklänge.

Bassklänge bilden im musikalischen Kontext das Fundament eines Arrangements. Sie sollen daher prägnant, gut wahrnehmbar und tragend sein, dabei aber nicht zu aufdringlich wirken und keine anderen Elemente überdecken, sondern im Spektrum genug Platz für diese lassen. Vielfach wird in der Klanggestaltung versucht, die gewünschten Eigenschaften durch eine kurze, markante Einschwingphase – vergleichbar mit dem Anschlagsgeräusch von E- oder Kontrabass – zu erreichen, an die eine eher obertonarme Sustain-Phase anschließt. Im Allgemeinen werden Attack- und Decay-Time eher kurz und der Sustain-Level niedrig eingestellt. Bei der subtraktiven Synthese würde sich auf Grund fehlender Obertöne zunächst ein Sinus als Wellenform anbieten. Es ist aber schwer, mit einem einzigen Sinus die Einschwingphase wie gewünscht zu betonen. Eine Möglichkeit wäre, die Frequenz mit einer Hüllkurve zu modulieren, bei der Attack- und Decay-Time sehr kurz und der Sustain-Level auf null eingestellt werden. Der Oszillator schwingt dann kurzzeitig mit einer hohen, von der Intensität der Modulation abhängigen Frequenz, fällt aber rasch auf den von der Tastatur bestimmten Wert. Wenn die Zeiten der Hüllkurve kurz genug gewählt wurden, dann ist diese Modulation der Tonhöhe gar nicht als solche wahrnehmbar, sondern als eine Art Anschlagsgeräusch. Meist werden aber Sägezahn oder Rechteck als Grundwellen eingesetzt. Um den gewünschten Verlauf der Klangfarbe zu erzielen, soll der Filter während der kurzen Einschwingphase weit geöffnet sein. Oft werden die Obertöne des Klanges durch eine hohe Filterresonanz zusätzlich betont. Danach sollte die Filterfrequenz aber sinken und ein Großteil der Obertöne unterdrückt werden. Um dies zu erreichen, wird der Filter mit einer Hüllkurve moduliert, deren Werte ungefähr jener der Lautstärke entsprechen. Da die Klangfarbe nicht allzu sehr von der Grundfrequenz abhängen soll, wird die Grenzfrequenz des Filters auch mittels Key-


9.4 Einfache Praxisbeispiele

231

tracking von der Tastatur bzw. der empfangenen MIDI-Noten-Nummer gesteuert. Interessantere Bassklänge lassen sich wieder mit zwei Oszillatoren gestalten. Vielfach wird ein Sägezahn mit einem Rechteck gemischt. Schwebungen können den Klang zwar wieder lebendiger machen, müssen aber sehr sparsam eingesetzt werden, da es bei einer Schwebung ja temporär zur gegenseitigen Auslöschung kommen und so das Fundament der Arrangements verloren gehen kann. Um wuchtigere Bassklänge zu erzielen, werden die beiden Oszillatoren um eine Oktave gegeneinander verstimmt. Zu beachten ist dabei, dass der Bassklang keinen zu brei-  Siehe Webseite ten Bereich im Spektrum des Arrangements besetzt. () zum Buch Der zweite Oszillator könnte auch ein band- oder tiefpassgefiltertes Rauschen mit einer entsprechend kurzen Hüllkurve für die Lautstärke zur Simulation des Anschlagsgeräusches liefern. Ein ähnlicher Effekt könnte auch mit der FM-Synthese erreicht werden, wenn die Frequenz des Trägersignals während der kurzen Einschwingphase stark moduliert wird. 9.4.3 Elektronische Perkussion Perkussionsklänge werden vielfach durch einmalige Anregung zum Schwingen gebracht und enden deshalb nach dem Ausklingen der Eigenschwingungen des Instruments. Für die elektronische Nachbildung des Amplitudenverlaufs genügt daher meist eine zweistufige Hüllkurve. Da die Attack-Time häufig sehr kurz gewählt oder gar auf null gesetzt wird, ist die Decay-Time der entscheidende Parameter für den Verlauf der Lautstärke. Viele perkussive Schallsignale haben einen hohen geräuschhaften Rauschen eignet sich für Anteil. Aus diesem Grund eignet sich Rauschen meist gut als Wellen- viele Perkussionsklänge form, das durch Band- oder Tiefpassfilterung mit Resonanz in der spekt- gut als Ausgangsmaterial. ralen Zusammensetzung geformt wird. Auch wenn meist keine exakte Tonhöhe bestimmt werden kann, so haben Trommeln trotzdem auch einen tonalen Anteil, der es zumindest ermöglicht, hohe und tiefe Perkussionsklänge zu unterscheiden. Die entsprechende Klangkomponente kann durch einen Sinusoszillator mit geeignetem Lautstärkeverlauf meist recht gut erzeugt werden. Interessante Klänge können durch eine Tonhöhenmodulation des Sinusoszilla-  Siehe Webseite tors mit einer geeigneten Hüllkurve erzielt werden. () zum Buch 9.4.4 Natur- und Alltagsgeräusche Im Allgemeinen werden Natur- und Alltagsgeräusche von einem Sampler oder einem HD-Recording-System wiedergegeben. Mittlerweile steht


232

9 Elektronische Klangerzeugung

Eigene Geräuschaufnahmen sollten nach Möglichkeit den Vorzug gegenüber Archivmaterial erhalten, da sie meist lebendiger und authentischer sind.

eine Vielzahl von Sampling-Bibliotheken auf CDs zur Verfügung, die unzählige akustische Ereignisse in guter Qualität bereitstellen. Trotzdem ist es oft empfehlenswert, die benötigten Geräusche selbst aufzunehmen, um authentisches Material zu erhalten und der Produktion eine persönliche Note zu verleihen. Außerdem lässt sich – die nötige Übung und Erfahrung vorausgesetzt – das gewünschte Ergebnis auf diese Weise oft auch schneller und genauer erzielen, da die Suche nach ausgefalleneren Geräuschen in den Klangarchiven durchaus einige Zeit in Anspruch nehmen kann oder die gefundenen Klänge den eigenen Vorstellungen nur teilweise entsprechen. Vor allem für die Nachvertonung von Filmen und Videos ist bei vielen Geräuschen die Synchronität zum Bild von entscheidender Bedeutung. In diesen Fällen werden die entsprechenden Geräusche oft von Geräuschemachern, die auch als Foley-Artists bezeichnet werden, im erforderlichen Tempo und in der gewünschten Dauer nachgemacht und aufgezeichnet. Zum Teil werden die Geräusche auch mit ganz anderen Gegenständen, dem menschlichen Körper oder der Stimme nachgeahmt und falls erforderlich noch nachbearbeitet. Dies wird vor allem bei Geräuschen versucht, die sich im Original schwer herstellen lassen oder nicht in ausreichender Qualität aufgezeichnet werden können. Eine weit verbreitete Technik ist auch das Zusammensetzen von mehreren, zum Teil mit elektronischen Mitteln bearbeiteten oder verfremdeten Geräuschen zu einem neuen. Die Synthese von Natur- und Alltagsgeräuschen ist im Allgemeinen schwierig. Der Einsatz von Physical Modeling wäre zwar grundsätzlich denkbar, die Technik scheint aber im Moment noch nicht weit genug entwickelt, auch wenn bereits erste Versuche etwa zur Nachvertonung von Computeranimationen unternommen werden. Die Synthese von Geräuschen hätte den Vorteil, dass sie genau für die Anforderungen der jeweiligen Produktion gestaltet werden könnte. Durchaus interessant wäre auch die Synthese von Klangverläufen, die zwar einerseits einige markante Eigenschaften natürlicher und somit vertrauter Geräusche haben, andererseits aber eine Reihe von neuen, eher abstrakten Merkmalen tragen. Richtig eingesetzt könnten solche semi-realistischen Geräusche mehr Freiraum für die Phantasie der Hörer ermöglichen und neue Perspektiven für das Audiodesign eröffnen. Eine genauere Betrachtung der charakteristischen Eigenschaften, der Entstehungsmechanismen und der klanglichen Eigenschaften der beteiligten Materialien könnte durchaus Ansatzpunkte für eine Synthese von solchen semirealistischen oder auch semiabstrakten Geräuschen liefern. Interessant wäre zum Beispiel eine Verbindung von bekannten Anregungsmechanismen, wie anschlagen, anblasen, fallen, zerbrechen, krat-

Für die Nachvertonung von Filmen und Videos werden viele Geräusche von so genannten FoleyArtists nachgemacht.

Die Synthese von Geräuschen würde auch semirealistische Klangereignisse ermöglichen, die für verschiedene Anwendungen interessant sein könnten.


9.4 Einfache Praxisbeispiele zen, rollen, schütteln, fließen, blubbern, brodeln etc., mit unüblichen Materialien oder synthetischen Klängen. Im Folgenden sollen daher ein paar einfache Beispiele für die Synthese von Geräuschen besprochen wer Siehe Webseite den. () zum Buch Das auffälligste akustische Merkmal am Strand auslaufender Meereswellen ist das breitbandige Rauschen und die Zu- und Abnahme der Lautstärke. Ein entsprechendes Geräusch kann ganz einfach mit Rauschen, dessen Lautstärke durch eine wiederholt ausgelöste Hüllkurve moduliert wird, nachgebildet werden. Werden die Parameter der Hüllkurven richtig eingestellt, so kann das synthetische Meeresrauschen durchaus schon recht authentisch klingen. Wird das akustische Ereignis noch etwas genauer betrachtet, so fällt auf, dass sich auch die Klangfarbe mit der Zeit verändert. Je nach Beschaffenheit des Strandes wird die Welle beim Auslaufen heller oder dunkler. Dieser Klangverlauf wird mit einem Filter, dessen Grenzfrequenz mit dem Verlauf der Hüllkurve für die Lautstärke variiert wird, erreicht. Auch das Pfeifen des Windes lässt sich gut mit Rauschen nachbilden. Allerdings ist das Geräusch im Vergleich zu Meereswellen wesentlich schmalbandiger. Es empfiehlt sich daher eine Filterung mit einem Bandpass und Resonanz. Änderungen von Lautstärke und Klangfarbe folgen keinem regelmäßigen Muster, weshalb eine Modulation von Amplitude und Filterfrequenz mit einem Zufallssignal zielführend sein wird. Für die Simulation diverser Maschinengeräusche ist wie bei Perkussionsklängen eine Kombination von band- oder tiefpassgefiltertem Rauschen mit einer tonalen Komponente wie Sinus oder eventuell auch Rechteck naheliegend. Durch die Wahl von Filterfrequenz, Resonanz, Tonhöhe, Attack- und Decay-Time kann eine Vielzahl unterschiedlicher Geräusche synthetisiert werden. Wesentlich ist die Art der Anregung, die in rascher Folge und sehr gleichmäßig geschieht. Daher ist es sinnvoll, die Oszillatoren zunächst nicht von der Tastatur, sondern mit der niederfrequenten Rechteckschwingung eines LFOs auszulösen. Maschinen benötigen zum Anlaufen und zum Stoppen eine bestimmte Zeit. Dies kann durch eine Hüllkurvensteuerung der LFO-Frequenz gekoppelt mit einer Amplitudensteuerung der Oszillatoren simuliert werden. Interessant kann auch der Versuch einer Synthese von Tierlauten sein. Die Lautproduktion funktioniert nach einem ähnlichen Prinzip wie die Sprachproduktion beim Menschen. Es ist daher naheliegend, ein obertonreiches Oszillatorsignal – wie Sägezahn oder Puls – mit einem Formantfilter, der den Resonanzraum repräsentiert und in erster Näherung auch durch einen einfachen Bandpassfilter ersetzt werden kann, zu formen. Grundfrequenz und Formanten hängen wesentlich von der Größe des Tieres ab. Soll nun beispielsweise Vogelzwitschern nachgebildet wer-

233


234

9 Elektronische Klangerzeugung den, so ist das Aufeinanderfolgen mehrerer Laute in mehr oder minder unregelmäßiger Abfolge ein wesentliches Merkmal. Anders als bei Maschinen werden die Einzellaute nicht von einem LFO, sondern von Impulsen, die in unregelmäßigen Zeitabständen aufeinander folgen, ausgelöst. Auch Tonhöhe, Dauer und Lautstärke der Laute ändern sich innerhalb bestimmter Grenzen eher zufällig. Es empfiehlt sich daher, auch Parameter wie Grundfrequenz, Attack- und Decay-Time, Amplitude, Filterfrequenz und Resonanz mit Zufallsgeneratoren mehr oder weniger stark zu modulieren. Die hier kurz beschriebenen Beispiele können freilich nur ein paar Ideen vermitteln, wie die Synthese mancher Natur- und Alltagsgeräusche denkbar wäre. Auch wenn derartige Versuche nicht immer zu direkt verwertbaren Ergebnissen führen, so tragen sie zweifellos zu einem besseren Verständnis von Struktur und Aufbau akustischer Ereignisse bei.


235

10 Akustische Mediengestaltung Multimedia zählte in den 1990er Jahren zu einem wichtigen, häufig gebrauchten Schlagwort der modernen Informationsgesellschaft. Die damaligen, mit der aufkommenden Verbreitung von Internet und Mobilkommunikation bzw. ganz allgemein mit der fortschreitenden Digitalisierung des Alltags in Verbindung stehenden Entwicklungen sind längst zur Selbstverständlichkeit geworden. Seit einigen Jahren wird zumindest in einschlägigen Publikationen und Foren über intersensuelle, multimodale oder synästhetische Designkonzepte diskutiert. Dabei sind all diese Begriffe aber eher trügerisch. Nach wie vor vernachlässigen viele Medienprodukte die meisten Sinneseindrücke und beschränken sich auf Sehen und Hören. Dabei wird dann auch noch die akustische Ebene häufig als Anhängsel zur visuellen Komponente behandelt und liefert keine oder nur wenig eigenständige Information. Die Dominanz des Visuellen scheint also nach wie vor ungebrochen und bisweilen sogar stärker denn je. Gerade in dieser Problematik liegen wichtige Herausforderungen und aktuelle Chancen der akustischen Mediengestaltung: In einer Zeit, in der das Fernsehen immer schlechter, das Theater immer alberner wird, und es auch der Oper nicht besonders gut geht, hat das Radio keine Chance – aber immerhin einen entscheidenden Vorteil: es hat ja nur das Ohr; und da es nur den akustischen Sinn anspricht, kann es wie die anderen Medien den Unsinn nicht verdoppeln oder vervielfachen, selbst wenn es das wollte – und wir wissen: es will. (Heiner Goebbels, Rede zur Eröffnung der Woche des Hörspiels, Akademie der Künste Berlin, 9.11.1997) Medienprodukte verfolgen unterschiedliche Ziele und müssen verschiedensten Ansprüchen genügen. Sie können sachlich informieren, werben, unterhalten, intellektuell herausfordern, die Phantasie kreativ anregen


236

Will ein Medium vor allem ablenken, so soll die Entwicklung vorhersehbar sein und alle Erwartungshaltungen sollen erfüllt werden.

Gute Medienproduktionen lassen Freiräume für die Phantasie!

10 Akustische Mediengestaltung oder ganz einfach der Ablenkung dienen. Selbstverständlich muss die jeweilige Zielsetzung auch Beschaffenheit, Funktion und Zusammenwirken der Gestaltungselemente bestimmen. In der heutigen Industriegesellschaft wird Unterhaltung leider häufig mit Ablenkung gleichgesetzt. Will das Produkt vorrangig ablenken, so sollte möglichst alles vorhersehbar sein. Erwartungshaltungen müssen erfüllt werden. Der Konsument soll oder will dabei nicht viel denken. Derartige Produktionen sind von oberflächlichen, leicht erkennbaren Zusammenhängen und Erzählsträngen geprägt. Ein häufiger Einsatz von klischeehaften Stilisierungen trägt zum Erreichen des gewünschten Ergebnisses bei. Damit die Pointen ja nicht untergehen, werden in manchen Vorabendserien auch die Lacher sicherheitshalber gleich eingespielt. Anstatt den Rezipienten einen kreativen, phantasievollen Wahrnehmungsprozess zu ermöglichen, der eigenständige Erlebnisse zulässt und spannende Erfahrungen herausfordert, werden sie als passive Konsumenten bevormundet. Im Unterschied zu derartigen, ausschließlich auf Ablenkung zielenden, Formen lassen gute Medienproduktionen auch genügend Freiräume für eigene Interpretation und regen die Phantasie an. Da nicht alles einem von Anfang an vorbestimmten Verlauf folgt, werden die Rezipienten zur aktiven Auseinandersetzung angeregt.

10.1 Was ist gutes Audiodesign? Die angesprochenen Sinne sollen ihre Stärken bestmöglich nutzen und sich gegenseitig unterstützen bzw. optimal ergänzen.

Nach wie vor wird qualitätsvolles Audiodesign häufig mit der bestmöglichen Reproduktion von „Originalgeräuschen“, der Abbildung einer vermeintlichen akustischen Realität, der Produktion von authentischen Sounds oder der Gestaltung von coolen, angenehmen, ungewöhnlichen Soundeffekten gleichgesetzt. Zu oft werden Tonspuren im medialen Kontext weitgehend nach subjektiven ästhetischen Vorlieben konzipiert, produziert und bewertet, während es an objektiven Qualitätskriterien nach wie vor mangelt. Gutes Audiodesign muss zunächst vor allem auf den im Abschnitt 1.3 ausführlich besprochenen Besonderheiten der akustischen Wahrnehmung aufbauen. Aufgrund der Omnipräsenz der akustischen Wahrnehmung sind wir permanent zum Hören gezwungen und oft gleichzeitig einer großen Vielzahl von akustischen Reizen ausgesetzt. In der Alltagswahrnehmung muss daher selektiert und priorisiert werden. Der Hörer „entscheidet“ in jedem einzelnen Moment ganz individuell, welche Sounds zu Streams zusammengefassst werden, welche akustischen Ereignisse mit welcher Aufmerksamkeit und in welcher der im Abschnitt 1.5 bespro-


10.1 Was ist gutes Audiodesign? chenen Wahrnehmungsebenen gehört bzw. welchen Reizen zugehört wird. Gutes Audiodesign überlässt diese Selektion nicht den Rezipienten. Es zählt zu den größten Fehlern, alle denkbaren Ereignisse und Objekte in einem Medienprodukt mit mehr oder weniger passenden Sounds zu vertonen. Wichtig ist, in jedem Moment zu entscheiden, was gehört werden soll und wie dadurch die Wahrnehmung gelenkt wird. Gerade in einer immer lauter, dichter und hektischer werdenden akustischen Umwelt gilt die bekannte Wendung: „Weniger ist mehr“. Für jedes einzelne akustische Ereigniss muss dessen Funktion im Gesamtkontext klar sein. Liefert ein Sound keinen nennenswerten Beitrag zu Wirkung und Bedeutung eines Medienproduktes, soll er am besten entfallen. Wie bereits im Abschnitt 1.6 angemerkt, ist die menschliche Wahrnehmung von verschiedenen aktuellen äußeren Rahmenbedingungen, dem universellen Kontext, genauso beeinflusst, wie von individuellen Prägungen – den persönlichen Erfahrungen, Interessen, Erinnerungen und Vorwissen, subjektiven Erwartungshaltungen, individuellen Stimmungen und Befindlichkeiten. Auch ein in möglichst gleichen Rahmenbedingungen identisch wiederholtes Schallereignis wird daher bei wiederholtem Hören im Allgemeinen unterschiedliche Empfindungen auslösen, zu unterschiedlichen Lautereignissen führen. In diesem Sinne gibt es also keine akustische „Realität“ und keine „authentischen“ Sounds. Gutes Sounddesign strebt daher nicht zwingend nach einer bestmöglichen Reproduktion vermeintlicher Wirklichkeiten. Vielmehr geht es darum, ein (Nach-)Erleben von Ereignissen zu ermöglichen bzw. bestmöglich zu unterstützen. Auf einem belebten Marktplatz in fernen Ländern herrscht eine ganz besondere, dichte akustische Atmosphäre, in der aus allen Richtungen vielfältige Stimmen und Geräusche ans Ohr dringen. Selbst mit aufwendiger Mikrofonierung ist es kaum möglich, derartige akustische Ereignisse mit befriedigendem Ergebnis aufzunehmen. Selbst bei Dokumentationen ist es in solchen Fällen daher selten zielführend, die Aufnahme vom Originalschauplatz als realistisches Abbild zu verstehen und weitgehend unbearbeitet einzusetzen. Vielmehr sollte versucht werden, mit verschiedensten Techniken und Bearbeitungen der am Schauplatz subjektiv erlebten dichten Atmosphäre möglichst nahe zu kommen. Gutes Sounddesign vermittelt Stimmungen und Bedeutungen, die wesentliche Beiträge zur Dramaturgie, zur Narration etc. liefern. In manchen Fällen ist es dabei wichtig, eine kritische Distanz zwischen Produktionen und Rezipienten zu wahren. Es muss dann vor allem mit dem im Abschnitt 1.3.4 diskutierten Verhältnis von Sound und Emotion sehr vorsichtig umgegangen werden. In anderen Fällen geht es hingegen

237

Gutes Audiodesign trifft eine Auswahl und entscheidet, welche Sounds gehört werden sollen.

Es gilt: Weniger ist mehr!

Gutes Audiodesign unterstützt das (Nach-)Erleben von abgebildeten Ereignissen.


238

Gutes Audiodesign setzt auf eine detailreiche Vielfalt.

Gutes Audiodesign beachtet die Wechselwirkungen zwischen Sprache, Geräuschen und Musik.

Gutes Audiodesign stellt Beziehungen zum kulturellen, sozialen und historischen Umfeld her.

10 Akustische Mediengestaltung darum, Illusionen zu erzeugen, die ein Eintauchen in die Medienproduktion ermöglichen. Zumindest in ihrer ursprünglichen Form können akustische Ereignisse nicht identisch wiederholt werden. Auch wenn man versucht, die auslösenden Prozesse möglichst unverändert zu reproduzieren, werden die resultierenden Klänge und Geräusche dabei stets mehr oder weniger stark variiert. Die Berücksichtigung der daraus resultierenden enormen Vielfalt akustischer Ereigniss ist ein wichtiges Qualitätskriterium für die akustische Mediengestaltung. Zu beachten ist, dass oft bereits kleinste Unterschiede und ganz subtile Nuancen die Bedeutung und Wirkung entscheidend verändern können. Gutes Audiodesign setzt also auf Diversifikation und Abwechslung der Mittel. Es ist dabei auch wichtig, sich der feinen Ausgestaltung von klanglichen Details zu widmen. Auch wenn diese vielfach im Einzelnen gar nicht wahrgenommen werden, sondern sich unbemerkt in die Gesamtheit der Tonspur bzw. des Medienproduktes einordnen sollen, so trägt dennoch jede Einzelheit ganz wesentlich zum Gelingen bei. Um ein optimales Gesamtergebnis zu erzielen, sind also nicht nur gute Ideen, sondern vor allem auch viele kleine Schritte zur genauen Ausarbeitung und Abstimmung aller Gestaltungselemente notwendig. Jedenfalls führt der wiederholte Einsatz ein und desselben Geräuschsamples aus einer Standard-Soundlibrary kaum zu optimalen Ergebnissen, auch wenn finanzielle und zeitliche Rahmenbedingungen in der Praxis häufig eine derartige Arbeitsweise notwendig machen. Wie bereits im Abschnitt 1.2 erklärt, ist die bekannte Wendung „Das Ganze ist mehr als die Summe seiner Teile!“ eine wichtige Grundregel. Gutes Audiodesign beachtet daher die Wechselwirkungen zwischen den akustischen Ebenen Sprache, Geräusche und Musik. Beispielsweise wird sich ein durchgehender Klang-, Rhythmus- oder Melodieteppich selten als Filmmusik eignen. Ein guter Filmkomponist wird stets versuchen, den Dialog und die Geräusche schon vor der Endmischung als wesentliche Bestandteile der Tonspur zu berücksichtigen und musikalische Höhepunkte möglichst in Pausen oder weniger wichtige Stellen der anderen Ebenen zu setzen. Aufgrund der Beeinflussung der Wahrnehmung durch den universellen Kontext muss gutes Audiodesign das historische, soziale und kulturelle Umfeld nicht nur beachten, sondern die verschiedenen akustischen Ereignisse und Streams dazu in Beziehung setzen. In vielen Fällen kann die Tonspur für die gesamte Medienproduktion einen wichtigen Beitrag leisten, um dieses Umfeld besser abzustecken, indem zum Beispiel Zeitepochen und Orte akustisch genauer charakterisiert werden. Auch zwischen den unterschiedlichen Sinnesmodalitäten kommt es im Wahrnehmungsprozess zu zahlreichen Wechselwirkungen und gegen-


10.1 Was ist gutes Audiodesign?

239

Auge

Ohr

beweglich, verschließbar

unbeweglich, nicht verschließbar

gerichtet, gezielt einsetzbar daher eher bewusst und aktiv

nicht gerichtet, umfassend, daher eher unbewusst und passiv

Wahrnehmung von statischen Objekten

Wahrnehmung von dynamischen Prozessen

Detailreiche Wahrnehmung von Oberflächenstrukturen innerhalb des Blickfelds

Ganzheitliche Wahrnehmung von physikalischen Prozessen, den daran beteiligten Bewegungen und Materialien im umgebenden Raum

hilfreich bei der Bewältigung bewusster differenzierter Aufgabenstellungen

hilfreich bei der unbewussten Überwachung der gesamten Umwelt und der Orientierung in Raum und Zeit

Hinsehen bedeutet an anderer Stelle Wegsehen; daher: selektiv, individuell, distanzierend

Geräusche und Klänge an einem Ort für alle gleich; daher: verbindend, ganzheitlich

Bilder nur als Einzelereignisse (oder Folge von Einzelereignissen) wahrnehmbar

mehrere akustische Ereignisse gleichzeitig wahrnehmbar Tab. 10.1 Vergleich zwischen Auge und Ohr

seitigen Beeinflussungen, die seit einigen Jahrzehnten intensiver erforscht werden. Der sogenannte McGurk-Effekt, die Sound-Induced-FlashIllusion oder der Schiebetür-Effekt sind einige Beispiele, die auf der Webseite zum Buch ausführlicher erklärt werden. Gutes Sounddesign muss diese intermodalen Wechselwirkungen zwischen unterschiedlichen Reizqualitäten nicht nur beachten, sondern auch im Sinne der intendierten Gesamtwirkung nutzen. Ziel muss immer ein intermodales, alle zum Medienprodukt betragenden Elemente integrierendes Gestaltungskon-  Siehe Webseite zept sein. () zum Buch Dieses gemeinsame Ziel kann bei audiovisuellen Produktionen nur dann erreicht werden, wenn die Unterschiede zwischen akustischer und Gutes Audiodesign vervisueller Wahrnehmung ausreichend bekannt sind. Obwohl alle Sinne im steht sich als integraler Bestandteil eines interLauf der Evolution auf die Wahrnehmung ganz bestimmter Qualitäten modalen Gestaltungsspezialisiert wurden, läuft deren Vergleich überraschend oft leider allzu konzepts. rasch auf die simple Frage „Was ist besser und wichtiger?“ hinaus. Dabei ist für die Mediengestaltung einzig und allein die Frage entscheidend, welche Voraussetzungen zu erfüllen sind, damit die Stärken der Sinnesorgane bestmöglich genutzt und sie sich gegenseitig optimal ergänzen können. Es muss also immer wieder die Frage gestellt werden, welche Funktionen, Bedeutungen und Wirkungen besser visuell bzw. welche besser akustisch vermittelt werden.


240 Tab. 10.2 Die Ebenen der Tonspur

10 Akustische Mediengestaltung

Tonspur Sprache Dialog

Geräusche Kommentar

Atmo

Musik Sound-Effekte HardEffects

SourceMusik

FilmMusik

SoftEffects

Sehr gute theoretische Zusammenfassungen der Anforderungen an qualitätsvolle Tonspuren in den Medien geben Michel Chion in seinem Standardwerk „Audio-Vision: Sound on Screen“ und Barbara Flückiger im Buch „Sound Design: Die virtuelle Klangwelt des Films“. Zahlreiche Artikel, Interviews und Praxistipps stellt Sven Carlsson auf der empfehlenswerten Webseite www.filmsound.org zusammen.

10.2 Die Ebenen der Tonspur Eine Tonspur besteht aus den drei Ebenen Sprache, Geräusche und Musik.

Im Allgemeinen setzt sich die Tonspur eines Medienprodukts aus mehreren Ebenen zusammen. Wie bereits in Kapitel 1 angemerkt, kann grundsätzlich zwischen Sprache, Geräuschen und Musik unterschieden werden. Sprache gliedert sich weiter in Dialoge, die direkt mit den im Bild agierenden Personen in Verbindung stehen, und Erzählungen bzw. Kommentare, die eine Handlung quasi von außen erläutern. Die Ebene der Geräusche lässt sich in sogenannte Atmos und Sound-Effekte gliedern. 10.2.1 Gestaltung der Sprache

Die Stimmung einer Person drückt sich in der Sprache aus.

Als wohl wichtigstes Mittel zur menschlichen Kommunikation wirkt Sprache zunächst vor allem auf der vierten der in Kapitel 1.10 beschriebenen Wirkungsebenen und erhält als Lautereignis ihre Bedeutung vor allem aufgrund von Konvention. Es werden aber auch alle anderen Ebenen ebenso angesprochen. Beispielsweise können aus dem Klang der Sprache bzw. aus der Stimmqualität Rückschlüsse auf das Geschlecht oder das ungefähre Alter einer Person gemacht werden. Im wahrsten Sinne des Wortes hören wir auch die aktuelle Stimmung der sprechenden Person. Wir erkennen im Klang der Stimme sofort, ob jemand fröhlich, wütend, aggressiv oder traurig ist. Ein genaues Studium spezifischer Stimmqualitäten ist für das Audiodesign auch deshalb von enormer Wichtigkeit, da die jeweils assoziierte


10.2 Die Ebenen der Tonspur

241

Stimmung und Bedeutung intuitiv verstanden und großteils zumindest Auch bei fremden indirekt auch auf andere mit ähnlichen Klangattributen gestaltete akusti- Sprachen wirken sche Ereignisse übertragen werden können. Auch wenn man einer Spra- zumindest Symbol- und che nicht mächtig ist und daher den Inhalt einer Aussage nicht versteht, Informationsgehalt. ist es meist problemlos möglich, Emotion und Intention zu erfassen. Beispielsweise erkennen wir an der Art der Sprache im Radio sofort, ob es sich um Nachrichten, Werbung oder die Hitparade handelt. Wir hören auch bei fremdsprachiger Konversation ob jemand streitet, ängstlich nachfragt, dringend zu einer Handlung auffordert usw. Im Buch „Speech, Music, Sound“ gibt Theo von Leeuwen zwar eine Die Zusammenhänge sehr gute Übersicht über die dabei wirksamen semantischen Potenziale, von geistiger und es besteht aber nach wie vor ein Mangel an deren systematischer Erfor- körperlicher Aktivität spiegeln sich im Klang schung vor allem in Hinblick auf Einsatzmöglichkeiten in der akustider Stimme. schen Mediengestaltung. Wichtig ist der Zusammenhang zwischen geistiger und körperlicher Aktivität mit den resultierenden akustischen Ereignissen. Beispielsweise führt geistige Anspannung aufgrund von Wut, Stress, Aggression, Nervosität etc. im Allgemeinen auch zu einer entsprechenden Reaktion des Körpers. Werden die Muskeln aus diesem Grund angespannt, so führt das u.a. zu geänderten akustischen Bedingungen im Mund-Nasen-Rachen-Raum, die unweigerlich mit einem anderen Klang der Stimme gekoppelt sind. Derart angespannte Stimmen klingen vergleichsweise lauter bzw. energetischer, heller bzw. schärfer und dichter. Das Sprachtempo ist höher und der Unterschied zwischen betonten und unbetonten Silben wird stärker, was zu einem markanten Sprachrhythmus führt. Bei völliger Entspannung wird die Stimme hingegen ruhiger, etwas tiefer, weicher, langsamer und der Sprachrhythmus ist weniger ausgeprägt und unregelmäßiger. Um Seriosität auszustrahlen sollen Emotionen in unserer Gesellschaft möglichst verborgen bleiben. Die Stimmen von Nachrichtensprechern versuchen daher, möglichst neutral zwischen den für An- bzw. Entspannung beschriebenen Polen zu bleiben. Sprachrhythmus und -melodie sind bei mittlerem Tempo und mittlerer Stimmlage bewusst monoton gehalten. Aktivierende, auffordernde Äußerungen sind im Allgemeinen mit aufsteigenden Tonhöhen, schneller werdenden Tempi etc. verknüpft, während abschließende, bestätigende, zustimmende Äußerungen tendenziell mit absteigenden bzw. langsamer werdenden Verläufen der  Siehe Webseite Parameter einhergehen. () zum Buch In jedem Fall ist es für die akustische Gestaltung von Sprache wichtig, die gesamte stimmliche Ausdruckspalette, wie sprechen, flüstern, schreien, brüllen, stöhnen, krächzen etc. mit ihren möglichen Wirkungen richtig einzuschätzen und entsprechend zu nützen. Bei der Wahl des Sprechers muss sorgfältig vorgegangen werden, da dabei der Grund-


242

10 Akustische Mediengestaltung charakter der Stimme, die besondere Klangfarbe und das Volumen, die Tonlage bzw. die Grundfrequenz festgelegt werden. Bevor Sprachaufnahmen durchgeführt werden, müssen unbedingt genaue Vorstellungen über den Klang und Ausdruck der Stimme entwickelt, besprochen und während der Aufnahme auch eingefordert werden. Natürlich müssen auch die technischen Rahmenbedingungen, wie Mikrofontyp, Abstand und Winkel zum Mikrofon, Aufnahmeraum etc. darauf abgestimmt und sorgfältig ausgewählt werden. Lange Monologe sollten nach Möglichkeit vermieden werden. Falls nicht darauf verzichtet werden kann, soll der Text nach Möglichkeit auf mehrere Sprecher verteilt oder aus unterschiedlichen Raumperspektiven präsentiert werden, um für Abwechslung zu sorgen. 10.2.2 Gestaltung der Atmo

Eine Geräuschkulisse, die für einen bestimmten Ort und eine bestimmte Zeit typisch ist, wird Atmo genannt.

Die Atmo soll gezielt, den Anforderungen der Produktion folgend gestaltet werden.

Unter einer Atmo werden jene Hintergrundgeräusche verstanden, die für die akustische Wahrnehmung einer Umgebung charakteristisch sind. Typisch sind zum Beispiel Atmos von Bars und Restaurants, von Spielplätzen, Bahnhöfen, Flughäfen, stark befahrenen Straßen, Büros, Wiesen und Wäldern, usw. Im Alltagsleben wird diesen Geräuschkulissen im Hintergrund kaum Aufmerksamkeit geschenkt. Trotzdem oder gerade wegen ihrer unterschwelligen, unbewussten Wahrnehmung prägen sie die von den entsprechenden Orten ausgehende bzw. dort empfundene Stimmung ganz entscheidend mit und sind für die Gesamtwirkung einer Medienproduktion von großer Bedeutung. Auch wenn auf Aufnahmen von Atmos an Originalschauplätzen keinesfalls verzichtet werden darf und dafür vor allem auch genügend Zeit eingeplant werden muss, genügt es im Allgemeinen nicht, diese Aufnahmen unbearbeitet in eine Medienproduktion zu übernehmen. Vielfach wird die Atmo gezielt gestaltet und in einer AudioeditingSoftware aus mehreren unterschiedlichen Spuren zusammengesetzt, um eine vollere oder dichtere akustische Umgebung zu erzielen. Oft ist es auch sinnvoll, weitere für Zeit und Ort besonders charakteristische akustische Ereignisse so in die Tonspur zu integrieren, dass sie als Teil der Atmo wahrgenommen werden, um dadurch lebendigere, abwechslungsreichere akustische Umgebungen darzustellen. In einigen Fällen kann es auch sinnvoll sein, durch vorsichtiges Resampling die Atmo größer erscheinen zu lassen. Bei der Gestaltung der Atmo sind zwei gegenläufige Anforderungen zu beachten. Einerseits soll eine hohe Differenzierung und Individualisierung angestrebt werden, die große Vielfalt akustischer Umgebungen in Stadt, Land und Natur gerecht wird und die großen Veränderungen


10.2 Die Ebenen der Tonspur berücksichtigt, die Atmos im Laufe der Tages- und Jahreszeiten auch an ein und dem selben Ort erfahren. Andererseits wird vielfach auch eine stereotype, klischeehaft gestaltete Atmo gefordert, die dann innerhalb einer Medienproduktion dazu beiträgt, dass Zeit und Ort der Handlung möglichst rasch und unmissverständlich verdeutlicht werden. Wie Barbara Flückiger in ihrem Buch „Sound Design“ darlegt, wird beispielsweise vor allem in TV-Serien und im Mainstream-Kino „Nacht“ fast immer durch zirpende Grillen und in der Ferne bellende Hunde in der Atmo dargestellt.

243 Differenzierung und Generalisierung können bei der Gestaltung der Atmo in gleicher Weise eine wichtige Rolle spielen.

10.2.3 Gestaltung von Sound-Effekten Geräusche, die eine stärkere Verbindung zu den Bildern oder zur Story haben und daher nicht einfach der jeweiligen Atmo zugeordnet werden können, werden als Sound-Effekte bezeichnet. Meist wird zwischen Hardund Soft-Effects unterschieden. Dabei werden unter Hard-Effects Geräusche verstanden, die ganz synchron zu einem im Bild sichtbaren Ereignis gesetzt werden müssen. Beispiele hierfür sind Schüsse und Explosionen, zerbrechendes Glas, Hammerschläge, Schritte, usw., deren Geräuschquellen im Bild sichtbar sind. Soft-Effects müssen hingegen nicht exakt synchronisiert werden. Dies trifft vor allem auf Geräusche zu, deren Quellen nicht oder nur schemenhaft erkennbar sind:

Sound-Effekte weisen einen engeren Bezug zu Inhalt und Handlung auf als die Geräusche der Atmo.

Alle AlleGeräusche Geräuschesind sindinteressant, interessant,wenn wennman manihnen ihnennur nurrichtig richtigzuhört. zuhört. (John Cage) (John Cage) Gelegentlich werden Geräusche nach wie vor eher als notwendiges Beiwerk, das vor allem Realität suggerieren soll, betrachtet, obwohl die sogenannte Emanzipation des Geräuschs oft zitiert wird. Da Geräuschen definitionsgemäß keine eindeutige Tonhöhe zugewiesen werden kann, kommt ihrer Klangfarbe eine besondere Bedeutung zu. In der Vergangenheit wurde der Gestaltung der Klangfarbe oft erstaunlich wenig Beachtung geschenkt. Lange war beispielsweise die Organisation von Tonhöhen, Lautstärken oder Zeitstrukturen wie Rhythmus und Form in der Musik von wesentlich größerer Bedeutung. Die Frage, wie ein Stück klingen, mit welchen Instrumenten etwas gespielt werden soll, spielte im Vergleich dazu eine untergeordnete Rolle. Dabei kann gerade die Klangfarbe auch in kürzester Zeit große Wirkung erzielen, Emotion genauso wie Information übermitteln. Vergleichbar mit der Farbpalette in der Malerei stellen die unterschiedlichen Klangfarben von Geräuschen quasi das unteilbare Ausgangsmate-

Geräusche sind wesentlich mehr als notwendiges Beiwerk. Sie machen einen hohen Prozentsatz der akustischen Wahrnehmung aus. Gezielte Auswahl undbewussteGestaltung sind Voraussetzungen für hochwertiges Audiodesign.


244

10 Akustische Mediengestaltung rial für jede akustische Gestaltung dar. Im Gegensatz zu Melodien, Akkordfolgen oder Rhythmen verfügt die Klangfarbe zunächst noch über keine bewusst gestalteten Strukturen, die im Wahrnehmungsprozess auf rationaler Ebene ausgewertet werden müssen. Daher wird sie zwar häufig unbewusst, dafür aber ganz unmittelbar und direkt oft auf emotionaler Ebene wahrgenommen und erlebt. Die vor allem daraus resutlierende Schwierigkeit der verbalen Beschreibung von Klangfarbe wurde bereits in den Abschnitten 1.3.9 und 5.4 diskutiert. Die sorgfältige Auswahl an Soundeffekten verbunden mit einer detailreichen Gestaltung ist daher umso wichtiger: Das Eigentliche bleibt unsagbar. Unsagbar. Aber nicht ungestaltbar. (Angela Krauß, in den Frankfurter Poetikvorlesungen, 2004)

Ein eigenständiger, charakteristischer Sound ist ein wichtiger Qualitätsfaktor für ein Medienprodukt.

Beginnend mit den immer ausgefeilteren Instrumentierungen in der romantischen Orchestermusik, über die Klangfarben- bzw. Klangflächenkomposition in der Neuen Musik der 1960er Jahre, der Verwendung von synthetischen Klängen in der Unterhaltungsmusik bis zum Einsatz von beliebigen digital gespeicherten akustischen Ereignissen mit Hilfe der Samplingtechnik ist die Bedeutung der Klangfarbe in der akustischen Gestaltung mittlerweile stark gestiegen. In einigen Stilen der elektronischen Dance-Music scheint die Klangfarbe sogar im Zentrum des Interesses zu stehen, wenn etwa bei Drum & Bass oder auch im experimentellen Techno auf Harmonieverläufe und Melodien zugunsten von Rhythmen verzichtet wird, die mit ausgefeilten Sounds gespielt werden. In Pop, Rock oder Jazz stellt der eigenständige, charakteristische Sound der Sängerin bzw. der gesamten Band unbestritten einen ganz wesentlichen Qualitäts- und Erfolgsfaktor dar. Nur wenn Songs von charismatischen Interpreten mit unverwechselbaren, kaum nachzuahmenden Stimmen und Instrumentalklängen vorgetragen werden, wie dies beispielsweise bei Stars mit anhaltendem weltweitem Erfolg der Fall ist, erzielen diese die gewünschte Wirkung. Erfolgreiche Popsongs werden auch Jahre nach ihrem Erscheinen meist schon nach dem Bruchteil einer Sekunde erkannt, obwohl sich Rhythmus und Melodie in der kurzen Zeit noch gar nicht etablieren konnten. Einzig der charakteristische Sound ermöglicht es, einen Song von vielen anderen eindeutig zu unterscheiden und sich auch jahrelang daran zu erinnern. Ähnliches gilt für gut gemachte Soundeffekte aus diversen Filmen, wie zum Beispiel das Laserschwert aus George Lucas „Star Wars“ oder dem Sound der Mundharmonika in „Once Upon a Time in the West“ („Spiel mir das Lied vom Tod“).


10.2 Die Ebenen der Tonspur Lyrics wie „Rauch auf dem Wasser, Feuer im Himmel“ erscheinen eigentlich nicht gerade dazu geeignet, die Massen zu begeistern, und auch Melodie und Rhythmus vieler Songs sind nicht gerade unverwechselbar. So hat es ein Welthit wie „Smoke on the water“ wohl vor allem dem ganz speziellen Sound von Deep Purple zu verdanken, dass man auch Jahrzehnte nach dem Erscheinen meist schon während des ersten Taktes das Mitklopfen oder gar Mitsingen beginnt. Umgekehrt verlieren Songs ohne diesen charakteristischen Sound mitunter rasch an Wirkung, wenn beispielsweise beim Karaokesingen versucht wird, die Vorbilder zu imitieren. Auch in Film und Fernsehen soll im Allgemeinen ein vergleichbarer, die Gesamtheit der Produktion umspannender charakteristischer Sound erzielt werden. Dies zeichnet kommerziell erfolgreiche Produkte, wie beispielsweise die seit 2000 laufende US-amerikanische Krimiserie „CSI“, Andy und Larry Wachowskis „The Matrix“ oder Francis F. Coppolas „Apocalypse Now“ genauso aus, wie Filme mit hohem künstlerischen Anspruch, wie zum Beispiel Andrei Tarkowskis „Stalker“, Rainer Werner Fassbinders „Ehe der Maria Braun“ und viele andere. Eine differenzierte, detailreiche Gestaltung der einzelnen SoundEffekte leistet einen entscheidenden Beitrag zu einem derartigen charakteristischen Gesamtsound, der zur unverwechselbaren Identität des Medienprodukts beiträgt, einen hohen Wiedererkennungswert erzielt und lange in Erinnerung bleibt. Zu den wichtigsten Gestaltungsmitteln zählen der  Siehe Webseite zum Buch selektive Geräuscheinsatz, Keysounds und Larger-than-Life-Sounds. () Beim selektiven Geräuscheinsatz wird die akustische Umwelt fast vollständig ausgeblendet und dadurch die Aufmerksamkeit auf besondere Sound-Effekte gelenkt. Auf diese Weise können auch sonst kaum hörbare, ganz feine und leise Geräusche in den Vordergrund rücken. Einzelne Geräusche können dann gleichsam wie Kammermusik arrangiert werden. Ein berühmtes Beispiel für eine derartige Vorgangsweise ist die Anfangsszene aus „Once Upon a Time in the West“. Als Keysounds werden Sound-Effekte bezeichnet, die nahezu klischeehaft schon nach einem Bruchteil einer Sekunde mit bestimmten Zeiten, Orten, Situationen oder Handlungen assoziiert werden und dadurch die Szenerie und die Narration eines Medienprodukts verdeutlichen können. Eher selten stehen Keysounds als Hard-Effect im akustischen Vordergrund. Meist sind sie als Soft-Effekt oder auch als Teil der Atmo zu hören. Beispielsweise stehen Glocken für Kirche, Religion und Glaube, Sirenen und Propellerflugzeuge für Krieg, Tippen auf einer Tastatur und Telefonklingeln für Büroarbeit usw. Larger-than-Life-Sounds werden Sound-Effekte genannt, die bewusst überzeichnet dargestellt werden, damit sie größer oder mächtiger erscheinen, dringlicher, bedrohlicher, gefährlicher etc. wirken.

245


246

10 Akustische Mediengestaltung 10.2.4 Gestaltung der Musik

Film- oder Medienmusik stellt sich ausschließlich in den Dienst des Produkts.

Die Ebene der Musik wird im Allgemeinen in Source-Music und Filmbzw. Medienmusik weiter unterteilt. Von Source-Music oder auch OnMusik wird gesprochen, wenn die Quelle – ein Radio, ein Straßenmusikant, ein Orchester, ein vor sich hin singender oder pfeifender Passant, usw. – im Bild sichtbar oder zumindest verifizierbar ist. Die Musik soll realistisch und authentisch wirken. Ihre Klangqualität muss daher an den im Bild erkennbaren Raum und die Wiedergabebedingungen angepasst werden. Beispielsweise klingt ein und derselbe Song aus dem Radio im fahrenden Auto völlig anders als aus einem Küchenradio oder einer qualitativ hochwertigen HiFi-Anlage im Wohnzimmer. Selbstverständlich darf die Auswahl von Source-Music keinesfalls dem Zufall überlassen werden, sondern muss passend zur Handlung, zur Zeit, zur Umgebung etc. getroffen werden. Die eigentliche Film- oder Medienmusik steht meist nicht unmittelbar mit der Handlung in Verbindung. Es handelt sich um funktionale Musik, die nicht um ihrer selbst willen erklingt, sondern sich ausschließlich in den Dienst des Medienprodukts stellen und dessen Gesamtwirkung unterstützen soll. Daher kann auch die Qualität von Film- und Medienmusik immer nur im Gesamtkontext des Medienprodukts bewertet werden. Entscheidend ist die Frage, welche Funktionen die Musik im Medienprodukt übernehmen und welche Wirkungen sie erzielen soll. Umfassende Darstellungen der konzeptionellen und gestalterischen Möglichkeiten von Medienmusik geben beispielsweise Claudia Bullerjahn in ihrem Buch „Grundlagen der Wirkung von Filmmusik“ und Enjott Schneider in mehreren Büchern über Musik für Film und Fernsehen. Hier sollen nur die wichtigsten Aspekte kurz zusammengefasst werden. Schon lange vor der Premiere von „The Jazz Singer“, dem ersten abendfüllenden Tonfilm im Jahr 1927 wurden Stummfilme mit Musik begleitet. Während narrative und dramaturgische Möglichkeiten kontrovers diskutiert und erst nach und nach entdeckt und erprobt wurden, waren zunächst vor allem rezeptionspsychologische Gründe für die musikalische Begleitung von Stummfilmen ausschlaggebend. Musik sollte verhindern, dass das Publikum im damals noch ungewohnten Ambiente eines völlig abgedunkelten Saals ängstlich wird. Außerdem verdeckte Musik das laute Knattern der Filmprojektoren. Auch heute werden gelegentlich mit Medienmusik Ziele verfolgt, die außerhalb der eigentlichen filmischen Wirkung liegen. Allerdings stehen dabei dann vor allem ökonomische Interessen im Vordergrund, wenn zum Beispiel ein Titelsong einer bekannten Band den Film zusätzlich bewerben soll.



247

Funktionen von Medienmusik Die Funktionen von Medienmusik im eigentlichen Sinn lassen sich in fol Siehe Webseite gende vier wichtige Kategorien einteilen: () zum Buch ï dramaturgische Funktionen ï epische bzw. narrative Funktionen ï strukturelle Funktionen ï persuasive Funktionen Dramaturgische Funktionen von Medienmusik dienen der Unterstützung des Spannungsverlaufs, wie das bei Action- oder Kriminalfilmen häufig zu beobachten ist. Hohe tremolierende, „zitternde“ Geigen, Drones – also liegende Bassklänge, rhythmusbetonte Musik mit hohem Tempo sind bekannte filmmusikalische Stereotypen, die selten ihre Wirkung verfehlen. Dass aber nicht unbedingt musikalische Klischees bedient werden müssen, um dramaturgische Wirkungen zu erzielen, zeigen beispielsweise Filme wie Alfred Hitchcocks „The Birds“ („Die Vögel“) oder Stanley Kubricks „A Space Odyssee“ („Odyssee im Weltraum“), die u.a. Avantgarde-Musik effektvoll einsetzen. Epische und narrative Funktionen von Medienmusik sollen im Allgemeinen Zeit und Ort der Handlung verdeutlichen. Dies gelingt vor allem mit instrumentalen oder stilistischen Klischees. So steht die Bouzouki für Griechenland, die Sitar und die Tabla für Indien, der Dudelsack für Schottland etc. Ältere Jazzstile sind ein häufiges Synonym für verrauchte Vorstadtkneipen, hingegen wird klassische Musik eher mit wohlhabendem Bürgertum assoziiert. Die Liste mit musikalischen Klischees lässt sich beliebig fortsetzen. Ein unachtsamer Einsatz wirkt rasch albern, jedoch können ein reflektierter, bewusster Umgang und eine dezente Verwendung einen wichtigen Beitrag zur Gesamtwirkung eines Medienprodukts leisten. Strukturelle Funktionen von Medienmusik sollen zum Beispiel Schnitte in der Bildebene verdecken oder betonen, indem sich ein Musikbogen über mehrere Cuts spannt oder ein starker Akzent in der Musik völlig synchron zum Schnitt gesetzt wird. Musik kann auch die Aufmerksamkeit auf eine besondere Kamera-Einstellung lenken, Bewegungen akzentuieren, Schnittfolgen beschleunigen etc. Musik kann auch zeitlich weiter auseinanderliegende Formteile zueinander in Beziehung setzen, indem beispielsweise ein markantes Motiv oder ein charakteristisches Instrument an bestimmten Stellen immer wiederkehrt und so eine strukturelle Klammer spannt. Persuasive Funktionen von Medienmusik sollen die Rezipienten in eine vorgegebene Richtung lenken. Beispielsweise gehört die Abbildung von

Klischees verdeutlichen Ort und Zeit der Handlung.


248

10 Akustische Mediengestaltung Emotionen und Stimmungen zu den häufigsten Zielen von Medienmusik. Wenn Filmszenen die Betrachter ganz plötzlich und meist ungewollt zu Tränen rühren, so spielt die Filmmusik dabei meist eine große Rolle. Die Musik kann aber auch aktivieren und stimulieren, um die Aufmerksamkeit zu erhöhen, oder beruhigend oder gar einschläfernd wirken, um vielleicht mit einer der nächsten Szenen umso mehr überraschen zu können. Filmmusiktechniken


Im Allgemeinen werde vier wichtige Kompositionsstrategien für Filmund Medienmusik unterschieden: () ï ï ï ï

Deskriptive Technik Mood-Technik Leitmotiv-Technik Montage-Technik

Die Deskriptive Technik, oft auch als Underscoring bezeichnet, zielt darauf ab, die Handlung bzw. die visuelle Ebene musikalisch nachzuerzählen. Dabei wird vor allem mit einer tonmalerischen und klangnachahmenden Vorgangsweise gearbeitet. Auffallende Ereignisse im Bild werden mit entsprechenden Akzenten in der Musik versehen. Bekannt ist diese Technik vor allem aus der Stummfilmzeit. Der Schlag auf die Pauke beim Fall von der Leiter wäre ein Beispiel dafür. Der bewusste Einsatz von instrumentalen und stilistischen Klischees und Konventionen spielt eine wichtige Rolle. Bei der Mood-Technik wird ähnlich vorgegangen wie beim Underscoring, allerdings werden Stimmungen und Emotionen statt Handlung und Bild musikalisch abgebildet. Es spielen dabei alle vier im Abschnitt 1.10 behandelten Wirkungs- und Bedeutungsebenen eine Rolle, Klangfarbe, Tempo und Rhythmus eher direkt im Bereich der ersten drei Ebenen. Die Wirkung von Melodie und Harmonie ist stärker von gesellschaftlichen Konventionen und kulturellen Prägungen abhängig. Der Informationsgehalt berücksichtigt den Zusammenhang zwischen bestimmten Emotionen mit Bewegungen und körperlichem Ausdruck. Hopst man beispielsweise fröhlich und ausgelassen herum, so sind die Bewegungen relativ schnell und etwas unregelmäßig, was sich in einem synkopischen Rhythmus und vielen Sprüngen in der Melodie ausdrückt. Bei aktivierenden Handlungen zu Beginn eines Ereignisses oder bei triumphierenden, jubelnden Gesten und großer Freude richtet man sich im Allgemeinen auf, streckt den Körper, reißt die Arme in die Höhe etc. Derartige Körper-



249

bewegungen sind mit aufsteigenden Intervallen oder Melodie assoziiert. Hingegen bringt der müde, gelangweilt oder traurig in sich zusammengesunkene Körper eher langsame, gleichmäßige, etwas schleppende, absteigende musikalische Linien hervor. Der Symbolgehalt berücksichtigt die Assoziationen, Erinnerungen und Vorerfahrungen. Selbstverständlich werden auch zahlreiche filmmusikalische Konventionen und Klischees zur Verdeutlichung von Emotionen und Stimmungen eingesetzt. Die Leitmotiv-Technik wurde bereits von Richard Wagner propagiert und in spätromantischen Opern eingesetzt. Leicht erkennbare musikalische Motive werden dabei entweder den handelnden Personen oder auch bestimmten (Gefühls-)Inhalten zugeordnet. Diese Technik wird beispielsweise von John Williams, einem der gegenwärtig erfolgreichsten Filmkomponisten Hollywoods, häufig eingesetzt. Nicht nur die Leitmotiv-Technik ist in orchestralen Filmscores oft präsent, sondern auch was Melodik, Harmonik oder Rhythmik angeht, ist die spätromantische Orchestermusik als Vorbild fast immer präsent. Bei der Montage-Technik wird versucht, die Musik aus mehreren vergleichsweise einfach gehaltenen melodischen und rhythmischen Phrasen, sogenannten Patterns aufzubauen. Mit einem Baukasten vergleichbar, können diese Patterns beliebig wiederholt und frei kombiniert werden. Diese Technik ist stark von der sogenannten Minimal-Music beeinflusst, weshalb auch einige ihrer Vertreter wegweisend für diese Filmmusiktechnik sind, wie beispielsweise Michael Nyman mit der Musik zu Filmen von Peter Greenaway oder dem Score zu Jane Campions „The Piano“ oder Phil Glass mit der Filmmusik zu „Koyaanisqatsi“, „The Truman Show“, „The Hours“ und vielen anderen. Wichtige Kategorien von Medienmusik Da die Einsatzmöglichkeiten von Medienmusik sehr vielseitig sind und sich daraus jeweils unterschiedliche Richtlinien vor allem für die formale und dramaturgische Gestaltung ergeben, empfiehlt sich eine Einteilung in Kategorien. Eine kurze, signalartige Erkennungsmusik – beispielsweise am Anfang einer Werbung oder Sendung – wird als Jingle bezeichnet. Unter einem Musikteppich werden Klangflächen, rhythmische Muster etc., die ohne nachvollziehbaren Bezug zu Bild oder Text eingeblendet werden, verstanden. Solche Musikteppiche werden häufig den Schlagzeilen bei Unterhaltungssendern, manchen Werbungen, der Ziehung der Lottozahlen und dergleichen unterlegt. Die meist kurzen, eher signalartigen Musiktakes am Beginn von Fernsehserien heißen Signation, Vorspann- oder

Ein Jingle ist eine kurze, signalartige Erkennungsmusik.


250

10 Akustische Mediengestaltung Titelmusik. Das erste, oft etwas längere Musikstück bei Kino- oder Fernsehfilmen wird Einleitungsmusik, gelegentlich aber auch Vorspannmusik, genannt. Unter Illustrationsmusik wird die nicht diegetische, also nicht in der Handlung klingende, aus dem Off kommende Musik verstanden, die – als eigentliche Filmmusik – meist eine bestimmte Stimmung verdeutlichen bzw. vermitteln soll. Musik, die aus dem On zu hören ist oder zumindest in direktem Zusammenhang mit dem Bildinhalt in Verbindung gebracht werden kann, wird als Szenenmusik oder Source-Musik bezeichnet. Unter Melodram-Musik versteht man ein meist ruhiges Musikstück zur Grundierung bzw. Emotionalisierung von Dialogen. Ein eher kurzes überleitendes Musikstück, das zwei aufeinanderfolgende Szenen miteinander verbinden soll, wird Brücke bzw. Bridge genannt. Chase-Music oder auch Action-Music bezeichnet die meist sehr rasche und rhythmusbetonte Musik zu aktionsgeladenen, bewegten Szenen. Eine Bewegungsmusik mit sehr vielen Synchronpunkten zum Bild, aufgrund der die bewegte Figur wie eine musikgesteuerte Marionette wirkt, heißt auch Mickey-Mousing. Mit Highlightning wird im Allgemeinen eine Kompositionstechnik bezeichnet, die das Musikstück einem klaren Höhepunkt zustreben lässt, dann jedoch plötzlich und unvorbereitet abbricht, um mit der entstehenden spannungsvollen Stille auf eine wichtige Handlung aufmerksam zu machen. Musik die einem Höhepunkt zustrebt, der sich aber als Finte herausstellt, die also auf eine falsche Fährte lockt, wird auch Red Herring genannt.

10.3 Gestaltung übergeordneter Strukturen Das Ganze ist mehr als die Summe seiner Teile!

Wie bereits im Abschnitt 1.2 erklärt, nehmen wir unsere Umwelt nicht als Summe von isolierten Einzelereignissen wahr, sondern erleben diese gestaltet und gegliedert. Mehrere, einer bestimmten Sinneswahrnehmung zugeordnete Einzelelemente werden nach verschiedenen, von der Gestaltpsychologie erforschten Kriterien zu übergeordneten Strukturen zusammengesetzt. Zum Beispiel werden bei einem Dreieck eben nicht einfach drei isolierte Striche wahrgenommen. Genauso werden bei Musik nicht Einzeltöne, sondern verschiedene musikalische Strukturen – Melodien, Rhythmen, Harmonien, etc. – wahrgenommen. Dabei entsteht durch die Zusammensetzung der Einzelteile eine neue, der übergeordneten Struktur zugeordnete, sogenannte Gestaltqualität. Diese beschreibt die Beziehung der Teile zueinander und nicht die Teile selbst. Die Gestaltqualität kann also auch dann noch erhalten bleiben, wenn die Einzelereignisse verändert werden. Die Wahrnehmung eines Dreiecks ist keineswegs von der Größe oder der Art und der Dicke der


10.3 Gestaltung übergeordneter Strukturen

251

Abb. 10.1 Gestaltqualität am Beispiel Dreieck

Linien abhängig. Eine Melodie wird auch dann erkannt, wenn sie langsamer oder höher oder lauter, mit Geige oder Flöte vorgetragen wird. Die Bedingungen, deren Erfüllung zur Zusammenfassung von Einzelelementen zu einer übergeordneten Struktur führen, werden als Kohärenzfaktoren oder Gestaltkriterien bezeichnet. Sie sind – freilich jeweils in an die Sinneswahrnehmung angepasster Form – sowohl für die visuelle, als auch für die akustische Wahrnehmung gültig. Ein wesentlicher Unterschied scheint sich aber aufgrund des für akustische Ereignisse ganz wesentlichen Faktors Zeit zu ergeben, da die Gestaltkriterien beim Hören eben nicht nur in Hinblick auf gleichzeitig wahrnehmbare Schallsignale wirksam werden, sondern vor allem auch die dynamische Entwicklung berücksichtigen müssen. Die Wahrnehmung komplex zusammengesetzter akustischer Ereignisse erfolgt demnach in sogenannten Streams, einer übergeordneten Struktur aus mehreren akustischen Einzelereignissen, die aufgrund der Koheränzfaktoren zusammengefasst werden. Im Audiodesign spielen akustische Streams und somit auch die bei ihrer Bildung wirksamen Gestaltkriterien in doppeltem Sinn eine wichtige Rolle. Einerseits müssen sie bei der Gestaltung übergeordneter Strukturen – Melodien, Rhythmen, zusammengesetzte Geräuscheffekte, etc. – wirksam werden, damit die Einzelereignisse auch tatsächlich als zusammengehörend empfunden werden. Andererseits müssen sie in anderen Fällen bewusst vermieden werden, damit nicht Einzelklänge oder auch bestehende Streams versehentlich zu einer neuen übergeordneten Struktur zusammengefasst werden und statt der ev. erforderlichen dichten, aber trotzdem transparenten Tonmischung ein nicht durchhörbarer akustischer Einheitsbrei erklingt. In der weiteren Folge sollen die wichtigsten Gestaltkriterien  Siehe Webseite zum Buch kurz erklärt werden. ()


252

10 Akustische Mediengestaltung 10.3.1 Nähe Elemente, die zeitlich oder räumlich oder in ihrer Frequenz nahe beieinander liegen, werden zu einer Gestalt verbunden. Ein wichtiges Beispiel ist die Wahrnehmung von Akkorden bei gleichzeitig erklingenden Tönen. Um bei der Mischung oder im Arrangement Transparenz sicherzustellen, wird das Kriterium der Nähe oft bewusst vermieden. Die unterschiedlichen Elemente werden durch geeignete Einstellungen am Equalizer im Frequenzspektrum getrennt. Die Verteilung der Elemente im Stereopanorama ermöglicht ebenfalls eine getrennte Wahrnehmung der Einzelelemente. 10.3.2 Gleichheit oder Ähnlichkeit Ähnliche Elemente werden im Vergleich mit zeitlich oder räumlich gleichweit entfernten aber weniger ähnlichen Elementen als zusammengehörig empfunden. Dieses Kriterium ermöglicht die rhythmische Strukturierung von Musik durch das Wechseln von Bass- und Snare-Drum. Entscheidend ist der Faktor der Gleichheit oder Ähnlichkeit auch für die Bildung von Melodien, die ja im Allgemeinen in Tonschritten oder kleinen Sprüngen fortschreiten und daher nur geringe Unterschiede in den Frequenzen benachbarter Töne aufweisen. Wird hingegen permanent zwischen hohen und tiefen Tönen gewechselt, so kann auch mit einem

Nähe Ähnlichkeit Kontinuität Geschlossenheit Zusammengehörigkeit Abb. 10.2 Wichtige Gestaltkriterien


10.3 Gestaltung übergeordneter Strukturen einzigen Instrument durchaus der Eindruck einer zweistimmigen Melodie vermittelt werden. Im Allgemeinen hat die Klangfarbe größere Bedeutung für die Wahrnehmung von Ähnlichkeit als die Tonhöhe. Zwei zur gleichen Zeit gespielten Töne eines Klaviers mit unterschiedlicher Grundfrequenz werden eher als ein Klangobjekt wahrgenommen als zwei Töne von Flöten und Klavier mit der gleichen Grundfrequenz. Auch bei der Wahrnehmung von Alltagsgeräuschen spielt das Kriterium der Ähnlichkeit eine Rolle: Das wiederholte Geräusch eines auf den Boden tretenden Schuhs wird deswegen beispielsweise als Schallereignis „Schritte“ wahrgenommen. Die Schrittgeräusche von zwei gleichzeitig vorbeigehenden Personen werden aufgrund der Ähnlichkeit im Allgemeinen in zwei Streams getrennt. Auch bei zwei gleichzeitig sprechenden Menschen wird das Kriterium wirksam. 10.3.3 Kontinuität Elemente, die eine Fortsetzung vorausgehender Elemente oder einer bestimmten Entwicklung derselben zu sein scheinen, werden als zusammengehörig empfunden. Wurde also in einer Folge von Elementen eine bestimmte Entwicklung wahrgenommen, so ist deren Fortsetzung ein wichtiges Kriterium für das Erkennen einer übergeordneten Struktur. Lauter oder leiser werden, ansteigende oder wechselnde Tonhöhe, Steigerung des Tempos, etc. könnten solche Entwicklungen aufeinanderfolgender akustischer Ereignisse sein. 10.3.4 Geschlossenheit Teile, die eine aus der Erfahrung bekannte Figur erahnen lassen, werden als zusammengehörig empfunden. Im Allgemeinen werden die fehlenden Teile gedanklich ergänzt, und die Figur wird als vollständig empfunden. Es werden beispielsweise nicht einzelne Sprachlaute, sondern Wörter und Sätze gehört. Einzelne fehlende Laute, Silben oder gar Wörter beeinflussen die Verständlichkeit meist nur unwesentlich. Ähnliches gilt für melodische oder rhythmische Fragmente. 10.3.5 Zusammengehörigkeit Ein Objekt kann immer nur zu einer Struktur gehören. Beispielsweise kann ein akustisches Ereignis nicht gleichzeitig von zwei verschiedenen Quellen stammen. Wurden zwei oder mehr Elemente als zusammengehörende Struktur wahrgenommen, so bleibt diese so lange erhalten, bis

253

Die Klangfarbe hat größere Bedeutung für die Wahrnehmung von Ähnlichkeit als die Tonhöhe.


254

10 Akustische Mediengestaltung ein äußeres Ereignis oder ein hinzukommendes Element diese Wahrnehmung als unglaubwürdig erscheinen lässt und so eine Änderung erzwingt.

10.4 Die Mischung der akustischen Ebenen

See a dog, hear a dog?

Der selektive Einsatz akustischer Elemente ist ein wichtiges Gestaltungsmittel!

Dichte und Transparenz sind wichtige Faktoren für eine gute Mischung!

Fehlende Elemente werden gedanklich ergänzt!

Die richtige Mischung der verschiedenen Ebenen einer Tonspur zählt zu den wichtigsten Aufgaben im Audiodesign, und das Ergebnis ist ein entscheidendes Qualitätskriterium für die gesamte Produktion. Selbstverständlich sind dabei auch viele technische Aspekte zu behandeln, die bereits in vorangegangenen Kapiteln behandelt wurden. Ganz wichtig für das Gelingen sind die Fragen nach der notwendigen Dichte und der erreichten Transparenz. Der oft zitierte Leitsatz „See a dog, hear a dog!“ stellt sich oft als trügerisch heraus. Der Versuch, alle im Bild sichtbaren oder zum Kontext der Handlung gehörenden, aber sich im Moment außerhalb des sichtbaren Bildausschnitts befindlichen Schallquellen auch hörbar zu machen, führt meist zu einem Gewirr von Schallereignissen, das kaum mehr Aussagekraft hat als weißes Rauschen und zusätzlich die Verständlichkeit der Sprache zumindest gefährdet. Eine gezielte Auswahl von Geräuschen und Musik ist also meist unabdingbar. Wie bereits im Abschnitt 10.2.3 angemerkt, führt oft gerade die bewusste Reduktion komplexer akustischer Szenen auf ganz wenige Geräusche, die sich im geschickten Wechselspiel quasi musikalisch ergänzen und dabei die ihnen eigenen klanglichen und symbolischen Qualitäten voll entfalten können, zu überaus effektvollen, spannenden, berührenden Momenten. Zweifellos gibt es in jedem Medienprodukt aber auch Szenen, die eine hohe Dichte unterschiedlicher akustischer Elemente in der Tonspur erfordern. Ein sich aus dramaturgischen Gesichtspunkten ergebendes Wechselspiel der Elemente und der daraus resultierende, abwechslungsreiche Dichteverlauf – oft gekoppelt mit Variationen in Tempo, Lautstärke, etc. – ist im Allgemeinen entscheidend für den Erfolg einer Tonspur. Allerdings darf dort, wo Dichte gefragt ist, keinesfalls auf die notwendige Transparenz verzichtet werden. Eine zentrale Frage bei der Ton-Mischung ist also, welche akustischen Ereignisse für das Erzielen der gewünschten Dichte unbedingt notwendig sind bzw. welche weggelassen werden können. Wesentlich ist dabei die gemeinsame Wahrnehmung einzelner Elemente als übergeordnete Strukturen aufgrund der verschiedenen Gestaltkriterien. Wurde eine bestimmte Musik, ein Rhythmus, ein Folge von Geräuschen als zusammengehörende Einheit etabliert, so kann diese für kurze


10.4 Die Mischung der akustischen Ebenen Zeit unterbrochen oder zumindest leiser gespielt werden, um einen wichtigen Sound-Effekt hörbar zu machen oder die Verständlichkeit eines Satzes zu sichern. Das kurzzeitig fehlende Element wird gedanklich ergänzt bzw. weitergeführt und die akustische Dichte der Szene bleibt erhalten. Dieses Weglassen bestimmter Elemente aus einer übergeordneten Wahrnehmungseinheit, um mehr Platz für andere Einheiten zu schaffen, funktioniert nicht nur im Zeit- sondern auch im Frequenzbereich. Viele Atmos füllen beispielsweise das gesamte hörbare Spektrum und treten in der Mischung daher oft in Konkurrenz mit Dialogen, Geräuscheffekten und Musik. Wird der Pegel der Atmo aus diesem Grund reduziert, so kann diese nicht mehr die volle Wirkung erzielen und die Tonspur verliert an Dichte und Authentizität. Daher ist es oft zielführend, statt einer vielschichtigen und breitbandigen Atmo-Aufnahme mehrere Elemente einzusetzen, die jeweils nur ein eingeschränktes Frequenzband beanspruchen. Die Umgebung einer stark frequentierten Kreuzung im Stadtzentrum ließe sich beispielsweise durch tieffrequente Motorengeräusche an- und abfahrender Autos kombiniert mit eher hochfrequenten Schrittgeräuschen, z.B. von Stöckelschuhen, ersetzen. Um auch in einer komplexen Mischung die notwendige Transparenz erhalten zu können, stellt sich die Frage, wie viele übergeordnete Strukturen simultan wahrnehmbar sind bzw. wann diese ihrerseits wieder zu größeren Einheiten zusammengefasst werden. Walter Murch, als einer der bedeutendsten und innovativsten Sounddesigner Hollywoods, unter anderem für den Sound in den Filmen „Apocalypse Now“ und „The English Patient“ verantwortlich, spricht von zweieinhalb getrennt wahrnehmbaren Strukturen. Demnach können die Worte zweier gleichzeitig sprechender Personen noch gehört und verstanden werden. Ab drei Personen werden die einzelnen Sprecher allerdings zu einer übergeordneten Einheit zusammengefasst. Anstatt einzelner Wörter und Sätze wird nun das Gemurmel einer sich unterhaltenden Gruppe wahrgenommen, dessen inhaltliche Bedeutung nicht mehr im Detail ausgewertet wird. Allerdings kann sich die Anzahl simultan wahrnehmbarer Strukturen dadurch erhöhen, dass manche akustischen Ereignisse vom menschlichen Gehirn vor allem auf rationaler, andere hingegen hauptsächlich auf emotionaler Ebene ausgewertet werden. Diesen beiden Qualitäten der Wahrnehmung werden bekanntlich auch die linke bzw. rechte Hemisphäre des menschlichen Gehirns zugeordnet. Murch unterscheidet demnach zwischen codierten und körperlichen akustischen Ereignissen. Bei Sprache handelt es sich um codierte Schallereignisse, die zweifellos primär die Ratio ansprechen. Sprachverständnis setzt die Kenntnis und Auswertung des zugrundeliegenden Codes, also der Vokabeln und der Grammatik voraus.

255

Nur zwei bis drei vergleichbare Strukturen können simultan wahrgenommen werden.

Codierte Schallereignisse werden primär rational wahrgenommen.


256

Abb. 10.3 Codierte und körperliche Schallsignale


Codierte Schallereignisse Codierte Geräusche

Sprache

Körperliche Schallsignale sprechen vorrangig die Emotion an.

Körperliche Schallereignisse Neutrale Geräusche

Rationale Wahrnehmung

Körperliche Geräusche Codierte SchallMusik ereignisse werden

Emotionale Wahrnehmung

Viele Arten von Musik zeichnen sich hingegen dadurch aus, dass sie unmittelbar wirken und von vielen Menschen auch ohne Vorwissen emotional gedeutet werden können. Selbstverständlich ist diese Generalisierung zu vereinfachend. Einerseits lässt sich die emotionale Befindlichkeit eines Sprechers auch dann zumindest erahnen, wenn seine Sprache nicht verstanden wird. Andererseits gibt es Musik, die sich erst nach einer rationalen Betrachtung erschließt und ein entsprechendes Vorwissen voraussetzt. Die meisten akustischen Ereignisse lassen sich freilich irgendwo zwischen diesen beiden Polen rationaler bzw. emotionaler Wahrnehmung einordnen. Viele Geräusch-Effekte vermitteln vor allem im Kontext der Handlung eine gewisse Botschaft und sind kulturell codiert. Als bedeutungstragende Zeichen werden sie also zumindest teilweise auf rationaler Ebene ausgewertet. Die rhythmische Struktur, die Lautstärke und die Klangfarbe von Schrittgeräuschen, lässt beispielsweise auf einen schlendernden, laufenden, stolzierenden, hopsenden, stolpernden, hastenden, humpelnden oder sich wie auch immer fortbewegenden Menschen schließen. Das akustische Ereignis „Schritte“ übermittelt somit in codierter Form Information über die Art der Fortbewegung und die physische und psychische Beschaffenheit der Person, die im Wesentlichen rational ausgewertet wird. Wichtige Beispiele für codierte Schallereignisse sind akustische Signale, wie Telefonklingeln, Autohupen, Folgetonhörner, Weckerläuten, usw. bei denen vor allem der Informationsgehalt von Bedeutung ist. Akustische Symbole bilden den Übergang von codierten zu körperlichen Klangobjekten, da sie einerseits eine gewisse Bedeutung vermitteln, aber andererseits bereits so im Bewusstsein verankert sind, dass sie instinktiv aufgenommen werden und keine besondere rationale Anstrengung erfordern. Wie stark der Symbolgehalt eines bestimmten akustischen Ereignisses ist, hängt wiederum sehr vom Kontext – der Kultur, der Ziel-


10.4 Die Mischung der akustischen Ebenen gruppe, dem Medium, dem Genre, etc. – ab. Ein bekanntes Beispiel wären Glockenklänge, die in der westlichen Kultur seit vielen Jahrhunderten ein vertrautes Symbol für Religion und Zeit darstellen. Auch manche Tierlaute wie das Rasseln einer Klapperschlange, der Ruf eine Eule oder das Heulen von Wölfen, bestimmte Maschinengeräusche wie das satte Brummen bestimmter Autos oder das Klappern alter Schreibmaschinen oder sogar Nebengeräusche wie das Rauschen und Knacksen alter Schallplatten können einen hohen symbolischen Wert aufweisen. Atmos sind als akustischer Hintergrund meist mehr oder weniger universell verständlich und wirken auf emotionaler Ebene ohne in ihren Details rational erfasst werden zu müssen. Sind nun die verschiedenen übergeordneten akustischen Einheiten gleichmäßig zwischen den beiden Polen der Wahrnehmung verteilt, so verdoppelt sich die Anzahl der simultan wahrnehmbaren Bedeutungseinheiten auf fünf, ohne dass dabei die angestrebte Transparenz der Mischung beeinträchtigt wird. Ungleichgewicht zwischen rationaler und emotionaler Wahrnehmung führt allerdings wieder zu einer entsprechenden Reduktion. Festgehalten werden muss, dass die Zuordnung eines bestimmten Schallsignals in den seltensten Fällen von Anfang an feststeht. Vielmehr wird diese Frage oft erst durch die konkrete Gestaltung einer Tonspur entschieden. Wichtige Einflussfaktoren sind das akustische Umfeld, also andere Schallereignisse, die kurz davor, danach oder gleichzeitig hörbar sind, und der jeweilige Kontext der Handlung. Auch die Gestaltung der wesentlichen Parameter wie Lautstärke- und Klangfarbenverlauf oder räumliche und zeitliche Struktur des Schallsignals spielt dabei eine Rolle. So kann selbst Sprache so bearbeitet werden, dass die Bedeutungsebene in den Hintergrund tritt und vor allem Sprachmelodie und Rhythmus, also musikalische bzw. körperliche Qualitäten, wahrgenommen werden. Ganz allgemein geht es beim Mischen der akustischen Elemente eher um deren Verteilung, vor allem wenn eine dichte Tonspur angestrebt wird: ï ï ï ï ï ï

Verteilung auf mehrere Streams Verteilung auf unterschiedliche räumliche Richtungen Verteilung in der räumlichen Tiefe Verteilung in der zeitlichen Abfolge Verteilung im Frequenzspektrum Verteilung zwischen codierten und körperlichen Sounds

257

Atmos sind meist universell verständlich.


258


10.5 Räumliche Gestaltung Raum spielt in der akustischen Gestaltung in mehrfacher Hinsicht eine wichtige Rolle. Es können sowohl räumliche Eigenschaften der Schallquelle, wie deren Größe und Position, als auch Eigenschaften des umgebenden Raumes aufgrund des akustischen Ereignisses abgeschätzt werden. Daraus leiten sich einige Parameter für die räumliche akustische Gestaltung ab. 10.5.1 Immersive akustische Ereignisse Viele natürliche akustische Ereignisse sind immersiv.

Bei manchen akustischen Ereignissen ist es nicht möglich, die Position ihrer Schallquelle im Raum zu bestimmen. Derartige akustische Ereignisse werden als immersiv bezeichnet. Sie erscheinen über das gesamte Umfeld verteilt und erfüllen den Raum. Viele natürliche akustische Ereignisse, wie zum Beispiel Regen, Wind, das Rauschen eines Waldes, das Zirpen der Grillen oder das Zwitschern der Vögel sind von dieser Eigenschaft geprägt. Auch in einigen Räumen mit vielfach strukturieren Wänden und meist langem Nachhall, wie zum Beispiel in großen Kathedralen, kann der Eindruck eines umhüllenden, immersiven Ereignisses bereits einige wenige Meter von der eigentlichen Schallquelle entfernt entstehen. Aufgrund der Besonderheiten der menschlichen Richtungswahrnehmung tritt auch bei liegenden Sounds im Bassbereich, so genannten Drones, rasch Immersion auf. Kann die Ursache für ein Schallereignis nicht mehr zugeordnet und die Schallquelle nicht mehr geortet werden, so kann das bedrohlich wirken. Aus diesem Grund werden Drones häufig zur akustischen Untermalung von spannungsgeladenen, grusligen Szenen in Action- oder Horrorfilmen eingesetzt. Im Gegensatz dazu kann Immersion aber auch zu einem angenehmen, sicheren, geborgenen Gefühl beim Hörer führen, der ganz vom akustischen Ereignis eingehüllt wird, sozusagen in diesem aufgeht, nicht mehr ungeschützt für sich alleine steht, sondern Teil eines größeren Ganzen wird. Die in nahezu allen Religionen und Naturkulturen teils in großen, sehr lange nachklingenden Räumen praktizierten gemeinsamen Gesänge wären dafür genauso gute Beispiele wie die basslastige, raumerfüllende Musik in Clubs und Diskos. 10.5.2 Akustische Tiefe: Figur, Grund und Feld Aufgrund einer spezifischen akustischen Tiefe werden gleichzeitig wahrnehmbare Sounds gruppiert und hierarchisch, der aktuellen Wichtigkeit


10.5 Räumliche Gestaltung

259

für den Hörer entsprechend, gegliedert. Im Allgemeinen können dabei drei, meist als Figur, Grund und Feld bezeichnete Ebenen der akustischen Tiefe unterschieden werden. Allerdings müssen nicht in jeder akustischen Szene immer alle drei Ebenen anzutreffen sein. Als Figur steht ein einzelnes akustisches Ereignis bzw. ein akustischer Stream im Vordergrund und ist von besonderer Wichtigkeit. Der Sound befindet sich meist in unmittelbarer Nähe des Hörers. Er zieht die Aufmerksamkeit auf sich. Die Wahrnehmung eines akustischen Ereignisses als Figur führt daher in der Regel zu einer bewussten (Re-)Aktion des Hörers bzw. zu einer Interaktion mit dem auslösenden Ereignis. Gespräche, Alarm- und Hinweissignale oder Konzertmusik wären Beispiele für akustische Streams, die im Allgemeinen als Figur im akustischen Vordergrund stehen. Technisch kann die Wahrnehmung eines akustischen Ereignisses als Figur durch vergleichsweise hohe Pegel, ev. durch einen Kompressor erhöhte Intensität, hohe Frequenzanteile an hohen Mitten und Höhen und geringem Hallanteil unterstützt werden. Als Grund prägen akustische Ereignisse bzw. Streams das aktuelle soziale Umfeld des Hörers und bestimmen dadurch den Kontext der Wahrnehmungen entscheidend mit. Der akustische Grund ist dem Hörer aus der alltäglichen Wahrnehmung vertraut und wird daher unbewusst gehört. Veränderungen in der Zusammensetzung werden aber sofort bemerkt. Beispielsweise können das leise Surren oder Brummen des Kühlschranks, das Blubbern der schon etwas verkalkten Kaffeemaschine, das Zischen oder Brodeln des Wasserkochers oder auch das nebenbei im Radio laufende Morgenmagazin beim Frühstück in der Küche zum akustischen Grund gehören. Meist wird keinem dieser akustischen Streams besondere Aufmerksamkeit geschenkt. Änderungen in dieser vertrauten akustischen Umgebung würden aber sofort auffallen. Nach R. M. Schafer werden derart vertraute, ein spezifisches zeitliches und räumliches Umfeld charakterisierende akustische Ereignisse auch als Keynote-Sounds bezeichnet. Als Feld gehören akustische Ereignisse bzw. Streams zur aktuellen physikalischen Umgebung des Hörers, sind jedoch nicht Teil seines persönlichen sozialen Umfelds. Beispiele für ein akustisches Feld wären das schwache Rauschen des Waldes, das eine Wanderung begleitet, oder das leise Plätschern von leichtem Nieselregen, das durchs Fenster ins Büro gelangt, die kaum wahrnehmbaren Verkehrsgeräusche, die von außen in einen Konzertsaal gelangen, oder das Lüftergeräusch eines Videoprojektors in einem Vortragssaal. Wichtig ist, dass im Prinzip jedes beliebige akustische Ereignis bzw. jeder Stream als Figur, Grund oder Feld fungieren kann. Im Alltag bestimmen vor allem die aktuelle Situation und die individuelle Befind-

Nicht in jeder akustischen Szene sind alle drei Ebenen vertreten.

Jedes akustische Ereignis kann als Figur, Grund oder Feld fungieren.


260

Die akustische Perspektive darf keinesfalls statisch festgelegt werden!

10 Akustische Mediengestaltung lichkeit des Hörers, in welcher akustischen Tiefe eine Szene wahrgenommen wird bzw. welche Sounds als Figur, Grund oder Feld gehört werden. Zu beachten ist, dass ein aus unterschiedlicher akustischer Tiefe wahrgenommenes Schallereignis meist auch zu anderen Lautereignissen führt und somit unterschiedliche Funktionen, Wirkungen und Bedeutungen erlangt. Im Audiodesign soll daher eine möglichst unmissverständliche Zuordnung der Sounds zu den Ebenen der akustischen Tiefe angestrebt werden. Zunächst geht es dabei vor allem um die Beachtung alltäglicher, konventioneller, vertrauter Muster der akustischen Wahrnehmung. Beispielsweise muss der Dialog im Film audiotechnisch derart gestaltet werden, dass er als Figur klar im Vordergrund steht. Mit passenden KeynoteSounds wird dafür ein vertrauter Grund gebildet, da dessen Fehlen sofort als ungewöhnlich auffallen würde. Das bewusste Aufbrechen und Umformen vertrauter akustischer Perspektiven ist vor allem bei der Gestaltung einer Film-Tonspur ein wichtiges Stilmittel, das bei vorsichtigem, sparsamen Einsatz sehr effektiv wirken kann. Während Filmmusik im Allgemeinen möglichst unbemerkt den akustischen Hintergrund bildet, kann sie in ausgewählten Szenen akustische Ereignisse als Figur ablösen, die üblicherweise bewusst im Vordergrund wahrnehmbar sind, wie zum Beispiel Sprache, Schreie, Atem, Schüsse oder Explosionen etc. Technisch werden in solchen Szenen derartige Sounds durch geringere Pegel, weniger Höhenanteile und manchmal auch durch unnatürlich große Hallanteile in den Hintergrund gesetzt. Wichtig ist, dass die akustische Perspektive keinesfalls statisch festgelegt werden darf, sondern einen permanenten Wandel durchläuft. Diese dynamischen Veränderungen der akustischen Perspektive können sich einerseits aus einem aktiven Wahrnehmungsprozess des Hörers ergeben, durch den zum Beispiel aufgrund einer subjektiven Stimmungsschwankung oder als Reaktion auf ein äußeres Ereignis eine Figur ganz plötzlich zum Grund werden kann, und umgekehrt. Andererseits können sich die Ebenen der akustischen Perspektive auch aufgrund sich im Raum bewegender Schallquellen jederzeit verändern. Während allmähliche, kontinuierliche Veränderungen als selbstverständlicher, natürlicher Vorgang Teil der alltäglichen Erfahrung sind und daher auch in der akustischen Mediengestaltung meist nicht bewusst auffallen, sind abrupte Änderungen, in denen beispielsweise ein akustisches Ereignis vom Hintergrund ganz plötzlich in den Vordergrund tritt, eher unnatürlich. Derartige Wechsel werden überraschen, können erschrecken und machen jedenfalls auf die aktuellen Vorgänge aufmerksam.



261

10.5.3 Hörperspektive Akustisch ähnliche Situationen können in Abhängigkeit vom aktuellen Kontext und individuellen Prägungen im Alltag völlig unterschiedlich wahrgenommen werden. Sitzt man unter großem Zeitdruck in der U-Bahn, so hört man in der Hoffnung, endlich am Ziel zu sein, vielleicht vor allem auf die Durchsage der nächsten Haltestelle oder das Ticken der eigenen Armbanduhr oder den eigenen beschleunigten Pulsschlag usw. Die Gespräche der im Wagen mitfahrenden Kinder sind völlig belanglos und werden überhört. Bei einer Fahrt mit der Familie bis zur Endstation, um von dort aus eine Wanderung im Grünen zu machen, ist die nächste Station belanglos. Die Kinder sind jetzt vielleicht die eigenen und ihre Gespräche somit höchst interessant. Ein wiederum ganz anderes Hörbild wird sich für einen Wissenschaftler ergeben, der die Klang- und Geräuschsphäre in öffentlichen Verkehrsmitteln untersuchen möchte. Die Hörperspektive muss daher festlegen, welche Protagonisten einer Medienproduktion aus welchem emotionalen und rationalen Blickwinkel die abgebildete Tonspur aufnehmen und wen sie auf welche Weise primär ansprechen soll. Es hängt demnach von der gewählten Hörperspektive ab, welche Sounds als Figur, Grund oder Feld gestaltet werden, ob eine dichte Tonspur angestrebt wird oder ob ein selektiver Geräuscheinsatz zu bevorzugen ist, welche Geräusche unbedingt benötigt werden und in welcher räumlichen Dimension diese erklingen sollen, wie das Pegelverhältnis zwischen Sprache, Geräuschen und Musik gewählt wird usw. Wurde entschieden, welche Personen in welcher Stimmung die abgebildete Tonspur primär erleben, so stellt sich die Frage, welche akustischen Elemente auch von anderen handelnden Personen gehört werden und welche Wirkung sie für diese haben sollen. Film- oder Medienmusik ist nur für das Publikum, jedoch nie für agierende Personen hörbar. Die Musik kann dabei sowohl Emotionen wecken als auch erklärend, beschreibend oder kommentierend gemeint sein. Geräusche können verbindend und für alle agierenden Personen in nahezu gleicher Weise hörbar sein und den Fortgang der Handlung entscheidend beeinflussen. Es ist aber auch denkbar, dass nur ein einziger Protagonist aus einer selektiAkustische Ereignisse Diegetisch

Nicht diegetisch

On-Screen

Off-Screen

Aktiv

Passiv

Tab. 10.3 Einteilung akustischer Ereignisse nach Funktion und Hörperspektive


262

Aus der Hörperspektive ergeben sich Verbindungen zwischen Tonspur, Handlung und Rezipienten.

Dokumentarische Hörperspektive  realistische Mischung

Subjektiv-emotionale Hörperspektive  perspektivische Mischung

10 Akustische Mediengestaltung ven Perspektive heraus hört, alle anderen Personen hingegen die akustische Umgebung möglichst realistisch wahrnehmen. Auf diese Weise können bestimmte physische oder psychische Zustände des Protagonisten verdeutlicht werden. Diesen Überlegungen folgend, ergeben sich mehrere Unterscheidungen akustischer Ereignisse. Klänge und Geräusche, die unmittelbar mit der Handlung in Verbindung stehen und deren Quellen daher entweder sichtbar oder aus dem Kontext erklärbar sind, werden als diegetisch bezeichnet. Alle anderen Schallsignale, die das Geschehen eher kommentieren, erläutern oder Stimmungen und Gefühle vermitteln sollen, werden demnach auch nicht diegetisch genannt. Auch eine Gliederung in on- bzw. off-screen Ereignisse, also solche, deren Quellen sichtbar sind oder eben nicht, erscheint sinnvoll. Vielfach ist auch die Unterscheidung von aktiven und passiven Schallereignissen hilfreich. Aktive Geräusche sollen Fragen auslösen: Was ist da passiert? Woher kommt dieses Geräusch? Warum klingt es plötzlich anders? Passive Geräusche haben hingegen eher eine beschreibende Funktion, charakterisieren einen Ort, eine Handlung oder ein Gefühl. Die Frage nach der Hörperspektive kann also durchaus sehr komplex werden und unterschiedliche, oft recht vielschichtige Antworten zulassen. Wichtig ist, dass zwischen den handelnden Personen, dem Publikum und den unterschiedlichen Elementen ein Netz von Beziehungen gespannt wird. Selbstverständlich wird das Geschehen nie aus einer einzigen Hörperspektive vermittelt werden. Wechsel zur richtigen Zeit und die Gestaltung der Übergänge – von plötzlich bis ganz allmählich – sind entscheidend. Als erster Anhaltspunkt empfiehlt sich eine Unterscheidung zwischen einer dokumentarischen und eine subjektiv-emotionalen Hörperspektive. Die dokumentarische Hörperspektive verlangt nach einer möglichst realistischen Mischung. Die authentische Darstellung einer möglichst objektiv fassbaren Realität ist das oberste Ziel. Möglichst alle im Bild sichtbaren Geräuschquellen sollen auch hörbar gemacht werden, und der Leitsatz „See a dog, hear a dog!“ trifft hier zu. Bei der subjektiv-emotionalen Hörperspektive steht das innere Erleben, der emotionale Gehalt, die Stimmung einer Szene im Zentrum der Überlegungen. Von außen betrachtet, kann dadurch die Wahrnehmung des Medienprodukts ins Irreale, Märchenhafte, Unglaubwürdige kippen und die Wirkung völlig zerstören. Angestrebt wird daher, dass die Konsumenten ihre Beobachterrolle aufgeben und die Situation als aktiver Teil – beispielsweise aus der Sicht eines Protagonisten der Handlung – erleben. In besonderen Gefühlsmomenten von Trauer, Liebe, Stress usw. kann die Umgebung völlig bedeutungslos werden. Im Extremfall werden die



263

Geräusche daher vollständig ausgeblendet, und es klingt nurmehr Musik, die das Empfinden des Protagonisten nachzeichnet. Oder es ist nur ein einziges, für die jeweilige Szene sehr bedeutendes Geräusch zu hören, das dann meist in unnatürlicher Lautstärke wiedergegeben wird. In den meisten Fällen wird die Hörperspektive freilich irgendwo zwi-  Siehe Webseite zum Buch schen den beiden eben beschriebenen Polen angesiedelt sein. () Die Festlegung der Hörperspektive beeinflusst nicht nur die Auswahl der akustischen Ereignisse und deren Verhältnis zueinander, sondern auch die konkrete Gestaltung, da ja bei jedem Schallsignal bestimmte Eigenschaften betont, andere abgeschwächt oder manche – wie etwa die räumliche Komponente – stark verändert oder neu geschaffen werden können. Der Lärm von Maschinen kann zum Beispiel durch selektives Hören oder eben durch eine entsprechende Bearbeitung zu einem treibenden, lebendigen Rhythmus geformt werden. Abhängig von der gewählten Hörperspektive sollten für alle akustischen Elemente Fragen gestellt werden, wie: Welchen Raum nimmt das Schallsignal ein? Woher kommt es? Wie laut wird es wahrgenommen? Wie klingt es? Sind die Konturen klar erkennbar oder wird es nur schemenhaft und andeutungsweise wahrgenommen? Welches Tempo hat das Ereignis? Hat es einen pulsierenden Rhythmus oder ist der Zeitverlauf unregelmäßig? 10.5.4 Soziale Beziehung zwischen Schallquelle und Hörer Eine wichtige Frage, die sich im Zusammenhang mit der akustischen Tiefe und der Hörperspektive stellt, ist jene nach der sozialen Beziehung zwischen Schallquelle und Hörer. Sie steht zunächst eng mit dem körperlichen Abstand in Verbindung und beeinflusst in jedem Fall sämtliche klanglichen Eigenschaften. Bezugnehmend auf Theo van Leeuwens Buch „Speech, Music, Sound“ lassen sich folgende sozialen Beziehungen unterscheiden: ï ï ï ï ï ï

Intime Nähe Persönliche Nähe Informelle Beziehung Formelle Distanz Gesellschaftliche Distanz Beziehungslosigkeit

Manche akustischen Ereignisse sind in der alltäglichen akustischen Umwelt ausschließlich in unmittelbarer körperlicher Nähe zur Schallquelle zu hören. Beispielsweise sind das leise Atmen, der Herzschlag oder das gehauchte Flüstern nur bei inniger Umarmung zu hören. Das

Die soziale Beziehung steht eng mit dem körperlichen Abstand in Verbindung.


264

10 Akustische Mediengestaltung soziale Verhältnis zwischen Schallquelle und Hörer ist durch intime Nähe charakterisiert. Die Klangqualität der akustischen Ereignisse ist in solchen Fällen durch niedrige Lautstärke, Intensität und Präsenz, durch geringe klangliche Schärfe und Dichte sowie geringes Volumen gekennzeichnet. Ein Gespräch zwischen zwei befreundeten Personen über Themen, die nicht für das Umfeld bestimmt sind, ist durch persönliche Nähe charakterisiert. Der räumliche Abstand zwischen der Schallquelle und dem Hörer beträgt in diesen Situationen meist weniger als einen Meter. Die klangliche Qualität der Stimmen ist sanft, entspannt und leise bei vergleichsweise niedriger Tonhöhe. Die informelle Beziehung charakterisiert beispielsweise das Verhältnis bei einer kleinen Gesprächsrunde von Geschäftspartnern oder jenes zwischen Kunde und Verkäufer. Auch der gemeinsame Gesang bei einem Familienfest oder die Gitarrenmusik beim Lagerfeuer können als Beispiele für eine informelle Beziehung angeführt werden. Die beteiligten Personen kennen einander persönlich, und beteiligte Klangobjekte sind vertraut. Der räumliche Abstand zwischen Schallquelle und Hörer liegt in der Größenordnung von einem bzw. wenigen Metern. Die Stimmen erklingen in ihrer natürlichen Lautstärke. Es gibt also nicht das bewusste, sich unmittelbar auf alle klanglichen Eigenschaften auswirkende Bemühen besonders leise oder laut zu sprechen. Im Vergleich zur persönlichen Nähe ist die Klangqualität etwas voller und höher und nicht mehr völlig entspannt. Ein öffentlicher Vortrag oder ein Konzert mit Kammermusik jeweils in nicht allzu großem Rahmen sind Beispiele für eine formale Distanz zwischen Schallquelle und Hörer. Der Vortragende oder die Musiker sind dem Hörer im Allgemeinen nicht mehr persönlich bekannt. Der Abstand zwischen Schallquelle und Hörer beträgt meist zumindest einige Meter. Die Sprache des Vortragenden klingt in solchen Fällen lauter, dichter und etwas höher als im Normalfall. Die gesellschaftliche Distanz charakterisiert zum Beispiel ein Rockkonzert oder die demagogische Rede eines Diktators, die vor jeweils mehreren tausend Menschen die gesamte Umgebung akustisch dominieren. Die Klangqualität derartiger akustischer Ereignisse ist von möglichst großer, teils nur mit elektrischer Verstärkung erzielbarer Lautstärke, hoher Anspannung, Intensität und Dichte sowie größtmöglichem Volumen gekennzeichnet. Beziehungslosigkeit charakterisiert einerseits die soziale Beziehung zwischen Hörer und Schallquelle, wenn diese ohne Absicht, nur aus Zufall, im selben räumlichen Umfeld aufeinandertreffen. Es kann auf weit entfernte, den Hörer nicht weiter betreffende bzw. berührende akustische


10.5 Räumliche Gestaltung Ereignisse genauso zutreffen, wie auf zufällig aufgeschnappte Gesprächsfetzen von Passanten. Das Schallereignis kann in diesen Fällen in jeder räumlichen Beziehung zum Hörer stehen, wird aber als anderes Lautereignis wahrgenommen, als wenn die aktuelle räumliche Beziehung auch der sozialen entsprechen würde. Eine derartige Beziehungslosigkeit zwischen Schallquelle und Hörer bleibt entweder weitgehend unbemerkt und bedeutungslos oder sie führt zu einer ungewöhnlichen, verwirrenden, oft unangenehmen Situation, wenn beispielsweise eine Schallquelle, zu der keine Beziehung besteht, in das intime oder persönliche Umfeld eindringt. Andererseits charakterisiert Beziehungslosigkeit auch Situationen, bei dem einem akustischen Ereignis keine Quelle in der alltäglichen oder medial vermittelten akustischen Umwelt zugeordnet werden kann, wie das beispielsweise auf Filmmusik oder auf diverse in der visuellen Ebene nicht begründete Soundeffekte in den Medien der Fall ist. Für die innerhalb des Medienprodukts handelnden Personen sind in diesen Fällen weder die Schallquellen noch die akustischen Ereignisse existent. Filmmusik wird nur von den Rezipienten, nicht aber von den handelnden Charakteren wahrgenommen. Auch von den Rezipienten des Medienprodukts sollen derartige akustische Ereignisse unbedingt unbewusst wahrgenommen werden und unterschwellig wirken. Sobald ein Rezipient bewusst auf die Filmmusik hört und versucht, eine wie auch immer geartete soziale Beziehung zur Schallquelle herzustellen, lenkt sie von der Handlung ab und verfehlt ihre Wirkung. In der akustischen Umwelt des Alltags ist die soziale Beziehung zunächst immer auch an eine räumliche Nähe bzw. Distanz zur Schallquelle gekoppelt. Erst durch die technischen Möglichkeiten zur Schallbearbeitung und dem Einsatz von akustischen Ereignissen im medialen Umfeld kann dieser Zusammenhang aufgehoben werden. Beispielsweise kann ganz leises, im Alltag nur in unmittelbar körperlicher Nähe hörbares Flüstern mit hohem Pegel und großer Präsenz in die Tonspur eines Medienprodukts gemischt werden. Andererseits kann die laute, das gesamte Umfeld dominierende Musik des Rockkonzerts in der medialen Transformation wesentlich leiser und entfernter erscheinen. Wichtig ist, dass die ursprünglichen Qualitäten der Wahrnehmung auch bei veränderter medialer Wiedergabe weitgehend erhalten bleiben. Wird beispielsweise lautes, wütendes Schreien direkt aus der Nähe aufgenommen, so bleibt dessen Intensität und Emotionalität im Wesentlichen auch bei leiserer Wiedergabe im Hintergrund erfahrbar. Durch die mediale Transformation von Sounds wird das soziale Verhältnis zwischen Schallquelle und Hörer vom körperlichen bzw. physikalischen Verhältnis entkoppelt. Dadurch ergeben sich interessante Möglichkeiten für die akustische Mediengestaltung.

265

Durch die technischen Möglichkeiten zur medialen Transformation werden körperliche und soziale Beziehungen voneinander entkoppelt.

Die Entkopplung von körperlicher und sozialer Beziehung zwischen Schallquelle und Hörer öffnet ein weites Feld akustischer Gestaltungsmöglichkeiten.


266


10.6 Zeitgestaltung Die akustische Wahrnehmung reagiert empfindlich auf Änderungen der Zeitstruktur von Schallsignalen.

Einer der wichtigsten Unterschiede zwischen akustischer und visueller Wahrnehmung ist der zeitliche Aspekt. Schall als Medium und somit alle akustischen Ereignisse sind von Natur aus flüchtig und daher vor allem als zeitliches Phänomen begreifbar. Im Gegensatz zu Bildern ist es unmöglich, ein Schallsignal festzuhalten oder mit dem Finger darauf zu zeigen. Wird der Fortlauf eines Filmes gestoppt, so vermittelt die Tonspur keine Momentaufnahme, die mit dem Standbild vergleichbar wäre. Das Ohr reagiert daher auf Variationen der Zeitstruktur von Schallsignalen im Allgemeinen sehr empfindlich. Veränderungen des zeitlichen Aufbaus von Klangobjekten prägen diesen einen völlig neuen Charakter auf und machen ein Wiedererkennen oft unmöglich. Der Bildinhalt bleibt hingegen auch noch bei extremer Zeitlupe oder einer Abfolge von Standbildern gut erkennbar. Die Tonspur bildet für die visuelle Ebene eines multimedialen Produkts eine Art Zeitraster, das das Zeitempfinden beeinflussen kann und somit für die Zeitgestaltung maßgeblich ist. Zu beachten ist, dass Menschen über kein Organ zur Wahrnehmung von Zeit verfügen. Zeit kann nur erlebt werden, indem innere Rhythmen unseres Körpers, wie (z.B. Herzschlag, Atem- und Schrittfrequenz) und persönliche Stimmungen und Befindlichkeiten (z.B. Hektik, Stress, Langeweile) zu externen Rhythmen, wie die Zeitmessung, der Verlauf von Tag und Nacht oder der Zyklus der Jahreszeiten, und weiteren äußeren Einflussfaktoren, wie die aktuelle Ereignisdichte und dem Erlebnisinhalt, in Beziehung gesetzt werden. Wir können Zeit also nicht objektiv beurteilen bzw. wahrnehmen, sondern jeweils nur subjektiv erleben. Für die Medienproduktion ergeben sich daraus zahlreiche Möglichkeiten zum gestalterischen Umgang mit Zeit bzw. zur Beeinflussung des subjektiven Zeitempfindens. 10.6.1 Ebenen der Zeitgestaltung in der Tonspur Material und Stil Manche akustischen Ereignisse – vor allem viele Musikstile und musikalische Materialien – weisen einen starken Bezug zu einer bestimmten zeitlichen Epoche auf. Der Einsatz solcher Schallsignale kann also als Verweis auf ein historisches Zeitalter verstanden werden und soll die Rezipienten daran erinnern bzw. in diese Zeit versetzen. Einen recht eindeutigen Zeitbezug haben zum Beispiel gregorianische Choräle, Rock ’n’ Roll, Techno oder Barockmusik genauso wie das Knistern, Rauschen und Knacksen alter Grammophonaufnahmen, der Klang


10.6 Zeitgestaltung

267

eines Posthorns, eines Leierkastens, eines Moog-Synthesizers oder das Klingeln eines alten analogen Telefons. Form und Dramaturgie Die Form bestimmt den zeitlichen Aufbau und gliedert den gesamten Ablauf. Die formale und dramaturgische Konzeption kann das subjektive Zeitempfinden ganz wesentlich beeinflussen, da dieses von der Ereignisund Erlebnisdichte und der emotionalen Stimmung abhängig ist. Erfahrungsgemäß scheint die Zeit während eines langweiligen Vortrags still zu stehen, während sie auf einer erlebnisreichen, unterhaltsamen Party ganz rasch vergeht. Puls, Tempo und Metrum Puls, Tempo und Metrum spielen in der Zeitgestaltung von Musik eine wesentliche Rolle. In etwas erweiterter, abstrahierter Form, können diese Begriffe aber ebenso für die Betrachtung der gesamten Tonspur oder auch des Medienprodukts sinnvoll sein. Bei der Gestaltung ist unbedingt zu beachten, dass jede Spur – egal ob Bilder, Sprache, Geräusche oder Musik – ihren eigenen Puls und Rhythmus, ihr eigenes Tempo und Metrum haben kann. Diese Parameter der Zeitgestaltung müssen daher nicht nur innerhalb einer einzigen Spur bewusst gestaltet, sondern auch deren Verhältnis zu den anderen Einheiten berücksichtigt werden. Ein vollkommener Gleichlauf, ein partielles Zusammentreffen oder eine totale Asynchronität der Metren von beispielsweise Bild und Musik wird jeweils ein völlig unterschiedliches Zeitempfinden bewirken. Unter Puls wird der Grundschlag, die zugrunde liegende Zeiteinheit verstanden. Er wird im Wesentlichen vom zeitlichen Abstand aufeinan-

Jede Spur kann ihren eigenen Puls, ihr eigenes Tempo und Metrum haben.

Abb. 10.4 Zeitgestaltung durch Puls, Tempo und Metrum


268


3/4-Takt

1

2

3 1

2

3 1

1

2

3 4

1

2

2

3 1

3 4 1

2

2

3 1

2

3 1

3 4 1

2

3 4 1

2

3 1

2

2 3 4

3 1

2

1

3 4

2

3

4/4-Takt

Abb. 10.5 Polymetrik: Überlagerung unterschiedlicher Taktarten Das Hervorheben des Pulses verstärkt die Zeitempfindung.

Das Verschleiern des Pulses symbolisiert Zeitlosigkeit.

derfolgender Elemente bestimmt. In der Musik entspricht der Grundschlag häufig einer Viertelnote. Es können aber auch Halbe, Achtel oder Sechzehntel den Puls bilden. Durch die Gestaltung der Tonspur kann der Puls ganz bewusst hervorgehoben und betont werden, wie dies beispielsweise in vielen Stilen elektronischer Tanzmusik genauso wie bei Marsch- oder Trauermusik oft der Fall ist. Neben der Betonung des Beats – also des Grundschlags – in der Musik, wäre der gezielte Einsatz pulsierender Geräusche, wie etwa Wassertropfen, Weckerticken, Schritte, Telefonklingeln, Glocken- oder Hammerschläge usw. ein geeignetes Mittel zur Betonung des Pulses. Vor allem im medialen Kontext kann dadurch das Zeitempfinden (bzw. Empfindungen, die eng mit der Wahrnehmung von Zeit in Verbindung stehen, wie Hektik, Stress, Getriebenheit aber auch Gelassenheit oder Langeweile) entsprechend verstärkt werden. Der Puls kann auch gezielt verschleiert werden, indem beispielsweise mehrere komplexe Zeitmuster überlagert oder möglichst fließende Übergänge oder sehr lange Zeitabstände zwischen den aufeinanderfolgenden Einzelelementen angestrebt werden. Ein fehlender bzw. nicht wahrnehmbarer Puls lenkt tendenziell eher von der Zeitwahrnehmung ab und lässt die Zeit mitunter sprichwörtlich still stehen. In den Medien soll derartige Zeitlosigkeit häufig die Gewalten der Natur, Übernatürliches, Mystisches, Göttliches etc. symbolisieren. Zumindest in der westlichen Welt ist die Absenz von Zeit jedoch auch ungewöhnlich und kann daher zu Unruhe, Nervosität oder Angst führen. Selbstverständlich muss der Puls nicht zwangsläufig immer völlig gleichmäßig sein. Vielmehr ist ein gleichförmiger Grundschlag in der Natur niemals anzutreffen und wirkt daher eher leblos und maschinell. Permanente Variation des Grundschlags führt zu einem unregelmäßigen Puls. Abhängig von der Art und der Größe der Veränderungen führt dies zu einem fröhlichen, lebendigen, abwechslungsreichen, spannenden, aufgeregten, unruhigen etc. Empfinden.


10.6 Zeitgestaltung

269

Abb. 10.6 Formbildung mit einer rhythmischen Geste

Rhythmische Struktur

Rhythmus A

=

Rhythmus A = Rhythmus A

Wirkung A

≠

Wirkung B ≠ Wirkung C

Das Tempo legt die Anzahl von Grundschlägen innerhalb einer bestimmten Zeit fest und wird in der Musik meist in Beats per Minute oder kurz BPM angegeben. Es legt gleichermaßen die Zeit, die zwischen zwei aufeinanderfolgenden Grundschlägen vergeht, und die Dauer eines Abschnittes fest. Freilich ist auch das Tempo keine starre Größe, auch wenn eine Betrachtung der Musik-Charts einen anderen Anschein vermittelt und sich DJs oft Mühe geben, die ohnehin nicht besonders großen Abweichungen aufeinanderfolgender Songs entsprechend auszugleichen. Gezielt eingesetzte Temposchwankungen – in der Musik als rubato bezeichnet – können ein ebenso effektvolles Stilmittel sein wie abrupte Tempowechsel. Durch das Metrum wird der Puls in charakteristische Gruppen unterteilt. Durch die Reihung erfolgt eine Art Schwerpunktbildung, die den einzelnen Grundschlägen eine bestimmte Bedeutung, eine Funktion innerhalb der Gruppe zuordnet. In der Musik wird diese Gliederung als Takt bezeichnet. Der 4/4-Takt, als zumindest in der westlichen Popularmusik mit Abstand meistgebrauchte Taktart, bewirkt einen permanenten Wechsel zwischen betonten und unbetonten Schlägen. Er scheint gut mit den natürlichen und menschlichen Grundrhythmen wie Tag und Nacht, den vier Jahreszeiten, Puls und Atem – im Normalfall wird im Mittel ein Atemzug während vier Pulschlägen durchgeführt – und verschiedenen Bewegungsformen in Einklang zu stehen. Diese Taktart vermittelt tendenziell ein lineares Fortschreiten der Zeit, eine gewohnte Entwicklung, eine gewisse Gleichförmigkeit. Ungerade Taktarten wie 3/4-, 5/4-, 7/4Takt und dergleichen weichen eher von der vermeintlichen Normalität ab und suggerieren oft mehr Lebendigkeit, Fröhlichkeit, Ausgelassenheit und erscheinen dabei weniger linear und zielgerichtet. Auffallend häufig anzutreffen sind solche ungeraden Taktarten in der Volksmusik verschiedenster Kulturen.

Temposchwankungen und abrupte Tempowechsel können ein effektvolles Stilmittel sein.


270


Ungerade Faktoren suggerieren Fröhlichkeit.

Denkbar ist auch die als Polymetrik bezeichnete Überlagerung von zwei oder mehreren unterschiedlichen Taktarten. Zusätzlich zu den Gruppierungen der Grundschläge durch das Metrum entsteht dabei eine weitere übergeordnete, sich wiederholende Zeitstruktur. Durch die Überlagerung von 3/4- und 4/4-Takt ergibt sich automatisch auch ein sich alle zwölf Schläge wiederholendes Muster. Der vor allem westliche Kulturen prägende Gedanke einer linearen Weiterentwicklung wird dabei durch sich wiederholende Grundmuster abgelöst. Polymetrische Konzepte sind beispielsweise für viele Musikkulturen in Afrika charakteristisch, wo zumindest bei vielen Ureinwohnern eine zyklische Zeitauffassung üblich ist. Rhythmus

Rhythmen sollen nicht nur innerhalb der Musik, sondern auch in Verbindung mit allen anderen Ebenen des Produkts gestaltet werden.

Ein Muster aus betonten und unbetonten Schlägen von möglicherweise unterschiedlicher Dauer wird als Rhythmus bezeichnet. Wurde ein bestimmter Rhythmus etabliert, so kann dieser wiedererkannt und durch Wiederholung als Form bildende Einheit eingesetzt werden. Rhythmus ist weder an ein Metrum noch an einen Puls zwingend gebunden und kann auch eine völlig freie musikalische Geste sein. Zu beachten ist aber, dass Rhythmus bei Vorhandensein eines definierten Metrums immer im Zusammenhang mit diesem betrachtet werden muss, da sich abhängig von der Position im Takt die Wirkung ändern kann. Rhythmus ist nicht nur in der Musik als wichtiges Gestaltungsmittel anzusehen. Das Konzept der rhythmischen Gestaltung kann auch im Verbund mit allen anderen Elementen eines Medienprodukts wirkungsvoll angewendet werden. So weisen viele Geräusche eigene charakteristische Rhythmen auf. Genauso kann eine spezielle Abfolge von unterschiedlichen akustischen Ereignissen wie etwa ein Wechselspiel von Geräuschen und Musik einen markanten Rhythmus bilden. Freilich weisen auch Bilderfolgen und Sprache mehr oder weniger stark ausgeprägte Rhythmen auf, die im Einklang oder auch im Gegensatz zu jener Musik oder Geräuschen stehen können. Auch Elemente, die verschiedenen Wahrnehmungsqualitäten zugeordnet werden, können zu neuen übergeordneten rhythmischen Strukturelementen verknüpft werden. In Abb. 10.7 laufen zunächst alle Rhythmen synchron. Nach einer gewissen Zeit entwickeln sich jedoch Bilder und Geräusche einerseits und Sprache und Musik andererseits jeweils in eine eigenständige Richtung weiter. Der Wechsel von Sprache und Musik bildet seinerseits eine eindeutig erkennbare rhythmische Struktur, die vom jeweiligen Sprachbzw. Musikrhythmus unabhängig ist.


10.6 Zeitgestaltung

Bilder Sprache Geräusche Musik

271

Abb. 10.7 Verknüpfung unterschiedlicher Ebenen der Wahrnehmung zu rhythmischen Strukturelementen

Melodie Als Melodie wird eine Abfolge von unterscheidbaren Tönen bezeichnet, die als zusammengehörende Einheit empfunden wird. Tonhöhen und Dauer der aufeinanderfolgenden Einzeltöne unterscheiden sich nur so weit, dass Gestaltkriterien wie Nähe, Geschlossenheit oder Kontinuität wirksam werden und sich eine übergeordnete melodische Struktur bilden kann. In den meisten Fällen weisen Melodien in sich eine charakteristische Struktur auf. Diese kann sich in mehr oder weniger stark ausgeprägten Symmetrien, einem Wechselspiel von auf- und absteigenden oder springenden Tonfolgen etc. äußern. Da aufgrund der langen Tradition melodischer Tonfolgen viele der verwendeten Bauformen im kulturellen Gedächtnis festgeschrieben sind, erweckt meist schon der Anfang einer Melodie eine gewisse Erwartungshaltung betreffend deren Fortsetzung. Vorausschauend werden daher schon nach wenigen Tönen einer Melodie eine gewisse Dauer und ein bestimmtes Ende erwartet. Melodien weisen daher im Allgemeinen eine zielgerichtete Struktur auf, was sich auch in der Bezeichnung „melodischer Bogen“ ausdrückt. Solche melodischen Bögen sind wiederum als formbildendes Element zu verstehen, das unabhängig von der absoluten Tonhöhe, der Klangfarbe oder dem Tempo wiedererkannt wird. Melodien ermöglichen daher auch zeitliche Ordnung und Strukturierung von Musik. Ein großer Teil der von westlicher Kultur geprägten Musik verwendet achttaktige Melodien, die sich in zwei Abschnitte zu vier oder vier Abschnitte zu je zwei Takten untergliedern. Eine bekannte Ausnahme ist das 12taktige Blues-Schema. Diese melodischen Bögen verkörpern in gewisser Weise die musikalische Gegenwart, die als eine zusammengehörige zeitliche Einheit wahrgenommen wird. Viele Komponisten versuchten diese musikalische Gegenwart mit längeren Melodieverläufen zu dehnen und die Hörer somit in „Zeitlosigkeit“ zu versetzen. Bei Richard Wagner führte dies zum Konzept der „unendlichen Melodie“. Die Schwierigkeit dabei ist, dass die traditionellen Baupläne zwar erweitert werden müssen, aber nicht vollständig mit den im kulturellen Gedächt-

Melodische Bögen sind wichtige Elemente der Zeitgestaltung und -wahrnehmung.


272

Abb. 10.8 Zeitgestaltung durch Betonung von Syncpoints und die Dauer von Musiktakes


Akustische Zeit Visuelle Punkt A

Akustische Zeit

Punkt B

Zeit Visuelle

Punkt A

Punkt B

Zeit

Akustische Zeit Visuelle

Punkt A

Punkt B

Zeit

nis verankerten, die Wahrnehmung von Melodien betreffenden Hörgewohnheiten gebrochen werden darf. In der sogenannten „Minimal Music“ wird bewusst versucht, eine auf Melodien aufbauende, lineare zeitliche Gliederung weitgehend zu vermeiden. Kurze, auch als Pattern bezeichnete rhythmisch-melodische Muster werden dauerhaft wiederholt und dabei nur ganz allmählich geringfügig verändert. Wie bereits im Abschnitt 10.2.4 erwähnt, sind die wichtigsten Vertreter dieses Musikstils, wie beispielsweise Steve Reich, Phil Glass oder Michael Nyman, auch als Komponisten von Filmmusiken erfolgreich. Neben der „Minimal Music“ wurden von den Komponisten der „Neuen Musik“ des 20. Jahrhunderts verschiedene andere interessante Techniken der Zeitgestaltung entwickelt und erprobt. 10.6.2 Einflussfaktoren der Tonspur auf das Zeitempfinden


Die verschiedenen Ebenen der Zeitgestaltung wirken nicht nur innerhalb der Tonspur, sondern müssen selbstverständlich auch mit den Bildern in Verbindung gebracht werden. Durch die Zeitgestaltung der Tonspur wird also die filmische Zeit oder ganz allgemein das mit einem multimedialen Produkt verknüpfte Zeitempfinden beeinflusst. Wichtige Einflussfaktoren sind dabei die Variation des zeitlichen Hintergrunds, die Betonung von Syncpoints – also das Zusammenfallen von Bild- und Tonakzenten – und die Dauer eines akustischen Ereignisses. ()


10.7 Das Verhältnis von Bild und Ton

273

Veränderung des zeitlichen Hintergrunds Die Tonspur bildet oft den akustischen Hintergrund für eine visuelle Szene. Werden die Parameter der Zeitgestaltung dieses Hintergrunds verändert, so ändert sich im Allgemeinen auch das gesamte Zeitempfinden. Meist wirkt eine Bildfolge, die mit einer sehr langsamen Musik unterlegt wird, kürzer, als wenn im Hintergrund eine rasche Musik eingespielt wird. Betonung von Syncpoints Wird zwischen zwei Bildakzenten eine Melodie oder ein vergleichbares strukturbildendes akustisches Ereignis so eingesetzt, dass Anfang und Ende jeweils mit diesen Akzenten zusammenfallen, so wird der von den Bildern vermittelte Zeiteindruck unterstrichen. Endet der melodische Bogen hingegen bereits vor dem Bildakzent, hinkt das Bild der Tonspur in diesem Moment hinterher und die filmische Zeit wirkt somit verlangsamt. Endet der akustische Spannungsbogen hingegen nach dem Bildakzent, so wird das Zeitempfinden beschleunigt. Dauer akustischer Ereignisse Erstreckt sich ein akustisches Element – beispielsweise eine bestimmte Musik oder auch eine charakteristische Atmo – über mehrere aufeinanderfolgende Bildsequenzen, so werden diese im Allgemeinen in einem gemeinsamen Zeitkontinuum verbunden. Das Zeitempfinden wird dadurch in der Regel tendenziell beschleunigt.

10.7 Das Verhältnis von Bild und Ton 10.7.1 Assoziative Verknüpfung unterschiedlicher Sinnesreize Bereits in den Abschnitten 1.2 und 10.3 wurde ausführlich erklärt, dass sich unterschiedliche Gestaltungselemente und die verschiedenen Sinnesreize der menschlichen Wahrnehmung gegenseitig ergänzen und beeinflussen. Bevor das Verhältnis von Bild und Ton in einer audiovisuellen Medienproduktion beleuchtet werden kann, wird näher darauf eingegangen, wie sich unterschiedliche Sinnesreize bei gleichzeitiger Wahrnehmung gegenseitig beeinflussen, überlagern oder verbinden. Im Allgemeinen wird davon ausgegangen, dass die menschlichen Sinnesorgane unterschiedliche, in sich geschlossene Qualitäten der Wahrneh-

Fünf Sinne bewirken eine fragmentarische Wahrnehmung der Umwelt!


274

Abb. 10.9 Assoziative Verknüpfung unterschiedlicher Sinnesreize


Hören

Hören

Erfahrung

Durch assoziative Verknüpfung entsteht ein Mehrwert!

Sehen

Sehen

Objekt 1

Erfahrung

Objekt 2

mung liefern. Objektivierbare Vergleiche oder kontinuierliche Übergänge, beispielsweise zwischen scharf und laut oder zwischen dunkel und hart, sind zumindest dann nicht möglich, wenn Synästhesie, die beispielsweise das Entstehen von Geschmacksempfindungen beim Riechen oder von Farbeindrücken beim Hören etc. beschreibt, ausgeklammert wird. Aus diesen Überlegungen lässt sich schließen, dass die Umwelt nur in Fragmenten wahrgenommen werden kann, da eben zumindest die kontinuierlichen Übergänge zwischen den verschiedenen Reizqualitäten fehlen. Denkt man beispielsweise an die uns permanent völlig unbemerkt umgebenden elektromagnetischen Wellen zur Übertragung von Informationen zu Mobiltelefonen, Computern, TV-Geräten etc., so wird dieser Sachverhalt sofort nachvollziehbar. Um wahrgenommene Objekte oder Ereignisse trotzdem näher charakterisieren zu können, werden mehrere unterschiedliche Sinnesreize instinktiv miteinander in Zusammenhang gebracht und assoziativ verknüpft, wenn diese gleichzeitig wahrgenommen werden. Werden die mit jeweils einem spezifischen Sinn wahrgenommenen Fragmente verknüpft, zueinander in Beziehung gesetzt und mit bereits früher erworbener Erfahrung verglichen, so entsteht ein Mehrwert, der eine gedankliche Ergänzung fehlender Teile ermöglicht und so eine genauere Beschreibung der Umwelt erlaubt. Obwohl diese Vorgangsweise immer wieder zu Fehlinterpretationen führen muss, scheint es die einzige Möglichkeit zu sein, sich die Umwelt zu erschließen. Diese assoziative Verknüpfung scheint nicht nur bei simultanen Sinnesreizen, die primär auf rationaler Ebene verarbeitet werden, zu funktionieren, sondern es dürfte im Gehirn auch eine ähnliche assoziative Verbindung von emotional und rational erlebten bzw. wahrgenommenen Ereignissen stattfinden. Das heißt, es wird im Gehirn nicht nur die quantifizierbare Information, die über die einzelnen Reize transportiert wird, ausgewertet, verglichen und verknüpft. Vielmehr wird diese auch mit einem Gefühls- und Erlebniswert, einer emotionalen Einfärbung versehen und im Gedächtnis behalten.


10.7 Das Verhältnis von Bild und Ton Bei simultaner Wahrnehmung unterschiedlicher Sinnesqualitäten tendiert die menschliche Wahrnehmung also dazu, kausale Verbindungen herzustellen. Sieht man eine Pistole und hört aus ähnlicher Richtung zur gleichen Zeit einen lauten Knall, so wird mit diesem Sachverhalt ein Schuss aus der Pistole assoziiert. Vor allem aufgrund dieser Eigenschaft der menschlichen Wahrnehmung ist die Nachvertonung von Medienprodukten möglich, bei der ja meist ein Großteil der verwendeten Geräusche keineswegs mit den realen akustischen Ereignissen übereinstimmt. Der innere Drang simultan dargebotene Reize zu koppeln ist dabei so groß, dass durchaus auch Eindrücke zu einer zusammengehörenden Einheit verschmolzen werden, die rational von außen betrachtet einander eigentlich gar nicht bedingen können. So werden den Raumschiffen in Science-Fiction-Filmen problemlos Geräusche zugeordnet, obwohl diese im luftleeren Raum gar keine Schallsignale verursachen können. Auch die eher hochfrequenten, nahezu harmonischen, kurzen Klänge vieler Computerspiele werden mit den Waffen der Figuren assoziiert und als Schüsse wahrgenommen. Nur wenn sich die unterschiedlichen Reize offensichtlich gegenseitig widersprechen und mit der Erfahrung früher gemachter Wahrnehmungen nicht in Einklang gebracht werden können, werden keine assoziativen Verknüpfungen hergestellt. Wurden mehrere Wahrnehmungsqualitäten einmal miteinander gekoppelt, so genügt in weiterer Folge einer der Sinnesreize, um das Objekt oder das Ereignis zu verifizieren. Das Geräusch des Raumschiffs wird auch dann erkannt, wenn es im Bild nicht zu sehen ist. Die assoziativen Verbindungen bleiben im Allgemeinen also so lange bestehen, bis sie aufgrund neuer Wahrnehmungen und Erfahrungen für widersprüchlich empfunden und daher aufgelöst werden. Für die Gestaltung von Medienprodukten hat die assoziative Verknüpfung insofern weitreichende Konsequenzen, als sie vielfältige Möglichkeiten in der Verbindung von Bild und Ton eröffnet. Eine Eins-zu-einsUmsetzung des Bildes in akustische Ereignisse nach dem Motto „See a dog, hear a dog!“, die vollständig mit der Erfahrung der Betrachter übereinstimmt, beinhaltet keine neuen Informationen über das Dargebotene. Sowohl Bild als auch Ton würden alleine eine ausreichende Beschreibung des Sachverhaltes darstellen. Wird zwischen Bildinhalt und akustischer Entsprechung hingegen eine gewisse, mehr oder weniger stark von den üblichen Alltagserfahrungen abweichende Differenz hergestellt, so lässt sich mit dem Mittel der gedanklichen Interpretation von Bild und Ton mehr über das Objekt oder die Handlung herausfinden. Informationen und Stimmungen können in einem multimedialen Kontext folglich nicht nur über Bild und Ton, sondern ganz besonders auch über die Differenz zwischen den beiden vermittelt werden. Der Unterschied zwischen Bild-

275 Gleichzeitig wahrgenommene Sinneseindrücke werden zu einer einzigen Wahrnehmung verkoppelt.

Die Kopplung simultan wahrgenommener Sinnesreize ist so stark, dass diese nur bei einem ganz offensichtlichen Widerspruch gelöst wird. Differenz zwischen Bild und Ton ist ein wichtiges Gestaltungsmittel!


276

Die Verknüpfung von Information und Emotion ermöglicht ein unbewusstes Netzwerk von Querverweisen.

10 Akustische Mediengestaltung inhalt und akustischer Entsprechung zählt zu den wichtigsten Ausdrucksmitteln und muss daher genau überlegt und bei der Gestaltung des gesamten Produktes immer beachtet werden. Manche Sinneseindrücke, wie zum Beispiel Gerüche oder manche Geräusche, werden nahezu ausschließlich auf emotionaler Ebene erlebt. Die Erfahrung zeigt, dass gerade bei emotionalen Erlebnisinhalten Verknüpfungen über sehr lange Zeit hinweg bestehen, auch wenn diese zwischendurch gar nicht aufgefrischt werden. Dies äußert sich etwa darin, dass ein Geruch, ein kurzes musikalisches Motiv oder ein bestimmtes Geräusch plötzlich Erlebnisse in Erinnerung rufen können, die oft Jahre zurückliegen. Dieser auch als affektives Gedächtnis bezeichnete Zusammenhang zwischen Emotion und sachlicher Information ermöglicht es in einem Medienprodukt beispielsweise, bestimmte Schlüsselszenen mit einem charakteristischen Klang, einem Rhythmus, einer kurzen Melodie etc. zu markieren, um damit im weiteren Verlauf auf diese Szene zu verweisen, sie wieder in Erinnerung zu bringen. So kann mit den Mitteln der Tongestaltung ein nur unbewusst wahrgenommenes Netz von Querverweisen und Beziehungen aufgebaut werden, das die Handlung zusammenhalten und leichter begreifbar machen kann. Aufgrund des direkten Zugangs zu Emotionen eignen sich vor allem Filmmusik und auch körperlich wahrnehmbare Geräusche für diese Art der Gestaltung. In einigen Filmen ist es gelungen, über einen ganz bestimmten Sound die Tonspur ganz eng an die visuelle Ebene zu koppeln. Eines der bekanntesten und besten Beispiele hierfür ist Ennio Moricones Musik zu „Once Upon a Time in the West“. Der Klang der Mundharmonika in Verbindung mit der verzerrten Gitarre wird wohl nach wenigen Zehntelsekunden eindeutig erkannt, zugeordnet und geistig mit den entsprechenden Bildern versehen. 10.7.2 Paraphrase – Polarisation – Dissonanz Paraphrase

Die Paraphrase ist die häufigste Form der BildTon-Beziehung.

Die direkte Umsetzung des Bildinhaltes in seine akustische Entsprechung wird auch als Paraphrase bezeichnet. Nach wie vor dürfte dies die wohl häufigste Form der Bild-Ton-Beziehung darstellen. Die möglichst weitgehende Übereinstimmung führt zu einer Verdopplung des Informationsgehalts. Es wird dadurch zwar einerseits Klarheit geschaffen und der Rezipient in seiner Wahrnehmung gestärkt, andererseits entsteht aber auf diese Weise kein Mehrwert. Die Paraphrase ist daher vor allem für billige Unterhaltungsserien, denen auch mit verminderter Aufmerksamkeit einigermaßen gefolgt werden kann, von Bedeutung, sollte aber sonst für


10.7 Das Verhältnis von Bild und Ton

277

einige wenige ausgewählte Stellen dramaturgisch gezielt eingesetzt werden. Polarisation Wird einem an sich neutralen Bildinhalt durch die Gestaltung der Ton- Ein neutrales Bild erhält spur eine bestimmte Bedeutung aufgeprägt, so wird von Polarisation seine Bedeutung durch gesprochen. Der Bildinhalt wird dabei mit Hilfe der akustischen Ereig- die Tonspur! nisse ausgedeutet oder emotional gefärbt. Die Bilder einer Autofahrt durch die Stadt sind zunächst neutral. Es kann sich genauso um eine Fahrt in die Arbeit handeln wie um eine in den Urlaub. Der Fahrer kann fröhlich oder traurig, ängstlich, gestresst oder außer sich vor Wut sein, ohne dass sich dabei die visuelle Umgebung ändern würde. Gute oder schlechte Nachrichten und Musik aus dem Autoradio, selektiv ausgewählte Geräusche oder Filmmusik können Bedeutung und Stimmung herstellen und auf Skalen zwischen gut und böse, gestresst und entspannt usw. polarisieren. Die Polarisation eignet sich für den Einsatz im Zusammenhang mit Archivbildern, die im Allgemeinen nur innerhalb ihres Originalkontexts Sinn machen würden, wenn ihre Bedeutung nicht mittels Polarisation variiert werden könnte. Polarisation kann aber auch im Sinne der Dramaturgie eingesetzt werden, um zum Beispiel vielfältig interpretierbare Szenen aus der subjektiven Sicht eines Protagonisten erscheinen zu lassen. Auch für die Narration kann das Stilmittel der Polarisation hilfreich sein, um zum Beispiel zusätzliche im Bild nicht deutlich werdende Informationen über Zeit und Ort des Geschehens zu übermit-  Siehe Webseite zum Buch teln. () Dissonanz Werden zwischen Bild und Ton bestimmte (scheinbare) Gegensätze etabliert, so wird von Dissonanz und bei großer Abweichung auch von Kontrapunkt gesprochen. Dabei wird über die Differenz zusätzliche Information übermittelt. Die Rezipienten müssen das Geschehen hinterfragen, mit ihren eigenen Erfahrungen in Einklang bringen und die Gegensätze mit ihrem Wissen und ihrer Phantasie auflösen. Sie werden also in einem gewissen Rahmen selbst kreativ, um den Ereignissen folgen zu können, und sind auf diese Weise aktiv in das Geschehen eingebunden. Das Medienprodukt wird dadurch in der Regel nachhaltiger wirken und länger in Erinnerung bleiben. Die Gefahr eines dissonanten Bild-Ton-Verhätlnisses ist freilich, dass die Unterschiede zu groß werden und gar keine assoziative Verknüpfung mehr stattfindet. Wie groß die Differenz im konkreten Fall werden darf,


278


10 Akustische Mediengestaltung hängt stark von der Erfahrung, dem Vorwissen und der Bereitschaft der Rezipienten zur Auseinandersetzung mit dem Dargebotenen ab. Bei vermehrtem Einsatz des Gestaltungsmittels Dissonanz wird daher die Fokusierung des Produkts auf eine bestimmte Zielgruppe verstärkt. () Kritik und Erweiterung des Modells Das die tatsächlichen Beziehungen zwischen Bild und Ton freilich zu stark vereinfachende Modell von Paraphrase, Polarisation und Dissonanz wird in der Fachliteratur vor allem deswegen häufig kritisiert, weil es erstens immer vom Bild ausgeht und zweitens die Existenz von neutralen Bildinhalten voraussetzt. Das eigentliche Problem ist jedoch, dass ein Vergleich von Bild- und Tonebene grundsätzlich viel zu allgemein gehalten ist. Es erscheint daher sinnvoll, das Konzept insofern zu erweitern, als eben nicht einfach Bild und Ton betrachtet werden, sondern wesentlich spezifischer Elemente der medialen Gestaltung, wie zum Beispiel die Lichtsetzung, die Kameraperspektive, die Szenerie, die Atmo, visuelle Effekte, Musik etc. Bei genauerer Analyse von Filmszenen wird man rasch feststellen, dass zum Beispiel die Sprache aus intimer Nähe zu hören ist, während die Kamera das gesamte Umfeld zeigt, es also eine Dissonanz zwischen Sprachgestaltung und Kameraperspektive geben kann. Selbst auf zwei unterschiedliche Ebenen der Tonspur kann das Konzept von Paraphrase, Polarisation und Dissonanz angewendet werden. Beispielsweise kann zu einer bedrohlich wirkenden Atmo gleichzeitig eine fröhliche Musik erklingen etc. Wird das Modell auf diese Weise verfeinert, so ermöglicht es nicht nur eine wesentlich detailliertere Analyse von Beispielen, sondern bringt auch Ideen und eröffnet vielfältige Gestaltungsmöglichkeiten für die Konzeption und Produktion von audiovisuellen Medien.

10.8 Formale und dramaturgische Konzeption Form und Dramaturgie bestimmen, wie der Inhalt transportiert werden soll.

Die formale und dramaturgische Konzeption bestimmt Aufbau, Entwicklung und Funktion der gesamten Tonspur eines Medienprodukts. Selbstverständlich müssen dabei sowohl die Beziehungen und Entwicklungen der einzelnen akustischen Elemente zueinander als auch das Verhältnis von Bild und Ton beachtet werden. Auch wenn dies zunächst selbstverständlich erscheint, sieht die Praxis leider oft anders aus. Zumindest bei etwas größer angelegten Produktionen sind für die verschiedenen Elemente der Tonspur mehrere Personen oder gar mehrere Teams zuständig. Sprache, Geräuscheffekte und Musik werden also oft mehr oder min-

kap10_raffaseder.fm Seite 279 Dienstag, 5. Januar 2010 1:07 13

10.8 Formale und dramaturgische Konzeption der unabhängig voneinander hergestellt, bearbeitet und geschnitten und erst im letzten Produktionsschritt zum Bild gemischt. So kommt es immer wieder vor, dass ausgefeilte, wohl durchdachte Geräuscheffekte in der Endabmischung keine Berücksichtigung finden, da sie nicht mit der Musik harmonieren oder die Sprachverständlichkeit zu stark mindern. Bei vielen Medienprodukten kann die eigentliche Handlung mit wenigen Sätzen skizziert werden. Derart auf das Wesentliche reduziert erscheinen viele Geschichten völlig belanglos, altbekannt und langweilig. Der Grund, warum solche Produkte trotzdem die Aufmerksamkeit auf sich ziehen und faszinieren können, liegt in ihrer formalen Gestaltung. Sie sollte klar strukturiert und nachvollziehbar aber auch individuell und unverwechselbar sein. Die gewählte Form soll außerdem neue Blickwinkel auf den Handlungsverlauf ermöglichen, Überraschungsmomente vorbereiten und den Rezipienten Freiräume für Phantasie, gedankliche Weiterentwicklung und Ausgestaltung lassen. Ein optimales Zusammenspiel aller im Medienprodukt wirkenden visuellen und akustischen Elemente setzt von Anfang an eine gemeinsame Planung der gesamten formalen und dramaturgischen Entwicklung voraus. Die Auswahl der Geräusche sollte zum Beispiel unbedingt die Musik beeinflussen, und zwar am besten schon vor oder während des Kompositionsprozesses. Dass die Wahl eines bestimmten Bildes oder einer Kameraeinstellung den Ton beeinflusst, ist auch in der derzeitigen Praxis selbstverständlich. Ein perfektes Zusammenspiel ist jedoch nur denkbar, wenn die andere Richtung zumindest angedacht wird. Das heißt, es sollte denkbar sein, dass eine gute, von Geräuschen oder Musik ausgehende Idee auch Einfluss auf die Bilder nimmt. Sieht man von Musikvideos ab, so beginnt die eigentliche Arbeit an der Tonspur allzu oft erst, wenn die Arbeit an den Bildern zumindest im Rohschnitt bereits fertig ist. Die Gefahr, dass dabei die Tonspur mehr oder weniger zu einer Art Hintergrundtapete verkommt, ist groß. Zu oft wird die Tonspur als letzter „Retter in der Not“ verstanden, der einer etwas zu lange und langweilig geratene Szene doch noch zu etwas mehr Spannung verhilft. Ein echter Mehrwert aus der Verknüpfung akustischer und visueller Eindrücke kann auf diese Weise höchstens in begrenztem Ausmaß entstehen. Sollen die multimedialen Mittel bestmöglich ausgeschöpft werden, so ist die Kenntnis der gestalterischen Möglichkeiten und dramaturgischen Kräfte aller beteiligten Komponenten unabdingbar und eine gemeinsame, weitgehend gleichberechtigte Planung von der ersten bis zu letzten Produktionsphase in hohem Maße erstrebenswert. Ein intuitiver, improvisatorisch gestalterischer Ansatz ist ein legitimer Weg im kreativen Prozess, der häufig zu guten Ergebnissen führen kann.

279

Für Wirkung und Bedeutung ist oft entscheidend, wie der Inhalt dargestellt wird.

Alle beteiligten Elemente müssen von Anfang an in die formale und dramaturgische Konzeption einbezogen werden.


280


Intuition und Improvisation liefern im kreativen Prozess oft interessante Ergebnisse, die jedoch bewusst reflektiert werden sollten.

Intuition und Improvisation sollten jedoch stets bewusst reflektiert werden. Da Medienproduktionen meist im Team entstehen, ist diese bewusste Reflexion umso wichtiger. Denn nur so ist ein gedanklicher Austausch möglich, der sicherstellen kann, dass die gemeinsame künstlerische und technische Arbeit auch in die angestrebte Richtung geht. 10.8.1 Formale und dramaturgische Ziele Oberstes Ziel der Dramaturgie sollte ein in sich schlüssiges, stimmiges, abwechslungsreiches, spannendes Produkt sein. Die richtige Balance zwischen Spannung und Entspannung, Weiterentwicklung und Wiederholung, Unbekanntem und Bekanntem, Erfüllen und Brechen von Erwartungshaltungen ist dafür entscheidend. Der formale, strukturelle Aufbau muss nachvollziehbar und erlebbar sein und eine klare Einheit mit den vermittelten Inhalten ergeben. Zwischen den unterschiedlichen Gestaltungsebenen sollte ein Netzwerk von unterschiedlichen Bezugspunkten etabliert werden, das teils bewusst, teils unbewusst wirksam werden kann. Oft ist das Umfeld, in dem eine bestimmte Entwicklung stattfindet, mindestens ebenso wichtig wie diese Entwicklung selbst. Eine individuelle, erinnerbare Ausgestaltung zentraler Elemente sollte unbedingt angestrebt werden. 10.8.2 Formale und dramaturgische Gestaltungsmittel

Die Tonspur muss sowohl für sich alleine betrachtet als auch im Zusammenspiel mit den visuellen Elementen nach formalen und dramaturgischen Kriterien gestaltet werden.

Das verwendete akustische Material, die Dichte der akustischen Ereignisse, die verschiedenen Aspekte der räumlichen und zeitlichen Gestaltung sowie die Bild-Ton-Beziehungen zählen zu den wichtigsten dramaturgischen Mitteln der akustischen Gestaltung. Da diese Parameter keinesfalls statische Größen sind, sondern sich von Szene zu Szene kontinuierlich verändern, ist ihre zeitliche Entfaltung und Weiterentwicklung entscheidend. Die Entwicklungen all dieser dramaturgischen Parameter müssen sowohl in ihrem Zusammenwirken im Kontext der gesamten Medienproduktion, als auch für sich allein stehend im Kontext einer einzelnen Wahrnehmungskategorie betrachtet werden. Es ist durchaus denkbar, dass ein sehr dichter Bildinhalt mit einer Tonspur konfrontiert wird, die auf Sprache verzichtet und nur aus einer einfachen, von einem Soloinstrument gespielten Melodie und wenigen selektiv ausgewählten Geräuschen besteht. Abhängig vom Handlungsverlauf und des allgemeinen Kontexts kann der erzielte Gesamteindruck dabei entweder die Dichte des Bildes behalten, oder auch neutralisiert und möglicherweise gar als leer empfunden werden. Werden noch andere dramaturgische Parameter


10.8 Formale und dramaturgische Konzeption berücksichtigt, so wäre es durchaus denkbar, dass die Geräusche sehr rasch wechseln, also hohes Tempo aufweisen, die Musik aber trotzdem ganz langsam und getragen ist. Der Bildinhalt könnte einer Traumsequenz entstammen und somit aus einer völlig subjektiven Perspektive gezeigt werden. Die Musik könnte diese Subjektivität mittragen, während mit Atmo und Geräuscheffekten versucht wird, das Geschehen möglichst realistisch darzustellen. Obwohl sich die dramaturgischen Mittel auf wenige Gestaltungselemente reduzieren lassen, ergibt sich eine Vielzahl von Möglichkeiten, die auch zu jeweils völlig unterschiedlicher Wahrnehmung des gesamten Produktes führen können. Um die im Sinne des angestrebten Ergebnisses optimale Lösung zu finden, sollten von Szene zu Szene möglichst viele dieser Möglichkeiten durchgedacht und auf ihre Wirkung hinterfragt werden, um schließlich die für den jeweiligen Kontext beste Variante zu wählen. Ein in jedem Fall wichtiges Grundprinzip formaler Gestaltung ist eine ausgewogene Balance zwischen verschiedenen Gegensatzpaaren wie Kontinuität – Diskontinuität, Wiederholung – Veränderung, Spannung – Entspannung.

281

Balance zwischen verschiedenen Parametern ist ein wichtiger Grundsatz dramaturgischer Gestaltung.

10.8.3 Wichtige Grundtypen formaler Gestaltung In der Praxis ergeben sich für die formale Gestaltung vielfältige Möglichkeiten, die sich jedoch meist auf die Ausdifferenzierung, Kombination oder Überlagerung einiger weniger Grundtypen zurückführen lassen. Eine Möglichkeit ist die als Reihungsform bezeichnete Abfolge in sich geschlossener Teile, die beispielsweise in der Musik zur einfachen Liedform, in der sich Strophe und Refrain abwechseln, oder zum Rondo, bei dem ein charakteristischer Teil immer wiederkehrt und die Zwischenteile jeweils anders gestaltet sind, ausdifferenziert wurde. Auch die Variationsform, bei der ein Gestaltungselement immer wieder leicht verändert

Reihungsform Steigerung Bogenform

Abb. 10.10 Wichtige Grundtypen formaler Gestaltung


282

Tab. 10.4 Fragen zur formalen und dramaturgischen Konzeption


Einige Fragen zur formalen und dramaturgischen Konzeption ï ï ï ï ï ï ï ï ï ï ï ï ï ï

Sind Geräusche und Musik überhaupt notwendig? Wird Musik neu komponiert? Wer hört welche akustischen Ereignisse? Sind die akustischen Ereignisse Teil des Geschehens? Welche Protagonisten haben welche Emotionen? Welche Stimmung soll in den Rezipienten ausgelöst werden? Welche akustischen Ereignisse werden hörbar gemacht? Welche Instrumente werden eingesetzt? Wird den Protagonisten ein bestimmter Musikstil zugeordnet? Welcher Musikstil passt zur Szene, zum Produkt? Welche Funktion sollen die einzelnen Elemente übernehmen? Wie lange dauern die akustischen Ereignisse? Wo genau beginnen/enden die akustischen Ereignisse? (z.B.: synchron) Wie beginnen/enden die akustischen Ereignisse? (z.B.: Fade-In)

wiederholt wird, kann dem Grundtyp der Reihungsform zugeordnet werden. Beim formalen Konzept der Steigerung werden strukturbildende Parameter wie Tempo, Lautstärke oder Anzahl der Elemente nach und nach erhöht. Die Entwicklung strebt also einem Höhepunkt zu, nach dessen Erreichen die Spannung plötzlich abreißen oder wieder sukzessive abgebaut werden kann. Der umgekehrte Fall, also der Beginn mit einem Knalleffekt und anschließender Auflösung ist selbstverständlich genauso denkbar. Ein einfaches Beispiel für eine musikalische Form, die auf dem Prinzip der Verdichtung beruht, wäre der Kanon. Ein berühmtes, auf dem Formkonzept der Steigerung beruhendes Musikstück ist der Bolero von Maurice Ravel. Ein dritter wichtiger Formtyp ist die sogenannte Bogenform, bei der sich die Gestaltungselemente sukzessive von einem Ausgangspunkt zu einem Endpunkt entwickeln. Die sogenannte Sonatenhaupsatzform, die als Bauprinzip den klassischen Sinfonien zu Grunde liegt, wäre ein Beispiel dafür. Dabei wird zuerst das Thema vorgestellt. Im als Durchführung bezeichneten Hauptteil werden die thematischen Gedanken weiterentwickelt und aus verschiedenen Blickwinkeln betrachtet. Nachdem das Thema in der Reprise wiederholt wurde, folgt eine als Coda bezeichnete Schlusskadenz. Auch viele Vorträge werden diesem Formprinzip entsprechend gegliedert. Zuerst werden einige Thesen aufgestellt, dann werden diese Hauptgedanken entwickelt und erklärt, danach folgt eine Zusammenfassung und ein markantes Schlusswort.


10.8 Formale und dramaturgische Konzeption

Beispiele für Funktionen und Aufgaben akustischer Elemente in multimedialen Produkten ï ï

ï

ï ï ï ï ï ï ï ï ï

Emotionen vermitteln Regionalen Kontext beschreiben z.B. durch Ethno-Musik, Atmos, instrumentale Klischees (Dudelsack = Schottland) Historischen Kontext vermitteln z.B. durch historische Musik und Geräusche oder alte, verrauschte Aufnahmen Handlung verdeutlichen Charaktere verdeutlichen Raum beschreiben Tageszeit oder Jahreszeit beschreiben Form- und Struktur bilden Verbindungen zwischen Personen, Plätzen, Zeiten, Handlungen herstellen Bewegungen illustrieren, beschleunigen oder bremsen Aufmerksamkeit auf Details lenken oder von diesen ablenken Erschrecken oder beruhigen

10.8.4 Fragen zur formalen und dramaturgischen Konzeption Um die Komplexität und Wichtigkeit der dramaturgischen Konzeption mit ihren weitreichenden Folgen auf die Qualität und den Erfolg eines Medienprodukts zu verdeutlichen, sollen in der Folge einige Fragen zu den verschiedenen Gestaltungselementen gestellt werden. Der Fragenkatalog in Tab. 10.4 ist in keiner Weise vollständig, sondern soll lediglich als Anstoß für eine Beschäftigung mit dieser Thematik verstanden werden. Welche Fragestellungen sinnvoll und notwendig sind, hängt ebenso wie die jeweiligen Antworten von den konkreten Zielen und Anforderungen der Produktion ab. 10.8.5 Funktionen und Aufgaben der Tonspur Entscheidend für die erfolgreiche Gestaltung eines multimedialen Produktes ist, sich über die Funktionen und Aufgaben klar zu werden, die unterschiedliche Elemente übernehmen können bzw. im konkreten Fall übernehmen sollen. Die in Tab. 10.5 erfassten Möglichkeiten zeigen nur einige Beispiele auf, die vor allem Anstoß für eigene, eng im Zusammenhang mit dem angestrebten Ergebnis stehende Überlegungen sein sollen.

283

Tab. 10.5 Mögliche Funktionen akustischer Elemente


284


10.9 Produktionsphasen In vielen Fällen wird Audiodesign bei der Konzeption von Medienprodukten der sogenannten Post-Production, also der letzten Entwicklungsphase zugeordnet. Filme und Videos werden in der Regel „nachvertont“. Schon allein die gedankliche Zuordnung bringt zwangsläufig eine Hierarchie mit sich, in der sich die akustische Ebene dem Bild unterordnen muss. Soll das Produkt aber beste Audioqualität bieten, die gestalterischen Möglichkeiten der Tonspur ausnutzen und sich Bild und Ton perfekt ergänzen, so ist es unerlässlich, die Anforderungen des Audiodesigns von Anfang an in allen Punkten mitzubedenken und die erforderlichen Entscheidungen zu treffen. Einen guten Überblick über die verschiedenen Aufgaben in den einzelnen Produktionsphasen, deren Abhängigkeiten und Zusammenwirken gibt Jörg Lensing in seinem Buch „Sound-Design – Sound-Montage – Soundtrack-Komposition: Über die Gestaltung von Filmton“. 10.9.1 Pre-Production: Drehbucherstellung und Planung Gutes Audiodesign muss in der Pre-Production beginnen!

Die Gestaltung der Schallquellen ist meist einfacher, effizienter und wirksamer als die nachträgliche Manipulation der akustischen Ereignisse.

Obwohl gerade das Drehbuch und die genaue Planung der Produktion die Qualität der Tonspur maßgeblich beeinflussen kann, werden die notwendigen Anforderungen in der Praxis oft nur oberflächlich durchdacht und wenig berücksichtigt. Es spielt dabei kaum eine Rolle, wie viele Geräusche wie genau im Skript beschrieben werden. Entscheidend ist vielmehr, ob beim Schreiben auch eine Vorstellung der gesamten Klanglichkeit entwickelt wird und welche Möglichkeiten für das Zusammenspiel von Bild und Ton geboten werden. Akustische Ereignisse gehen von einer Schallquelle aus. Es ist daher entscheidend, wo sich eine Szene abspielt, welche Hintergrundgeräusche zu hören sind, welche Objekte im Bild sichtbar sind, welche Requisiten zum Einsatz kommen, welche Objekte noch mit der Handlung oder dem Ort in Verbindung gebracht werden können, welche Raumperspektiven vermittelt werden etc. Bei der Auswahl der Drehorte während der Planungsphase der Produktion sollten im Hinblick auf das Audiodesign nach Möglichkeit zwei wichtige Aspekte berücksichtigt werden: Erstens sollten zumindest die Hauptschauplätze viele unterschiedliche, abwechslungsreiche Klänge und Geräusche ermöglichen und interessant klingen. Zweitens sollten möglichst wenig störende Umgebungsgeräusche vorhanden sein, um gute Tonaufnahmen während der Produktion zu ermöglichen.


10.9 Produktionsphasen Dass laute Umgebungen, wie zum Beispiel belebte Plätze, Sportstätten oder Maschinenhallen, Probleme bei der Aufzeichnung der Dialoge machen ist offensichtlich. Eher leise, dauerhaft vorhandene Hintergrundgeräusche, wie das Rauschen eines PCs, das Ticken einer Wanduhr oder das Surren einen Kühlschranks bleiben hingegen häufig unbeachtet. Auch wenn diese im Alltag wenig stören, da sich das Gehör rasch daran gewöhnt, wirken sie sich in der Nähe eines Mikrofons überaus störend auf die Aufnahme aus. In manchen Fällen kann die Akustik eines Raumes mit vergleichsweise wenig Aufwand entscheidend verbessert werden. Bei Echos oder langem Nachhall können oft schon Teppiche oder Vorhänge sprichwörtlich Wunder wirken. Auch die Auswahl der Requisiten sollte so erfolgen, dass diese einerseits alle notwendigen Geräusche in gewünschter Qualität erzeugen, andererseits aber möglichst keine überflüssigen Geräusche produzieren. Es empfiehlt sich, bereits im Vorfeld zu überlegen, welche akustischen Ereignisse unbedingt während der Produktion vorhanden sein und aufgenommen werden sollen und welche problemlos nachvertont werden können. Nur so ist eine zielgerichtete Vorgangsweise denkbar. Auch hier ist zu beachten, dass viele Schallsignale, die im Alltag unbemerkt bleiben, bei naher Mikrofonierung massive Störungen verursachen können. Beispiele wären das Klappern von Geschirr oder Schmuck, Knistern mancher Tragetaschen, Reibegeräusche von bewegten Kleidungsstücken, Schrittgeräusche von Stückelschuhen, die bei Nahaufnahmen gar nicht zu sehen sind, quietschende Türen oder karrende Böden usw. Manchmal könnte eine überlegte Auswahl der Materialien viele Nebengeräusche verringern. In diese Hinsicht empfehlenswert ist beispielsweise die Verwendung von Kleidung aus Baumwolle statt aus Seide, Tragetaschen aus Stoff statt aus Papier oder Plastik, weiche Tischtücher statt harter Tischplatten, Teppich- statt Holz- oder Steinböden, weiche Turnschuhe statt harten Absätzen etc. Eng mit der Beschreibung der Schallsignale eines Ortes sind die Fragen „Was klingt?“ und „Wo klingt es?“ verbunden. Es sollten auch Kameraeinstellungen vorgesehen werden, die helfen, diese Fragen zu beantworten. Geräusche, deren Quellen nicht sichtbar sind, können rasch unbeabsichtigt zu Verwirrung führen. Wird die Quelle hingegen kurz gezeigt, so können auch Geräusche verwendet werden, die gar nicht dem Original entsprechen und beispielsweise von einem Geräuschemacher stammen. Dadurch werden neue Möglichkeiten der Klanggestaltung eröffnet und die Audioproduktion erleichtert.

285 Auch ganz leise Dauergeräusche können eine Aufnahme negativ beeinflussen.

Das Material der Requisiten kann für den Ton manchmal entscheidend sein, auch wenn es für das Bild keine Rolle spielt.

In der Nähe eines Mikrofons stören auch kaum bemerkte Alltagsgeräusche!


286


Fragen betreffend Audiodesign während der Pre-Production ï ï ï ï ï ï ï ï ï ï ï ï ï ï ï

Gibt es Klänge, Geräusch oder Musik, die Ort, Stimmung, Zeit etc. hervorragend beschreiben könnten? Sollen akustische Ereignisse, die den Ort, die Stimmung, eine bestimmte Emotion etc. besonders gut charakterisieren, in das Bild oder die Handlung integriert werden? Welche mit dem Bild oder der Handlung verknüpften Schallsignale sind für die Entwicklung des Geschehens bedeutsam? Wie wirken sich für den Fortgang des Geschehens eigentlich unbedeutende akustische Ereignisse auf die Tonspur aus? Können Schallsignale, die sich auf die Qualität der Tonspur eher negativ auswirken werden, aber mit dem Bild oder der Handlung verknüpft sind, auch weggelassen werden? Sollen bestimmte akustische Elemente eine Brücke zur nächsten Szene bilden und in dieser – eventuell in geänderter Form und Funktion – weiterwirken? Welche Objekte und Personen bewegen sich im Bild, welche müssen und welche können sich bewegen? Welche Bewegungen erzeugen welche Geräusche? Wären Änderungen von Art, Richtung oder Geschwindigkeit der Bewegungen denkbar, die in der Tonspur zu mehr Abwechslung, Spannung, Transparenz, Dichte etc. führen könnten? Sind Bewegungen von Personen oder Objekten denkbar, deren Geräusche die beabsichtigten Stimmungen und Emotionen unterstützen könnten? Haben akustische Ereignisse, die eine bestimmte formale oder dramaturgische Idee unterstützen sollen, genug Zeit zur Entwicklung und Entfaltung? Müssen sich alle Entwicklungen in den Dialogen niederschlagen oder reichen Bild, Geräusche und Musik zur Verdeutlichung aus? Gibt es Möglichkeiten, zwischen Handlung, Ort, Zeit oder handelnden Personen und akustischen Ereignissen bleibende Verbindungen zu etablieren, die auch in weiterer Folge wieder aufgegriffen werden können? Lässt die Schilderung der Handlung unterschiedliche Hörperspektiven zu? Können die Sprecher während langer Dialoge ihre Position im Raum ändern in einen anderen Raum wechseln, um durch die Variation des Klangbildes mehr Abwechslung in die Tonspur zu bringen und die Aufmerksamkeit zu erhöhen?

Tab. 10.6 Fragen des Audiodesigns während der Pre-Production

Sichtbare Bewegungen sollten zur Stimmung des Produkts passen

Entscheidend für die Art eines Schallsignals ist nicht nur die Quelle, sondern auch die jeweilige Anregung. Für das Audiodesign ist es daher von Bedeutung, welche Objekte und welche Protagonisten sich auf welche Art und zu welcher Zeit bewegen. Eine nervöse, unruhige Person die permanent auf und ab geht oder mit den Fingern auf den Tisch trommelt oder mit dem Sessel hin und her rückt erzeugt automatisch auch Geräusche, die diese innere Erregung spiegeln. Laut schreiende Kinder, vorbeirasende Autos, um den Kopf kreisende Fliegen, ein tropfender Wasserhahn, ein klappernder Auspuff und viele andere Geräusche können die Stimmung verstärken. Beachtet werden sollte auch, dass akustische Ereignisse – egal ob einfache Geräusche oder komplexe Orchestermusik – immer zeitliche Phänomene mit einer charakteristischen Struktur und Dauer sind. Sollen Schallsignale die beabsichtige Wirkung erzielen, so benötigen diese auch Zeit zur Entfaltung und Entwicklung. Erfordert das Drehbuch dauerhaft


10.9 Produktionsphasen eine rasche Szenenfolge, gibt es kaum Pausen in den Dialogen oder wird gar jede Handlung und jede Entwicklung des Geschehens in den Dialogen kommentiert, so bleibt in der Tonspur nur wenig Platz für eine effiziente narrative und dramaturgische Wirkung. Eine durchdachte Behandlung der filmischen Zeit eröffnet häufig auch interessante Möglichkeiten für die akustische Gestaltung. Die Transformation von Geräuschen kann beispielsweise ein spannendes Mittel sein, um eine Rückblende, einen Tagtraum oder ein Überspringen längerer Zeitdauern zu verdeutlichen. Dieses akustische Stilmittel ist allerdings nur dann ausführbar, wenn die Szenen in Bild oder Handlung Schallsignale beinhalten, die ähnliche charakteristische Eigenschaften aufweisen. Nur unter dieser Voraussetzung ist Transformation von einem akustischen Ereignis in das andere realisierbar. Entscheidend für die Qualität der Tonspur ist, dass das Drehbuch möglichst vielfältige Wege für die Verknüpfung von Ort, Handlung, Zeit und handelnden Personen mit den vorhandenen und produzierten akustischen Ereignissen eröffnet. Nur dann ist eine sinnvolle dramaturgische Entwicklung der Tonspur denkbar. Die Charaktere sollen ihre akustische Umgebung unbedingt wahrnehmen und auf diese auch reagieren. Es ist wichtig, dass das Geschehen von verschiedenen Personen mit unterschiedlichen Sichtweisen getragen wird, damit auch die Tonspur von unterschiedlichen Hörperspektiven ausgehend gestaltet werden kann.

287

Qualitätssteigernde Stilmittel, wie enge Verbindungen von Schallsignalen zur Handlung oder unterschiedliche Hörperspektiven, müssen schon im Skript vorbereitet werden!

10.9.2 Produktion Während der Produktion von Filmen und Videos geht es darum, den sogenannten O-Ton, also jene akustischen Ereignisse, jene Originaltöne, die am Drehort hörbar sind und im Produkt verwendet werden sollen, mit bestmöglicher Qualität aufzuzeichnen. Auch wenn viele Elemente der Tonspur nachträglich bearbeitet, ersetzt oder ergänzt werden, ist es einleuchtend, dass die Originalgeräusche in Hinblick auf Authentizität, Individualität und Lebendigkeit nur schwer zu übertreffen sind. Optimale Aufnahmebedingungen am Drehort müssen der gesamten Crew ein Anliegen sein, damit möglichst viel O-Ton im Endprodukt verwendet werden kann. Selbstverständlich dürfen weder Mikrofone und Stative noch deren Schatten im Bild sichtbar sein. Dabei ist aber gerade die Mikrofonierung, also die Wahl des Abstandes und des Aufnahmewinkels, für die Qualität einer Aufnahme mitentscheidend. Um gegebenenfalls die Aufnahmen aus unterschiedlichen Takes zusammenschneiden zu können, muss darauf geachtet werden, dass Mikrofonabstand und Aufnahmewinkel möglichst unverändert bleiben. Andernfalls würde sich sowohl der Raum-

Möglichst optimale Aufnahmebedingungen müssen während der Produktion zu einem AnliegenallerBeteiligten werden.

Mikrofonabstände und Einfallswinkel immer beibehalten!


288

Fix it in the Mix?

Die Synchronisation der Dialoge soll nach Möglichkeit gleich am Drehort durchgeführt werden.

Genug Zeit für Aufnahmen von Nur-Ton am Originalschauplatz einplanen!

10 Akustische Mediengestaltung eindruck und aufgrund der Abhängigkeit des Frequenzgangs von der Einfallsrichtung des Schalls auch die Klangfarbe ändern. Beides kann nachträglich oft nur unzulänglich aneinander angepasst werden. Die Verwendbarkeit des O-Tons wird meist durch viele unerwünschte Nebengeräusche beeinträchtigt. Viele dieser Störgeräusche werden am Drehort von beteiligten Personen, den Requisiten, der Technik, der Kleidung usw. verursacht und wären zumindest teilweise vermeidbar. Allerdings fühlt sich ein Großteil der Crew eben ausschließlich für das Bild verantwortlich. Darüber hinaus scheint es eine gängige Meinung zu sein, dass sich alle Probleme der Tongestaltung in der Post-Production lösen lassen. Dabei können während der Produktion gelegentlich mit einfachsten, nahezu selbstverständlich erscheinenden Mitteln, wie das Ölen quietschender Scharniere, das Ausschalten gerade nicht benötigter Geräte, das Abdecken von störenden, gerade nicht im Bild sichtbaren Geräuschquellen etc. entscheidende Verbesserungen erzielt werden, die bei der Nachvertonung unmöglich oder zumindest mit einem hohen Aufwand verbunden sind. Es sollte von keinem Schauspieler erwartet werden, die Dialoge später in der meist sterilen Atmosphäre eines professionellen Aufnahmestudios mit annähernd gleicher Qualität, Authentizität und Lebendigkeit wiederzugeben, wie während der Dreharbeiten. Sollte eine nachträgliche Synchronisation unvermeidbar sein, so empfiehlt sich eine Tonaufnahme der Dialoge unmittelbar im Anschluss an den Dreh der Szene, solange die Schauspieler noch die Atmosphäre in sich spüren. Bei geeigneter Planung lassen sich derartige Aufnahmen in unmittelbarer Nähe des Drehorts ohne großen Aufwand in guter Qualität durchführen. Besser sind die Rahmenbedingungen für die Aufnahme von Atmos und den Geräuschen von Requisiten und anderen eventuell wichtigen Klangobjekten am Originalschauplatz, da diese auch unabhängig vom Bild als sogenannter Nur-Ton aufgenommen werden können. Allerdings muss im Ablaufplan der Produktion auch genügend Zeit dafür reserviert werden. Auch wenn für das Audiodesign von Computerspielen, Animationen oder diversen interaktiven Anwendungen ein Großteil der in diesen Abschnitt besprochenen Aspekte keine Rolle spielt, sollten auch während der Programmierung dieser Produkte die Erwartungen, die an die Tonspur gestellt werden, berücksichtigt werden. Bei den technischen und gestalterischen Entscheidungen sollten eventuelle Auswirkungen auf das Audiodesign bedacht und nach Möglichkeit als eines der Entscheidungskriterien gewertet werden.


10.10 Audiodesign von Mensch-Maschine-Schnittstellen

289

10.9.3 Post-Production Auch wenn, wie in den vorangegangenen Abschnitten erläutert, bereits vor und während der Produktion viele Entscheidungen zu treffen sind, die auch für das Audiodesign Bedeutung haben, so liegt der Hauptaufgabenbereich akustischer Gestaltung im Allgemeinen doch in der Post-Production. Aufgabe des sogenannten O-Ton- und Nur-Ton-Editings ist es, alle während der Dreharbeiten gemachten Tonaufnahmen auf ihre Verwendbarkeit zu prüfen, das beste Material auszuwählen und synchron zum fertig geschnittenen Bild anzulegen. Alle Dialoge, die aufgrund von Störgeräuschen oder mangelnder Qualität nicht vom O-Ton verwendet werden können, müssen in einem Tonstudio noch einmal aufgezeichnet werden. Dieser Vorgang wird ADR-Taking genannt. ADR ist dabei eine Abkürzung für Automatic Dialog Replacement oder auch Automated Dialog Recording. Die Schauspieler sehen bei dieser Nachsynchronisation die entsprechenden Bilder und versuchen, den Dialog möglichst genau zu reproduzieren. Aufgabe des ADR-Editings ist die anschließende Bearbeitung und das lippensynchrone Anlegen dieser Aufnahmen zum fertig geschnittenen Film. Das Erstellen, Bearbeiten und Auswählen geeigneter Atmos und Geräusche wird beim Soundediting erledigt. Sind viele spezielle, aufwendige Geräuscheffekte erforderlich, so wird auch von Sounddesign gesprochen. Das Aufnehmen von Geräuschemachern, die nach Jack Foley auch FoleyArtists genannt werden und synchron zu den laufenden Bildern passende Geräusche imitieren, wird als Foley-Recording, deren nachträgliche Bearbeitung als Foley-Editing bezeichnet. Das Anlegen der von einem Filmkomponisten gelieferten oder aus Archiven kompilierten Musik geschieht schließlich beim Music-Editing. Während der Endmischung werden die verschiedenen Elemente der Tonspur zusammengeführt. Dabei muss über die dynamischen Schattierungen oder auch das Weglassen einzelner Elemente entschieden und das gewünschte Raumgefühl durch gezielten Einsatz von Hallgeräten und die Positionierung bzw. Bewegung der akustischen Ereignisse im Lautsprecherraum erzielt werden.

10.10 Audiodesign von Mensch-Maschine-Schnittstellen Obwohl akustische Ereignisse im Alltag einen wichtigen Beitrag zur Wahrnehmung der Umwelt leisten, spielen sie in der Gestaltung von MenschMaschine-Schnittstellen – von einigen Spezialfällen abgesehen – nach

Dialoge von minderer Aufnahmequalität werden durch ADR ersetzt.

Passende Geräusche werden durch Sounddesign oder FoleyRecording erzeugt.


290

Auditory Displays verwenden akustische Ereignisse für die Interaktion von Mensch und Maschine.

10 Akustische Mediengestaltung wie vor eine vergleichsweise untergeordnete Rolle. In der Wissenschaft werden aber spätestens seit den 1990er Jahren die Möglichkeiten für einen zielgerichteten Einsatz von Sound bei der Interaktion zwischen Mensch und Maschine erfolgreich erforscht. Mittlerweile sind zahlreiche Anwendungen und Ansätze für das Design bekannt, in denen Schallsignale Effizienz und Bedienbarkeit von Benutzerschnittstellen auf unterschiedliche Arten steigern können. Die Verwendung von akustischen Ereignissen zur Ausgabe von Systeminformationen und Daten wird als Auditory Display bezeichnet. Der Prozess der Zuordnung von bestimmten Schallsignalen zu den auszugebenden Informationen heißt auch Sonification oder Audification. Die wissenschaftliche Disziplin Sonic Interaction Design erforscht die Möglichkeiten und Rahmenbedingungen für den Einsatz von Sound bei der Interaktion mit digitalen Geräten. Eine Zusammenfassung wichtiger theoretischer Aspekte für den Einsatz von Sound in der Mensch-MaschineKommunikation gibt Georg Spehr (Hrsg.) im Buch „Funktionale Klänge: Hörbare Daten, klingende Geräte und gestaltete Hörerfahrungen“. 10.10.1 Argumente für den Einsatz von Auditory Displays

Akustische Ereignisse können ohne rationale Leistung unbewusst ausgewertet werden.

Die Verbindung von Aktionen mit Geräuschen entspricht der alltäglichen Wahrnehmung.

Klänge und Geräusche können zum Beispiel Aufschlüsse über den aktuellen Betriebszustand eines Systems geben, bei der Orientierung helfen, Aufmerksamkeit erwecken und auf die Dringlichkeit einer auszuführenden Aktion hinweisen etc. Ähnlich wie in verschiedenen Situationen des Alltags kann sich das Auge auf eine konkrete Aufgabe konzentrieren, während das Ohr die Überwachung des Umfelds übernimmt. Ohne dauernd bewusst darauf achten zu müssen, können auch kleinste Veränderungen der akustischen Umwelt registriert werden und entsprechende Handlungen erfordern. In der Natur ist jedes Ereignis, jede Bewegung erfahrungsgemäß mit einem charakteristischen Schall- bzw. Lautereignis verbunden, das Hinweise über Beschaffenheit und Bedeutung zulässt. Die Auswertung erfolgt instinktiv und in vielen Fällen völlig unbewusst. Wenn beispielsweise hinter uns jemand ungewöhnlich hastig vorbeiläuft, werden wir uns umblicken, obwohl wir den vielen anderen, in gewöhnlichem Tempo gehenden Passanten keine Beachtung schenken. Bei Mensch-MaschineSchnittstellen entspricht die Auslösung bestimmter Geräusche bei verschiedenen Aktionen des Benutzers der natürlichen Wahrnehmung und ermöglicht ein permanentes Feedback des Systems. Ein wesentlicher Aspekt ist auch die Vermittlung von Stimmungen und Emotionen, mit der eine merkbare Erhöhung von Motivation, Aufnahmefähigkeit und Aufmerksamkeit verbunden sein kann.


10.10 Audiodesign von Mensch-Maschine-Schnittstellen Der vermehrte Einsatz von Schallsignalen in Mensch-MaschineSchnittstellen kann die visuelle Wahrnehmung, die im Kontext einer steigenden Informationsflut an die Grenzen ihrer Aufnahmefähigkeit stößt, nachhaltig entlasten. Dabei können unter anderem die Fähigkeit zur gleichzeitigen Wahrnehmung und Auswertung mehrerer unterschiedlicher akustischer Ebenen, die geringe Reaktionszeit auf Schallsignale oder der auch bei ganz kurzen Klangobjekten mitunter sehr vielschichtige Informationsgehalt ausgenützt werden. Aufgrund dieser Vorteile kann von einem steigenden Bedarf an Audiodesign im Zusammenhang mit Mensch-Maschine-Schnittstellen ausgegangen werden.

291 Akustische Ereignisse können die visuelle Wahrnehmung entlasten.

10.10.2 Ansätze für die Gestaltung geeigneter Klangobjekte Einige wichtige Anforderungen an das Audiodesign sind: leichte Erlernbarkeit, großer Abwechslungsgrad, eindeutige Zuordnung zu einer bestimmten Klasse von Informationen, Unverwechselbarkeit, eindeutige Zuordnung zu einer Quelle, möglichst einfache und eindeutige Auswertung des Informationsgehalts, Vermeidung unerwünschter Ablenkung und Multifunktionalität bzw. Multidimensionalität. Seit einigen Jahren rücken sogenannte multisensuelle, intermodale oder synästhetische Gestaltungsansätze, die mehrere verschiedene Sinne in gemeinsame Konzepte integrieren, ins Zentrum des Interesses. Eine gute Einführung in dieses Themenfeld gibt Michael Haverkamp in seinem Buch „Synästhetisches Design. Kreative Produktentwicklung für alle Sinne“. Mit Auditory Icons auf der einen und Earcons auf der anderen Seite existieren im Wesentlichen zwei unterschiedliche Strategien für die Gestaltung von Klängen zum Einsatz in Auditory Displays. Die Zusammenführung dieser an sich gegensätzlichen Konzepte führt zu semi-abstrakten Klangobjekten als weiterem Lösungsweg. Auditory Icons Beim Konzept der Auditory Icons werden Alltagsgeräusche verwendet. Diese stehen aufgrund von Erfahrung in möglichst enger Verbindung mit dem auslösenden Ereignis bzw. der ausgeführten Aktion. Ein bekanntes Beispiel wäre die Verknüpfung des Löschens einer Datei von der Festplatte mit Geräuschen, die beim Zerreißen oder Zerknittern von Papier entstehen, oder das Auslösen von kurzen, perkussiven Schallsignalen bei Mausklicks. Die Auswahl einer Datei könnte mit einem Geräusch, das typisch für die Berührung von Objekten ist, verdeutlicht werden. Da sowohl das Material als auch die Größe des klingenden Objekts maßgeblichen Einfluss auf das akustische Ereignis haben, könnten diese beiden

Auditory Icons sind mit alltäglichen Wahrnehmungen möglichst verwandt und daher weitgehend bekannt.


292

10 Akustische Mediengestaltung Parameter Aufschluss über die Art der gespeicherten Informationen und den Umfang der Datei geben. Da Auditory Icons unmittelbar aus Alltagserfahrungen abgeleitet werden und – durchaus auch mit visuellen Icons vergleichbar – eine große Ähnlichkeit mit bekannten Objekten aufweisen, kann ihre Bedeutung rasch und ohne Aufwand erlernt werden. Durch die Verknüpfung mehrerer Parameter von akustischen Ereignissen wird eine mehrdimensionale Übermittlung von Information möglich. So kann beispielsweise ein kurzes Geräusch in Verbindung mit der Auswahl einer Datei gleichzeitig ihre Art, ihren Umfang und die Zeit der letzten Änderung beschreiben. So ließe sich eine Textdatei von großem Umfang, die lange nicht mehr bearbeitet wurde, gut mit einem tiefen Papierklang, der aus weiter Entfernung erklingt, beschreiben. Die Beschreibung von Auditory Icons durch herkömmliche Parameter wie Tonhöhe, Klangfarbe, Lautstärke, Tempo etc. erscheint wenig zielführend. Anzustreben ist vielmehr eine direkte Charakterisierung der verwendeten akustischen Ereignisse über das Material, die Größe, die Stärke der Anregung usw. Audiotory Icons wirken vor allem auf der im Abschnitt 1.10.2 beschriebenen Ebene des Informationsgehalts akustischer Ereignisse. Earcons

Als abstrakte Schallereignisse werden Earcons für eine bestimmte Anwendung optimiert. Sie können Information sehr effizient übermitteln. Ihre Bedeutung muss aber erst erlernt werden.

Earcons sind abstrakte, synthetische Schallereignisse. Sie weisen keinen vordefinierten Bezug zum beschriebenen Ereignis auf, der durch eine Ähnlichkeit zu einem bekannten Vorgang begründet werden könnte. Solche abstrakten Klangobjekte können durch eine strukturierte, einer für die konkrete Anwendung definierten Gesetzmäßigkeit folgenden Kombination verschiedener Parameter zur Informationsübermittlung eingesetzt werden. Sie können zum Beispiel aus kurzen melodischen oder rhythmischen Motiven zusammengesetzt und in Dichte, Klangfarbe, Lautstärke, Tempo oder Tonhöhe variiert werden. In gewisser Hinsicht können Earcons als eine sehr einfache Form von Sprache angesehen werden, bei der ja ebenfalls abstrakte Laute den Gesetzen des Vokabulars und der Grammatik folgend, zu übergeordneten, bedeutungstragenden Elementen, wie Wörter, Sätze oder Nachrichten zusammengesetzt werden. Da die Bedeutung noch nicht vorgegeben ist, sondern den Schallereignissen bzw. deren Kombinationen erst durch das Designkonzept der Mensch-Maschine-Schnittstelle zugeordnet wird, ermöglichen Earcons viele neue Gestaltungsansätze, die zu effizienteren, abwechslungsreicheren, lebendigeren Auditory Displays führen können. Ein Nachteil ist freilich, dass die Benutzer die Bedeutung erst erlernen müssen. Ein altbekanntes Beispiel für Earcons wäre das Morsealphabet. Auch bei Handys


10.10 Audiodesign von Mensch-Maschine-Schnittstellen

293

kommt dieses Konzept vielfach zum Einsatz. Beispielsweise werden neue Nachrichten auf der Mobilbox und eingegangene SMS nicht mit dem üblichen Klingelton signalisiert. Bei neueren Modellen ist es auch möglich, den Klingelton vom jeweiligen Anrufer abhängig zu machen. Der Benutzer könnte also noch bevor er das Gerät zur Hand nimmt darüber informiert werden, ob Freunde, Geschäftspartner oder Unbekannte anrufen. Earcons sind vor allem auf der im Abschnitt 1.10.4 beschriebenen Wirkungs- und Bedeutungsebene der Konvention angesiedelt. Semi-abstrakte Klangobjekte Eine dritte, bisher nur in Ansätzen verfolgte Möglichkeit für das Design von Auditory Displays sind semi-realistische bzw. semi-abstrakte Klangobjekte, bei denen eine Synthese aus Auditory Icons und Earcons angestrebt wird, um die Vorzüge beider Konzepte nutzen zu können. Semiabstrakte Klangobjekte müssten also einerseits aufgrund bestimmter charakteristischer Eigenschaften eindeutig einer Klasse von vertrauten Umweltgeräuschen zugeordnet werden können, andererseits aber zusätzlich neue, nicht der gewohnten Hörerfahrung entsprechende Merkmale tragen. Allerdings stellt das Design von Klangobjekten, die diese Anforderungen zufriedenstellend erfüllen können, eine große Herausforderung dar. Der Einsatz von Physical Modeling (Klangerzeugungsverfahren, das für die physikalischen Eigenschaften eines Musikinstruments mathematische Modelle nutzt) in der Klangsynthese wäre ein möglicher, jedoch rechenintensiver Ansatzpunkt.

Semi-abstrakte Klangobjekte versuchen die Vorzüge von Auditory Icons und Earcons zu kombinieren.

10.10.3 Richtlinien für die Gestaltung von Auditory Displays Der Grundsatz einer konsistenten, in sich schlüssigen Produktgestaltung ist auch für das Design von Auditory Displays von herausragender Bedeutung. Einmal getroffene Entscheidungen müssen für das ganze Produkt Gültigkeit haben und konsequent eingehalten werden. Wird beispielsweise die Auswahl einer Textdatei von einem Papiergeräusch begleitet oder mit einem rhythmischen Motiv verknüpft, so sollten auch alle anderen Aktionen, die mit diesem Dateityp in Verbindung stehen, also beispielsweise Kopieren, Öffnen, Verschieben, Löschen etc. mit einem von Papier stammenden Geräusch bzw. dem gleichen Rhythmus in Verbindung stehen. Wurde festgelegt, dass sich die Größe der Textdatei in der Tonlage ausdrücken soll, so sollen auch alle anderen Aktionen betreffend Dateigröße Auswirkungen auf die Tonhöhe des akustischen Ereignisses haben. Um die Multidimensionalität von akustischen Ereignissen auszunützen, soll grundsätzlich bei jedem im Auditory Display zur Übermittlung

Ist das Design konsistent?

Wird die Multidimensionalität ausgenützt?


294

Passen die Klangobjekte zur Nachricht und zum Produkt? Werden die Klangobjekte von den richtigen Personen gehört?

Für wen ist die übermittelte Information gedacht? Wer hört die akustischen Ereignisse und wer sollte sie hören?

10 Akustische Mediengestaltung einer bestimmten Nachricht eingesetzten Schallereignis, genau überlegt werden, welche weiteren Informationen sich damit sinnvoll übermitteln lassen. Beispielsweise wird beim Auslösen einer digitalen Fotokamera üblicherweise ein kurzes Klangereignis ausgelöst, um das vertraute Klicken analoger Geräte zu ersetzen und dem Benutzer ein Feedback über den Erfolg seiner Handlung zu geben. Es wäre ohne großen Aufwand realisierbar, mit diesem Geräusch zusätzlich den noch vorhandenen Speicherplatz bzw. die Anzahl der verbleibenden Bilder oder den Batteriestatus zu übermitteln. So hätte ein Fotograf Kenntnis über wichtige, sein Werkzeug betreffende Details, ohne dabei den Blick vom zu fotografierenden Objekt nehmen zu müssen. Die Beschaffenheit der verwendeten Klangobjekte sollte sowohl zum Charakter der zu übermittelnden Nachricht als auch zum Produkt passen. Bei Auditory Icons ist dies meist schon aufgrund der Semantik der akustischen Ereignisse erfüllt. Bei Earcons stellt diese Forderung hingegen eine wichtige Aufgabe für das Design dar. Vor allem sollte auch die durch das akustische Ereignis vermittelte Stimmung hinterfragt werden. Bleibt der emotionale Gehalt des Schallsignals unberücksichtigt, so kann dies zu unerwünschten Nebenwirkungen führen. Ein negatives Beispiel findet sich in manchen PKWs, bei denen der mit Sensoren gemessene Abstand zu Objekten durch eine Folge kurzer, hoher Piepstöne akustisch vermittelt wird. Je kleiner der Abstand zum Objekt wird, desto rascher folgen die Töne aufeinander. Dieses Auditory Display könnte vor allem beim Einparken eine große Hilfe sein. Allerdings vermittelt das hochfrequente Piepsen kombiniert mit dem schneller werdenden Pulsieren eine unruhige, angespannte, gestresste Stimmung, die sich bestimmt nicht positiv auf die gestellte Aufgabe des Einparkens auswirkt und im schlechtesten Fall sogar Fehler provozieren kann. Darüber hinaus werden Piepstöne normalerweise eher mit billigem Spielzeug als mit teuren Autos assoziiert. Bei der Konzeption und Gestaltung von Auditory Display sollte auch die Frage beachtet werden, für wen die übermittelte Information von Bedeutung ist, wer daher das akustische Ereignis in welchen Situationen unbedingt wahrnehmen muss und wen das Schallsignal besser nicht stören oder ablenken soll. Nach wie vor werden bei vielen akustisch unterstützten Benutzerschnittstellen vor allem kurze, durchdringende Klänge eingesetzt, die sich vielfach auch in großer Entfernung noch deutlich vom akustischen Umfeld abheben, obwohl dafür gar keine Notwendigkeit besteht. Die Grundfrequenzen der Klingeltöne von Handys sind zwar nur für eine Person von Interesse, sind aber trotzdem meist in einem großen Umkreis hörbar. Da dies zu Verwirrung führen kann, lässt sich beispielsweise in öffentlichen Verkehrsmitteln oft beobachten, dass gleich mehrere Personen nach ihrem Mobiltelefon greifen, wenn eines klingelt.


10.11 Audiodesign für interaktive Medien Das in manchen Ländern vorgeschriebene Warnsignal von LKWs mit eingelegtem Retourgang ist auch drei Häuserblocks weiter noch gut hörbar, obwohl es nur im unmittelbaren Gefahrenbereich wirksam sein sollte. Eine individuelle Gestaltung, eine durchdachte Wahl des Frequenzbereichs oder gerichtete Schallabstrahlung können Verbesserungen bringen. Die meisten Klingeltöne würden auch eine Oktave tiefer ihre Aufgabe noch gut erfüllen, wären aber weniger aufdringlich. Auch das zu erwartende akustische Umfeld sollte nach Möglichkeit bei der Gestaltung von Auditory Displays berücksichtigt werden. Im Allgemeinen sind akustische Signale zu bevorzugen, die sich zwar einerseits als eigenständiges Element im klanglichen Kontext mühelos behaupten, sich dabei andererseits aber trotzdem auch harmonisch einfügen. Dass es sich dabei keineswegs um zwei unvereinbare Forderungen handelt, zeigen beispielsweise gut instrumentierte Orchesterwerke. Ähnlich wie bei Mischung und Arrangement von mehreren Instrumenten, soll auch beim Design von akustischen Benutzerschnittstellen darauf geachtet werden, dass sich verschiedene Elemente gegenseitig ergänzen und keinesfalls zueinander in Konkurrenz treten. Wenn die Ausgabe von Navigationssystemen in Autos akustisch erfolgt, wird der Fahrer visuell nicht abgelenkt und kann den Blick auf die Straße konzentrieren. Die in solchen Fällen meist zum Einsatz kommenden Sprachsysteme sind aber nur bedingt sinnvoll. Erstens wird Sprache zum Teil vom Motorengeräusch überdeckt, zweitens könnte der Hinweis von einer Unterhaltung mit dem Beifahrer überlagert sein und schlecht verstanden werden und drittens beansprucht eine Sprachmeldung die Aufmerksamkeit für einige Sekunden. Da sich die Ausgaben von Navigationssystemen auf wenige Aussagen, wie „Bei der nächsten Ampel links abbiegen!“ oder „Nach 100 Metern rechts einordnen!“, beschränken lassen, wäre eine Codierung durch wenige kurze Geräusche denkbar, die sich sowohl gegen das Brummen des Motors, als auch gegen die Sprache des Beifahrers durchsetzen und die Information innerhalb einiger Zehntelsekunden vermitteln können.

10.11 Audiodesign für interaktive Medien Ein Großteil der bisher in diesem Kapitel zum Audio-Design angestellten Überlegungen bezieht sich zwar vorrangig auf zeitbasierte, lineare Medien, wie Film und Video. Die grundlegenden Fragen der akustischen Gestaltung stellen sich aber auch bei interaktiven, nichtlinearen Medien, wie Computerspiele, Websites, Infoterminals oder interaktiven Medieninstallationen in nahezu unveränderter Weise. Aus diesem Grund behalten die bisher vorgestellten Elemente, Aufgaben, Funktionen und Mög-

295

In welchem akustischen Umfeld wird das Auditory Display vermutlich eingesetzt? Fügt es sich in dieses ein und bleibt trotzdem wirksam?


296

Auch bei interaktiven Medien dürfen Form und Dramaturgie nicht nur demBenutzerüberlassen werden.

Möglichst viele Zeitverläufe sollten formal und dramaturgisch durchdacht und gestaltet sein.

Action-Sounds müssen zur dramaturgischen Funktion des Ereignisses passen.

10 Akustische Mediengestaltung lichkeiten des Audiodesigns auch im Kontext von Interaktivität zumindest sinngemäß ihre Gültigkeit. Gestaltungskriterien, die sich vor allem an den spezifischen Anforderungen von interaktiven Medien orientieren und dabei wesentlich über das bisher Gesagte hinausgehen, können nur schwer aufgestellt werden, da es sich erstens um ein vergleichsweise junges Feld handelt, in dem zum Teil wesentliche Erfahrungswerte, Experimente und Untersuchungen noch fehlen, und zweitens die technische Entwicklung ungebremst voranschreitet. Ein wesentlicher Unterschied besteht in der Frage nach der formalen und dramaturgischen Konzeption, da bei interaktiven Medien der Zeitablauf nicht vollständig vorbestimmt ist. Zu meinen, dass aus diesem Grund die Gestaltung der Dramaturgie ohnehin den Anwendern überlassen bleibt, ist dabei der größte Fehler. Vielmehr sollten gerade diese Aspekte der Gestaltung eine herausragende Rolle in der Entwicklung des Produktes spielen. Einerseits kann zwar nicht mehr von einem einzigen Zeitablauf, in dem alle Entwicklungen, Stimmungen, Spannungsverläufe etc. bekannt sind, ausgegangen werden. Andererseits gibt es aber meist nicht unendlich viele Möglichkeiten. Die Berücksichtigung möglichst vieler unterschiedlicher Varianten stellt eine große Herauforderung für die formale und dramaturgische Gestaltung dar. Dabei soll durchaus beachtet werden, dass unter Umständen nicht alle Zeitabläufe gleich wahrscheinlicher sind, oder dass die Benutzer in Abhängigkeit von ihrem Vorwissen, ihrer persönlichen Stimmung oder verschiedener anderer Einflüsse bestimmte Szenenfolgen eher wählen als andere. Jede Eingabe, jedes Ereignis ist mit einer Erwartungshaltung des Benutzers betreffend den Fortgang des Geschehens verbunden. Der Umgang mit diesen Erwartungshaltungen – also die Frage, ob diese vollständig bzw. teilweise erfüllt oder gebrochen werden sollen – stellt einen wichtigen Ausgangspunkt für die Dramaturgie dar. Das akustische Design einer Szene sollte nicht nur in sich schlüssig sein, sondern sich auch in alle denkbaren Kontexte, wie zum Beispiel den vorausgehenden bzw. nachfolgenden Szenen, gut einpassen. Eine häufig gewählte Vorgangsweise ist die akustische Untermalung mit eher kurzen Loops, die von Szene zu Szene wechseln, und das Abspielen von sogenannten Action-Sounds bei bestimmten Ereignissen oder Eingaben der Anwender. Bei diesem einfachen Formkonzept bleiben aus dramaturgischer Sicht allerdings im Allgemeinen viele Möglichkeiten ungenützt, und es können sich durchaus auch negative Auswirkungen ergeben. Wie schon im Namen ausgedrückt, charakterisieren solche Action-Sounds meist eine bestimmte Aktion, beispielsweise eine Bewegung, einen Mausklick, die Berührung eines Objekts, das Weiterblättern zur nächsten Seite etc. Fast ausschließlich wird dabei das Bild-Ton-Ver-


10.11 Audiodesign für interaktive Medien hältnis der Paraphrase gewählt, worauf auch gängige Bezeichnungen für Kategorien verwendeter Klangobjekte, wie „Button-Sounds“, „WooshSounds“ oder „Wipe-Sounds“ hinweisen. Der Einsatz von Action-Sounds sollte aus dramaturgischer Sicht gut überlegt sein. Nicht alle Eingaben und Ereignisse müssen zwangsläufig für den Fortgang der Handlung bedeutend sein und mit auffälligen Geräuscheffekten unterlegt werden. Beim Einsatz von Loops führt deren eingeschränkte Länge zu Problemen. Sich nach wenigen Sekunden wiederholende Atmos sind in der Natur undenkbar und können daher die gewünschte Funktion kaum erfüllen. Auch der Aufbau von Spannungsbögen ist bei kurzen Loops kaum möglich, weshalb eines der wichtigsten Mittel musikalischer Gestaltung nicht angewendet werden kann. Viele Stimmungen können durch dynamische Entwicklungen, wie wechselnde Klangfarben und Rhythmen, Steigerungen von Tempo und Lautstärke oder Ähnliches, wesentlich besser vermittelt werden, als durch gleichbleibende, sich fortwährend wiederholende Loops. Ein wesentliches Problem ist, dass sowohl für Action-Sounds, als auch für Loops in der Regel unveränderbare Samples verwendet werden. Dies hat erstens wenig mit der realen Wahrnehmung zu tun, der zu Folge akustische Ereignisse immer von der Art und vom Ort der Anregung oder vom Raum etc. abhängen und daher auch ein und dasselbe Objekt ganz unterschiedliche Geräusche produzieren kann. Zweitens führt die ständige Wiederholung der eingesetzten Klangereignisse zumindest bei mehrmaliger Beschäftigung mit dem Produkt zu Langeweile. Vergleichbar mit der im Abschnitt 9.3.6 beschriebenen Multisampling-Technik könnte die Verknüpfung eines Ereignisses mit mehreren möglichen Samples, die dann in Abhängigkeit von Kontext und Art der Eingabe abgespielt werden, eine wesentliche Verbesserung bringen. Allein die Tatsache, dass den Anwendern bei interaktiven Multimediaprodukten oft die Möglichkeit gegeben wird, die Tonspur auch auszuschalten, deutet vielfach auf ein wenig durchdachtes Audiodesign hin. Die vor allem in diesem Zusammenhang oft gemachte Erklärung, dass Schall subjektiv gehört wird und die Wirkung somit von der persönlichen Einstellung abhängt, ist zwar grundsätzlich richtig, trifft aber auf die visuelle Wahrnehmung genauso zu. Dass deswegen bestimmte Bilder per Mausklick ausgeblendet werden können, ist – wohl aus gutem Grund – trotzdem nicht üblich. Vielfach sind die Gründe für das einfache Konzept der Vertonung von interaktiven Medien mit Loops und Action-Sounds vor allem in den technischen Rahmenbedingungen und weniger in mangelnder Phantasie und fehlendem Können zu suchen. Der Speicherplatz für akustische Ereignisse ist meist eingeschränkt, die Ladezeiten müssen sehr gering gehal-

297

Loops müssen lange genug sein, um die gewünschte Wirkung zu erzielen. Andernfalls führen sie rasch zu Langeweile.

Loops und Sounds dürfen sich nicht abnützen.

Oft verhindern die technischen Rahmenbedingungen die Gestaltung von wirkungsvolleren Tonspuren.


298

Eingaben sollen nicht immer neue Sounds auslösen, sondern auch Veränderungen in bereits erklingenden bewirken. Die Auswahl einer Loop soll nicht von den Szenen, sondern von den Übergängen abhängig gemacht werden.

10 Akustische Mediengestaltung ten werden und die Synchronität zwischen Bild und Ton kann nicht immer als gesichert angenommen werden. Unter diesen technischen Rahmenbedingungen haben Loops und Actionsounds den Vorteil einer einfachen, effizienten und sicheren Implementierung. Viele interessante Möglichkeiten könnten sich ergeben, wenn verschiedene Eingaben nicht kurze, einmalige Klangereignisse bewirken, sondern beispielsweise weitere Loops auslösen oder eine Überblendung in einen anderen Loop bewirken. So könnte eine zeitliche Entwicklung der Dichte realisiert werden, die zum Verlauf der Handlung passt. Um auch bei eingeschränkten technischen Möglichkeiten eine gewisse Kontrolle über die zeitliche Entwicklung der Tonspur zu erhalten, sollte die Wahl der Hintergrund-Loops nicht von einer bestimmten Szene selbst, sondern von den Übergängen von einer Szene zur nächsten abhängig gemacht werden. Wenn der Anwender Szene 3 von Szene 2 aus erreicht, würde dann beispielsweise eine andere Loop gestartet, als wenn von Szene 1 zu Szene 3 gesprungen wird. Denkbar wäre auch, manche Eigenschaften einer bestehenden Loop, wie zum Beispiel die Lautstärke oder die Klangfarbe, von der Häufigkeit bestimmter Eingaben abhängig zu machen oder ein Klangereignis nur dann auszulösen, wenn zwei oder mehr verschiedene Eingaben unmittelbar hintereinander getätigt wurden. Interessant, aber programmiertechnisch aufwendiger, ist ein Monitoring, das im Hintergrund Informationen über das Verhalten der jeweiligen Anwender speichert und die Tonspur auf Basis dieser Daten entsprechend adaptiert. Interessant sind in diesem Zusammenhang Parameter wie die Häufigkeit bestimmter Aktionen, die durchschnittliche Dauer zwischen zwei Aktionen, wie Mausklick, Mausbewegung, Menüaufruf oder Seitenwechsel, oder die Zeit seit dem letzten Ausführung einer Aktion. Hat ein Benutzer eine bestimmte Ebene noch nie aktiviert, so könnten nach einer gewissen Zeit Schallereignisse die Aufmerksamkeit darauf lenken. Derartige Konzepte sorgen für abwechslungsreichere, lebendigere, dramaturgisch besser durchdachte Tonspuren. Es erhöht sich dadurch zwar der Aufwand, sowohl was die Programmierung als auch was das Design betrifft, dafür werden im Allgemeinen aber auch Qualität, Nutzen und Erfolg des gesamten Produkts entsprechend steigen. Zu beachten ist, dass der in diesem Zusammenhang gelegentlich vorgeschlagene Einsatz von Zufallswerten zur Auswahl von Klangereignissen zwar vergleichsweise einfach implementiert werden kann und bei richtigem Einsatz auch mehr Abwechslung garantiert, dabei aber auch vieles anstatt einer bewussten Gestaltung eben dem Zufall überlassen wird. Die Erstellung von verschiedenartigen effektvollen Schallereignissen und die Komposition passender Musikausschnitte ist zwar eine Grund-


10.11 Audiodesign für interaktive Medien voraussetzung, reicht aber in den seltensten Fällen bereits für ein gelungenes Audiodesign für interaktive Medien aus. Genauso wie bei Film oder Video sind die Art des Zusammenwirkens unterschiedlicher akustischer Ebenen, die Gestaltung von Dichte und Transparenz, das Verhältnis von Bild und Ton jeweils im Bezug zur aktuellen Entwicklung des Geschehens entscheidend. Dies kann nur durch eine ausdifferenzierte, genau durchdachte, vom Komplexitätsgrad dem Produkt angemessene Zuordnung von Szenen und Eingaben bzw. deren Abfolgen oder Häufigkeiten zu den damit einhergehenden Änderungen in der Tonspur erreicht werden. Diese Zuordnung von Aktion bzw. Ereignis zu Reaktion wird auch als Mapping bezeichnet. Die Art der Zuordnungen darf dabei nicht zu einfach sein und sofort vorhersehbar, durchsichtig und berechenbar wirken. Andererseits darf der Komplexitätsgrad auch nicht zu hoch sein, da sonst die Benutzer die Schlüssigkeit des Designs in Frage stellen und keinen Nutzen mehr daraus ziehen könnten. Auch beim Einsatz der Samplingtechnik könnte schon ein etwas größerer Aufwand beim Mapping deutlich mehr Gestaltungsspielraum eröffnen. Klangsynthese und -bearbeitung in Echtzeit, wie beispielsweise Equalizing, künstlicher Nachhall, Timestretching oder Physical Modeling, Methoden der algorithmischen Komposition, bei denen das jeweilige klangliche Ergebnis von verschiedenen Parametern abhängig gemacht werden kann, und der Einsatz neuer parametrischer Methoden der Schallaufzeichnung können wesentliche Verbesserungen bringen. Beispielsweise lassen sich mit adaptiven, algorithmischen Methoden der Klangsynthese Action-Sounds generieren, bei denen einerseits bestimmte charakteristische Eigenschaften immer beibehalten, andererseits aber alle übrigen Parameter bei jedem Aufruf bestimmten Kriterien folgend variiert werden können. Dadurch wird sowohl eine eindeutige Zuordnung zu einer bestimmten Klasse von Eingaben möglich, als auch genügend Abwechslung gesichert, damit die Effektgeräusche nicht langweilig werden. Durch den Einsatz von Physical Modeling könnten in virtuellen Umgebungen quasi automatisch passende und bildsynchrone Geräusche erzeugt werden. Die vielfach angestrebte realistische Wirkung könnte dadurch gesteigert werden. Die Gestaltung einer subjektiven, emotional begründeten Hörperspektive ist auf diese Weise allerdings schwierig. Die aktuellen Trends in Forschung und Entwicklung gehen stark in Richtung echtzeitfähige adaptive, algorithmische Methoden zur Synthese, Bearbeitung, Komposition und Aufzeichnung von akustischen Ereignissen. Die Vision, interaktive Medien mit einer Tonspur auszustatten, die sich automatisch bestmöglich an den jeweiligen Kontext anpasst,

299 Zufallswerte können zwar für Abwechslung sorgen, sind aber oft auch ein Hinweis auf mangelnde Gestaltung.

Gut durchdachtes Mapping von Schallsignalen zu auslösenden Ereignissen ist entscheidend. Neue Technologien können die Möglichkeiten der akustischen Gestaltung interaktiver Medien enorm bereichern.


300

10 Akustische Mediengestaltung könnte damit zumindest ansatzweise verwirklicht werden. Beispielsweise können bereits verschiedene Naturgeräusche in erstaunlich guter Qualität synthetisch erzeugt und dadurch interaktiv angepasst werden. Wichtige Ansätze für generatives Sounddesign fasst Andy Farnell in seinem Buch „Designing Sounds“ zusammen. Mit den Möglichkeiten von algorithmischer Komposition und generativer Musik befasst sich das von 2009 bis 2011 laufende Forschungsprojekt „GeMMA – Generative Music für Media Applications“.

10.12 Corporate Audio, Audio-Branding und Produkt-Sounddesign Seit einigen Jahren gewinnt der Einsatz von akustischen Ereignissen immer mehr an Bedeutung für die Unternehmens- und Markenkommunikation. Als wesentlicher Teil der Corporate Identity zielt Corporate Audio auf ein einheitliches, die Philosophie und besondere Werte des Unternehmens verdeutlichendes akustisches Erscheinungsbild ab. Der Vorgang der akustischen Markenbildung wird als Audio-Branding bezeichnet. Beim Produkt-Sounddesign werden jene Geräusche gezielt gestaltet, die beim Gebrauch eines Produkts entweder unvermeidbar entstehen oder für eine einfache und sichere Bedienung erforderlich sind. 10.12.1 Produkt-Sounddesign Bedienungs- und Betriebsgeräusche sollen vor allem den aktuellen Betriebszustand und die Qualität des Produkts verdeutlichen und dem Nutzer Feedback über die Funktionsweise geben. In weiterer Folge sollen aber ausgehend von den Sounds auch emotionale Werte mit dem Produkt assoziiert werden. Demnach sollen die Klänge und Geräusche von Produkten vor allem auf den in Abschnitt 1.10 besprochenen Wirkungs- und Bedeutungsebenen des Informations- und Symbolgehalts ansprechen. Beispielsweise kann ein sattes, volles, vergleichsweise tieffrequentes Brummen eines Motors Größe, Stärke, Robustheit ausdrücken und für Tradition und Sicherheit stehen, während in schmalbandigere, in etwas höheren Freqenzbereich angesiedeltes Brausen mehr Schnelligkeit und Wendigkeit signalisiert und Sportlichkeit und Innovation ausdrücken kann. Den Ausgang nahm Produkt-Sounddesign in der Fahrzeugakustik. Zunächst ging es dabei vor allem um die Reduktion der Betriebsgeräusche. Mittlerweile wäre es zumindest bei teuren Fahrzeugen möglich, diese im Innenraum völlig ruhig zu halten. Es stellte sich aber schnell


10.12 Corporate Audio, Audio-Branding und Produkt-Sounddesign heraus, dass es ein akustisches Feedback über den aktuellen Betriebszustand beim Fahren erwünscht und für die Sicherheit in manchen Situationen wichtig ist. Außerdem will der Fahrer den Motor seines teuer erworbenen Autos auch hören. Aus diesem Grund fand spätestens mit Beginn der 1990er Jahre in der Automobilindustrie ein Paradigmenwechsel von der Lärmvermeidung hin zur Geräuschgestaltung statt. Vom Motorengeräusch im Innen- und Außenraum, über das Zuschlagen der Türen, den Blinker oder die Einparkhilfe werden im Automobilbereich mittlerweile über 100 Sounds gestaltet. Für Entwicklung und Tests stehen aufwendige, viele Millionen Euro teure Akustikprüfstände, reflexionsfreie Räume und präzise akustische Messtechnik zur Verfügung. Seit einigen Jahren kümmern sich immer mehr Branchen um die Geräusche ihrer Produkte. In der Verpackungs- und Lebensmittelindustrie ist Produkt-Sounddesign genauso zu finden wie bei Rasierapparaten, Staubsaugern, diversen anderen Haushaltsgeräten, bei Computertastaturen und diversen Büroutensilien etc. Der Einfluss den die Geräusche auf die Gesamtwirkung des Produkts haben können, wird im Allgemeinen dennoch nach wie vor völlig unterschätzt. Beispielsweise zeigt Friedrich Blutner, einer der führenden Produkt-Sounddesigner im deutschsprachigen Raum, in einer Studie, dass das beim Abbeißen entstehende KnackGeräusch von Wiener Würstchen den Geschmack mitunter stärker beeinflusst als Wurstmischung und Würzung. Im Gegensatz zu Corporate Audio und Audio-Branding, bei denen die Sounds mit den Techniken der Schallspeicherung und -wiedergabe vor allem im Kontext der medialen Kommunikation der Unternehmens- und Markenwerte eingesetzt werden, werden beim Produkt-Sounddesign vor allem die akustischen Eigenschaften der Produkte selbst beeinflusst. Es geht also um das Finden bzw. Entwickeln und Adaptieren von Materialien und Formen, Resonanz- und Dämpfungseigenschaften, Kopplungen zwischen den die Geräusche auslösenden Anregungsmechanismen und den Objekten etc. Beispielsweise werden bei einigen Fahrzeugen die BlinkerSounds nach wie vor mit elektromechanischen Relais erzeugt, die in der Nähe des Fahrers positioniert sind, obwohl die Steuerung mit Elektronik erfolgt, die im hinteren Teil des Fahrzeugs untergebracht ist, und das Bediengeräusch auch durch einen digital gespeicherten Soundeffekt ersetzt werden könnte. 10.12.2 Anforderungen an Corporate Audio und Audio-Branding Corporate Audio und Audio-Branding sollen schlüssige, umfassende, in sich konsistente Klangbilder von Unternehmen bzw. Marken entstehen lassen, die in vielfältigen Anwendungen zum Einsatz kommen können.

301

Produkt-Sounddesign gestaltet die akustischen Eigenschaften der Produkte an sich.


302

10 Akustische Mediengestaltung Ziel ist eine möglichst passende und eindeutig erkennbare klangliche bzw. musikalische Umsetzung von Identität, Individualität, Emotionalität eines Unternehmens bzw. einer Marke und der sie beschreibenden Markenwerte. Im Designprozess empfiehlt sich die Erstellung einer sogenannten Markenklangpyramide, in der das im Zusammenhang mit Corporate Audio wichtigste Merkmal an der Spitze steht, und weniger wichtige Eigenschaften am Fuß der Pyramide. Akustische Elemente der Unternehmens- und Markenkommunikation finden sich beispielsweise in Werbespots und Produktinformationen genauso wie in Schauräumen, bei Messeständen, Firmenevents, Produktpräsentationen oder bei Telefonwarteschleifen und Klingeltönen. Auch wenn Corporate Audio die Identität des ganzen Unternehmens berücksichtigen muss, während AudioBranding die Besonderheiten einer spezifischen Marke kommunizieren soll, gelten in beiden Fällen vergleichbare Anforderungen: ï ï ï ï ï ï

hohe Wiedererkennbarkeit bereits nach einmaligem Hören akustische Differenzierung im Markt richtige Zuordnung zu einer Branche bzw. Produktkategorie hohe Identifikation mit der Marke und schnellere Markenkonditionierung hohe Werbe- und Media-Effizienz Emotionalisierung des Unternehmens bzw. der Marke

Da es sich bei Corporate Audio und Audio-Branding um ein relativ junges Betätigungsfeld handelt, das in den letzten Jahren vor allem aufgrund praktischer Erfahrungen weiterentwickelt und erst seit einigen Jahren auch theoretisch intensiver erforscht wird, gibt es nach wie vor vergleichsweise wenig Fachliteratur. Einen guten Überblick mit zahlreichen Anknüpfungspunkten zur Praxis geben Kai Bronner und Rainer Hirth (Hrsg.) in ihrem Buch „Audio Branding – Brands, Sounds and Communication“. Das Buch „Akustische Reize als Instrument der Markenkommunikation“ von Simone Roth beinhaltet eine fundierte Aufarbeitung der theoretischen Basis. 10.12.3 Basiselemente von Corporate Audio und Audio-Branding  Siehe Webseite zum Buch

Im Allgemeinen setzt sich das gesamte Klangbild eines Unternehmens bzw. einer Marke aus einigen wenigen Basiselementen zusammen: () ï ï

Audio-Logo Corporate Music


10.12 Corporate Audio, Audio-Branding und Produkt-Sounddesign ï ï ï ï

303

Jingle/Corporate Theme/Leitmotiv Corporate Voice Corporate Soundscape Corporate Sound Icon/Corporate Sound Symbol

Das Audio- oder Sound-Logo ist das wohl wichtigste Element für das Klangbild eines Unternehmens. In audiovisuellen Medien wird es gemeinsam mit dem visuellen, ev. animierten Logo dargeboten. Bei zahlreichen Unternehmen finden sich Beispiele für eher zurückhaltende Audio-Logos genauso wie für besonders aufdringliche. In jedem Fall wird die Qualität eines Audio-Logos aber von dessen Eigenheit und Identitätskraft, der Memorierbarkeit, der akustischen Qualität und der Anwendbarkeit in diversen Medien, der Internationalität und der Dauer bestimmt. Bei der sogenannten Corporate Music werden die Unternehmens- bzw. Markenwerte in einem eigenen Song, einer Hymne oder einer Instrumentalkomposition musikalisch dargestellt. Im Idealfall wird diese Musik exklusiv für ein spezifisches Unternehmen komponiert. Es gibt aber beispielsweise bei einigen Fluglinien auch Beispiele, bei denen auf mehr oder weniger bekannte Musikstücke zurückgegriffen wird, die sehr gut zum angestrebten Image des Unternehmens bzw. der Marke passen. Im Gegensatz zum Audiologo, das für eine möglichst lange Lebensdauer konzipiert wird, ist Corporate Music oft auch an spezielle Ereignisse wie z.B. Werbekampagnen gebunden und wird daher wesentlich öfter adaptiert oder völlig neu gestaltet. Häufig kommt die Corporate Music bei Warteschleifen von Telefonanlagen oder als Hintergrundmusik von Schauräumen und Produktpräsentationen zum Einsatz. Die Lücke zwischen Audio-Logo und Corporate Music wird von einem Jingle, einem Corporate Theme bzw. einem akustischen Leitmotiv gefüllt. Im Allgemeinen sind diese weniger prägnant, kompakt und langfristig angelegt als Audio-Logos, jedoch wesentlich kürzer und einfacher arrangiert als Corporate Music. Während als Audio-Logo auch einzelne Geräusche funktionieren können, werden unter Jingles kurze einprägsame Tonfolgen, musikalische Motive bzw. Melodien verstanden. Häufig werden Jingles mit einem den Firmen- bzw. Markennamen zitierenden Werbeslogan als Text gesungen. In vielen Fällen wird die assoziative Verknüpfung zwischen Text und Musik dabei nach einiger Zeit so stark, dass auch dann sofort auf die Marke oder das Unternehmen rückgeschlossen wird, wenn der Jingle rein instrumental präsentiert wird. Unter Corporate Voice, vor allem bei Radiosendern auch als Station Voice bezeichnet, wird eine charakteristische Stimme verstanden, die sämtliche sprachlich zu vermittelnden Inhalte innerhalb des akustischen Kommunikationskonzepts eines Unternehmens bzw. einer Marke spricht. Wie

Im Idealfall wird Corporate Music exklusiv für ein Unternehmen komponiert.

Die Stimme transportiert auch unbewusst wahrgenommene Botschaften.


304

10 Akustische Mediengestaltung bereits im Abschnitt 10.2.1 erklärt, wirkt die Stimme keineswegs nur auf der Ebene der Konvention und den damit vermittelten, rational auszuwertenden Inhalten, sondern transportiert auf der Wirkungsebene des Informations- und des Symbolgehalts wichtige, meist unbewusst wahrgenommene Botschaften. Die Corporate Voice kann daher einen wichtigen Beitrag zur empfundenen Qualität und zur Emotionalisierung leisten. In erster Linie ist natürlich die Wahl der eigentlichen Stimme ausschlaggebend. Beispielsweise wirkt eine tiefe, warme, sanfte männliche BassStimme tendenziell seriös, vertrauensvoll und beruhigend, während eine junge Bariton-Stimme hingegen eher frisch, dynamisch und innovativ klingt. Eine weibliche Alt-Stimme wird meist eingesetzt, wenn Attribute wie vertrauensvoll oder mütterlich gefragt sind. Junge MezzosopranStimmen wirken innovativ und dynamisch, Kinderstimmen eher naiv, unschuldig oder frech. Eher selten anzutreffen sind extrem tiefe oder hohe Stimmlagen. Eine hohe, dünne Tenor-Stimme kann jugendlich und leicht, witzig und amüsant oder im Extremfall auch skurril wirken. Neben derartigen, eigentlich zu stark vereinfachenden Zuordnungen von Stimmlagen und -charakteren, spielen zahlreiche weitere Parameter der stimmlichen Klanggestaltung eine wichtige Rolle: Aussprache, Akzent, Betonungen und Rhythmen, Sprachmelodie und Tempo etc. Unter Corporate Soundscape – oft auch als Musik- oder Klangbett bezeichnet – wird eine Zusammenstellung von mehreren akustischen Ereignissen verstanden, die den akustischen Hintergrund bilden, unbewusst wahrgenommen werden und unterschwellig wirken sollen. Im Allgemeinen soll damit eine zum Unternehmen oder der Marke passende Stimmung bzw. eine emotionale Grundfärbung vermittelt werden. Vergleichbar mit der Atmo in einer Film-Tonspur kann das durch Nachbildung für eine bestimmte Zeit oder einen bestimmten Ort charakteristische akustische Umgebung gelingen. Vielfach werden zu diesem Zweck aber auch dezente, die Aufmerksamkeit nicht auf sich ziehende Klangflächen eingesetzt, die sowohl synthetisch erzeugt werden oder von akustischen Instrumenten stammen können. In jedem Fall spielt eine sorgsame, differenzierte Gestaltung der Klangfarbe eine entscheidende Rolle. Derartige Corporate Soundscapes sind in gleicher Weise wichtige, wie unauffällige Elemente der Marken- und Unternehmenskommunikation. Unter einem Corporate Sound Icon bzw. einem Corporate Sound Symbol wird ein im Allgemeinen kurzes akustisches Ereignis verstanden, das ganz eng mit der Marke oder dem Unternehmen und damit assoziierten Werten in Verbindung steht. Das dynamische und frische „Plopp“ beim Öffnen einer Chips- oder Gertränkedose, das erfrischende Zischen beim Öffnen einer Flasche oder das satte Brummen eines Automotors wären Beispiele für mögliche Sound Icons, die direkt mit einem Produkt der Marke in Ver-


10.12 Corporate Audio, Audio-Branding und Produkt-Sounddesign bindung stehen und aufgrund des Informationsgehalts dessen Qualität verdeutlichen. Hingegen könnte beispielsweise ein moderner, klarer, heller, glockenartiger Klang im Bereich der Mobilkommunikation aufgrund bestehender Konventionen als Sound Symbol auf ein gutes, verlässliches Netz verweisen. Sound Icons und Sound Symbol stehen selten für sich alleine, können aber als Komponenten aller anderen Elemente immer wieder im Corporate Audio bzw. im Audio-Branding erfolgreich eingesetzt werden. Für eine erfolgreiche praktische Umsetzung eines neuen Konzepts für Corporate Audio oder Audio-Branding ist eine genaue Definition in einem Styleguide unbedingt erforderlich. Er enthält alle notwendigen Informationen zu Konzeptions- und Kompositionsparametern und vermittelt Regeln und Beispiele zur Anwendung der Basiselemente.

305

literatur_raffaseder.fm Seite 306 Donnerstag, 10. Dezember 2009 8:22 08

306

Literaturverzeichnis

Literaturverzeichnis Grundlagen der akustischen Wahrnehmung und Kommunikation Bernius, V., Kemper, P., Oehler, R. und Wellmann, K. (Hrsg.): Der Aufstand des Ohrs – die neue Lust am Hören. Vandenhoeck & Ruprecht, 2006 Bruhn, H., Kopiez, R,, Lehmann, A. (Hrsg.): Musikpsychologie – Das neue Handbuch Rowohlt Taschenbuchverlag, Reinbek bei Hamburg, 2008 Jäncke, L.: Macht Musik schlau? Neue Erkenntnisse aus den Neurowissenschaften und der kognitiven Psychologie Huber Verlag, Bern, 2008 Jourdain, R.: Music, the Brain, and Ecstasy William Morrow and Company, 1997 Livitin, D. J.: This Is Your Brain on Music: Understanding a Human Obsession Atlantic Books, 2008 Patel, A. D.: Music, Language, and the Brain Oxford University Press, 2007 Schafer, R. M.: The Soundscape – Our Sonic Environment and the Tuning of the World Destiny Books, Rochester, 1994 Schulze, H. (Hrsg.): Sound Studies: Traditionen – Methoden – Desiderate transcript Verlag, Bielefeld, 2008 Spitzer, M.: Musik im Kopf: Hören, Verstehen und Erleben im neuronalen Netzwerk Schattauer Verlag, 2005 Truax, B.: Acoustic Communication (2. Ausgabe) Ablex Publishing, Westport, USA, 2001

Van Leeuwen, T.: Speech, Music, Sound MacMillan Press, London, 1999 Vogel, T. (Hrsg.): Über das Hören Attempto Verlag, Tübingen, 2. Auflage, 1998 Werner, H. U.: SoundScape-Dialog. Landschaften und Methoden des Hörens Vandenhoeck & Ruprecht, Göttingen, 2006

Psychoakustik Blauert, J. (Hrsg.): Communication Acoustics Springer Verlag, Berlin Heidelberg, 2005 Fastl, H. und Zwicker, E.: Psychoacoustics: Facts and Modells Springer Verlag, Berlin, 3. Auflage, 2005 Howard, D., Angus, J., Acoustics and Psychoacoustics Focal Press Oxford, 4. Auflage, 2009 Roederer, J. G.: Physikalische und psychoakustische Grundlagen der Musik Springer Verlag, 2000

Technische Akustik und Tontechnik Müller, G. und Möser, M. (Hrsg.): Taschenbuch der Technischen Akustik Springer Verlag Berlin, 3. Auflage, 2003 Blauert, J. und Xiang, N.: Acoustics for Engineers: Troy Lectures Springer Verlag, Berlin, 2. Auflage, 2009 Webers, J.: Tonstudiotechnik Franzis-Verlag München, 1989


Literaturverzeichnis Dickreiter M., Hoeg, W., Dittel V. und Wöhr, M.: Handbuch der Tonstudiotechnik K.G. Saur München, 7. Auflage, 2008 Rumsey, F.: Spatial Audio Focal Press, 2001 Görne, T,: Tontechnik Carl Hanser Verlag München, 2. Auflage, 2008 Hall, D. E.: Musikalische Akustik Schott Verlag Mainz, 1997 Henle, H.: Das Tonstudio Handbuch GC Carstensen Verlag, München, 5. Auflage, 2001 Terhardt, E.: Akustische Kommunikation Springer Verlag Berlin Heidelberg, 1998 Weinzierl, S.: Handbuch der Audiotechnik Springer Verlag, Berlin, 2008 Digitale Audiobearbeitung und Soundsynthese Anwander, F.: Synthesizer PPV Verlag Bergkirchen, 5. Auflage, 2007 Holman, T.: 5.1 Surround Sound Up an Running Focal Press, Boston, 2000 Huber, D. und Runstein, R. E.: Modern Recording Techniques Focal Press, 7. Auflage, 2009 Izhaki, R.: Mixing Audio – Concepts, Practices and Tools Focal Press, 2009 Katz, B. Mastering Audio: The Art and Science Verlag Butterworth Heinemann, 2. Auflage, 2007 Kirk, R., Hunt, A. Digital Sound Processing for Music and Multimedia Focal Press, 1999

307

Miranda, E. R.: Composing Music with Computers Focal Press 2001 Pieper, F. Das Effekte Praxisbuch GC Carstensen Verlag Münschen, 1999 Pucket, M.: The Theory and Technique of Electronic Music World Scientific Publishing, London, 2007 Roads, C.: The Computer Music Tutorial MIT Press, 1996 Rose, J.: Producing Great Sound for Digital Video CMP Books San Francisco, 1999 Viers, R.: The Sound Effects Bible: How to Create and Record Hollywood Style Sound Effects Michael Wiese Prod, 2008 Ruschkomwski, A.: Elektronische Klänge und musikalische Entdeckungen Reclam Verlag Stuttgart, 1998 Sandmann, T.: Effekte & Dynamics PPV Verlag Bergkirchen, 6. Auflage, 2007 Zölzer, U.: Digitale Audiosignalverarbeitung Verlag Vieweg und Teubner, 3. Auflage, 2005 Sounddesign und Filmmusik Beauchamp, R.: Designing Sound for Animation Focal Press, 2005 Bullerjahn, C.: Grundlagen der Wirkung von Filmmusik Wißner-Verlag Augsburg, 2001 Chion, M.: Audio-Vision Columbia University Press New York, 1994 Flückinger, B.: Sound Design Schüren Verlag Marburg, 3. Auflage, 2006


308

Literaturverzeichnis

Lensing, J. U.: Sound-Design – Sound-Montage – SoundtrackKomposition: Über die Gestaltung von Filmton Verlag Schiele & Schön, Berlin, 2. Auflage, 2009 Moormann, P.: Musik im Fernsehen: Untersuchungen zum Verhältnis von Bild und Musik in verschiedenen Formaten VS Verlag für Sozialwissenschaften, 2009 Schneider, N. J.: Komponieren für Film und Fernsehen Schott Musik International, Mainz, 1997 Schneider, N. J.: Handbuch Filmmusik UVK Verlagsgesellschaft, Konstanz, 2. Auflage, 1990 Sider, L. (Hrsg.) Soundscape: Exploring the Art of Sound with the Moving Images Columbia University Press, 2003 Sonnenschein, D.: Sound Design Michael Wiese Productions Studio City, 2001 Weidinger, A. Filmmusik UVK, Verlagsgesellschaft, 2006 Weis. E., Belton, J.: Film Sound Columbia University Press, New York, 1985 Whittington, W.: Sound Design and Science Fiction Combined Academic Publications, 2007 Yewdall, D. L.: The Practical Art of Motion Picture Sound Focal Press, 3. Auflage, 2007 Audio für interaktive Medien Childs, G. W.: Creating Music and Sound for Games Course Technology, 2006 Beggs, J., Thede, D.: Designing Web Audio O’Reilly & Associates, Sebastopol, USA, 2001

Kramer G.: Auditory Display Addison-Wesley Verlag, 1994 Marks, A.: The Complete Guide To Game Audio Focal Press, 2. Auflage, 2008 Collins, K.: Game Sound: An Introduction to the History, Theory, and Practice of Video Game Music and Sound Design MIT Press, 2008 Spehr, G. (Hrsg.): Funktionale Klänge – Hörbare Daten, klingende Geräte und gestaltete Hörerfahrungen transcript Verlag, Bielefeld, 2009 Winkler, T.: Composing Interactive Music The MIT Press, Cambridge, 1998 Corporate Audio und Audio Branding Bronner, K., Hirt, R. (Hrsg.): Audio-Branding: Entwicklung, Anwendung, Wirkung akustischer Identitäten in Werbung, Medien und Gesellschaft Reinhard Fischer Verlag, München, 2009 Bronner, K., Hirt, R. (Hrsg.): Audio Branding – Brands, Sound and Communication Nomos Verlagsgesellschaft/Edition Reinhard Fischer, Baden-Baden, 2009 Jackson, D.: Sonic Branding Palgrave MacMillan, London, 2003 Lehmann, M.: Voice Branding – Die Stimme in der Markenkommunikation Reinhard Fischer Verlag, München, 2008 Roth, S.: Akustische Reize in der Markenkommunikation Deutscher Universitätsverlag, Gabler Edition Wissenschaft, Wiesbaden, 2005


Literaturverzeichnis Wüsthoff, K.: Die Rolle der Musik in der Film-, Funk- und Fernsehwerbung Edition Merseburger Berlin 1999 Grundlagen der Mediengestaltung und -theorie Fries, C.: Mediengestaltung Carl Hanser Verlag, Münschen, 2008 Haverkamp, M.: Synästhetisches Design – Kreative Produktentwicklung für alle Sinne Carl Hanser Verlag, München, 2009

309

Manovich, L.: The Language of New Media MIT Press, 2002 Mersch, D.: Medientheorien zur Einführung Junius Verlag; 2. Auflage, März 2009 Mangold, R.: Informationspsychologie: Wahrnehmen und Gestalten in der Medienwelt Spektrum Akademischer Verlag, Heidelberg, 2007

raffasederSIX.fm Seite 310 Donnerstag, 10. Dezember 2009 8:24 08

310

Sachwortverzeichnis

Absorption 92 Absorptionsgrad 92 Absorptionsvermögen 100 Abstrahlverhalten 73, 169 Abtastintervall 133 Abtasttheorem 133 Abtastung 133 AC-3 146 Action-Music 250 Action-Sounds 296 Adaptive Klangsynthese 299 Additive Klangsynthese 220 ADR 289 ADSR-Hüllkurve 64, 219 Affektives Gedächtnis 276 Ähnlichkeit 252 Aktive Lautsprecher 177 Akustische Ereignisse 261 Akustische Kommunikationskette 53 Akustische Symbole 256 Akustische Szenen 24 Akustische Tiefe 258 Akustische Wahrnehmung 19 Akustische Wahrnehmung, Ebenen 29 Akustischer Kurzschluss 174 Algorithmische Klangsynthese 299 Aliasing 133 Ambience-Effekt 206 Anhallzeit 99 Anregung 72 Anregungskraft 36 Aperiodisch 59 Äquivalenzverfahren 165 Assoziative Verknüpfung 273, 274

Attack 64 Audification 290 Audio-Branding 300, 301, 302 Audiodesign 15, 16 Audiokompression 140 Auditory Icons 291 Auditory Display 290, 293 Ausbreitungsgeschwindigkeit 39 Ausspielweg 182 Aussteuerung 68 Außenohr 103 Automatic Dialog Replacement 289 Aux 182 Aux-Return 185

Sachwortverzeichnis

Bandpass 71 Bandsperre 71 Basilarmembran 105 Bass-Reflex-Box 175 Benutzerschnittstelle 290 Beugung 95 Bildakzent 273 Bitrate 139 Bogenform 282 Brechung 93 Brücke 250 Buttonsound 297 Cent 121 Chase-Music 250 Chorus 209 Clipping 135 Cochlea 105 Cocktailparty-Effekt 19 Codierte Schallereignisse 255 Controlled Amplifier 214 Controlled Filter 214 Controlled Oszillator 214 Convolution 71

Corporate Audio 300, 301, 302 Corporate Music 303 Corporate Sound Icon 304 Corporate Sound Symbol 304 Corporate Soundscape 304 Corporate Voice 303 Cortisches Organ 105 Datenreduktion 140 Dauer akustischer Ereignisse 273 DCA 214 DCO 214 Decay 64 Decrackling 212 Deisgnprozess 41 Delay-Effekt 208 Denoising 211 Deskriptive Technik 248 Dialoge 288 Dichte 36 Diegetisch 262 Diffusion 204 Digital 132 Digital Theater System 146 Digital-Headroom 138 Direktschall 96 Dissipation 92 Dissonanz 117, 276, 277 Dokumentarische Hörperspektive 262 Dolby Stereo 146 Dolby-Surround-ProLogic 146 Dramaturgie 267, 278 Drehbuch 284 Drehbucherstellung 284 Druck 36 Druckempfänger 159 DruckgradientenMikrofon 158

Druckkammerlautsprecher 174 Dynamik 69 Dynamikumfang 155 Dynamisches Mikrofon 156 Earcons 292 Ebene Welle 88 Echo 98, 208 Echtzeit-Steuerung 216 Effektivwert 66 Eigenfrequenz 76 Eigenschwingungen 74 Eingangskanal 179 Eingeschwungener Zustand 75 Einpegeln 180 Einzelmikrofonverfahren 163 Elastisches Medium 36 Elastizität 36 Elektretmikrofon 156 Elektrodynamischer Wandler 153 Elektrostatischer Wandler 152 Emotion 21 Empfänger 53 Empfindlichkeit 153 Encoder 150 Endstufe 176 Energieform 57 Entzerrer 181 Equalizer 181, 198 Erstreflexionen 97 Erzwungene Schwingungen 74 Expander 190 Fade-In 187 Fade-Out 187 Faltung 71


Sachwortverzeichnis Fast Fourier Transformation 62 Feld 258, 259 FFT 62 Figur 258, 259 Filmmusiktechniken 248 Filter 70, 214 Flächenklang 229 Flanger 210 FM-Synthese 222 Foley 232, 289 Foley-Recording 289 Form 267, 278 Formant 73, 122 Formantfilter 85 Formantkorrektur 197 Fourier-Reihe 59, 61 Fourier-Transformation 61, 62 Frequenzbereich 38, 63 Frequenzgang 69, 154 Frequenzmodulation 222 Frequenzspektrum 60 Frequenzweiche 175 Gate 190 Gated Reverb 206 Gedächtnis 22 Gedämpfte Schwingungen 74 Gehör 103 Gehörgang 103 Gehörknöchelchen 104 Gehörorgan 105 Geräusche 15, 35, 36, 61, 243 Geräuschemacher 232 Geschlossenheit 253 Gestaltkriterien 251 Gestaltpsychologie 250 Gestaltung, intersensuelle 18 Gleichheit 252 Granularsynthese 225 Grenzflächen-Mikrofon 157 Grenzschalldruck 155 Grund 258, 259

Grundfrequenz 38, 42 Güte 199 Hall 204 Halldichte 204 Halltyp 204 Hard-Effects 243 Harmonischer Schnitt 192 Harmonischer Ton 59 Harter Schnitt 193 Hauptmikrofon-Stützmikrofon-Verfahren 166 Hauptmikrofonverfahren 166 Highlightning 250 Hochpass 71 Hören 29, 30, 31 Hörgewohnheit 35 Hörperspektive 261 Hörschwelle 90 Huffmann-Code 140 Hüllkurve 64 Hypernierencharakteristik 160 Idealer Wandler 55 Illustrationsmusik 250 Impuls 71 Impulsantwort 71 Impulsverhalten 155 Informationsgehalt 46 Infraschall 38, 86, 114 Inline-Technik 185 Insert 181 Intensitätsstereofonie 162 Intensitätsunterschied 126 Interaktive Medien 295 Interferenz 91 Intervall 117 Jingle 249, 303 JND 108, 114 Just Noticeable Difference 108, 114

Kalottenlautsprecher 173 Kammfilter 71 Kammfiltereffekt 170 Kanal 53 Kanal-Insert 181 Kanal-Regler 183 Kenngröße 57 Keulencharakteristik 161 Keysounds 245 Keytracking 217 Klang 35 Klangfarbe 35, 121 Klanghaftigkeit 122 Klangrestauration 211 Klangschärfe 124 Klangsynthese 213 Klirrfaktor 68 Kohärenzfaktor 251 Kohle-Wandler 153 Kommunikationskette, akustische 53 Kommunikationsmodell 53 Komplexer Ton 59 Kompressor 187 Kondensatormikrofon 155 Konsonant 84 Konsonanz 117 Kontinuität 253 Konuslautsprecher 173 Konvention 51 Kopplung 75 Körperliche Schallsignale 256 Körperschallmikrofon 157 Kreativwirtschaft 14 Kreuzblende 193 Kritisches Frequenzband 107 Kugelflächenmikrofon 166 Kugelwelle 88 Kunstkopf-Stereofonie 166 Kurven gleicher Lautstärke 109 Larger-than-Life-Sounds 245

311 Laufzeitstereofonie 164 Laufzeitunterschied 127 Lautbildung 83 Lautereignis 33, 35 Lautheit 110 Lautsprecher 172 Lautsprecherbox 174 Lautstärke 35, 42, 108 Lautstärkepegel 110 Lavalier-Mikrofon 157 Leitmotiv-Technik 249 LFE-Kanal 145 LFO 219 Lichttonverfahren 132 Limiter 190 Loop 193, 297 Low Frequency Oscillator 219 Magnettonverfahren 132 Makroskopischer Zeitbereich 64 Mapping 299 Maskierung 112 Massenträgheit 36 Material 266 Medien 27 Mediengestaltung 235 Medienmusik 247, 249 Mehrkanalton 143 Mehrweg-Lautsprechersystem 175 Melodie 271 Melodischer Bogen 271 Melodram-Musik 248, 250 Membran 81 Metrum 267, 269 Mickey-Mousing 250 MIDI 142 MIDI-Controller 218 MIDI-Faderbox 218 Mikrofonbasis 164 Mikrofonierung 167 Mikroskopischet Zeitbereich 64 Minimal Music 272 Mischpult 179


312

Sachwortverzeichnis

Mischung der akustischen Ebenen 254 Mittelohr 104 Modulation 215 Modulationsmatrix 216 Monitor-Chain 184 Montage-Technik 249 Mood-Technik 248 MPEG 2 146 MS-Mikofonverfahren 163 Multifunktionalität 291 Multimedia 235 Multisampling 224 Mund-Nasen-RachenRaum 83 Music-Editing 289 Musik 15 Musiktakes 272 Musikteppich 249 Mustererkennungstheorie 115

On-Musik 246 Optimale-Stereo-SignalVerfahren 165 Originalkopf-Stereofonie 166 ORTF-Verfahren 165 Ortstheorie 115 Ortungsschärfe 161 Oszillator 72, 214 O-Ton 287 Oversampling 134

Nachhallzeit 99, 100 Nachmaskierung 112 Nadeltonverfahren 132 Nahbesprechungseffekt 169 Nawi-Membran 173 Near-Field-Monitoring 179 Nichtlineare Medien 295 Nichtlineare Verzerrungen 68 Nierenförmige Richtcharakteristik 160 Noise-Gate 190 Normalizing 187 Nulldurchgang 192 Nur-Ton 288 Nur-Ton-Editing 289 Nyquisttheorem 133 Oberton 59 Ohr 103 Ohrmuschel 103 Oktave 117 Oktavenphänomen 116

Panorama 128 Panorama-Regler 183 Parametrische Codierung 129 Parametrischer Equalizer 199 Paraphrase 276 Passive Lautsprecher 177 PA-System 176 Pegel 66 Perceptual Coding 141 Periodendauer 37 Periodisch 58 Periodizitätstheorie 115 Phasen-Effekt 209 Phasenfehler 176 Phasenunterschied 127 Phaser 210 Phon 110 Physical Modeling 226 Piezoelektrischer Wandler 153 Pitch-Shifting 197 Polarisation 276, 277 Polymetrik 268 Popgeräusch 171 Positionierung von Stereolautsprechern 178 Postfaded Send 182 Post-Production 289 Präsenz 161 Predelay 204 Predictive Coding 141 Prefaded Send 182 Pre-Production 284, 286

Primärempfindungen 35 Produktion 287 Produktionsphasen 284 Produkt-Sounddesign 300 Proportionstheorie 117 Psychoakustik 43 Puls 267 Puls-Code-Modulation 135 Pythagoräische Stimmung 120 Q-Faktor 199 Quantisierung 135 Quantisierungsfehler 136 Quantisierungsrauschen 136 Quelle-Filter-Modell 84 Rauigkeit 123 Räumliche Gestaltung 258 Raumrichtung 126 Raumtiefe 125 Rauschen 50, 55, 61 Record-Chain 184 Red Herring 250 Reflexion 92 Reihungsform 281 Reine Stimmung 120 Release 64 Resampling 194 Resonanz 75 Resonanzfrequenz 74 Resonanzkörper 73 Reverb 204 Rhythmus 270 Richtcharakteristik 158 Richtrohrmikrofon 160 Richtungswahrnehmung 126 Röhre 80 Routing 183 Ruhelage 74 Rundfunkübertragung 54

Sabinesche Formel 100 Saite 77 Sampling 224 Samplingfrequenz 133 Samplingtheorem 133 Schall 36 Schallaufzeichnung 129 Schalldichte 88 Schalldruck 42, 88 Schallentstehung 72 Schallereignis 33, 36 Schallgeschwindigkeit 39, 87 Schallintensität 89 Schallschnelle 88 Schallsignal 48 Schallwandler 151 Schmerzgrenze 90 Schwankungsstärke 123 Schwebung 91 Schwingung 37 Schwingungsmodus 76 Schwingungsperiode 37 Semantische Lücke 33 Semi-abstrakte Klangobjekte 293 Send 182 Sender 53 Shannon 53 Signal 54, 57 Signalformcodierung 129 Signalkette 53, 57 Signal-Rausch-Verhältnis 69 Signal-Routing 183 Signation 250 Simultanmaskierung 112 Sinnesreize 273 Smoothing 196 SNR 69 Soft-Effects 243 Sonatenhaupsatzform 282 Sone 110 Sonification 290 Sound 21, 244 Sounddesign 289 Soundediting 289


Sachwortverzeichnis Sound-Effekte 243 Soundscape 24 Source-Music 246 Speicherplatzbedarf 139 Spektogramm 62 Spektrallinie 60 Split-Technik 185 Sprache 15 Sprachlaute 82 Station Voice 303 Steigerung 282 StereoEnhancer 207 StereoImager 207 Stereo-Mikrofonverfahren 161 Stereosumme 179 Stil 266 Stimmhaft 82 Stimmlos 82 Stimmung 120 Störpegel 154 Streams 24 Sturzblende 193 Sub-Band Coding 142 Subgruppe 183

Subjektiv-emotionale Hörperspektive 262 Subtraktive Klangsynthese 221 Supernierencharakteristik 160 Surround-Kanal 144 Sustain 64 Symbolgehalt 49 Synästhesie 274 Synchronisation 288 Syncpoints 272, 273 Syntheseverfahren 213 Szenenmusik 248, 250 Takt 269 Tape-Return 184 Teilton 59 Tempo 267, 269 Tempodelay 209 THX-Standard 148 Tiefenstaffelung 161 Tiefpass 71 Time Domain Harmonic Scaling 196

Timestretching 195 Tonhöhe 35 Tonigkeit 116 Tonlage 116 Tonspur 266, 272, 283 Total Harmonic Distortion 68 Transmission 93 Trittschall 171 Trommelfell 103 Übersteuerung 68 Übertragung 57 Übertragungsbereich 154 Übertragungsfaktor 153 Übertragungsrate 139 Ultraschall 86 Underscoring 248 VA-Synthese 227 VCA 214 VCO 214 Verzerrung 55, 67 Verzögerungszeit 126

313 Vestibularapparat 105 Virtuell Analog 227 Vokal 83 Volumen 123 Vorverstärker 179 Wahrnehmung 19 Waveshaping-Synthese 223 Wavetable-Synthese 222 Wipe-Sound 297 Wohltemperierte Stimmung 120 Wush-Sound 297 XY-Mikofonverfahren 162 Zeitbereich der Transienten 64 Zeitempfinden 24, 272 Zeitgestaltung 266, 272 Zeitverlauf 64 Zusammengehörigkeit 253


314

Sachwortverzeichnis

Hauptsache Digital.

0B'S%@8 Digitale Film- und Videotechnik AHJ CE>%8>8> 7R@ >%8> ;7+!G)> A-- 0>%8>RJ A-D ;EE%!@7R)>RH N09K #&$I?I--(I-DA*FI&

6G: 97B' E>'GR@>!8 @%> 1R @>< 2%!SI 7R@ /%@>Q8>B'R%"J @%> 0B'R%88I :8>!!>R O3%:B'>R @>R 9>%B'>R :Q3%> G!!> ;7+RG'S>IJ .%>@>IJ 0=>%B'>G<E>%87R):S,)!%B'">%8>R +C< @>R 9>%B' 6%)%8G! /%@>Q 7R@ 6%)%8G! 2%!SH 6GE>% %:8 @%> 6G!!7R) @>< "!G::%:B'>R 1R 5QR 2%!SI 7R@ /%@>QI 8>B'R%"J 3%> :%> 087@>R8>R %R @>< ;7:E%!@7R) 5><S%88>!8 3% %:8 @G: 97B' %R G!!>R MG=%8>!R G"87>!!>R 4R83%B"!7R)>R GR)>=G::8H 4%8>R +%R@>R :%B' 5Q< G!!>S %R @>R 9>%B'>R P6I1R 7R@ 0=>%B'>B'RQ!Q)%>RH

L>'< NR+Q<SG8%QR>R 7R8>< www.hanser.de/technik


Sachwortverzeichnis

Auf den guten Ton kommt es an.

Görne Tontechnik 2., aktualisierte Auflage 376 Seiten, 207 Abbildungen, 33 Tabellen. ISBN 978-3-446-41591-1

Dieses Buch gibt einen Einblick in die Tontechnik von den akustischen und nachrichtentechnischen Grundlagen bis hin zu Aufbau und Funktion der verschiedenen Studiogeräte, Mehrkanaltechnik und Klangsynthese. Ein besonderer Schwerpunkt ist dabei der Bezug zur Praxis: Wie funktioniert ein Faltungseffekt, wann braucht man einen Noise Shaper, in welcher Weise kann eine Wandreflexion den Klang verändern? Mit zahlreichen Bildern und Tabellen, Beispielen und Herleitungen sowie mit einem umfangreichen Sachwortverzeichnis dient dieses Buch gleichermaßen als Lehrbuch und als Nachschlagewerk für die tägliche Arbeit in Tonstudio und Konzertsaal.

Mehr Informationen unter www.hanser.de/technik

315


316

Sachwortverzeichnis

Online und Offline mit Konzept.

Fries Grundlagen der Mediengestaltung 3., überarbeitete und erweiterte Auflage 256 Seiten, vierfarbig. ISBN 978-3-446-40898-2 Mediengestaltung ist mehr als nur Design. Deshalb liegt der Fokus dieses Buches auf der konzeptionellen Gestaltung. Dabei stehen Grundidee und ein umfassendes Konzept im Vordergrund. Gestalttechniken und formales Design werden als unverzichtbarer Hintergrund ebenfalls umfassend behandelt. Viele praktische Übungen und Checklisten schaffen dabei die Basis für erste eigene Schritte und motivieren zum Ausprobieren. Das Buch richtet sich an Studenten, Grafiker, Web-Designer, Werbe- und PRFachleute sowie an alle anderen, die im Job mit Gestaltung und Kommunikation zu tun haben oder diese beurteilen müssen.

Mehr Informationen unter www.hanser.de/technik

17:06 Uhr

Seite 1

Wegsehen ist kein Problem, aber Weghören ...? Mangelhaftes Audiodesign stört auch, wenn es nur unbewusst wahrgenommen wird. Da Schallereignisse einen enormen Einfluss auf die Wirkung von Medienprodukten haben, müssen sie gezielt gestaltet werden. Daher findet Sounddesign in verschiedensten Bereichen der Kreativwirtschaft immer stärkere Beachtung. Dieses Buch vermittelt das dafür notwendige Wissen: Wichtig sind dabei die Schnittstellen zwischen Technik, Gestaltung und Wahrnehmung sowie das Zusammenspiel von Bild und Ton. Es wird daher die gesamte akustische Kommunikationskette von der Schallquelle bis hin zum Hörer behandelt. Für die 2. Auflage wurden gestalterische Aspekte ausgeweitet und neue Themen wie Audiobranding aufgenommen. Auf der Website http://audiodesign.raffaseder.net: Klangbeispiele Audioschnitt (HD-Recording) Bearbeitung von MIDI-Daten Effektbearbeitung von Audiosignalen Klangsynthese Modulare Audioprogrammierung Akustische Mediengestaltung (Kurzvideos) Projektvorschläge Demosoftware Vertiefende und weiterführende Inhalte und Informationen

Hannes Raffaseder leitet den Master-Studiengang Digitale Medientechnologien und das Institut für Medienproduktion an der FH St. Pölten. Als freischaffender Komponist bilden neben zahlreichen preisgekrönten Vokalund Instrumentalwerken multimediale Projekte und Improvisationskonzepte im Bereich der elektronischen Musik wichtige Schwerpunkte seiner Tätigkeit.

W n@tFFo FZnovE

ISBN: 978-3-446-41762-5

www.hanser.de

Audiodesign

22.12.2009

Raffaseder

KU_raffaseder_audiodesign_beli

Akustische Kommunikation Akustische Signale und Systeme Psychoakustische Grundlagen Klangsynthese Audioediting und Effektbearbeitung Sounddesign Bild-Ton-Beziehungen 2. Auflage

Hannes Raffaseder

Audiodesign WWW Mit Website

Audiodesign: Akustische Kommunikation, akustische Signale und Systeme, psychoakustische Grundlagen, Klangsynthese, Audioediting und Effektbearbeitung, Sounddesign, Bild-Ton-Beziehungen

Übungsbuch Signale und Systeme

Verteilte Systeme - Grundlagen und Basistechnologien

Empfehlungssysteme: Grundlagen, Konzepte und Systeme

Akustische Grundlagen der Sprachkommunikation: Anwendung in Schule, Büro und Freizeit, bei Schwerhörigkeit und Zweitsprache

Verteilte Systeme: Grundlagen und Basistechnologien

Akustische Grundlagen der Sprachkommunikation: Anwendung in Schule, Buro Und Freizeit, Bei Schwerhorigkeit Und Zweitsprache

Schallabsorber und Schalldämpfer - Innovative akustische Konzepte und Bauteile mit praktischen Anwendungen und konkreten Beispielen 2.Auflage

Bildsemiotik: Grundlagen und exemplarische Analysen visueller Kommunikation

Signale und Systeme verstehen und vertiefen: Denken und Arbeiten im Zeit- und Frequenzbereich

Signale und Systeme verstehen und vertiefen.. Denken und Arbeiten im Zeit- und Frequenzbereich

Information und Kommunikation: Grundlagen und Verfahren der Informationsübertragung

Grundlagen der Regelungstechnik: Kontinuierliche und diskrete Systeme

Schallabsorber und Schalldämpfer: Innovative akustische Konzepte und Bauteile mit praktischen Anwendungen in konkreten Beispielen, 2. Auflage

Signale und Systeme: Lehr- und Arbeitsbuch mit MATLAB-Übungen und Lösungen, 3. Auflage

Krisenmanagement und Kommunikation

Digitale Signalverarbeitung 1: Analyse diskreter Signale und Systeme

Masterkurs Parallele und Verteilte Systeme: Grundlagen und Programmierung von Multicoreprozessoren, Multiprozessoren, Cluster und Grid

Infotainmentsysteme im Kraftfahrzeug. Grundlagen, Komponenten, Systeme und Anwendungen

Mechatronik: Grundlagen und Anwendungen technischer Systeme, 2.Auflage

Kommunikation in Forschung und Entwicklung

Android: Grundlagen und Programmierung

Theorie paralleler und verteilter Systeme

Dynamische Systeme: Theorie und Numerik

Masterkurs Parallele und Verteilte Systeme

Ingenieurgeologie: Grundlagen und Anwendung

Wärmeübertragung: Grundlagen und Praxis

Diskriminierung: Grundlagen und Forschungsergebnisse

Python Grundlagen und Praxis

Umwandlungsrecht - Grundlagen und Steuern

Zuverlässigkeit und Verfügbarkeit technischer Systeme

Audiodesign: Akustische Kommunikation, akustische Signale und Systeme, psychoakustische Grundlagen, Klangsynthese, Audioediting und Effektbearbeitung, Sounddesign, Bild-Ton-Beziehungen

Übungsbuch Signale und Systeme

Verteilte Systeme - Grundlagen und Basistechnologien

Empfehlungssysteme: Grundlagen, Konzepte und Systeme

Akustische Grundlagen der Sprachkommunikation: Anwendung in Schule, Büro und Freizeit, bei Schwerhörigkeit und Zweitsprache

Verteilte Systeme: Grundlagen und Basistechnologien

Akustische Grundlagen der Sprachkommunikation: Anwendung in Schule, Buro Und Freizeit, Bei Schwerhorigkeit Und Zweitsprache

Schallabsorber und Schalldämpfer - Innovative akustische Konzepte und Bauteile mit praktischen Anwendungen und konkreten Beispielen 2.Auflage

Bildsemiotik: Grundlagen und exemplarische Analysen visueller Kommunikation

Signale und Systeme verstehen und vertiefen: Denken und Arbeiten im Zeit- und Frequenzbereich

Signale und Systeme verstehen und vertiefen.. Denken und Arbeiten im Zeit- und Frequenzbereich

Information und Kommunikation: Grundlagen und Verfahren der Informationsübertragung

Grundlagen der Regelungstechnik: Kontinuierliche und diskrete Systeme

Schallabsorber und Schalldämpfer: Innovative akustische Konzepte und Bauteile mit praktischen Anwendungen in konkreten Beispielen, 2. Auflage

Signale und Systeme: Lehr- und Arbeitsbuch mit MATLAB-Übungen und Lösungen, 3. Auflage

Krisenmanagement und Kommunikation

Digitale Signalverarbeitung 1: Analyse diskreter Signale und Systeme

Masterkurs Parallele und Verteilte Systeme: Grundlagen und Programmierung von Multicoreprozessoren, Multiprozessoren, Cluster und Grid

Infotainmentsysteme im Kraftfahrzeug. Grundlagen, Komponenten, Systeme und Anwendungen

Mechatronik: Grundlagen und Anwendungen technischer Systeme, 2.Auflage

Kommunikation in Forschung und Entwicklung

Android: Grundlagen und Programmierung

Theorie paralleler und verteilter Systeme

Dynamische Systeme: Theorie und Numerik

Masterkurs Parallele und Verteilte Systeme

Ingenieurgeologie: Grundlagen und Anwendung

Wärmeübertragung: Grundlagen und Praxis

Diskriminierung: Grundlagen und Forschungsergebnisse

Python Grundlagen und Praxis

Umwandlungsrecht - Grundlagen und Steuern

Zuverlässigkeit und Verfügbarkeit technischer Systeme

Recommend Documents