This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
für Prominenz, und die Ziffern im Index beziehen sich auf deren perzeptorische Stärke. Sie können für die weiteren Ausführungen grob auf eine Rangskala projiziert werden, wobei 1 auf die schwächste und 3 auf die stärkste Prominenz verweist. Alle anderen Konstituenten in den Äußerungen (a) und (b) besitzen die Prominenzstärke P1. Wird hiervon ausgehend in (a) im Sinne von P3-P2 eine starke Prominenz auf die initiale Konstituente „Brötchen“ und eine weitere weniger starke Prominenz auf die finale Konstituente „ausverkauft“ gelegt, so entsteht – neben der Kennzeichnung von „Brötchen“ und „ausverkauft“ als Informationsschwerpunkte – eine Hervorhebung, die sich in einer breiten Perspektive auf die Semantik der Äußerung insgesamt bezieht. Eine vergleichbare über die Markierung zweier einzelner Informationsschwerpunkte hinausgehende holistisch orientierte Hervorhebungsbedeutung ergibt sich auch in (b) mit dem Muster P3-P2. Das heißt, die Hervorhebung referiert auf den Vorgang des Händeschüttelns als Ganzes. Wird von P3-P2 zu P3-P1 die weniger starke Prominenz auf der letzten Konstituente „geschüttelt“ auf das Niveau der umliegenden Konstituenten reduziert („geschüttelt“ ist dadurch gleichzeitig nicht länger als Informationsschwerpunkt markiert), verengt sich die inhaltliche Perspektive der Hervorhebung. In der Aussage der Äußerung (b) insgesamt tritt nun die körperliche Berührung in den Vordergrund, während die genaue Qualität dieser Berührung (also z.B. schütteln, geben, drücken) nebensächlich wird. Ein denkbarer situativer Kontext für eine solche Äußerung ist zum Beispiel, dass der Sprecher von einem persönlichen Zusammentreffen mit einer berühmten Person berichtet. Das Muster P3-P1 führt in (a) ebenfalls zu einer Einengung der inhaltlichen Perspektive auf „Brötchen“. Anders als in (b) kommt hierbei jedoch in der Bedeutung der Hervorhebung zusätzlich eine Kontrastierung der Brötchen zu anderen (alternativen) Backwaren herein (vgl. auch den zuvor bereits genannten Kontrast in „EINE Malerin“ zu einer anderen Anzahl von Malerinnen). Dementspre-
18 18
Einleitung Einleitung
chend ist eine naheliegende Fortsetzung der Äußerung (a) mit P3-P1: „Aber Brot ist noch da“. In (b) entsteht ein Kontrast hingegen für das inverse Prominenzmuster P1-P3. In einer inhaltlich verengten Perspektive wird die Handlung des Schüttelns so anderen Handlungen gegenübergestellt, und die Äußerung kann als eine Beschwerde interpretiert werden – zum Beispiel paraphrasierbar als „Hätte er nicht ein bisschen weniger forsch ein können?“. Wird das Muster P1-P3 schließlich in (a) angewandt, entfällt eine solche Kontrastierung wieder, und es bleibt lediglich die Einengung der inhaltlichen Perspektive auf „ausverkauft“ übrig. Eine solche Äußerung kann gegenüber einem Kunden in einer Bäckerei auftreten, der nach mindestens einer gescheiterten Auskunft noch immer nicht verstanden hat, dass die von ihm gewünschte Ware, deren genaue Art zur Nebensache wird, nicht mehr zu haben ist. Während für das Muster P3-P2 erläutert wurde, dass es in (a) und (b) zu einer Hervorhebungsbedeutung führt, die in einer breiten inhaltlichen Perspektive die Semantik der Äußerung als Ganzes betrifft, gilt dies nicht in der gleichen Weise für das Muster P3-P3. Verglichen mit P3-P2 schwächt das Muster P3-P3 die Bindung der betreffenden Konstituenten (bzw. ihrer Semantik). So wird etwa im Falle von (b) mit dem Muster P3-P3, anders als mit P3-P2, nicht das Händeschütteln als Gesamtheit, sondern jede einzelne Komponente der Gesamtheit (hier also Handlung und Handlungsobjekt) gleichermaßen herausgestellt; ohne dabei gleichzeitig eine Kontrastierung einer der Komponenten hervorzurufen, wie sie für P1-P3 beschrieben wurde. Das durch das Muster P3-P2 etablierte inhaltliche Kompositum ‚Händeschütteln’ wird durch das Muster P3-P3 quasi in ein ‚Schütteln der Hände’ aufgebrochen. Dies kann auf grammatischer Ebene dadurch weiter unterstützt werden, dass „mir die“ durch „meine“ ausgetauscht wird. Durch das separate Herausstellen der Komponenten einer Gesamtheit, kann letztere wiederum in besonderer Weise unterstrichen werden. Äußerung (b) erhält dementsprechend in Verbindung mit dem Muster P3P3 einen expressiven Charakter, der als Nachdruck beschrieben werden kann; mit dem Ziel, die Intensität der Erfahrung wiederzugeben. Wird zudem der silbeninitiale Konsonant /5/ („sch“) in „geschüttelt“ deutlich ausgedehnt und der darauf folgende Vokal entsprechend verkürzt, wird die Erfahrung vom Sprecher zusätzlich negativ verstärkt („Ich dachte, er würde mir den Arm abreißen!“). Auch in Kombination mit der Äußerung (a) lässt sich die Bedeutung des Musters P3-P3 als Nachdruck beschreiben. Allerdings wird dieser eher als eine Bekräftigung des Wahrheitsgehalts der Aussage interpretiert. Die vorangegangenen Beispiele zeigen im Einklang mit Barry (1981) zum einen klar, dass der Bedeutungstyp der Hervorhebung nicht in dem Sinne grammatischer Natur ist (vgl. u.a. Crystal 1995), dass er in Auftreten
Zielsetung derSprechmelodie Arbeit Zur Bedeutung der
19 19
und Form durch Syntax oder Morphologie prädeterminiert wird und folglich nur zur Indikation der grammatischen Struktur dient. Hervorhebung transportiert vielmehr ein breites Spektrum eigener kommunikativer Bedeutungen. An den präsentierten Beispielen wurde darüber hinaus aber auch demonstriert, dass Hervorhebung nicht grundsätzlich unabhängig vom lautlichen Kanal und dessen Einheiten verstanden wird. So führten etwa die Muster P3-P1 und P1-P3 nur in jeweils einer der beiden Äußerungen zu einer Kontrastierung der Konstituente mit der Prominenz P3. Dennoch sollte die Hervorhebung nicht mit relationalen Bedeutungen gleichgesetzt werden, wie sie zum Beispiel durch die attitudinalen Bedeutungen repräsentiert werden. Äußerungen wie die zuvor besprochenen führen vielmehr zu den folgenden Überlegungen. Hervorhebung ist heterogen, sowohl im Hinblick auf die darunter subsumierten Bedeutungen als auch bezüglich der jeweils dazugehörigen phonetischen Substanz. Die fundamentalste Einheit im Rahmen der Hervorhebung ist auf phonetischer Seite immer (aber nicht ausschließlich) auf eine einzelne Prominenzspitze gegründet und dient im strukturellen Sinne der reinen Kennzeichnung von Informationsschwerpunkten. Das heißt, es handelt sich um eine kontextunabhängig verstehbare Bedeutung, auf der auch die von Barry (1981) und Kohler (2004b) genannte guide function (vgl. S. 12) aufbaut und die in allen gegebenen Beispielen in gleicher Weise vorliegt. Auf Äußerungsebene entstehen hieraus weitere, über die Grundeinheit der Hervorhebung hinausgehende bedeutungstragende Einheiten, die folglich mehr Prominenzrelationen und, wie im Falle der Muster P3-P2 und P3-P3, auch mehr als eine einzelne Prominenzspitze überspannen können. Einer der Kerngedanken hierbei ist, dass die Bedeutungen von Prominenzmustern wie P3-P2 und P3-P3 nicht einfach aus der Summe der Bedeutungen der einzelnen Prominenzspitzen (bzw. –relationen) abgeleitet werden können, sondern dass auf Basis der Muster (neue) funktionale Ganzheiten entstehen. So geht in Äußerung (a) beispielsweise von P3-P1 zu P3-P2 oder zu P3-P3 die Kontrastierung verloren. Die Annahme auf Prominenzmustern basierender funktionaler Ganzheiten steht der derzeit dominierenden Analyse entgegen, in der Prominenzspitzen bzw. Akzentsilben (also Prominenzspitzen, an die sprechmelodische Zeichen angehängt sind) in atomistischer Weise phänomenal und insbesondere funktional isoliert voneinander behandelt werden. Bezüglich der Bedeutungen der funktionalen Ganzheiten kristallisiert auch im Hinblick auf die gegebenen Beispiele Folgendes heraus. Solche Einheiten, die unterschiedlich starke Prominenzspitzen integrieren (z.B. P3-P2), stellen (inhaltliche) Beziehungen zwischen den betreffenden Konstituenten her. Das heißt, letztere werden miteinander verbunden. Demzu-
20 20
Einleitung Einleitung
folge schaffen sie beim Hörer im Hinblick auf den Äußerungsinhalt eine breite Perspektive. Für Einheiten, die nur eine einzelne oder zwei gleichwertige Prominenzspitzen überspannen, werden keine vergleichbaren inhaltlichen Beziehungen hergestellt. Erstere stellen erst gar keine Beziehungen zu anderen Konstituenten her und isolieren so die Konstituente mit der Prominenzspitze, womit bezüglich des Äußerungsinhalts auch eine Einengung der Perspektive einhergeht. Einheiten mit gleichwertigen Prominenzen dividieren die betreffenden Konstituenten bzw. deren Semantik eher auseinander anstatt sie zu verbinden. Insgesamt umfasst das Bedeutungsspektrum dieser größeren bedeutungstragenden Einheiten der Hervorhebung Formen der Perspektivität (die auch als Fokus bezeichnet werden, vgl. Baumann et al. 2006), Kontrastivität und Expressivität. Anders als die Grundeinheit werden sie – wie demonstriert wurde – zwar nicht kontextunabhängig verstanden, allerdings auch nicht in der Weise relational wie die attitudinalen Bedeutungen. Während die Interpretation letzterer an den übrigen Bedeutungskomponenten der jeweiligen Äußerung hängt, ist für die in globaleren Prominenzmustern kodierten Hervorhebungsbedeutungen anzunehmen, dass sie an der grammatischen Struktur der jeweiligen Äußerung ausgerichtet sind. Insofern bleibt der Bedeutungstyp der Hervorhebung insgesamt in erster Linie strukturbezogen; entweder weil die Bedeutung selbst strukturierender Art ist oder weil sie an Strukturen (und nicht an Bedeutungen) gekoppelt ist. Im Rahmen der größeren bedeutungstragenden Einheiten entstehen Bedeutungsunterschiede auch über die Stärke und Art der involvierten Prominenz(-spitze). Dieser Bedeutungskomplex wurde unter anderem von Kohler (2006b) sowie von Kohler und Niebuhr (2007) untersucht. Sie beschreiben Kategorien emphatischer Hervorhebungen, die sich durch besonders starke Prominenzspitzen auszeichnen und/oder die Prominenzen über tonale vs. atonale phonetische Mittel erzeugen, wobei im Falle von letzteren wiederum klangliche vs. nicht-klangliche Mittel unterschieden werden können. Zu nicht-klanglichen Mitteln kann auch die Pause gerechnet werden (vgl. Strangert 2003). Wie anhand des „geschüttelt“-Beispiels gezeigt wurde, können solche Hervorhebungen die Semantik der jeweiligen Konstituente (negativ oder positiv) verstärken. Die vorangegangenen Ausführungen haben deutlich gemacht, dass hinter dem Bedeutungstyp der Hervorhebung ein komplexes Kategoriensystem angenommen werden kann. Die Frage, wie genau ein solches System auszusehen hat, ist auf dem derzeitigen Stand der Forschung noch nicht beantwortet und liegt auch außerhalb der Zielsetzung der vorliegenden Arbeit. Ansätze hierfür sind allerdings bereits vorhanden (z.B. Kohler 2006b). Für die Zwecke der vorliegenden Arbeit ist es ausreichend, wenn der Leser sich der phonetischen und funktionalen Komplexität und Viel-
Zielsetung derSprechmelodie Arbeit Zur Bedeutung der
21 21
schichtigkeit des Bedeutungstyps der Hervorhebung bewusst ist, da der Terminus der Hervorhebung (sofern nicht anders angegeben) nachfolgend vereinfacht mit Bezug auf seine kleinste Grundeinheit und seine fundamentalste Bedeutung gebraucht wird: die Kennzeichnung von Informationsschwerpunkten. 1.3.2 Die bedeutungsbezogenen Bestandteile der Sprechmelodie – Zeichen und phonologische Komponente Dass im lautlichen Informationskanal bedeutungstragende Einheiten transportiert werden, ist jedem Sprachbenutzer sofort einleuchtend und auch aus einer wissenschaftlichen Perspektive unumstritten. Die Muster aus Timbre und Stimme sowie ihre dazugehörigen Abbilder, die beispielsweise in der standarddeutschen Orthographie durch <Tina> und repräsentiert werden, bilden jeweils eine bedeutungstragende Einheit, die sich auf konkrete außersprachliche Referenten bezieht. Des weiteren gilt als unumstritten, dass solche bedeutungstragenden Einheiten wie <Tina> und aus bedeutungsdifferenzierenden Elementen bestehen. Lediglich über die Beschaffenheit dieser Elemente besteht ein Dissens. Die gängige Sichtweise wird durch das segmentelle Paradigma geleitet. Hierin wird jedes der beiden kontinuierlichen Muster in eine Sequenz aus vier stationären bedeutungsdifferenzierenden Abschnitten, den Segmenten, analysiert und entsprechend als /VK:PC/ (für <Tina>) und als /HC:\/ (für ) dargestellt (vgl. Kohler 1995; die gegebene Schilderung ist geringfügig vereinfacht, da nur die kontextunabhängigen Eigenschaften in Timbre und Stimme dem bedeutungsdifferenzierenden Segment angehören). Aus den beiden Darstellungen /VK:PC/ und /HC:\/ geht hervor, dass alle vier Segmente notwendig sind, um die bedeutungstragenden Einheiten zu formen und dass ein Austausch eines dieser vier Segmente die Bildung neuer bedeutungstragender Einheiten bewirkt. Wird zum Beispiel der initiale Obstruent /V/ bzw. /H/ beider Einheiten durch ein Segment mit den Eigenschaften ‚apikaler Nasal’ /P/ ausgetauscht, entstehen die bedeutungstragenden Einheiten und , die sich auf andere außersprachliche Referenten beziehen. Dass auch Sprechmelodie im Rahmen sprachlicher Kommunikation als Träger von Bedeutungen fungiert, ist von einem wissenschaftlichen Standpunkt aus ebenfalls derart unzweifelhaft, dass Kohler (2004b) Feststellungen wie „the elements of intonation have meaning“ von Ladd (1996:39) als trivial einstuft. Einige Bedeutungsinterpretationen wurden im Abschnitt 1.3.1 vorgestellt. Uneinigkeit besteht indes darüber, von welcher Art diese Bedeutungen sind (dieser Aspekt wurde gegen Ende von 1.3.1 angesprochen) und welches die Einheiten sind, durch die sie getragen werden. Un-
22 22
Einleitung Einleitung
abhängig davon, welches die bedeutungstragenden Einheiten sind (mögliche Auffassungen hierzu werden in den Abschnitten 2.3 und 2.4 vorgestellt), kann jedoch eine Partitionierung im Sinne bedeutungsdifferenzierender Elemente angenommen werden. Wenn beispielsweise die vier Sprechmelodien aus Abbildung 1(a)-(b) und (e)-(f) im Abschnitt 1.3.1 als jeweils eine bedeutungstragende Einheit betrachtet werden, dann werden zwei bedeutungsdifferenzierende Faktoren erkennbar: Die Art des Tonhöhenverlaufs einerseits (steigend-fallend oder fallend-steigend) und die Position des Extremums dieses Verlaufs in Relation zu (dem Nukleus) der Akzentsilbe „Ma-“ (davor oder darin) andererseits. Eine alternative Möglichkeit besteht darin, nicht die gesamte Sprechmelodie, sondern nur einen einzelnen Ton als eine bedeutungstragende Einheit anzusehen. Bedeutungsdifferenzierend wirkt sich in diesem Fall unter anderem aus, ob es sich um einen hohen oder tiefen Ton handelt und wie er mit der Struktur der Äußerung verknüpft ist. Steht zum Beispiel ein hoher Ton, wie er als Tonhöhenmaximum in den Beispielen (b) und (f) aus Abbildung 1 vorkommt, am Ende der Äußerung wie in (f), bildet er eine bedeutungstragende Einheit, die eine Frage signalisieren kann. Wird er hingegen wie in (b) mit der akzentuierten Silbe verbunden, entsteht eine bedeutungstragende Einheit, durch die der geäußerte Sachverhalt als eine bislang unbekannte Aussage interpretiert werden kann. Die vorangehenden Ausführungen zeigen, dass sprechmelodische Muster ebenso wie die Muster aus Timbre und Stimme bedeutungstragende Einheiten ausbilden, die durch bedeutungsdifferenzierende Elemente geformt werden. Die skizzierte Analogie zwischen der Funktionsweise des lautlichen und melodischen Informationskanals ist somit grundsätzlich gerechtfertigt. Ausgehend vom Standarddeutschen und anderen Intonationssprachen, bestehen im Detail jedoch wesentliche Unterschiede zwischen den bedeutungsdifferenzierenden Elementen des lautlichen und des melodischen Kanals. Gleiches gilt für die bedeutungstragenden Einheiten. Letzteres betrifft unter anderem den Typ von transportierten Bedeutungen. Während der lautliche Kanal vor allem als Träger sprecherunabhängiger Bedeutungen über die reale und geistige Welt fungiert, werden im melodischen Kanal hauptsächlich sprecherabhängige Bedeutungen transportiert, mit denen zum Beispiel die Bedeutungen des lautlichen Kanals kommentiert werden (z.B. die in 1.3.1 vorgestellten attitudinalen Bedeutungen). Hinzu kommt, wohlmöglich als Konsequenz der unterschiedlichen Nutzung beider Kanäle, dass die Verbindung zwischen Bedeutungen und ihren sprachlichen Formen im melodischen Kanal tendenziell weniger willkürlich ist als im lautlichen Kanal. Im lautlichen Kanal stellen Verbindungen, in denen die Bedeutung durch die Form hindurchschimmert, „a tiny minority“ (Laver 1994:17) dar. Sie entstehen durch Onomatopöie, bei
Zielsetung derSprechmelodie Arbeit Zur Bedeutung der
23 23
der außersprachliche Referenten durch sprachliche Formen repräsentiert sind, die ihre charakteristischen Geräusche imitieren. Im Zusammenhang mit den bedeutungsdifferenzierenden Elementen wurde erläutert, dass diese im lautlichen Kanal, bedingt durch das gängige Analyseparadigma, als Segmente aufgefasst werden können. Das heißt, die bedeutungsdifferenzierenden Elemente befinden sich in einer lückenlosen und gleichzeitig disjunkten chronologischen Anordnung. Wie die genannten bedeutungsdifferenzierenden Elemente der Sprechmelodie zeigen, sind diese segmentellen Eigenschaften nicht auf den melodischen Kanal übertragbar: Die Art des Tonhöhenverlaufs und die Position des Extremums teilen keine gemeinsame zeitliche Grenze, sondern bilden eine Beziehung der Einbeziehung aus. Die Kopplung eines hohen/tiefen Tons an Strukturstellen der Phrase indiziert keine sequenzielle, sondern eine simultane Verbindung. Zudem bilden hohe und tiefe Töne auf keiner Stufe der speech chain eine lückenlose Sequenz, sondern sind durch Transitionen unterbrochen4. Die tendenziell weniger willkürliche Beziehung zwischen Form und Funktion bedeutungstragender Einheiten der Sprechmelodie in Kombination mit der nicht-segmentellen Organisation ihrer bedeutungsdifferenzierenden Elemente bildet die Grundlage für einen weiteren inhaltlichen Unterschied zum lautlichen Kanal. So ist im melodischen Kanal die Trennung zwischen bedeutungstragenden Einheiten und bedeutungsdifferenzierenden Elementen weniger scharf. Elemente wie der steigend-fallende oder der fallend-steigende Tonhöhenverlauf sind selbst nicht frei von Bedeutung. Über sprachexterne Interpretationswege, wie zum Beispiel den frequency code (siehe Ohala 1983, 1984), verfügen sie vielmehr über ein bestimmtes Bedeutungspotential, das mit den Potentialen der übrigen Elemente interagiert. Durch die Interaktion wird eine Möglichkeit aus dem Bedeutungspotential jedes Elementes selektiert und mit den übrigen zum Inhalt der bedeutungstragenden Einheit amalgamiert. Die Elemente sind _____________ 4
In diesem Zusammenhang ist darauf hinzuweisen, dass das traditionelle Segmentkonzept auch für den lautlichen Kanal problematisch ist. Insbesondere in der nicht abgelesenen Spontansprache, in der sich die Ausbreitung von Merkmalen eines Segmentes über die benachbarten Segmente ebenso findet wie die Substitution von Segmenten durch suprasegmentelle Phänomene (vgl. z.B. Kohler 2001a, b; Wesener 2001) lässt sich die „absolute slicing hypothesis“ (Goldsmith 1976:17) nur schwer mit der phonetischen Realität zur Deckung bringen. Alternativen zum traditionellen Segmentkonzept finden sich bereits bei Ohala (1992) und Laver (1994). Auch auf phonologischer Seite wurden zahlreiche nicht lineare Modelle entwickelt. Hierzu gehören die autosegmentelle Phonologie (Goldsmith 1976, 1990, 1995), die prosodische Phonologie von Firth (vgl. Sommerstein 1977) und die artikulatorische Phonologie (Browman und Goldstein 1992). Dennoch ist das lineare Segmentkonzept in der phonetischen und phonologischen Forschung bis heute dominant geblieben (eine Verteidigung dieses Paradigmas gibt Shattuck-Hufnagel 1992).
24 24
Einleitung Einleitung
somit weniger bedeutungsdifferenzierend als vielmehr bedeutungskonstituierend. Auf die Pendants des lautlichen Kanals, wie etwa /V/, /H/ oder /P/, trifft dies nicht zu. In dieser Hinsicht sind sie als reine bedeutungsdifferenzierende und somit klassisch distinktive Elemente eindeutig von den bedeutungstragenden Einheiten abgegrenzt. In der Literatur (z.B. Jones 1957, 1962 sowie Clark und Yallop 1995 für eine Übersicht) werden die bedeutungsdifferenzierenden Elemente des lautlichen Kanals im Rahmen des segmentellen Paradigmas als Phoneme bezeichnet und den durch sie geformten bedeutungstragenden Einheiten, den Morphemen, gegenübergestellt. Einige Autoren (hierzu zählt z.B. Gussenhoven 1984; Bolinger 1986; Féry 1993; Rossi 2000 und viele Autoren des traditionellen amerikanischen Strukturalismus) übertragen diese Terminologie ganz oder teilweise auch auf die Elemente des melodischen Kanals. Mit Blick auf die zuvor skizzierten Unterschiede soll für den melodischen Kanal in dieser Arbeit eine eigenständige Terminologie vorgestellt werden, aus der heraus die besonderen Eigenschaften dieses Kanals erkennbar sind. Die Elemente des melodischen Kanals sind im Gegensatz zu den Phonemen weder rein distinktiv, noch in eine segmentelle Anordnung analysierbar. Stattdessen kommt ihnen eine allgemein funktionale und in diesem Sinne phonologische Rolle in bedeutungstragenden Einheiten zu, die durch sie kompositorisch geformt werden. Die bedeutungsdifferenzierenden Elemente der Sprechmelodie werden daher als phonologische Komponenten bezeichnet. Aufgrund der gravierenden Unterschiede in der Art der Bedeutung und deren Verbindung zur Form der bedeutungstragenden Einheit erscheint es nicht angemessen, den segmentellen Terminus des Morphems auch im melodischen Bereich anzuwenden. Es wird daher ein alternativer Terminus gebraucht, der ebenfalls Form und Bedeutung integriert, nämlich das Zeichen im Sinne von de Saussure (1916). Durch unterschiedliche Zusammenstellungen phonologischer Komponenten können andere Zeichenformen entstehen.
1.4 Forschungsfragen und Aufbau der Arbeit Auf der Grundlage der eingangs formulierten Zielsetzung und den Erläuterungen zur Sprechmelodie wird den folgenden beiden Forschungsfragen nachgegangen: - (1) Wie sind die phonologischen Komponenten beschaffen, aus denen sich sprechmelodische Zeichen zusammensetzen?
Zielsetung derund Arbeit Forschungsfragen Aufbau
25 25
- (2) Welche auditiven Verarbeitungsprozesse liegen der Perzeption sprechmelodischer Zeichen zugrunde? Obwohl beide Forschungsfragen allgemein gestellt sind, wird sich die vorliegende Arbeit bei der Suche nach Antworten zunächst nur auf die drei Sprechmelodien aus Abbildung 1(a)-(c) bzw. auf die hierin enthaltenen Zeichen konzentrieren, die sich auf die attitudinalen Bedeutungen GEGEBEN, NEU und UNERWARTET beziehen. Anstelle hierbei den oft beschrittenen Weg über Messungen in den artikulatorischen oder akustischen Abbildern der speech chain zu gehen, wird gemäß der Argumentation in 1.1 eine perzeptorisch ausgerichtete Forschungsstrategie verfolgt. Diese Strategie steht im Einklang mit der Forderung von Collier (1972:42), dass „the establishment of the systematics that characterizes our perception of intonation” am Ausgangspunkt von Theorien und Modellen stehen muss. Ladd (1996:61) weist ferner darauf hin, dass fundamentale Fragen zur Phonologie sprechmelodischer Zeichen „in the realm of perception“ weiterhin offen sind. Im Rahmen der skizzierten perzeptorischen Strategie erfolgt der Zugang zu den sprechmelodischen Zeichen über ihre Bedeutung. Das heißt, bei der Ermittlung der phonologischen Form der behandelten Zeichen, geht die vorliegende Arbeit nach zwei Grundsätzen vor: Neben „form follows function“ (vgl. Xu 2004a:91) gilt form follows perception. Was den Aufbau anlangt, so zerfällt die Arbeit in einen empirischen Teil (A) und einen theoretischen Teil (B). In Teil (A) „Experimentelle Untersuchungen zur Wahrnehmung von Sprechmelodiegipfeln“ werden zunächst die Sprechmelodien aus Abbildung 1(a)-(c) in zwei diametralen phonologischen Theorien analysiert. Am Ausgang dieser Analyse stehen zwei grundlegend andere Annahmen zur Form dreier sprechmelodischer Zeichen, die im Anschluss vor einem empirischen Hintergrund gegeneinander abgewogen werden. Darüber hinaus wird gezeigt, dass keine der beiden alternativen phonologischen Kompositionen, aus denen sich die Zeichenformen konstituieren, vollständig damit zur Deckung gebracht werden kann, wie Sprecher und Hörer mit den Zeichen, die in den drei Sprechmelodien aus Abbildung 1(a)-(c) enthalten sind, umgehen. Auf dieser Grundlage werden schließlich weiterführende Hypothesen formuliert und in eigenen Perzeptionsexperimenten überprüft. Im zweiten Teil (B) „Theoretische Überlegungen zur Wahrnehmung von Sprechmelodiegipfeln“ wird ein Überblick über relevante Aspekte der auditiven und visuellen Wahrnehmung gegeben. Hieraus werden unter gleichzeitiger Berücksichtigung der Erkenntnisse aus Teil (A) und weiterer empirischer Quellen Ansätze einer Theorie zur Wahrnehmung der Sprechmelodie entwickelt, die mögliche Antworten auf die Forschungsfragen (1) und (2) geben. Die theoretischen Ansätze und die daraus abgeleiteten Zeichenformen werden anschließend vor dem Hintergrund der in Teil (A)
26 26
Einleitung Einleitung
eingeführten phonologischen Theorien kritisch diskutiert. Die Diskussion mündet schließlich in einen allgemeinen Forschungsausblick. In Verbindung mit den beiden beschriebenen Forschungsfragen wird in dieser Arbeit zwangsläufig die Frage berührt, ob sprechmelodische Zeichen aus (geschichteten) globalen Komponenten bestehen oder ob sie sich aus lokalen Komponenten in sequentieller Anordnung konstituieren, die in einen phonologisch irrelevanten sprechmelodischen Hintergrund eingebettet sind. Hierauf muss explizit hingewiesen werden, da dieser Frage angesichts der seit langem bestehenden Kontroverse über die Repräsentationsform phonologischer Komponenten der Sprechmelodie zwischen dem „contour camp“ und dem „level camp“ (Bolinger 1972:156) eine richtungsweisende Bedeutung zukommt.
Teil A: Experimentelle Untersuchungen zur Wahrnehmung von Sprechmelodiegipfeln
2 Forschungsgegenstand Auf der Grundlage der Angaben zur Bedeutung der Sprechmelodien aus Abbildung 1(a)-(c), die in Abschnitt 1.3.1 vorgestellt wurden, wird angenommen, dass diese Sprechmelodien drei unterschiedliche Zeichen enthalten. Die attitudinalen Bedeutungen, die diese Zeichen tragen, werden kontextabhängig verstanden. Ihre fallgebundenen Spezifika lassen sich nicht verallgemeinern. Die generischen Charakteristika der drei Zeichen können jedoch mit GEGEBEN vs. NEU vs. UNERWARTET angegeben werden. Im Rahmen dieser Arbeit wird nun die Frage gestellt, wie diese Zeichen aussehen. Durch welche phonologischen Komponenten werden sie geformt und – damit einhergehend – wie werden die drei Zeichen gegeneinander abgegrenzt? Auf dem derzeitigen Stand der Forschung existieren bereits mehrere phonologische Theorien, die zum Teil deutlich abweichende Antworten auf die genannte Forschungsfrage (1) geben. Um das Spektrum an Antwortalternativen vorzustellen und damit gleichzeitig Forschungsfrage (1) vor einem möglichst breiten Hintergrund erörtern zu können, werden zwei solcher Antworten vorgestellt. Sie kommen aus phonologischen Theorien, die sich in sehr unterschiedlich ausgerichteten Forschungstraditionen entwickelt haben. Hierbei handelt es sich auf der einen Seite um die Phonologie des Kieler Intonationsmodells (KIM) von Kohler (1991a, b) und auf der anderen Seite um die autosegmentell-metrische Phonologie (AM-Phonologie) auf der Grundlage von Pierrehumbert (1980). Die drei sprechmelodischen Zeichen und ihre zugrundeliegenden Sprechmelodien sowie die darauf basierenden alternativen Zeichenformen, die als Antwortalternativen am Ausgang der beiden phonologischen Analysen stehen, bilden den Forschungsgegenstand, der insofern über eine phonetische und eine (zweigeteilte) phonologische Seite verfügt. Nachfolgend werden beide Seiten vorgestellt. Damit wird in diesem Kapitel der Grundstein für eine empirisch basierte Evaluierung der alternativen phonologischen Kompositionen der Zeichentriade gelegt, die im nächsten Kapitel durchgeführt wird.
30 30
Forschungsgegenstand
2.1 Hinweise zur Auswahl des Forschungsgegenstandes Grundlegende Erkenntnisse zur Form sprechmelodischer Zeichen haben die größte Aussagekraft, wenn die Gesamtheit der sprechmelodischen Zeichen einer Sprache (hier des Standarddeutschen) und ihrer phonetischen Abbilder in die Untersuchung mit einbezogen wird. Eine solche Vorgehensweise wird hier vor allem deswegen nicht gewählt, da dies einen Konsens über das Inventar der sprechmelodischen Zeichen voraussetzen würde. Allein vor dem Hintergrund, dass das vollständige Bedeutungsspektrum der Sprechmelodie noch nicht offengelegt wurde (vgl. Cruttenden 1997 und 1.3.1), kann diese Voraussetzung derzeit nicht erfüllt werden. Es ist somit unausweichlich, eine Auswahl aus vorhandenen sprechmelodischen Zeichen zu treffen und die hiermit gewonnenen Einsichten dann ggf. auf andere Zeichen zu generalisieren. Unter diesen Bedingungen muss bei der Auswahl des Forschungsgegenstandes auf das Kriterium der Validität besonderer Wert gelegt werden. Die drei sprechmelodischen Zeichen, die in den folgenden Abschnitten in zwei alternativen Formgebungen vorgestellt werden, wurden als Forschungsgegenstand für diese Arbeit selektiert, da sie dieser Anforderung aus folgenden Gründen gerecht werden können: Erstens existiert für sie bereits ein solides empirisches Fundament, das als Ausgangspunkt für weitere experimentelle Untersuchungen herangezogen werden kann. Zweitens bilden die gewählten Sprechmelodien auch in anderen Sprachen vergleichbare Zeichentriaden aus (d.h. es existieren zwischen ihnen vergleichbare phonologische Oppositionen, die zu einer vergleichbaren Form für jedes der drei Zeichen führen), allerdings zum Teil mit anderer funktionaler Anbindung. Dadurch besteht zum einen die Möglichkeit, die Ergebnisse der durchgeführten Untersuchungen in diese Sprachen hineinzutragen und – sofern eine empirische Überprüfung dies rechtfertigt – zu übertragen. Zweitens können die empirischen Befunde zu solchen Zeichentriaden aus anderen Sprachen das empirische Fundament für die in dieser Arbeit erforschten drei Zeichen des Standarddeutschen ergänzen. Drittens wird die Annahme, dass die drei Sprechmelodien der Abbildung 1(a)-(c) unterschiedliche Zeichen enthalten, modellübergreifend vertreten.
2.2 Die phonetische Seite des Forschungsgegenstandes – drei Sprechmelodien und ihre akustischen Ausprägungen Die drei Sprechmelodien aus Abbildung 1(a)-(c) repräsentieren die phonetische Seite des Forschungsgegenstandes. Genau genommen repräsentie-
PhonetikForschungsgegenstand des Forschungsgegenstands
31
ren sie nur den perzeptorischen Ausschnitt dieser Seite des Forschungsgegenstandes, die prinzipiell auch den gesamten Weg der Sprachübertragung umfasst (vgl. 1.1). Abbildung 2 stellt die Sprechmelodien zusammenfassend dar. Die hierin dargestellten Äußerungen können zudem über die CD angehört werden, die der vorliegenden Arbeit als Anhang J beigefügt wurde. Wie aus dieser deskriptiven Darstellung hervorgeht, enthalten alle drei Sprechmelodien steigend-fallende Tonhöhenbewegungen. Ein wichtiger Unterschied besteht jedoch darin, wie der Hochpunkt dieser steigendfallenden Tonhöhenbewegungen zur akzentuierten Silbe „Ma-“ in „Malerin“ liegt. Er kann sich vor, auf oder nach der Akzentsilbe befinden. Solange der lautliche Strang der zugrundeliegenden Äußerung für alle drei Sprechmelodien gleich ist, bedeutet dies für die relativen Längeneigenschaften dieser Tonhöhenbewegung, dass der tieftonige Bereich für die links dargestellte Sprechmelodie vor dem Hochpunkt kürzer ist als danach. Die akzentuierte Silbe fällt daher in den längeren tieftonigen Abschnitt. Für die rechts abgebildete Sprechmelodie verhalten sich die relativen Längeneigenschaften gerade umgekehrt. Zwar liegt die akzentuierte Silbe wiederum im längeren der beiden tieftonigen Bereiche, dieser befindet sich nun jedoch vor dem Hochpunkt. Die mittlere Sprechmelodie ist durch ein ausgewogeneres Längenverhältnis der tieftonigen Bereiche zu beiden Seiten des Hochpunktes gekennzeichnet, wodurch letzterer mit der Akzentsilbe zusammenfällt. In einer groben Beschreibung der Lautheitseigenschaften gilt für die drei Sprechmelodien zudem, dass die Lautheit im Bereich der steigend-fallenden Tonhöhenbewegungen größer ist als zu deren Seiten. Die drei dargestellten sprechmelodischen Gesamtkonfigurationen sollen – ausgerichtet an der Tonhöhe – als Sprechmelodiegipfel bezeichnet werden. Mit Bezug auf die Lage des Tonhöhenmaximums zur Akzentsilbe werden sie als linksliegende, zentrale und rechtsliegende Sprechmelodiegipfel terminologisch differenziert.
Abbildung 2: Auditiv-impressionistische Darstellung der Sprechmelodien in der ansonsten gleichbleibenden Äußerung „Eine Malerin“ als Repräsentanten der phonetischen Seite des Forschungsgegenstandes. Die Darstellung erfolgte gemäß der Konventionen der Britischen Schule (vgl. Jones 1969; O'Connor und Arnold 1970).
32 32
Forschungsgegenstand
Im Rahmen der phonetischen Seite des Forschungsgegenstandes ist aber nicht nur die perzeptorische Beschreibung relevant. Insbesondere mit Blick auf die noch folgenden phonologischen Formgebungen der Zeichentriade in 2.3 und 2.4 und die vorliegenden empirischen Erkenntnisse hierzu sind auch die akustischen Eigenschaften der drei Sprechmelodien von Interesse. Die linksliegenden, zentralen und rechtsliegenden Sprechmelodiegipfel wurden daher vom Autor in der lautlich konstanten Äußerung „Eine Malerin“ mit „Ma-“ als (einziger) Akzentsilbe produziert und über ein Mikrophon digital aufgezeichnet. Abbildung 3 zeigt zu jeder dieser drei Produktionen im Oszillogramm (oben) das entstandene Schwingungsmuster des komplexen Signals über der Zeit und im Spektrogramm (unten) die Energieverteilung über das Frequenzspektrum (Gruppen energiereicher Frequenzen spiegeln die Formanten wider, siehe hierzu Ladefoged 1996). Während hieraus primär die Bestandteile des lautlichen Kanals ersichtlich werden, stellen die dazwischen dargestellten Verläufe der Intensität (zweites Fenster von oben) und der Grundfrequenz (F0, zweites Fenster von unten) in erster Linie die akustischen Eigenschaften der drei Sprechmelodien dar. Es ist zu beachten, dass die gezeigten akustischen Eigenschaften der Sprechmelodiegipfel nur eine von zahlreichen möglichen Ausprägungen darstellen. Die Gründe liegen unter anderem in der unter 1.1 erwähnten Verfälschung sprechmelodischer Zeichen im Rahmen ihrer Übertragung. Darüber hinaus ist aber auch möglich, dass die akustische Variation die Form sprechmelodischer Zeichen reflektiert. Die vorliegende Arbeit wird dieser Möglichkeit nachgehen. Hinsichtlich der Ausprägung der F0-Gipfel können die Gipfelmaxima linksliegender Sprechmelodiegipfel beispielsweise auch innerhalb der Akzentsilbe auftreten, anstatt wie in Abbildung 3 dargestellt vor dem initialen Nasal [m] der Akzentsilbe zu liegen. Niebuhr und Kohler (2004) argumentieren dafür, dass der Vokalbeginn der Akzentsilbe eine wichtige akustische Grenze bei der Produktion linksliegender und zentraler Sprechmelodiegipfel darstellt. Niebuhr und Ambrazaitis (2006) finden unter der Bedingung weiterer Silben nach der Akzentsilbe ferner, dass zentrale und rechtsliegende Sprechmelodiegipfel ihr F0-Maximum in den meisten Fällen auf unterschiedlichen Seiten der hinteren Grenze des Akzentvokals haben. Das F0-Maximum rechtsliegender Sprechmelodiegipfel muss sich somit nicht unbedingt nach der Akzentsilbe befinden, sondern nur nach ihrem Vokal. Beides deckt sich mit Beobachtungen von Gartenberg und Panzlaff-Reuter (1991). Insgesamt zeichnet sich damit ab, dass linksliegende, zentrale und rechtsliegende Sprechmelodiegipfel seitens ihrer akustischen Ausprägung oft durch ein prävokalisches, innervokalisches und postvokalisches F0-Gipfelmaximum gekennzeichnet sind.
Das Forschungsgegenstand Kieler Intonationsmodell
33
Abbildung 3: Mögliche akustische Ausprägungen der linksliegenden, zentralen und rechtsliegenden Sprechmelodiegipfel über „Eine Malerin“. Alle drei Produktionen stammen vom Autor. Es ist jeweils ein Oszillogramm (oben) und ein von 0-5kHz reichendes Spektrogramm (unten) gegeben. Unter dem Oszillogramm ist der Intensitätsverlauf im Bereich von 60-80dB angegeben. Über dem Spektrogramm befindet sich der von 70-200Hz linear skalierte F0-Verlauf. Die Grenze der akzentuierten Silbe „Ma-“ ist mit durchgehenden, der Beginn des Akzentvokals mit gestrichelten vertikalen Linien gekennzeichnet.
2.3 Die phonologische Seite des Forschungsgegenstandes I Das Kieler Intonationsmodell (KIM) 2.3.1 Phonologischer Hintergrund des KIM Zurückgehend auf die Prager Schule (Trubetzkoy 1939), die ihrerseits an der semiotischen Theorie von Ferdinand de Saussure (1916) ausgerichtet ist, wird ein Zeichen als die Verknüpfung zwischen Bezeichnendem und Bezeichnetem (signifiant und signifié nach de Saussure) definiert. Auf dieser Grundlage gestattet und fordert die Aufstellung eines phonologischen Systems zur Bildung lautlicher Morpheme oder sprechmelodischer Zeichen einer Sprache die Bezugnahme auf deren Bedeutung. Die Phonologie des Kieler Intonationsmodells KIM (Kohler 1991a, b) ist in dieser europä-
34 34
Einleitung Forschungsgegenstand
ischen Tradition verankert. Entsprechend ist die Bezugnahme auf die bedeutungsdifferenzierende Funktion das maßgebliche Kriterium für die Aufstellung eines phonologischen Systems in diesem Modell. Die phonologischen Komponenten des KIM können daher, analog zum Paradigma der Minimalpaarbildung aus der Prager Schule, nur bei einer gleichzeitigen Betrachtung zweier oder mehrerer sprechmelodischer Zeichen bestimmt werden. Diese Vorgehensweise ist nur ein Charakteristikum der phonologischen Theorie hinter dem Kieler Intonationsmodell. Daneben müssen zwei weitere eingeführt werden. Eines hiervon stellt ein Komplement zur bedeutungsgeleiteten Vorgehensweise bei der Gewinnung der phonologischen Komponenten dar. So geben Bedeutungsunterschiede zwischen (zwei) Sprechmelodien zwar Auskunft über die Existenz phonologischer Komponenten, sie erlauben jedoch keine weiterführenden Schlussfolgerungen über die Beschaffenheit dieser Komponenten. Für die Phonologie des KIM ist es nun charakteristisch, sich dieser Beschaffenheit auf perzeptorischem Wege anzunähern. Bei der dafür verwendeten experimentellen Strategie beurteilen Hörer einen sprechmelodischen Raum, der durch eine Manipulation akustischer Parameter wie der Grundfrequenz erzeugt wird und von dem angenommen wird, dass er den durch die betreffenden phonologischen Komponenten verursachten Bedeutungsunterschied erfasst. Ein systematisches Wahrnehmungsverhalten innerhalb dieses Raumes bzw. das sich daraus ergebende systematische Urteilsverhalten gibt Aufschluss über die Beschaffenheit der phonologischen Komponenten, die in der Phonologie des KIM dann allerdings nicht perzeptorisch, sondern mit Rückbezug auf die Manipulation akustisch definiert werden. Die skizzierte Strategie wird in Verbindung mit der Form der Zeichentriade im folgenden Abschnitt an einem Beispiel veranschaulicht werden. Gleichzeitig bekräftigt ein systematisches Wahrnehmungs- bzw. Urteilsverhalten den angenommenen Bedeutungsunterschied. In diesem Zusammenhang wird auch deutlich, dass die Phonologie des KIM die Zeichen und ihre Formen nicht aufgrund theoretischer Überlegungen postuliert, sondern sie im Sinne eines experimental-phonologischen Ansatzes aus der Empirie heraus bestimmt. Die perzeptorische Herangehensweise an die Beschaffenheit der phonologischen Komponenten geschieht in Anlehnung an die Britische Schule, die zum Beispiel durch Jones (1969), Armstrong und Ward (1967), O'Connor und Arnold (1970) oder Halliday (1967) geprägt wurde. Eine weitere Parallele zwischen der Phonologie des KIM und den sprechmelodischen Konzepten der Britischen Schule – die zugleich das dritte Charakteristikum der Phonologie des KIM darstellt – besteht darin, dass die sprechmelodischen Zeichen als Konturen repräsentiert werden (Kohler 1991a, b). Solche Konturen sind als holistische und kohärente Einheiten
Zum BegriffIntonationsmodell der Sprechmelodie Das Kieler
35 35
der Sprechmelodie aufzufassen. Entsprechend müssen phonologische Komponenten, die diesen Einheiten ihre Formen verleihen, die Kontur als Ganzes betreffen. Die phonologischen Komponenten des KIM beziehen sich daher auf die F0-Eigenschaften der Kontur und ihre zeitliche Gestaltung. Letzteres betrifft beispielsweise die Position der Kontur über dem lautlichen Strang, insbesondere ihre Lage zu den Grenzen der akzentuierten Silbe. Die beschriebenen drei Charakteristika des Kieler Intonationsmodells und ihre logischen Verknüpfungen sind in der Abbildung 4 zusammenfassend illustriert. Der an einer zentralen vertikalen Achse gespiegelte Aufbau der Abbildung macht deutlich, dass Zeichen und ihre phonologischen Komponenten nur über Bedeutungsunterschiede, also über die gleichzeitige Betrachtung zweier oder mehrerer Zeichen, bestimmt werden können. Die Stationen auf der vertikalen Achse selbst stellen heraus, dass die phonologischen Komponenten des KIM perzeptorisch fundiert, aber akustisch definiert sind. Einige dieser Komponenten sollen im nächsten Abschnitt beschrieben werden.
Abbildung 4: Die drei Charakteristika des Kieler Intonationsmodells KIM, Bedeutungsbezug, perzeptorische Herangehensweise und Konturgebundenheit sowie ihr Zusammenwirken in der Phonologie des KIM.
Mit Blick auf den experimentellen Teil dieser Arbeit ist den vorangegangenen Ausführungen hinzuzufügen, dass das Kieler Intonationsmodell neben der Phonologie sprechmelodischer Zeichen auch eine akzentbezogene
36 36
Einleitung Forschungsgegenstand
Phonologie aufstellt (die dem Bedeutungstyp der Hervorhebung gewidmet ist, vgl. 1.3.1). Beide Phonologien sind durch die Annahme verbunden, dass die Sprechmelodie und ihre akustische Ausprägung ursächlich für die Prominenz der akzentuierten Silbe sind. In diesem Sinne ist die Sprechmelodie als „prominence-lending“ (Ladd 1996:50) einzustufen. Kontinuierliche phonetische Abstufungen in der Prominenz werden in der Akzentphonologie des KIM auf drei Akzentstufen projiziert. Dabei kann von einer mittleren Standardakzentuierung nach oben und unten abgewichen werden. Im ersteren Fall liegt eine emphatische Akzentuierung vor. Eine Abweichung von der Standardakzentstufe nach unten wird als partielle Deakzentuierung bezeichnet. Für die Unterscheidung dieser drei Akzentstufen ist wiederum die Bedeutung bzw. die Bedeutungsveränderung maßgeblich. 2.3.2 Die Form des Forschungsgegenstandes im KIM Am Ausgangspunkt für die Ableitung der ersten Zeichenformalternative für die untersuchte Triade aus den drei unter 2.2 präsentierten Sprechmelodien bzw. aus ihren akustischen Ausprägungen muss die Frage nach den Zeichengrenzen gestellt werden. Diese Grenzen geben die zeitliche Extension und damit den phonetischen Inhalt der sprechmelodischen Zeichen vor, der dann wiederum die Grundlage für die phonologischen Komponenten bildet. Im Rahmen des Kieler Intonationsmodells ist die Frage nach den Zeichengrenzen an das Konturkonzept gekoppelt, das bereits im vorangegangenen Abschnitt 2.3.1 umrissen wurde. Unter dem gegebenen deliminativen Gesichtspunkt ist diesem Konzept hinzuzufügen, dass es sich bei Konturen um akzentgebundene Sprechmelodiemuster handelt (Kohler 1991a, b). Als Kontur gilt daher diejenige sprechmelodische Konfiguration, die sich vom Anfangsbereich einer akzentuierten Silbe bis zum Anfangsbereich der nachfolgenden Akzentsilbe bzw. bis zum Ende einer prosodischen Phrase erstreckt. Ein solches Intervall wird in der phonetischen Literatur als Akzentgruppe bezeichnet (vgl. z.B. van Santen und Möbius 1997). Innerhalb einer Akzentgruppe kommt die Form sprechmelodischer Zeichen mit Bezug auf F0 und dessen zeitliche Gestaltung zustande (Kohler 1991a, b). Dabei wird F0 zur Unterscheidung zweier grundlegender Formklassen – Täler und Gipfel – herangezogen. Die Abgrenzung von Tälern gegenüber Gipfeln erfolgt nach der Art des F0-Verlaufs. So können Täler durch eine zunächst fallende F0-Bewegung gekennzeichnet sein, auf die ein (oft konkaver) Anstieg folgen muss. Umgekehrt zeichnen sich Gipfel durch einen obligatorischen (zumeist konvexen) F0-Abstieg aus, dem ein steigender F0-Verlauf vorausgehen kann.
Zum BegriffIntonationsmodell der Sprechmelodie Das Kieler
37 37
Die in Abbildung 3 des Abschnitts 2.2 dargestellten akustischen Ausprägungen der drei Sprechmelodiegipfel bestehen aus (konvex) steigendfallenden F0-Bewegungen, die sich innerhalb der Grenzen einer prosodischen Phrase über eine Akzentsilbe erstrecken, also in das Intervall einer Akzentgruppe fallen. Auf der Basis dieser akustischen und strukturellen Eigenschaften wird daher angenommen, dass jeder der drei Sprechmelodiegipfel in der Phonologie des KIM nur eine Kontur und dementsprechend nur ein Zeichen repräsentiert, das phonologisch der Formklasse der Gipfel zuzuordnen ist. Hierin stellen sie jedoch noch keine unterschiedlichen Zeichen dar. Damit dies geschieht, muss neben der phonologischen Komponente des Konturverlaufs (Gipfel) eine weitere phonologische Komponente, die auf die zeitliche Positionierung der Kontur über der Akzentsilbe ausgerichtet ist, in jede Zeichenform einbezogen werden5. Da es sich hierbei um diejenigen phonologischen Komponenten handelt, die ausschlaggebend für die Unterscheidung der drei sprechmelodischen Zeichen sind, soll auf ihre empirische Grundlage nachfolgend detaillierter eingegangen werden. Zur perzeptorischen Fundierung dieser drei weiteren phonologischen Komponenten hat Kohler (1987, siehe auch 1991c für mehr Einzelheiten) mit LPC-Resynthese einen quasi-kontinuierlichen akustischen Synchronisationsraum geschaffen, indem er (auf einer linearen Zeitskala in ms) in zehn äquidistanten Abständen einen lokalen steigend-fallenden F0-Gipfel über die akzentuierte Silbe „-lo-“ des Satzes „Sie hat ja gelogen“ hinweg verschob. Die einzelnen Resynthesen dieses Raumes wurden als Teststimuli in zwei verschiedene Arten von Hörtests eingebunden, die als Teile eines zusammenhängenden Perzeptionsexperimentes zu verstehen sind. In einem der beiden Hörtests sollten die phonologischen Komponenten durch ihre Wirkung auf ein ansonsten konstantes Bedeutungsumfeld sichtbar gemacht werden. Dazu wurde den ersten acht Teststimuli des Synchronisationsraumes („Sie hat ja gelogen“) jeweils der konstante Kontextstimulus „Jetzt versteh’ ich das erst“ vorangestellt, der einen F0-Gipfel mit Hochpunkt im Zentrum des Vokals des Akzentsilbe „-steh“ enthielt. Beide Äußerungen wurden so gewählt, dass sie allein auf Basis der Morphembedeutungen grundsätzlich kompatibel sind. Ob dies auch für ihre Gesamtbedeutungen galt, war somit vom Bedeutungsbeitrag der sprechmelodischen Zeichen abhängig. Aufgrund seiner Position innerhalb der Akzent-
_____________ 5
Werden diese zeitlichen Positionierungen der Gipfelkonturen in einem gleichbleibenden lautlichen Kontext betrachtet, dann sind sie, ähnlich wie es für die drei Sprechmelodiegipfel in 2.2 beschrieben wurde, in Form von gegenläufigen Veränderungen in der Dauer der umliegenden tiefen F0-Bereiche konzeptualisierbar. Insofern gehen in die Formgebung der Zeichentriade durch die phonologischen Komponenten im KIM zwei aus der Definition der Sprechmelodie ableitbare Größen ein, F0 und Dauer.
38 38
Einleitung Forschungsgegenstand
silbe gehörte der F0-Gipfel in „-steh“ dem gleichen Synchronisationsraum an, der mit den F0-Gipfeln über „-lo-“ in „gelogen“ geschaffen wurde. Auch in ihren sonstigen Verlaufseigenschaften waren beide F0-Gipfel vergleichbar. Sollte dieser Synchronisationsraum nur eine phonologische Komponente abdecken, dann wären die sprechmelodischen Zeichen beider Äußerungen und somit auch ihr Beitrag zur Gesamtbedeutung identisch. Auf die perzeptorische Beurteilung beider Äußerungen als zusammenpassend oder nicht zusammenpassend würde die unterschiedliche Synchronisation der F0-Gipfel somit keinen Einfluss haben. Sollte sich durch die zeitliche Position des Gipfels über der Akzentsilbe allerdings die phonologische Zusammensetzung des sprechmelodischen Zeichens im Teststimulus verändern, dann wird sich dies in der zusammenhängenden Beurteilung beider Äußerungen niederschlagen. Ein solches experimentelles Setup zielt somit indirekt darauf ab, dass die Versuchspersonen das sprechmelodische Zeichen des Stimulus identifizieren. Dieser Test wird daher auch Identifikationstest genannt. Als Resultat des Identifikationstests fand Kohler parallel zu dem Übergang des F0-Hochpunktes in den Akzentvokal eine abrupte Veränderung in der Beurteilung beider Äußerungen von nicht zusammenpassend zu zusammenpassend. In einem davon unabhängigen Identifikationstest mit einem leicht abgewandelten experimentellen Paradigma zeigte sich zudem, dass diese Beurteilung als zusammenpassend wieder deutlich absackte, wenn der F0-Gipfel in den Stimuli so positioniert war, dass er seinen Hochpunkt erst gegen Ende des akzentuierten Vokals erreichte (wodurch nur ein unerheblicher F0-Abstieg vor der finalen Vokalgrenze stattfand, die gleichzeitig die finale Silbengrenze darstellt) und gleichzeitig der Anstieg zum F0-Gipfel erst nach dem Vokaleinsatz begann. Kohler kommt aufgrund des systematischen Wahrnehmungsverhaltens der Hörer innerhalb des generierten Synchronisationsraumes zu der Schlussfolgerung, dass der Synchronisationsraum drei phonologische Komponenten überspannt hat. Die Abgrenzung der ersten gegenüber der zweiten Komponente wurde akustisch an dem Übergang des F0-Hochpunktes des Gipfels in den Akzentvokal hinein festgemacht. Dementsprechend wird die erste Komponente durch F0-Gipfel gebildet, die ihr Maximum vor dem Vokalbeginn erreichen und somit in den Vokal hinein fallen. Sie wird als ‚früh’ bezeichnet. Die akustische Definition der zweiten Komponente umfasst F0-Gipfel, deren Anstieg sich bis kurz über die Grenze des Vokalbeginns hinaus erstreckt, sodass noch ein deutlicher F0Abstieg im Vokal verbleibt. Diese Komponente wurde ‚mittel’ genannt. Die dritte phonologische Komponente wurde von der zweiten (‚mittel’) primär auf der Basis des erneuten Rückgangs in der Beurteilung der Kontext-Stimulus-Paare als zusammenpassend abgegrenzt (daneben verweist
Zum BegriffIntonationsmodell der Sprechmelodie Das Kieler
39 39
Kohler 1991c auch auf die Ergebnisse eines Diskriminationstests). Akustisch zeichnet sich die dritte Komponente dadurch aus, dass der steigendfallende F0-Gipfel so weit nach dem Einsatz des Akzentvokals positioniert ist, dass das Gipfelmaximum erst in der hinteren Peripherie des Vokals oder darüber hinaus erreicht wird. Peters und Kohler (2004) geben eine Illustration der drei phonologisch unterschiedlichen Gipfelpositionen. In Anbetracht der F0-Gipfelpositionen in den akustischen Ausprägungen der Sprechmelodiegipfel aus Abbildung 3 (siehe Abschnitt 2.2) sind letztere so in den von Kohler (1987, 1991c) aufgespannten Synchronisationsraum einzuordnen, dass sie in jeweils einen der Bereiche der drei phonologischen Komponenten fallen. Die Zeichenform des linksliegenden Sprechmelodiegipfels wird somit durch die Komponente ‚früh’ komplettiert. Der Form des zentralen Gipfels wird die Komponente ‚mittel’ hinzugefügt und dem rechtsliegenden Gipfel gehört die Komponente ‚spät’ an. Zusammengefasst werden die drei zu untersuchenden Sprechmelodiegipfel in der Phonologie des KIM jeweils als ein Zeichen repräsentiert, dessen Form sich aus zwei akustisch definierten phonologischen Komponenten ableitet, der Art des F0-Verlaufs (diese als ‚Gipfel’ bezeichnete Komponente ist in allen drei Zeichenformen identisch) und der zeitlichen Positionierung der Gipfelkontur bzw. ihres F0-Maximums zu den Grenzen des akzentuierten Vokals (die als Folge von Dauerveränderungen in Abschnitten der Kontur verstanden werden kann, siehe Fußnote 5 zuvor). Letzteres bildet die Grundlage für die phonologischen Komponenten ‚früh’ vs. ‚mittel’ vs. ‚spät’, durch die sich die drei Zeichenformen unterscheiden und eigene Zeichen bilden. In diesem Sinne nimmt die Zeit in der Phonologie des Kieler Intonationsmodells eine zentrale Rolle ein. Die zweigliedrige Form jedes der drei Zeichen wird indirekt auch durch die Festlegung der Zeichengrenzen mitbestimmt, da diese den phonetischen Inhalt absteckt, aus dem die phonologischen Komponenten hervorgehen. In Abbildung 5 werden die herausgearbeiteten Einflüsse der F0- und zeitbezogenen Eigenschaften sowie der Zeichengrenzen auf die Zeichenform noch einmal als Diagramm illustriert. Abschließend ist darauf hinzuweisen, dass die Phonologie des Kieler Intonationsmodells insofern für neue Erkenntnisse offen ist, als dass durch den Konturansatz prinzipiell alle sprechmelodischen Merkmale innerhalb eines definierten Intervalls wie der Akzentgruppe zur Bedeutung und damit auch zur Form des Zeichens beitragen können.
40 40
Einleitung Forschungsgegenstand
Abbildung 5: Entstehung der zweigliedrigen Zeichenform des frühen, mittleren und späten Gipfels für den rechtsliegenden, zentralen und linksliegenden Sprechmelodiegipfel in der Phonologie des KIM (siehe hiezu Abb. 4). Die Grundfrequenz und ihre zeitliche Gestaltung sind hieran direkt, die Zeichengrenzen indirekt beteiligt.
2.4 Die phonologische Seite des Forschungsgegenstandes II Die autosegmentell-metrische (AM) Phonologie 2.4.1 Hintergrund der AM-Phonologie Die autosegmentell-metrische (AM) Phonologie wurde von Pierrehumbert (1980) in Anlehnung an die Arbeiten von Liberman (1975) zur metrischen Theorie und von Bruce (1977) zur phonologischen Repräsentation schwedischer Tonakzente formuliert und von Beckman und Pierrehumbert (1986) weiterentwickelt. Die Bezeichnung dieser phonologischen Theorie durch den zusammenhängenden Begriff ‚autosegmentell-metrisch’ stammt allerdings nicht von Pierrehumbert selber, sondern wurde von Ladd (1996) geprägt. Die darin enthaltenen Konzepte sind, ebenso wie die weiteren Merkmale dieses Ansatzes, in der Tradition der amerikanischen Phonologie entstanden. Entscheidend geprägt wurde die amerikanische Phonologie durch Whitney (1867). Im Gegensatz zu de Saussure (1916), der sprachliche Zeichen als integrative Einheiten aus Form und Bedeutung betrachtete, argumentierte Whitney, dass die Form allein das Zeichen konstituiert, losgelöst von seiner Bedeutung (er bezog sich hierbei vorrangig auf Wörter). Whitney legte damit den Grundstein für die behavioristische Herangehensweise an sprachliche Strukturen durch Bloomfield (1935). Sie folgte dem
Zum Begriff der Sprechmelodie Die AM-Phonolgie
41 41
Grundsatz, dass für die Beschreibung einer Sprache die einzelnen sprachlichen Ebenen, die als Hierarchie von Phonologie über Morphologie bis Syntax betrachtet wurden, einzeln und ohne Referenz zu höheren Ebenen behandelt werden müssen, um Zirkelschlüsse bei der Bestimmung von Elementen des Sprachkodes auszuschließen. Das bedeutet, dass die Phonologie allein mit dem phonetisch-segmentellen Input zu operieren hatte, ohne die übergeordnete Ebene der bedeutungstragenden Einheiten (Zeichen und Morphem) oder gar Bedeutung an sich mit einzubeziehen. Der auf den lautlichen Kanal ausgerichtete amerikanische Strukturalismus war diesem Grundsatz verpflichtet und hat gefordert, die Phoneme ausschließlich auf der Basis einer Distributionsanalyse der einzelnen phonetischen Segmente aufzustellen (vgl. Bloch 1948; Harris 1951). So wurden Laute in paralleler Verteilung verschiedenen Phonemen zugewiesen, während phonetisch ähnliche Laute in komplementärer Verteilung demselben Phonem zugeordnet wurden. Die beschriebene konzeptuelle Entwicklung findet ihre Fortsetzung in der autosegmentell-metrischen Phonologie für den Bereich des melodischen Kanals. Dabei reflektiert der Begriff ‚autosegmentell-metrisch’ eine grundlegende Trennung zwischen intonation auf der einen und stress auf der anderen Seite. Der Begriff stress bezieht sich auf die phonetisch konkrete Eigenschaft einer Silbe, in ihrer Prominenz gegenüber benachbarten Silben aufgrund besonderer Ausprägungen in den akustischen Parametern Dauer und Intensität unterschiedlich deutlich hervorzutreten. Diese Eigenschaft ist die (mögliche) Folge zugrundeliegender abstrakter Gewichtungsrelationen, die durch ein metrisches Gitter für die jeweilige Silbenkette einer Äußerung bestimmt werden (vgl. Liberman 1975; Liberman und Prince 1977). Die intonation bildet eine eigene Beschreibungsebene in Phonetik und Phonologie. Das heißt, ihre Elemente existieren unabhängig von dem stress-Muster der jeweiligen Äußerung. In diesem Sinne sind sie Autosegmente (vgl. Goldsmith 1976), die mit den metrisch stärksten Silben (designated terminal elements) oder strukturell signifikanten Punkten einer Äußerung (tone bearing units) assoziiert sein können. In dem vorgestellten Rahmen hat Pierrehumbert (1980) für die intonation-Ebene gefordert, dass die phonologische Analyse in ähnlicher Weise wie die erläuterte Distributionsanalyse der Lautsegmente durchgeführt werden muss. Es soll erreicht werden, phonologische Komponenten mit exklusivem Bezug zur Phonetik zu gewinnen, losgelöst von Bedeutungen und bedeutungstragenden Einheiten sowie Elementen des lautlichen Kanals. Dazu wählt sie als phonetische Analysestufe innerhalb der speech chain das akustische Sprachsignal und konzentriert sich hierin insbesondere auf den F0-Verlauf. Beckman (1995:453) hat den F0-Verlauf später entsprechend als „narrow phonetic transcription“ der intonatorischen Zei-
42 42
Einleitung Forschungsgegenstand
chen(-formen) charakterisiert. Die hieran ermittelten phonologischen Komponenten können dann a posteriori zu kompositionalen Bedeutungen (d.h. zu sprechmelodischen Zeichen) verbunden werden. Bei den grundlegenden phonologischen Komponenten der Intonation handelt es sich um Töne, die als lokale Zielpunkte (targets) im akustischen F0-Verlauf beobachtet werden können6. Sie fallen oft – aber nicht zwangsläufig – mit Extrema oder Wendepunkten des F0-Verlaufs zusammen. Dabei sind Wendepunkte in einem deskriptiven Sinne als markante Richtungswechsel im F0-Verlauf zu verstehen und nicht in ihrer mathematischen Verwendung als maximale/minimale Steigungen einer Funktion. Ein Zielpunkt kann mit Bezug auf den unmittelbar vorangehenden akustisch entweder höher oder tiefer liegen und wird dementsprechend als H (high) oder L (low) bezeichnet. In der Konsequenz wird die Intonation somit – anders als im Kieler Intonationsmodell KIM (vgl. 2.3.1) – nicht durch ganzheitliche kohärente Konturen gebildet, sondern als streng lineare Abfolge von unabhängigen phonologischen F0-Ereignissen (Zeitpunkten, „events“) verstanden, die durch phonologisch irrelevante F0-Abschnitte (Zeitstrecken, „transitions“) unterbrochen werden (siehe Ladd 1996:45). Im Gegensatz zu der schwedischen Analyse von Bruce (1977) stellen diese phonologisch irrelevanten Abschnitte phonetisch jedoch nicht immer eine lineare Interpolation zwischen den lokalen Zielpunkten dar. In ihrer linearen Abfolge haben die einzelnen Töne bei Pierrehumbert (1980) nicht alle den gleichen Status, sondern sind in einer phonologischen Hierarchie organisiert, die in zwei Teile gegliedert werden kann, einen globaleren und einen lokaleren. Auf der untersten Ebene der globaleren Hierarchie fallen die linear angeordneten phonologischen Töne in verschiedene syntagmatische Strukturstellen, die zusammen die Einheit der Intonationsphrase bilden. Der Aufbau einer solchen Phrase ähnelt den von Selkirk (1984) bzw. Nespor und Vogel (1986) postulierten Strukturen. Vom Ende einer Intonationsphrase nach vorn werden die Strukturstellen als Grenzton (boundary tone) und Phrasenton (phrase tone; früher Phrasenakzent bzw. phrase accent in Anlehnung an Bruce 1977) bezeichnet, die zusammen den Eckton (edge tone) bilden. Diesem wiederum kann auf der gleichen Ebene der Hierarchie eine beliebige Anzahl an Tonakzenten (pitch accents), mindestens
_____________ 6
Dies ist zumindest die Auffassung, wie sie Pierrehumbert (1980) in Anlehnung an Bruce (1977) darstellt, indem sie fordert, dass die Töne einzig mit Bezug zum F0-Verlauf gewonnen werden können. Tatsächlich zählt es aber bis heute zu den „unresolved issues“ (Ladd 1996:102), wie ein Ton über die speech chain hinweg zu erkennen und auf welcher Stufe er für ein phonologisches System zu extrahieren ist.
Zum Begriff der Sprechmelodie Die AM-Phonolgie
43 43
jedoch einer, vorangehen. Am vorderen Ende wird die Intonationsphrase erneut durch einen Grenzton abgeschlossen. In der Überarbeitung des Ansatzes von Pierrehumbert (1980) durch Beckman und Pierrehumbert (1986) wurde in den beschriebenen globaleren Teil der Hierarchie die Intermediärphrase (intermediate phrase) als obligatorische prosodische Konstituente direkt unter der Intonationsphrase eingeführt. Diese Innovation war Anlass für eine Reihe konzeptueller Veränderungen anderer Konstituenten. Da jede Intermediärphrase beispielsweise, ebenso wie die übergeordnete Intonationsphrase, über einen Grenzton verfügt, wird der Phrasenton bzw. Phrasenakzent im Sinne des Konzepts von Pierrehumbert (1980) obsolet. Er dient vor allem dazu, zusammen mit dem folgenden Grenzton komplexe F0-Muster nach dem letzten Tonakzent (z.B. kombinierte Konturen und verschiedene Arten phrasenfinaler Anstiege) phonologisch zu erfassen. Diese Aufgabe kann nun von den beiden Grenztönen der Intermediärphrase und der Intonationsphrase erfüllt werden, die am Ende der Intonationsphrase koinzidieren (vgl. Grice und Baumann 2000). Obwohl das neue Konzept des intermediären Grenztons in vielen Analysen unter dem alten Begriff des Phrasentons bzw. -akzentes weiter geführt wird, erscheint der grundsätzlich wieder frei gewordene Terminus des Phrasenakzentes in der Literatur nun auch mit einem ganz anderen konzeptuellen Inhalt, nämlich im wörtlichen Sinne als Mischform von Tonakzent und Phrasenton zwischen dem letzten Tonakzent und dem ersten (zur Intermediärphrase gehörigen) Grenzton (siehe Grice et al. 2000 zum Standarddeutschen). Für die vorliegende Arbeit soll das Konzept der Intermediärphrase und die damit verbundenen phonologisch-strukturellen Konsequenzen unter anderem aus folgenden Gründen unberücksichtigt bleiben: Die Abgrenzung von Intonationsphrase und Intermediärphrase wird weder in der Akustik noch in der Perzeption konsistent durchgeführt (z.B. können Intermediärphrasengrenzen mit und ohne perzeptorischen Einschnitt angenommen werden; siehe Ladd 1996). Die Grenztöne der Intermediärphrase fallen in Form und Bedeutung stark heterogen aus, je nachdem ob sie mit dem Grenzton der Intonationsphrase zusammenstehen oder nicht. Somit wirkt die phonologische Struktur inadäquat. Des weiteren können die F0Muster am Ende der Intermediärphrase genauso komplex sein, wie am Ende der Intonationsphrase. Daher ist ein Phrasentonkonzept unabhängig vom Typ der Phrase erforderlich. Letztlich ist es auch unter der Berücksichtigung der theoretischen Argumentation von Beckman und Pierrehumbert (1986) wenig plausibel, zwischen Intermediärphrase und Intonationsphrase zu differenzieren, wenn letztere nur eine einzige Intermediärphrase enthält.
44 44
Einleitung Forschungsgegenstand
Was die einzelnen Konstituenten im globaleren Teil der Hierarchie anlangt, so sind Tonakzente diejenigen tonalen Zielpunkte, die mit den metrisch starken Silben assoziiert sind. Entsprechend handelt es sich um Akzentsilben (vgl. 1.2.3). Diese Assoziation indiziert das besondere metrische Gewicht dieser Silben und evoziert auf diese Weise Prominenz7. Bezüglich Prominenz ist darüber hinaus zu beachten, dass die Akzentsilben im Standarddeutschen in der Regel auch aufgrund von stress besonders hervortreten. Grenztöne werden durch die initialen und finalen Zielpunkte einer Intonationsphrase konstituiert. Sie sind dementsprechend nicht mit den metrisch starken Silben, sondern mit strukturell signifikanten Punkten der Phrase assoziiert. Phrasentöne (in ihrem ursprünglichen Konzept) repräsentieren letztlich oft schwer lokalisierbare tonale Zielpunkte, die zwischen dem letzten Tonakzent und dem finalen Grenzton vorkommen. Der lokalere Teil der phonologischen Hierarchie bezieht sich auf die tonale Organisation innerhalb der Strukturstellen des Grenztons, Phrasentons und Tonakzents. So werden aufgrund theoretischer Erwägungen von Pierrehumbert (1980) bzw. Beckman und Pierrehumbert (1986) die Strukturstellen des Grenz- und Phrasentons nur durch jeweils einen phonologischen Ton gefüllt, während die Tonakzente auch durch Komposita aus zwei tonalen Bausteinen gebildet werden können, wobei jeweils einer dieser Bausteine den Schwerpunkt bildet, das heißt mit der metrisch starken Silbe assoziiert ist. Obwohl Pierrehumbert (1980) dies nicht zweifelsfrei sagt, lassen ihre Anleihen bei der autosegmentellen Phonologie von Goldsmith (1976) darauf schließen, dass die phonologische Assoziation auch mit einer phonetischen Gleichzeitigkeit einhergeht. Das heißt, ein mit der metrisch starken Silbe assoziierter Ton liegt innerhalb dieser Silbe. Dies ist auch die allgemeine Interpretation bei der Übertragung des AMKonzeptes von Pierrehumbert (1980) auf andere Sprachen (vgl. Arvaniti et al. 2000). Die vorliegende Arbeit wird dieser Interpretation ebenfalls folgen. Um beide Bausteine eines bitonalen Akzentes auf einer metasprachlichen (annotativen) Ebene zu unterscheiden, wird der den Schwerpunkt bildende Ton durch einen Stern (*) gekennzeichnet. Der ungesternte Ton bleibt ohne Assoziation mit Silben oder anderen lautlichen
_____________ 7
Hieraus geht hervor, dass die beobachtbaren F0-Bewegungen in der Akzentsilbe nicht wie im KIM als ursächlich für die perzeptorische Prominenz und damit als „prominence-lending“ angesehen werden (vgl. Ladd 1996:50). Vielmehr dienen sie nur als Indikator der zugrundeliegenden metrischen Gewichtung. Diese Indikation ist es dann, die beim Hörer eine hohe Prominenz der entsprechenden Silbe auslöst. Entsprechend fasst Ladd (1996:50) die genannten F0-Bewegungen nur als „prominence-cueing“ auf.
Zum Begriff der Sprechmelodie Die AM-Phonolgie
45 45
Elementen. Er bezieht sich stattdessen auf den gesternten Ton. Diese Beziehung kommt darin zum Ausdruck, dass der ungesternte Ton in einem „given time interval“ (Pierrehumbert 1980:40) zum gesternten Ton außerhalb der Akzentsilbe8 auftritt, wodurch F0 zwischen den Tönen durch einen „fairly invariant time course“ (Pierrehumbert und Beckman 1988:123) gekennzeichnet ist. Grice (1995) hat in Auseinandersetzung mit der Intonationsbeschreibung der Britischen Schule (vgl. 2.3.1) die Beschränkung auf bitonale Akzente durchbrochen. Dabei führt sie an den beiden Strukturstellen eines Tonakzentes weitere Substrukturen ein, durch die bis zu vier phonologische Töne zu einem Tonakzent zusammengeführt werden können. Es ist die beschriebene phonologische Hierarchie (insb. der lokalere Teil), die Ladd zu der Aussage führt, dass die konturbezogene Phonologie und die an Einzeltönen ausgerichtete autosegmentell-metrische Phonologie in ihrer Konzeptualisierung der Intonation prinzipiell vergleichbar sind und sich lediglich im „Zoomfaktor“ ihrer phonologischen Analyse voneinander unterscheiden: „By breaking down the contour into component parts, we do not, of course, preclude the possibility of referring to larger units. In particular, most of the nuclear tones of the British tradition can be readily translated into combinations of pitch accents and edge tones […]. we […] have simply been more explicit about its internal structure.” (Ladd 1996:45, siehe auch Ladd 1996:61). Ladd lässt dabei allerdings zwei wichtige Aspekte unberücksichtigt: Zum einen sind es gerade die F0- bzw. Tonhöhenbewegungen, die in Konturansätzen als phonologisch relevant aufgefasst werden (vgl. 2.3.1 und 2.3.2). Diese gelten in der autosegmentell-metrischen Phonologie als phonologisch irrelevante Transitionen zwischen Zielpunkten. Zum zweiten ist im AM-Ansatz jeder dieser Zielpunkte (Töne) ein phonologisch eigenständiges Ereignis. Das heißt, die Entscheidung ob ein bestimmter tonaler Zielpunkt als H oder L ausfällt, kann unabhängig von den vorangehenden oder nachfolgenden Zielpunkten getroffen werden. In der Einheit einer Kontur wäre dies nicht der Fall. In dieser Darstellung deutet sich bereits die diametrale Beziehung zwischen der intonatorischen Phonologie im AM-Rahmen und der Phonologie des Kieler Intonationsmodells KIM (vgl. 2.3.1) an. Diese beschränkt sich jedoch nicht auf den genannten Unterschied zwischen phonologischen Tönen einerseits und phonologischen Merkmalen ganzheitlicher
_____________ 8
Bezüglich der akzentsilbenexternen Position des ungesternten Tons gelten die gleichen Vorbehalte wie für die Ausprägung des gesternten Tons innerhalb der Akzentsilbe. Je nachdem, ob die ungesternten Töne dem gesternten vorangehen oder folgen, werden sie auch als leading tones und trailing tones bezeichnet. Diese Begriffe wurden Ladd (1996) zufolge nicht von Pierrehumbert selbst, sondern von Féry (1993) und Grice (1995) geprägt.
46 46
Einleitung Forschungsgegenstand
Konturen andererseits. Darüber hinaus spielt die Zeit auf der phonologischen Ebene im AM-Ansatz durch die Assoziation der Töne mit bestimmten Silben keine Rolle. Das heißt, die Töne sind immer mit einer Silbe als Ganzes verbunden. Zeitliche Eigenschaften tonaler Zielpunkte bleiben der phonetischen Ebene vorbehalten (siehe association vs. alignment in Ladd 1983), wobei zum Beispiel Variationen im alignment des assoziierten Tons irrelevant sind, solange sie sich innerhalb der metrisch starken Silbe bewegen. Entgegengesetzt verhält es sich in der Phonologie des KIM, wo die Zeit neben der Grundfrequenz das entscheidende phonologische Merkmal darstellt. Zusätzlich steht der akustischen und bedeutungsfreien phonologischen Analyse im AM-Ansatz die perzeptorische Herangehensweise mit engem funktionalem Bezug in der Phonologie des KIM gegenüber.
Abbildung 6: Darstellung der theoretischen Struktur der Intonationsphonologie im Rahmen des autosegmentell-metrischen (AM) Ansatzes gemäß den Erläuterungen des Textes. Die grauen Kästen beziehen sich auf die grundlegenden phonologischen Komponenten H und L, die schwarzen auf ein (unvollständiges) Beispiel ihrer hierarchischen Organisation.
Abschließend muss darauf hingewiesen werden, dass die AM-Phonologie von Pierrehumbert (1980) bzw. deren überarbeitete Fassung von Beckman und Pierrehumbert (1986) ursprünglich für das (amerikanische) Englisch entwickelt wurde. Zusammen mit weiten Teilen des Inventars phonologischer Oppositionen werden die theoretischen Grundpfeiler jedoch auch für das Deutsche angenommen. Sie sind in der Abbildung 6 in Form eines Strukturdiagramms zusammengefasst.
Zum Begriff der Sprechmelodie Die AM-Phonolgie
47 47
2.4.2 Die Form des Forschungsgegenstandes in der AM-Phonologie Analog zur Beschreibung der Form des Forschungsgegenstandes in der Phonologie des Kieler Intonationsmodells KIM in 2.3.2 soll zunächst die Frage diskutiert werden, auf wie viele Zeichen die rechtsliegenden, zentralen und linksliegenden Sprechmelodiegipfel in der autosegmentell-metrischen Phonologie abgebildet werden. Pierrehumbert (1980) vertritt die Auffassung, dass Tonakzente ebenso wie Grenztöne als bedeutungstragende Einheiten anzusehen sind. In dem späteren compositional approach to tune meaning von (Pierrehumbert und Hirschberg 1990) wurde diese Auffassung dahingehend relativiert und ausgebaut, dass der Einheit der Intonationsphrase eine kompositionale Gesamtbedeutung zugesprochen wird, zu der die jeweiligen Strukturstellen der Grenztöne, Tonakzente und Phrasentöne spezifische Beiträge leisten. Über Tonakzente bezieht der Sprecher Stellung zu den Gegenständen des Diskurses, während Phrasentönen (im Sinne von intermediären Grenztönen) eine strukturelle Bedeutung zugesprochen wird. Sie bringen die Beziehung (den Grad der Bedeutungsverbindung über den Grad der phonetischen Kohäsion) zwischen Unterabschnitten (Intermediärphrasen) einer Intonationsphrase zum Ausdruck. Grenztöne leisten einen Beitrag zu der Bedeutung der Intonationsphrase als Ganzes. Durch diese kompositionale Herangehensweise an die Bedeutung sprechmelodischer Muster können die einzelnen bedeutungstragenden Einheiten nicht unabhängig voneinander existieren (das gilt auch auf phonetischer Ebene). Die kleinste sinngebende Einheit ist daher immer die Intonationsphrase (bzw. die hier unberücksichtigte Intermediärphrase). Dennoch ist dieser Umstand nicht so interpretierbar, dass diese sinngebende Einheit als kleinstes sprechmelodisches Zeichen anzusehen ist, die drei Sprechmelodiegipfel also jeweils nur ein Zeichen repräsentieren. Grenzton, Phrasenton und Tonakzent sind vielmehr jeweils gebundene Zeichen, analog zu dem Konzept der gebundenen Morpheme des lautlichen Kanals (vgl. hierzu Yule 1993). Der Umstand ihrer Gebundenheit ändert nichts an ihrem bedeutungstragenden Status. Für die drei Sprechmelodien heißt das, dass sie aus jeweils vier (gebundenen) Zeichen bestehen. Die Genese zu dieser Aussage lässt sich wie folgt darstellen: Zunächst einmal weist jede der drei Sprechmelodien eine deutliche F0-Bewegung auf (siehe Abb. 3). Unter Berücksichtigung des lautlichen Kanals ist diese Bewegung im Bereich der Silbe „Ma-“ aus „Malerin“ lokalisiert, bei der es sich um die metrisch stärkste und zugleich perzeptorisch prominenteste Silbe der Äußerung handelt. Aus einer autosegmentell-metrischen Perspektive heraus ist daher davon auszugehen, dass jede der drei Sprechmelodien genau einen Tonakzent enthält, der im Falle der gegebenen Beispiele mit der Akzentsilbe „Ma-“ assoziiert ist.
48 48
Einleitung Forschungsgegenstand
Angesichts des Umstandes, dass jede Intonationsphrase mindestens einen Tonakzent beinhalten muss, bestehen alle drei Sprechmelodiegipfel nur aus einer Phrase. Da weitergehend jede Intonationsphrase obligatorisch durch Grenztöne eingerahmt wird, verfügen die drei Gipfel zudem automatisch über jeweils einen initialen und finalen Grenzton, ohne dass hierbei auf perzeptorische oder akustische Einschnitte in der phonetischen Realisierung Bezug genommen werden muss. In ähnlicher Weise ist für die Annahme genau eines Phrasentons pro Sprechmelodiegipfel zu argumentieren, da letzterer unter dem Dach des Ecktons lediglich an das Vorkommen eines finalen Grenztons gebunden ist (siehe 2.4.1). Insofern bedarf der Phrasenton keiner eigenständigen Rechtfertigung über phonetische Merkmale in den drei Sprechmelodiegipfeln. Im Folgenden soll die Form der einzelnen Zeichen weiter aufgeschlüsselt werden. Grundsätzlich fließen im Rahmen der autosegmentell-metrischen Phonologie zwei Aspekte in die Zeichenform ein: Erstens der phonologische Wert (H oder L) des Tons, ermittelt in einer akustischen Gegenüberstellung mit seinem Vorgänger, und zweitens dessen Integration in die hierarchische Organisation der Intonationsphrase. Im Falle von Tonakzenten ist als ein dritter, zusätzlicher Aspekt die interne Organisation phonologischer Töne zu berücksichtigen. Es soll zunächst auf den ersten Aspekt eingegangen werden. Werden die F0-Verläufe der drei Sprechmelodiegipfel, wie sie in Abbildung 3 dargestellt sind, unter autosegmentell-metrischen Gesichtspunkten betrachtet, dann sind der rechts- und der linksliegende Gipfel in jeweils fünf phonologische Töne (Zielpunkte) zu analysieren. Jeweils an der akustischen Repräsentation des vorangehenden Zielpunktes ausgerichtet, tragen vier dieser Töne den Wert L und einer den Wert H. Unterschieden sind die beiden phonologischen Syntagmen durch die Position des HTons innerhalb der L-Töne. Im Syntagma des linksliegenden Sprechmelodiegipfels steht der H-Ton gleich nach dem ersten L, während er im Syntagma des rechtsliegenden Gipfels in der Mitte zwischen jeweils zwei LTönen vorkommt. Beide Tonsequenzen lauten daher wie folgt: LHLLL für den linksliegenden und LLHLL für den rechtsliegenden Sprechmelodiegipfel. Der zentrale Sprechmelodiegipfel trägt ebenfalls nur einen HTon, der unmittelbar nach dem ersten L steht. Der zentrale Gipfel ist jedoch von dem rechtsliegenden und gleichermaßen von dem linksliegenden Gipfel phonologisch dadurch unterschieden, dass er einen L-Baustein weniger aufweist, also insgesamt nur vier Zieltöne umfasst. Das phonologische Syntagma des zentralen Sprechmelodiegipfels ist somit als LHLL darzustellen. Im Zusammenhang mit dem zweiten Aspekt der Integration des phonologischen Syntagmas in die (hierarchisch organisierten) Strukturstellen
Zum Begriff der Sprechmelodie Die AM-Phonolgie
49 49
der Intonationsphrase bildet der erste L-Ton jedes Sprechmelodiegipfels den initialen Grenzton. Auf Basis der für das Deutsche gültigen Konventionen in GToBI9 (siehe Grice und Baumann 2000) wird ein solcher Grenzton als default-Fall nicht gesondert gekennzeichnet. Im Hinblick auf den hohen initialen Grenzton, der durch die Symbolfolge %H angezeigt wird, ist jedoch anzunehmen, dass er als %L markiert werden würde. Die GToBI-Symbole sollen auch für die Transkription der folgenden Zeichen benutzt werden. Durch die letzten beiden L-Töne jedes Gipfels wird jeweils der Phrasenton (der in GToBI als Grenzton der Intermediärphrase aufgefasst wird, vgl. 2.4.1) und der finale Grenzton konstituiert (L- L%, in Kurzform auch L-%). Hieraus ergibt sich, dass drei der vier Zeichen für alle Sprechmelodiegipfel identisch sind und sich der rechtsliegende, zentrale und linksliegende Gipfel entsprechend nur in einem Zeichen voneinander unterscheiden. Dieses Zeichen bezieht sich auf den Tonakzent. Die Tonakzente in den drei Gipfeln sind, mit Bezug auf den zusätzlichen dritten Aspekt, in dreierlei Weise phonologisch differenziert, nämlich in der Anzahl der integrierten phonologischen Töne sowie in deren Sequenz und Gewichtung. So wird der Tonakzent des zentralen Gipfels nur durch einen phonologischen Ton H gebildet, der mit einer metrisch starken Silbe („Ma-“) assoziiert ist. Er wird dementsprechend als H* gekennzeichnet. Die Tonakzente der rechts- und linksliegenden Sprechmelodiegipfel setzen sich jeweils aus einem H und einem L zusammen, jedoch in unterschiedlicher Abfolge und Gewichtung. Für den linksliegenden Gipfel besteht der Tonakzent aus der Abfolge HL, wobei der Ton L mit der metrisch starken Silbe („Ma-“) verbunden ist und daher den Schwerpunkt des Tonakzentes repräsentiert (H+L*). Das Umgekehrte trifft auf den rechtsliegenden Gipfel zu. Hierin gilt für den Tonakzent die Sequenz LH. Der initiale Ton wird mit der metrisch starken Silbe („Ma-“) assoziiert, wodurch dieser Tonakzent als L*+H zu kennzeichnen ist. Da die AM-Phonologie anders als das KIM zuvor (siehe 2.3.2) keinen experimental-phonologischen Ansatz verfolgt, sondern der Laborphonologie angehört, kann sich die vorgenommene Zuordnung der phoneti-
_____________ 9
GToBI wird von seinen Autoren als ein Transkriptionssystem für die Intonation des Deutschen auf AM-Basis bezeichnet. Durch viele Modifikationen hat sich GToBI allerdings so weit von einigen Grundpfeilern der AM-Phonologie von Pierrehumbert (1980) bzw. Beckman und Pierrehumbert (1986) emanzipiert, dass es über ein bloßes Transkriptionssystem hinaus einen eigenen Modellcharakter bekommt. GToBI wird daher – analog zur Sichtweise der englischen ToBI-Version von Ladd (1996) – als polysemer Begriff aufgefasst, der sowohl Modellkomponenten als auch ein Transkriptionssystem abdeckt. In dieser Arbeit soll GToBI lediglich in seiner Funktion als Transkriptionssystem bei der Beschreibung und Symbolisierung der Zeichen angewandt werden.
50 50
Einleitung Forschungsgegenstand
schen F0-Gipfel in Abbildung 3 zu H+L*, H* und L*+H nicht auf empirisch fundierte akustische Definitionen berufen. Die Zuordnung erfolgte daher mit Blick auf phonetische Anforderungen, die aus der phonologischen Komposition selbst heraus ableitbar sind und die mit Beschreibungen konform gehen, die Grice und Baumann (2000) für die Tonakzente H+L*, H* und L*+H des Deutschen gegeben haben. Diese derivierten akustischen Definitionen, anhand derer die Grenzen der phonetischen Variabilität der drei Tonakzente abgesteckt werden können, erhalten im Rahmen der vorliegenden Arbeit den gleichen Status wie die empirisch determinierten Definitionen des frühen, mittleren und späten Gipfels im KIM. Durch die phonologische Assoziation eines hohen Zieltons mit der Akzentsilbe verlangt H* nach einer akustischen Ausprägung des F0Verlaufs, bei der das F0-Maximum dieses hohen Zieltons innerhalb der (akustischen Grenzen der) Akzentsilbe realisiert wird. Ferner verfügt dieser Tonakzent über keine weiteren (tiefen) Zieltöne, die sich als F0-Minima im unmittelbaren phonetischen Umfeld des Gipfels befinden. Hieraus ist zu schließen, dass die An- und Abstiegsflanke des Gipfels geringe Steigungen aufweisen. Aus der Phonologie des Tonakzentes H+L* ergibt sich weitergehend, dass der F0-Gipfel auf der Silbe unmittelbar vor dem Akzent sein Maximum (den H-Ton) erreicht und dann, vorgegeben durch L*, nach einem deutlichen Abstieg in der Akzentsilbe ein F0-Minimum ausprägt. Der Tonakzent L*+H fordert einen gegenteiligen F0-Verlauf, bei dem sich als Folge von L* der tiefe Bereich vor dem Anstieg des F0Gipfels bis weit in die Akzentsilbe hinein erstreckt und der Hochpunkt des Gipfels in einer besonders steilen Bewegung erst in der einer der nachfolgenden Silben erreicht wird. Die Tonakzente H*, H+L* und L*+H bilden neben dem frühen, mittleren und späten Gipfel des Kieler Intonationsmodells KIM (siehe 2.3.2) die zweite Formgebungsalternative für die in der vorliegenden Arbeit untersuchte Zeichentriade. Da sich die drei Tonakzente in mehreren phonologischen Merkmalen voneinander unterscheiden, bilden sie im Gegensatz zu den drei Gipfelkonturen des KIM kein minimal set. Zusammengefasst wird die Form der einzelnen sprachlichen Zeichen im autosegmentell-metrischen Ansatz zum einen geprägt durch die Extraktion der phonologischen Zieltöne aus dem akustischen F0-Verlauf in Verbindung mit ihrer regressiven Bestimmung als H oder L. Zum zweiten wird die Zeichenform durch die hierarchisch organisierten Strukturstellen der Intonationsphrase mitgestaltet, die festlegen, welcher phonologische Ton bzw. Tonkomplex welchem Zeichen zugewiesen wird. Als Besonderheit der Tonakzente, für die als einzige Tonkomposita zugelassen sind, ergibt sich die Zeichenform zusätzlich über die drei daraus re-
Zum Begriff der Sprechmelodie Zusammenfassung
51 51
sultierenden Merkmale der Anzahl, Reihenfolge und Gewichtung der hierin subsummierten Töne. Dabei entstehen aus den phonetischen Sprechmelodiegipfeln in 2.2 anhand ihrer akustischen Abbilder die Tonakzente H*, H+L* und L*+H. Die dargestellte Zusammenfassung wird in Abbildung 7 illustriert. Die drei relevanten Zeichen sind hierin ganz rechts angeordnet.
Abbildung 7: Herleitung der vier gebundenen Zeichen und ihrer Form aus dem rechtsliegenden, zentralen und linksliegenden Sprechmelodiegipfel in der AM-Phonologie. Zur besseren Illustration wurden zwei Vereinfachungen vorgenommen: Die hierarchische Organisation der Intonationsphrase wird nur in Teilen wiedergegeben und die phonologischen Zielpunkte werden ohne den Weg über F0 als direkt aus den auditiv-impressionistischen Tonhöhen der Abbildung 2 extrahiert dargestellt. Die Zeichen und ihre phonologischen Komponenten sind nach GToBI (Grice und Baumann 2000) symbolisiert.
2.5 Zusammenfassung des Forschungsgegenstandes Der Forschungsgegenstand der vorliegenden Arbeit ist in Abbildung 8 zusammengefasst. Am Ausgangspunkt stehen der linksliegende, zentrale und rechtsliegende Sprechmelodiegipfel, die hinsichtlich ihrer akustischen Ausprägung mit prävokalischen, innervokalischen und postvokalischen F0-Gipfeln korrespondieren. Gemäß den Erläuterungen zu ihrer Bedeutung in 1.3.1 stimmen die drei Sprechmelodiegipfel in bestimmten Be-
52 52
Einleitung Forschungsgegenstand
deutungen überein. Zum Beispiel kann das tiefe Ende jeder Melodie im gleichen (u.a. lautlichen und situativen) Kontext eine Aussage signalisieren. Daneben unterscheiden sich die drei Gipfel in attitudinalen Bedeutungen. Diesem attitudinalen Bedeutungsunterschied, der mit den Attributen GEGEBEN vs. NEU vs. UNERWARTET beschrieben werden kann, liegen drei sprechmelodische Zeichen zugrunde, die im Mittelpunkt des Forschungsinteresses stehen. Insbesondere die genannte akustische Ausprägung dient als Grundlage für die phonologische Komposition dieser Zeichen in Form von frühen, mittleren und späten Gipfeln im Kieler Intonationsmodell KIM oder alternativ dazu als Tonakzente H+L*, H* und L*+H in der autosegmentell-metrischen (AM) Phonologie.
Abbildung 8: Forschungsgegenstand der vorliegenden Arbeit in einer Übersicht: Drei sprechmelodische Zeichen, ihre Bedeutungen und charakteristischen phonetischen Eigenschaften in Perzeption und Akustik. Letztere bilden die Grundlage für zwei alternative Zeichenformen, komponiert nach der Phonologie des KIM und der AM-Phonologie.
Es ist zu beachten, dass die alternativen Formen der behandelten Zeichentriade, die anhand der Phonologie des KIM und der AM-Phonologie entwickelt wurden, jenseits der für diese Arbeit relevanten theoriebedingten Abweichungen, auch eine unterschiedliche Perspektive in der Phonetik und Bedeutung beinhalten. Was die phonetische Perspektive anlangt, so repräsentieren die Zeichenformen des frühen, mittleren und späten Gip-
Zum Begriff der Sprechmelodie Zusammenfassung
53 53
fels im KIM die drei Sprechmelodie- bzw. F0-Gipfel als Ganzes. In der AM-Phonologie hingegen entstehen aus den drei Sprechmelodie- bzw. F0Gipfeln jeweils vier gebundene Zeichen, von denen jedes einen Teil der Phonetik des Gipfels abdeckt. Nur eines dieser Zeichen variiert zwischen den Melodien und bildet die relevante Zeichentriade, deren Mitglieder in GToBI als H+L*, H* und L*+H symbolisiert werden. Der Unterschied im Bedeutungsbezug, der mit beiden alternativen Zeichenformen einhergeht, ist durch einen Vergleich mit römischen und arabischen Ziffern zu illustrieren: Die Mengenangaben ‚einhundert’ und ‚fünfhundert’ sollen hierbei stellvertretend für die Gesamtbedeutungen je eines Sprechmelodiegipfels stehen. Beide Mengenangaben enthalten, genauso wie die Sprechmelodiegipfel, unterschiedliche und identische Mengen- bzw. Bedeutungselemente (entweder ‚ein-’ oder ‚fünf-’, aber in beiden Fällen ‚-hundert’). Das arabische Zahlensystem verhält sich nun ähnlich wie die AM-Phonologie. Es gliedert die Mengenangaben in ihre Bedeutungselemente auf und repräsentiert jedes Bedeutungselement durch eine separate Ziffer bzw. durch ein separates gebundenes Zeichen. Die identischen Bedeutungselemente werden durch identische (Abfolgen von) Ziffern wiedergegeben (, im dargestellten Vergleich können das z.B. die Grenztöne sein). Die abweichenden Bedeutungselemente erhalten unterschiedliche Ziffern ( vs. , dies entspricht den Tonakzenten der Sprechmelodiegipfel). Das römische Zahlensystem verfolgt eine andere Strategie. Die gleichen und ungleichen Bedeutungselemente beider Mengenangaben werden in ein gemeinsames Symbol integriert. Die Mengenangabe ‚einhundert’ wird durch repräsentiert, die ‚fünfhundert’ wird durch ein ausgedrückt. In ähnlicher Weise integrieren auch die frühen, mittleren und späten Gipfel des KIM die gleichen und ungleichen Bedeutungselemente der Sprechmelodiegipfel. Der dargestellte Vergleich soll Folgendes verdeutlichen: Die AM-Zeichen H+L*, H* und L*+H decken nur die Bedeutungselemente ab, in denen sich die drei Sprechmelodiegipfel voneinander unterscheiden (GEGEBEN, NEU und UNERWARTET). Die Bedeutungselemente, die für die drei Sprechmelodiegipfel identisch sind, werden in der AM-Phonologie durch eigenständige Zeichen neben den genannten Tonakzenten repräsentiert. Im KIM dagegen werden alle Bedeutungselemente eines Sprechmelodiegipfels als Merkmale der phonologischen Komposition unter dem Dach des eines Zeichens, nämlich des frühen, mittleren oder späten Gipfels, zusammengefasst. Dennoch tragen auch bei dieser Konzeption nur die Bedeutungsunterschiede (GEGEBEN, NEU, UNERWARTET) und die darauf zurückgehenden phonetischen Unterschiede zwischen den drei Sprechmelodiegipfeln zur Differenzierung der Zeichenformen bei. Aus diesem Grund ist es trotz des grundlegend anderen phonetischen und bedeutungsge-
54 54
Einleitung Forschungsgegenstand
richteten Bezugs der beiden Gruppen von Zeichenformen aus der Phonologie des KIM und der AM-Phonologie möglich, sie als alternative phonologische Konzepte dreier sprechmelodischer Zeichen mit den Bedeutungen GEGEBEN, NEU und UNERWARTET zu betrachten. Die Bedeutungen werden nachfolgend als Etiketten für die drei Zeichen verwendet.
3 Vorliegende Erkenntnisse und weiterführende Hypothesen zu den sprechmelodischen Zeichen In diesem Kapitel werden Beobachtungen und experimentelle Befunde aus der Akustik und Perzeption präsentiert, die sich für die behandelte sprechmelodische Zeichentriade ergeben haben. Die Untersuchungen, auf die dabei Bezug genommen wird, sind sowohl unter dem Dach der Phonologie des Kieler Intonationsmodells KIM als auch unter dem Dach der AM-Phonologie entstanden. Beide Phonologien haben eine andere Vorstellung über die Form der behandelten sprechmelodischen Zeichen entwickelt (vgl. 2.3 und 2.4), die sich auch in der Nomenklatur der Zeichenformen widerspiegelt. Im KIM werden die Begriffe des frühen, mittleren und späten Gipfels verwendet. Die AM-Phonologie gebraucht (nach GToBI) die Symbolfolgen H+L*, H* und L*+H. In der Literatur wird die Nomenklatur der Zeichenformen in der Regel auch als Etikett für die sprechmelodischen Zeichen selbst verwendet. Um vor diesem Hintergrund die Präsentation der phonologieübergreifenden Erkenntnisse einheitlich zu gestalten, werden bei dem Verweis auf die sprechmelodischen Zeichen nicht die in der jeweiligen Literatur angetroffenen Etiketten benutzt. Stattdessen werden die für diese Arbeit eingeführten bedeutungsbezogenen Etiketten GEGEBEN, NEU und UNERWARTET verwendet (vgl. Abb. 8 und 2.5). Die im Folgenden vorgestellten Einblicke in die Übertragung und Wahrnehmung der drei sprechmelodischen Zeichen konzentrieren sich auf drei Bereiche: Die Gipfelgestalt, die Ausprägung der F0-Gipfelverläufe, die mit Beobachtungen zur Dauer und Intensität in Verbindung gebracht werden kann und die Gipfelhöhe. In jedem der drei Bereiche werden neben den Beobachtungen und Befunden zu den behandelten sprechmelodischen Zeichen des Standarddeutschen auch Beobachtungen und Befunde zu sprechmelodischen Zeichen anderer Sprachen beschrieben, die vergleichbare phonetische Ausprägungen wie die standarddeutschen Zeichen besitzen und insofern auch phonologisch vergleichbar analysiert werden können, die aber in vielen Fällen eine andere Bedeutung haben. Auf dieser Grundlage wird erstens diskutiert werden, inwieweit die Beobachtungen und Befunde mit den alternativen phonologischen Kom-
56 56
Einleitung Erkenntnisse und Hypothesen
positionen der Zeichen im Einklang stehen. Zweitens werden im Rahmen der Präsentation der vorliegenden Erkenntnisse auch Erkenntnislücken sichtbar werden. Hieraus ergeben sich für jeden der drei Bereiche weiterführende Hypothesen, denen im nachfolgenden Kapitel 4 experimentell nachgegangen wird.
3.1 Einfluss der Gipfelgestalt auf die Wahrnehmung der sprechmelodischen Zeichen 3.1.1 Beobachtungen und Befunde zur Gipfelgestalt Ausgehend vom Kieler Intonationsmodell KIM hat Niebuhr (2003a, b) den Einfluss der Gipfelgestalt auf die Wahrnehmung der Zeichen GEGEBEN und NEU erforscht. Die Gipfelgestalt beschreibt die Neigung der Gipfelflanken als Folge der Entfernung des Gipfelmaximums vom Beginn des Anstiegs und Ende des Abstiegs (hiervon zu unterscheiden ist die Gipfelhöhe, die in 3.3.1 definiert wird). Die Methode seines Perzeptionsexperimentes hat sich an der von Kohler (1987, 1991c) orientiert, die im Abschnitt 2.3.2 dargelegt wurde. Es wurden auf der Grundlage der (vom Autor) natürlich produzierten und durchgängig stimmhaften Äußerung „Sie war mal Malerin“ durch PSOLA-Resynthese in praat vier identische Synchronisationsräume mit verschieden gestalteten F0-Gipfeln über der einzigen Akzentsilbe „Ma-“ aus „Malerin“ erzeugt (Informationen zu praat finden sich unter www.praat.org; weitere Details zum Resyntheseverfahren werden von Moulines und Charpentier 1990 beschrieben). Die F0-Gipfel wurden gebildet, indem zwei verschiedene Transitionsdauern mit der an- und absteigenden Flanke kombiniert wurden. Hierdurch entstanden vier unterschiedliche Gipfelgestalten, zwei symmetrische und zwei asymmetrische. Die symmetrischen waren entweder durch einen beidseitig steilen oder flachen F0-Verlauf gekennzeichnet, die beiden asymmetrischen besaßen jeweils eine steile und flache Flanke. Die steilen Gradienten wurden so gewählt, dass sie im Bereich der physiologischen Grenze der F0-Dynamik lagen, die von Xu und Sun (2000, 2002) anhand speziell dafür erhobener Sprachdaten abgeschätzt wurde. Die flachen Gradienten waren jeweils nur halb so stark geneigt. Nach ´t Hart et al. (1990) ist dadurch sichergestellt, dass sie perzeptorisch von den steilen Gradienten unterschieden werden konnten. Die vier verwendeten Gipfelgestalten steil-steil (s/s), flach-flach (f/f), steil-flach (s/f) und flach-steil (f/s) sowie Geschwindigkeit und Dauer ihrer An- und Abstiege sind in Abbildung 9 dargestellt. Der Anstieg erstreckte sich in allen Gipfelgestalten über etwa 6, der Abstieg über etwa fünf Halbtonschritte (semitones, st).
Zum Begriffder derGipfelgestalt Sprechmelodie Einfluss
57 57
Abbildung 9: Gradienten und Transitionsdauern der vier F0-Gipfelgestalten über der Akzentsilbe „Ma-“ aus „Sie war mal Malerin” in den Experimenten von Niebuhr (2003a, b).
Der Synchronisationsraum zu jeder F0-Gipfelgestalt bestand aus 11 Gipfelpositionen, die (auf einer linearen Zeitskala) einen äquidistanten Abstand von 20ms zueinander hatten. Die Extrempositionen lagen jeweils 100ms vor und nach dem Beginn des Vokals der Akzentsilbe „Ma-“ (die Position eines Gipfels wird mit Bezug auf sein F0-Maximum angegeben). Auf dieser Grundlage entstanden für jede Gipfelgestalt 11 resynthetisierte Äußerungen, die sich in der Position des F0-Gipfels voneinander unterschieden. Sie gingen getrennt voneinander als Stimuli in Paardiskriminationstests und Identifikationstests ein (für letzteres siehe 2.3.2). Als Kontext des Identifikationstests wurde wie bei Kohler (1987, 1991c) die Äußerung „Jetzt versteh’ ich das erst“ gewählt, die mit den Zeichen NEU auf der einzigen Akzentsilbe „-steh“ produziert wurde. Der Kontext wurde, ebenso wie die Stimulusäußerungen „Sie war mal Malerin“, vom Autor gesprochen und letzteren ohne Manipulation vorangestellt. Die Ergebnisse der Experimente von Niebuhr (2003a, b) zeigen eine deutliche Beeinflussung der Wahrnehmung der beiden Zeichen GEGEBEN und NEU durch die vier Gipfelgestalten10. Zwar ist gestaltunabhängig ein Umkippen von GEGEBEN zu NEU über den Synchronisationsraum hinweg festzustellen, der Umkipppunkt kann jedoch mit unterschiedlichen Positionen des Raumes assoziiert werden. Als Umkipppunkt galt diejenige _____________ 10
Welches sprechmelodische Zeichen die Versuchspersonen in den Stimuli wahrgenommen haben, wurde aus der unterschiedlichen Beurteilung der Kontext-Stimulus-Paare als zusammenpassend oder nicht zusammenpassend bestimmt. Basierend auf der Annahme, dass der gewählte Kontext mit dem Zeichen GEGEBEN in den nachfolgenden Stimuli nicht kompatibel sein würde, indiziert ein Zusammenpassen beider Äußerungen z.B. die Wahrnehmung des Zeichens neu in den Stimuli. Siehe hierzu auch 2.3.2.
58 58
Einleitung Erkenntnisse und Hypothesen
Gipfelposition bzw. derjenige Stimulus, der durch das Paar mit dem Diskriminationsmaximum überspannt wurde und gleichzeitig die 50%Marke in der Identifikationsfunktion überschritt. So werden die flach-flachen und steil-flachen Gipfel (f/f und s/f) bereits von den Versuchspersonen als das Zeichen NEU wahrgenommen, wenn sich das F0-Maximum noch vor dem akzentuierten Vokal befindet. Die flach-steile und steilsteile Gipfelgestalt (f/s und s/s) führt hingegen erst dann zur Wahrnehmung des Zeichens NEU, wenn das F0-Maximum nach der Vokalgrenze liegt, F0 also noch in den Vokal hinein ansteigt. Ein ähnlicher Zeitpunkt für die Veränderung des Wahrnehmungseindrucks wurde auch von Kohler (1987, 1991c) angegeben, wobei die Gestalt des von ihm konstruierten Gipfels am ehesten mit steil-steilen Gipfelgestalt s/s in den Experimenten von Niebuhr (2003a, b) verglichen werden kann. Insofern werden die Befunde von Niebuhr teilweise durch vorangegangene Perzeptionsexperimente untermauert. Abbildung 10 fasst die Positionen der F0-Gipfel zusammen, die nach den Ergebnissen von Niebuhr die Grenze zwischen den beiden Zeichen GEGEBEN und NEU markiert haben.
Abbildung 10: Schematische Darstellung der F0-Gipfelpositionen zum Vokalbeginn der Akzentsilbe (Von), die nach den Ergebnissen von Niebuhr (2003a, b) als Grenze zwischen der Wahrnehmung der beiden Zeichen GEGEBEN und NEU betrachtet werden können. Es finden sich gestaltabhängige Grenzen.
Neben der gestaltbedingten Verschiebung des Zeitpunktes, bei dem die Wahrnehmung innerhalb des Synchronisationsraumes von GEGEBEN zu NEU überwechselt, finden sich auch in den beiden Bereichen des Synchronisationsraumes, in denen die Wahrnehmung eines der beiden sprechmelodischen Zeichen klar dominiert, Unterschiede, die als Effekt der Gipfel-
Zum Begriffder derGipfelgestalt Sprechmelodie Einfluss
59 59
gestalt aufzufassen sind. So zeigen zum Beispiel Vergleiche zwischen den Gipfelgestalten s/f und f/f sowie s/s und f/s (vgl. Abb. 9), dass die beiden F0-Gipfel mit der steilen Anstiegsflanke s/f und s/s ein deutlicherer Indikator für das Zeichen NEU waren als die beiden F0-Gipfel mit der flachen Anstiegsflanke f/s und f/f. Die Neigung der Abstiegsflanke allein – das heißt ohne gleichzeitige Veränderung der Anstiegsneigung – hat in dem Bereich des Synchronisationsraumes, in dem die Wahrnehmung des Zeichens NEU dominiert (dieser Bereich umfasst primär die innervokalischen F0-Gipfel), keinen Effekt gehabt. Ein solcher Effekt der Abstiegsflanke zeigt sich hingegen für die flach ansteigenden F0-Gipfel f/f und f/s in dem Bereich des Synchronisationsraumes, in dem vor allem das Zeichen GEGEBEN perzipiert wird (dies betrifft in erster Linie prävokalische Gipfelpositionen). F0-Gipfel mit f/f-Gestalt werden hier seltener als GEGEBEN identifiziert als f/s-Gipfel. Dafür bleibt in diesem Synchronisationsbereich die Veränderung der Neigung der Anstiegsflanke allein ohne Wirkung auf die Wahrnehmung der Zeichen GEGEBEN und NEU.11 Letztlich hat die Gipfelgestalt auch Auswirkungen auf die Schärfe des Übergangs zwischen den Zeichen GEGEBEN und NEU. Dabei gilt, dass die Schärfe mit zunehmender Gipfelbreite nachlässt. Das heißt, der spitze Gipfel (s/s) ist durch ein sehr schnelles Umkippen von GEGEBEN zu NEU über die einzelnen Gipfelpositionen des Synchronisationsraumes gekennzeichnet. Im Falle des stumpfen Gipfels (f/f) geschieht das Umkippen von GEGEBEN zu NEU deutlich weniger abrupt. Für die asymmetrischen F0-Gipfel s/f und f/s ist die Dynamik im Überwechseln vom Zeichen GEGEBEN zum Zeichen NEU zwischen der von s/s und f/f anzusiedeln. Aus dem autosegmentell-metrischen Forschungsumfeld gibt es Belege dafür, dass die Gipfelgestalt die Wahrnehmung von sprechmelodischen _____________ 11
Es ist zu beachten, dass derartige Interpretationen von Ergebnissen eines Identifikationstests vor dem Hintergrund eines Inventars sprechmelodischer Zeichen grundsätzlich aus mehr als einer Perspektive möglich sind. Bezogen auf den beschriebenen Einfluss der Gipfelgestalt, kann z.B. statt der Interpretation, dass die steile Anstiegsflanke in einem bestimmten Synchronisationsbereich ein deutlicherer Indikator für die Wahrnehmung des Zeichens NEU war, auch die Interpretation gegeben werden, dass die flachere Anstiegsflanke in diesem Bereich ein deutlicherer Indikator für die Wahrnehmung des Zeichens GEGEBEN war. In der vorliegenden Arbeit werden in der Regel die einzelnen Ergebnisse aus jeweils nur einer Perspektive dargestellt. Die Wahl der Perspektive erfolgt entweder mit Blick auf Erkenntnisse zur akustischen Ausprägung der sprechmelodischen Zeichen (z.B. anhand der charakteristischen Synchronisationsbereiche der F0-Gipfel der Zeichen, vgl. 2.2), oder sie richtet sich nach dem Zeichen, das über die Versuchspersonengruppe betrachtet die Wahrnehmung dominiert (in vielen Fällen führen beide Kriterien zur gleichen Perspektive). Dieser perspektivische Hinweis ist auch deswegen relevant, da die gewählte Perspektive auch in die weiterführenden Hypothesen einfließt und damit ebenfalls die Präsentation und Diskussion der Perzeptionsergebnisse aus den eigenen Untersuchungen in Kapitel 4 prägt.
60 60
Einleitung Erkenntnisse und Hypothesen
Zeichen auch in anderen Sprachen beeinflusst. Die Erläuterungen aus 2.2 zugrundelegend, sind die betreffenden sprechmelodischen Zeichen durch eine ähnliche Phonetik wie die Zeichen GEGEBEN und NEU des Standarddeutschen gekennzeichnet, allerdings mit anderer Bedeutung. Im neapolitanischen Dialekt des Italienischen wird ein solches Zeichenpaar zur Differenzierung des Satzmodus verwendet, wobei das phonetische Pendant zu GEGEBEN eine (kontrastive) Aussage und das phonetische Pendant zu NEU eine Entscheidungsfrage signalisiert. D’Imperio und House (1997) führten Experimente zur Wahrnehmung des Satzmodus in der Äußerung „Mamma andava a ballare da Lalla“ (‚Mutter ging gewöhnlich bei Lalla zum Tanzen’) durch, in der „La-“ aus dem phrasenfinalen Wort „Lalla“ die relevante Akzentsilbe war. Sie wollten die Schärfe und die genaue Position des Übergangs zwischen Aussage und Frage untersuchen. Zu diesem Zweck gingen sie von zwei natürlichen Produktionen der genannten Äußerung aus, eine Frage und eine Aussage. Auf Basis der darin vorkommenden F0-Gipfel erzeugten sie in beiden Äußerungen identisch aufgebaute Synchronisationsräume über der Silbe „La-“. Dabei ignorierten sie, dass die verschobenen F0-Gipfel unterschiedlich lange und entsprechend unterschiedlich steile Anstiege aufwiesen. Im Rahmen der Identifikation der Stimuli beider Synchronisationsräume als Aussage oder Frage durch Muttersprachler der neapolitanischen Varietät des Italienischen finden D’Imperio und House ein deutliches und abruptes Umkippen. Darüber hinaus zeigen ihre Ergebnisdaten jedoch analog zu den Befunden von Niebuhr (2003a, b), dass der stumpfere (f/fähnliche) F0-Gipfel bei gleicher Position vor dem Beginn des akzentuierten Vokals weniger Aussage-Urteile erhält und bei der Verschiebung hin zu innervokalischen Positionen schneller zur Wahrnehmung von Frage überwechselt als der spitzere (s/f-ähnliche) F0-Gipfel. Zudem war der Übergang zwischen Aussage und Frage wie bei Niebuhr für den stumpferen Gipfel durch größere Variabilität zwischen den Urteilen der Probanden gekennzeichnet und somit insgesamt weniger scharf. Ein Einfluss der Gipfelgestalt wird auch von Gósy und Terken (1994) bei der Differenzierung von Frage und Aussage im Ungarischen gefunden, die mit ähnlichen sprechmelodischen Mitteln kodiert sind wie im neapolitanischen Dialekt des Italienischen. Im Gegensatz zu der Studie von D’Imperio und House (1997) wurde bei Gósy und Terken jedoch die F0-Gipfelgestalt gezielt manipuliert. Sie zeigen anhand von Identifikationsexperimenten, dass ein flach-steiler F0-Gipfel sowohl vor dem Vokal als auch im Vokal seltener als Frage identifiziert wurde als ein steil-flacher F0-Gipfel. Auch diese Effekte der Gipfelgestalt decken sich mit denjenigen, die im Rahmen der Identifikation der beiden Zeichen GEGEBEN und NEU bei Niebuhr (2003a, b) aufgetreten sind.
Zum Begriffder derGipfelgestalt Sprechmelodie Einfluss
61 61
3.1.2 Evaluierung der Zeichenformen angesichts der Erkenntnisse zur Gipfelgestalt Für die drei sprechmelodischen Zeichen GEGEBEN, NEU und werden in der Phonologie des Kieler Intonationsmodells KIM die Zeichenformen des frühen, mittleren und späten Gipfels gebildet. Die Zeichenform des späten Gipfels kann an dieser Stelle nicht vor einem empirischen Hintergrund evaluiert werden, da zu dem zugrundeliegenden sprechmelodischen Zeichen bislang noch keine Erkenntnisse bezüglich der Gipfelgestalt vorliegen. Aus den Erkenntnissen zu den Zeichenformen GEGEBEN und NEU bzw. zu verwandten Zeichen aus anderen Sprachen lässt sich jedoch Grundsätzliches über die vorgeschlagenen Zeichenformen sagen. So ist nach der phonologischen Formgebung des KIM generell keine Beeinflussung der Wahrnehmung der Zeichen durch Veränderungen in der Gipfelgestalt zu erwarten, wie sie von Niebuhr (2003a, b) zum Beispiel für die Zeichen GEGEBEN und NEU gefunden wurde. Die Zeichenformen des KIM sehen als Differenzierungsmerkmale neben der Position der F0Kontur zwar die Verlaufsqualität vor. Die von Niebuhr unter dem Aspekt der Gipfelgestalt vorgenommenen Veränderungen an der Verlaufsqualität lassen jedoch die Zuordnung der F0-Verläufe zur phonologischen Formklasse der ‚Gipfel’ unberührt. Es bleiben immer steigend-fallende Verläufe. Darüber hinaus waren die F0-Gipfel unabhängig von ihrer Gestalt an einzelnen 11 Stellen des Verschiebungsrasters über die Synchronisationsräume hinweg betrachtet gleich positioniert. Das heißt, auch im Hinblick auf die Formkomponenten ‚früh’ und ‚mittel’, die an die Gipfelposition geknüpften sind, lagen für die vier Gipfelgestalten an jeder Stelle des Verschiebungsrasters die gleichen Voraussetzungen vor. Vor dem letztgenannten Hintergrund ist es ein besonderes Problem für die Zeichenformen des frühen und mittleren Gipfels, dass den Resultaten von Niebuhr zufolge die Grenze zwischen der Wahrnehmung der Zeichen GEGEBEN und NEU für F0-Gipfel mit der flach-flachen Gipfelgestalt f/f bereits in prävokalischer Position gezogen werden kann. Die Zeichenformen des frühen und mittleren Gipfels separieren beide Zeichen an der Grenze zum Akzentvokal. Prävokalisch liegende F0-Gipfel – determiniert durch der Lage des F0-Maxiums – gehören hiernach zum Zeichen GEGEBEN, während innervokalisch liegende F0-Gipfel dem Zeichen NEU zuzuordnen sind. Das Durchbrechen dieser Zuordnungskriterien durch die Befunde von Niebuhr schwächt das phonologisch-temporale Konzept des KIM, in dem signifikante Konturpunkte in Relation zu segmentellen Landmarken betrachtet werden. Für die im AM-Rahmen angenommene Zeichenform H* stellt es hingegen kein Problem dar, dass das zugrundeliegende sprechmelodische UNERWARTET
62 62
Einleitung Erkenntnisse und Hypothesen
Zeichen NEU bei der f/f-Gipfelgestalt bereits vor dem Beginn des Akzentvokals perzipiert wird. In der AM-Phonologie ist H* mit der Akzentsilbe als Ganzes assoziiert. Entsprechend ist die phonetische Positionierung (alignment) des F0-Maximums, das den H-Ton repräsentiert, irrelevant. Die phonologische Assoziation gibt lediglich vor, dass sich das F0-Maximum innerhalb der Akzentsilbe ausprägen muss (in diesem Fall „Ma-“ in „Malerin“). Im Rahmen der Domäne der Akzentsilbe ergibt sich jedoch ein anderes Problem, das für die Zeichenformen des KIM nicht besteht. Die Synchronisationsräume, innerhalb derer die verschieden gestalteten F0Gipfel in der Untersuchung von Niebuhr (2003a, b) verschoben wurden, erstrecken sich nicht über den Beginn der Akzentsilbe hinaus. Das heißt, das Maximum des F0-Gipfels befindet sich immer in der Akzentsilbe. Die Daten von Niebuhr zeigen unter diesen Voraussetzungen unabhängig von der Gipfelgestalt einen Übergang von der Wahrnehmung des Zeichens GEGEBEN zur Wahrnehmung des Zeichens NEU und belegen somit, dass auch F0-Gipfel, deren Maxima sich innerhalb der Akzentsilbe ausprägen, als das sprechmelodische Zeichen GEGEBEN gehört werden können. Die Zeichenformen der AM-Phonologie sehen dies nicht vor, insbesondere dann nicht, wenn eine Vorakzentsilbe vorhanden ist, auf der sich das F0Maximum ausprägen kann. Es existieren noch weitere Unstimmigkeiten zwischen der Wahrnehmung der sprechmelodischen Zeichen bzw. der ihr zugrundeliegenden Phonetik und den in der AM-Phonologie erstellten Zeichenformen. Die Zeichenform H+L* des Zeichens GEGEBEN sieht zum Beispiel vor, dass der L-Ton, der durch das Ende des Abstiegs vom Gipfel repräsentiert wird, innerhalb der Akzentsilbe auftritt, während das H in einem konstanten Abstand zum L davor liegt. Die Gipfelgestalten mit flachem Abstieg s/f und f/f prägen sich aber in einem bestimmten Bereich des Synchronisationsraumes in den Experimenten von Niebuhr (2003a, b) so aus, dass das Ende des Abstiegs vom F0-Gipfel erst in der nächsten Silbe erreicht wird, während das F0-Gipfelmaximum wie erwähnt innerhalb der Akzentsilbe (genauer innerhalb des Akzentvokals) liegt. Diese phonetische Konfiguration ist der Zeichenform H* zuzuordnen. Dennoch dominiert für solche F0-Gipfel die Wahrnehmung des sprechmelodischen Zeichens GEGEBEN und nicht NEU. Ferner besagt die Zeichenform des eingliedrigen Tonakzentes H*, dass ausschließlich das F0-Maximum und dessen phonologische Assoziation bzw. phonetische Koinzidenz mit der Akzentsilbe entscheidend für die Wahrnehmung des sprechmelodischen Zeichens NEU ist. Die aufgezeigten Einflüsse der Gipfelgestalt stehen hierzu im Widerspruch. Anders als im Falle der Zeichenformen der KIM-Phonologie erscheint aber zumindest ein Teil der gefundenen Einflüsse der Gipfelgestalt
Zum Begriffder derGipfelgestalt Sprechmelodie Einfluss
63 63
durch die Zeichenformen, wie sie in der AM-Phonologie konzipiert sind, abgedeckt bzw. erklärbar. Hierzu zählt, dass im Rahmen der Wahrnehmung des Zeichens GEGEBEN nur die Abstiegsflanke und im Rahmen der Wahrnehmung des Zeichens NEU nur die Aufstiegsflanke eine Auswirkung auf die Zeichenerkennung gehabt hat. Dass sich die Abstiegsflanke des F0-Gipfels für die Wahrnehmung des Zeichens GEGEBEN als relevant herausgestellt hat, kann auf das rigide Zeitintervall zurückzuführen sein, das für die Zeichenform H+L* zwischen dem mit der Akzentsilbe assoziierten tiefen tonalen Schwerpunkt und dem vorangehenden hohen Zielton postuliert wird. Möglicherweise hat die steilere der beiden ansteigenden Gipfelflanken dem erforderlichen Zeitintervall besser entsprochen als die flachere. In Verbindung mit dem Zeichen NEU hat die absteigende Gipfelflanke keinen relevanten perzeptorischen Effekt gehabt. Dies könnte in der AM-Phonologie erklärt werden, indem angenommen wird, dass es sich bei dem F0-Tiefpunkt am Abstiegsende, dessen Lage für die Ausprägung der Neigung der Abstiegsflanke ausschlaggebend ist, um den Phrasenton L- handelt. Da dieser in der AM-Phonologie als ein eigenständiges Bedeutungselement in der untersuchten Sprechmelodie und dementsprechend als eigenständiges Zeichen behandelt wird, wäre es plausibel, dass sich dessen phonetische Ausprägung nicht auf die Beurteilung der Zeichen GEGEBEN und NEU auswirkt. In der Gesamtbeurteilung beider Zeichenformalternativen vor dem Hintergrund der Erkenntnisse zur Gipfelgestalt ergibt sich somit ein leichter Vorteil für die im AM-Rahmen entwickelten Zeichenformen. Dieser Vorteil besagt jedoch nicht automatisch, dass das Tonsequenzkonzept dem Konturkonzept vorzuziehen ist (eine ausführliche Abwägung beider Konzepte wird unter Einbeziehung der eigenen Experimente und der daraus entwickelten Zeichenformen in 7.1 und 8.1 gegeben). Für beide Zeichenformalternativen verbleiben deutlich erkennbare Unstimmigkeiten zwischen den theoretischen Anforderungen der Zeichenformen an die phonetische Ausprägung der Zeichen und deren tatsächlichen phonetischen Ausprägungsmöglichkeiten. Dies gilt insbesondere mit Blick auf die Verknüpfung der Zeichen mit den lautlichen Domänen der Akzentsilbe und ihres Vokalbeginns. 3.1.3 Weiterführende Hypothesen zur Gipfelgestalt Die bisherigen Untersuchungen zum perzeptorischen Einfluss der Gipfelgestalt auf die Wahrnehmung der in dieser Arbeit behandelten Zeichentriade beschränken sich auf die beiden Zeichen GEGEBEN und NEU. Erkenntnisse zum Zeichen UNERWARTET liegen bislang nicht vor. Diese Erkenntnislücke soll in einer nachfolgenden eigenen Untersuchung geschlos-
64 64
Einleitung Erkenntnisse und Hypothesen
sen werden. Ausgehend von den Ergebnissen aus der Untersuchung von Niebuhr (2003a, b) und Kohler (1987, 1991c) zum Standarddeutschen und in Anlehnung an die hierbei verwendete Methode werden die folgenden Hypothesen aufgestellt: (A1)
(A2) (A3)
Unabhängig von Effekten der Gipfelgestalt kann durch die Verschiebung eines F0-Gipfels von einer innervokalischen zu einer postvokalischen Position ein Übergang von der Wahrnehmung des Zeichens NEU zur Wahrnehmung des Zeichens UNERWARTET erreicht werden. Die Gipfelgestalt hat einen Effekt auf die Wahrnehmung beider Zeichen. F0-Gipfel mit steilem Anstieg der Art s/f und s/s unterstützen gegenüber F0-Gipfeln mit flachem Anstieg f/s und f/f die Wahrnehmung des Zeichens NEU.
Dass der Wahrnehmungsübergang zwischen NEU und UNERWARTET in Hypothese (A1) mit dem Übergang des F0-Gipfels aus einer innervokalischen zu einer postvokalischen Position erwartet wird, ergibt primär sich aus den Untersuchungen von Kohler (1987, 1991c), auf denen auch die Zeichenformen gegründet sind (vgl. 2.3.2). Neben den Befunden von Kohler (1987, 1991c) berücksichtigt Hypothese (A1) darüber hinaus, dass die Gipfelposition bei Niebuhr (2003a, b) ein bedeutsamerer Indikator für die sprechmelodischen Zeichen war als die Gipfelgestalt, da beide beteiligten Zeichen gestaltunabhängig perzipiert werden konnten. Was den in (A1) genannten Übergang von der Wahrnehmung des einen zur Wahrnehmung des anderen Zeichens anlangt (auch als Wahrnehmungsveränderung bezeichnet), soll für die vorliegende Arbeit die gleiche Definition gelten wie bei Niebuhr (2003a, b). Das heißt, ein solcher Übergang liegt dann vor, wenn die Identifikation über alle Versuchspersonen hinweg mehrheitlich und nachhaltig vom einen zum anderen Zeichen umschwenkt. Die übrigen Hypothesen (A2) und (A3) beruhen ausschließlich auf den Ergebnissen von Niebuhr (2003a, b). Während die Hypothese (A2) aus den Befunden insgesamt abgeleitet wurde, nimmt die Hypothese (A3) speziellen Bezug auf die Ergebnisse zum Zeichen NEU, dessen Wahrnehmung im Rahmen nicht-prävokalischer Gipfelpositionen nur durch die Neigung der ansteigenden Gipfelflanke beeinflusst wurde, wobei sich steilere Gipfelflanken als ein deutlicherer Indikator für dieses Zeichen herausgestellt haben. Im Gegensatz zum Experiment von Niebuhr (2003a, b) enthalten die weiterführenden Hypothesen keine Angaben zum Einfluss der Gipfelgestalt auf die Schärfe des Übergangs zwischen den sprechmelodischen Zeichen NEU und UNERWARTET. Um klare Aussagen hierüber treffen zu
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
65 65
können, wären neben den Identifikationstests auch Diskriminationstests erforderlich, auf deren Durchführung im Rahmen dieser Arbeit jedoch verzichtet wird, da sie für die primäre Fragestellung nicht relevant sind.
3.2 Die Ausprägung der F0-Gipfel der Zeichentriade und ihre Implikation für einen Einfluss von Dauer und Intensität 3.2.1 Beobachtungen und Befunde zur Ausprägung der F0-Gipfel Während die im vorangegangenen Abschnitt präsentierten Erkenntnisse zur Gipfelgestalt anhand von Wahrnehmungsexperimenten gewonnen wurden, wird dieser Abschnitt vor allem Untersuchungen zur akustischen Ausprägung der drei Zeichen GEGEBEN, NEU und UNERWARTET behandeln und sich dabei auf die Verlaufseigenschaften der F0-Gipfel, insbesondere der Anstiegsflanke, konzentrieren. Einen der wichtigsten Beiträge hierzu leistet die Studie von Gartenberg und Panzlaff-Reuter (1991). Gartenberg und Panzlaff-Reuter (1991) erforschen die Zeichentriade vor dem Hintergrund des Kieler Intonationsmodells KIM. In ihrer umfangreichen akustischen Analyse untersuchen sie die Verlaufseigenschaften der dazugehörigen F0-Gipfel in verschiedenen lautlich variierten Kontexten. Allen diesen Kontexten war gemeinsam, dass die Silbe, über der sich die Gipfel ausprägten, die einzige und somit nukleare12 Akzentsilbe war. Zur Elizitation der Sprachdaten wurden kurze Satzrahmen der Art „Sie ___“ und „Das ist eine ___“ verwendet. Die freien Strukturstellen gehören entweder zu einem Subjekt oder einem Prädikat. Bei den lautlichen Gebilden, die an den genannten Strukturstellen platziert wurden, handelte es sich entweder tatsächlich um entsprechende Wortformen des Deutschen oder um Kunstwörter. Sie waren jeweils ein- oder zweisilbig, wobei die Akzentsilbe immer die erste Silbe des (Kunst-)Wortes war. Auf diese Weise konnte die Ausprägung der F0Gipfel zu jedem der drei Zeichen unter völlig parallelen Bedingungen betrachtet werden. Diese Bedingungen umfassten die Struktur der Akzentsilbe (Anzahl und Eigenschaften der Segmente und Kopf, Kern und Koda, vgl. hierzu das Konstituentenmodell der Silbe bei Wiese 1988) und die Anzahl der Silben bis zum Satz- bzw. Phrasenende (0-1). Die Einbettung der Akzentsilbe in den beschriebenen grammatischen Rahmen _____________ 12
Die nukleare Akzentsilbe repräsentiert die letzte Akzentsilbe der Phrase. Die Differenzierung zwischen nuklearen und pränuklearen Akzenten stammt aus der Theorie der britischen Intonationsschule, in der die nuklearen Akzentsilben bzw. die an sie gekoppelten Sprechmelodien eine phonetische und funktionale Sonderstellung einnehmen, vgl. z.B. Kingdon (1958).
66 66
Einleitung Erkenntnisse und Hypothesen
sollte eine eindeutige und konsistente Akzentuierung bei der Produktion der Sätze gewährleisten (vgl. Kohler 1995). Gartenberg und Panzlaff-Reuter finden für die F0-Gipfel der Zeichentriade, dass sich ihre Verlaufseigenschaften unter den variierten Bedingungen deutlich verändern. Bezüglich des Zeichens NEU können die wesentlichen Aspekte dieser Veränderungen vom Einsatz des Akzentvokals aus betrachtet durch drei Punkte umrissen werden: Bei konstanter Silbenzahl bis zur Phrasengrenze verschoben kleinere Dauern des akzentuierten Vokals das Maximum des F0-Gipfels, das immer im Vokal gefunden wurde, zur initialen Vokalgrenze hin. Diese Linksverschiebung war unabhängig davon, ob die kleineren Dauern auf phonologische Quantität oder Unterschiede im Öffnungsgrad zurückgehen. Das Vorhandensein einer unakzentuierten Silbe nach der Akzentsilbe wirkte unter konstanten segmentellen Bedingungen in die entgegengesetzte Richtung. Das heißt, das F0-Maximum des Zeichens NEU folgte in größerem Abstand auf den Einsatz des Akzentvokals und verlagerte sich dabei gleichzeitig zum Vokalende hin. Die Frequenzwerte der drei Eckpunkte F0-Gipfels, Anstiegsbeginn, Gipfelmaximum und Abstiegsende, blieben dabei weitgehend unverändert. Letztlich deutet sich durch die bei Gartenberg und Panzlaff-Reuter skizzierten F0-Konturen an, dass der Beginn des Anstiegs zum F0-Gipfel immer eng mit dem Beginn der Akzentsilbe koordiniert war. Die zuvor beschriebenen Verschiebungen des F0-Maximums führten daher zu einer variablen Anstiegsdauer bzw. neigung. Die drei genannten Punkte sind in Abbildung 11 anhand zweier Darstellungen des F0-Verlaufs des sprechmelodischen Zeichens NEU in den Sätzen „Sie macht“ und „Sie machen“ illustriert. Die Darstellung wurde modifiziert von Gartenberg und Panzlaff-Reuter (1991) übernommen. Die beiden Äußerungen wurden vom männlichen Sprecher kk produziert. Den Angaben von Gartenberg und Panzlaff-Reuter zufolge liegt das F0-Maximum für die Äußerung „Sie macht“, gemittelt über mehrere Produktionen des Sprechers kk, durchschnittlich 63ms vom Vokalbeginn entfernt. Das heißt, der Anstieg endet nach 42% der durchschnittlichen Vokaldauer. Im Falle der Äußerung „Sie machen“ ist das F0-Maximum etwa um die Hälfte weiter vom Einsatz des Akzentvokals entfernt (89ms) und endet, da der Vokal zudem kürzer ist, erst nach 78% der durchschnittlichen Vokaldauer. Für andere Sprecher finden sich leicht andere, aber insgesamt ähnliche Werte.
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
67 67
Abbildung 11: Oszillogramm (oben) und F0-Verlauf (unten) der Äußerungen „Sie macht“ (links) und „Sie machen“ (rechts) mit dem F0-Verlauf eines mittleren Gipfels, produziert vom Sprecher kk. Vertikale Linien markieren die Grenzen des Vokals der Akzentsilbe „ma-“. Die Darstellungen wurden modifiziert entnommen aus Gartenberg und Panzlaff-Reuter (1991).
Was das Zeichen UNERWARTET anlangt, so zeigten die Realisierungen der dazugehörigen F0-Gipfel wie im Falle des Zeichens NEU eine sehr variable Positionierung des Gipfelmaximums. Auch die Wirkungsweise der untersuchten Einflussfaktoren auf die Position des F0-Maximums erwies sich als ähnlich. Entsprechend wurde das Gipfelmaximum, das in innervokalischer Position am dichtesten auf den Akzentvokalbeginn folgte, wie beim Zeichen NEU unter der Bedingung einer phrasenfinalen Akzentsilbe mit kurzer Vokaldauer gefunden. In diesen Fällen wurde das F0-Maximum im letzten Drittel des Vokals produziert. Folgte eine unakzentuierte Silbe zwischen der Akzentsilbe und der Phrasengrenze, entfernte sich das F0-Maximum vom Vokalbeginn und wurde über die Grenze der akzentuierten Silbe hinaus in die nächste Silbe geschoben (eine Abbildung hierzu findet sich bei Gartenberg und Panzlaff-Reuter 1991:37). Anders als im Falle des Zeichens NEU zeigt sich für die Ausprägung der F0-Gipfel des Zeichens UNERWARTET zudem ein Einfluss der Struktur der Akzentsilbe. So wurde das Gipfelmaximum für stimmhafte Segmente in der Silbenkoda in größerer Distanz zum Beginn des Akzentvokals produziert, zumeist in der stimmhaften Silbenkoda selbst. Als weiteren Unterschied zu den F0-Verläufen des Zeichens NEU haben Gartenberg und Panzlaff-Reuter in den F0-Verläufen des Zeichens UNERWARTET auch eine systematische Verschiebung des Anstiegs zum F0-Gipfel festgestellt. Dabei verschob sich der Beginn des Anstiegs parallel zur Lage des Gipfelmaximums, jedoch in geringerem zeitlichem Umfang. Im Rahmen dieser Verschiebung befand sich der Anstiegsbeginn zudem nicht wie im Falle des Zeichens NEU im Bereich des Beginns der Akzentsilbe. Vielmehr war der Anstiegsbeginn immer nach dem Einsatz des
68 68
Einleitung Erkenntnisse und Hypothesen
Akzentvokals (also in innervokalischer Position) zu finden. Bei einer Verschiebung des Anstiegsbeginns (und F0-Maximums) zu einem späteren Zeitpunkt relativ zum Einsatz des Akzentvokals blieb der F0-Wertebereich vor dem Anstieg auf einem gleichbleibend tiefem Niveau, wodurch ein verschieden langes „pre-peak plain“ in den Akzentvokal hinein gebildet wurde (Gartenberg und Panzlaff-Reuter 1991:38; vgl. auch den rechtsliegenden Sprechmelodiegipfel in Abb. 3). Die Frequenzwerte der Anstiegsflanke wurden durch die beschriebenen Verschiebungen nicht beeinflusst. Der Frequenzumfang des Anstiegs fiel insgesamt größer aus als in Verbindung mit dem Zeichen NEU (vgl. auch hierzu Abb. 3). Im Zusammenhang mit dem Zeichen GEGEBEN berichten Gartenberg und Panzlaff-Reuter, dass das F0-Maximum der diesem Zeichen zugeordneten Gipfel in seiner Positionierung deutlich variiert. Dabei wurde es zumeist erst kurz vor dem akzentuierten Vokal erreicht, in vielen Fällen erst im letzten stimmhaften Lautsegment vor dem Vokalbeginn. Aus einer eigenen visuellen Inspektion der dargestellten F0-Konturen (Gartenberg und Panzlaff-Reuter selbst machen zur Ausprägung des Zeichens GEGEBEN keine weiteren Angaben) wird nicht erkennbar, dass die skizzierte Variation des F0-Gipfelmaximums auf einem systematischen Einfluss der beiden Faktoren Vokaldauer und Vorhandensein einer unakzentuierten Silbe vor der Phrasengrenze beruht. Gleiches gilt für den Anstiegsbeginn. Für Letzteren zeigen die Daten von Gartenberg und Panzlaff-Reuter jedoch einen Einfluss der Silbenzahl vor der Akzentsilbe. So erfolgte nur dann ein F0-Anstieg, wenn der Akzentsilbe im Satzrahmen „Das ist eine ___“ mehrere unakzentuierte Silben vorangingen. Realisierungen des Zeichens GEGEBEN im Satzrahmen „Sie ___“ wiesen anstelle eines F0-Anstiegs ein Plateau auf der Höhe des F0-Maximums vor dem Einsetzen des prävokalischen F0-Abstiegs auf. Gegenüber dem F0-Maximum und dem Anstiegsbeginn prägte sich das Ende des Abstiegs vergleichsweise stabil positioniert am Ende des Vokals der Akzentsilbe aus. Die Erkenntnisse von Gartenberg und Panzlaff-Reuter (1991) zur Ausprägung der F0-Gipfel der drei sprechmelodischen Zeichen sind auch in die Modellierung des KIM eingegangen. Bezüglich des Zeichens NEU führt Kohler (1991c:331) zum Beispiel aus, dass der Anstiegsbeginn „at the beginning of the [accented] syllable“ platziert wird, während für das F0-Maximum gilt: „the exact timing after voiced vowel onset depending on vowel quantity, vowel height, number of following unstressed syllables and position in the utterance”. Niebuhr und Ambrazaitis (2006) haben die Positionierung des Anstiegsbeginns und Maximums in F0-Verläufen der beiden Zeichen NEU und UNERWARTET auf der Grundlage der Resultate zu sprechmelodischen Zeichen anderer Sprachen untersucht. Vor diesem Hintergrund beschränkten sie sich auf Zeichen, die in pränuklearen Akzentsilben produ-
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
69 69
ziert wurden, auf die noch weitere Akzentsilben in der gleichen Phrase (mit einem Abstand von mindestens einer unakzentuierten Silbe) folgten und die ebenso wie die umliegenden Silben durchgehend stimmhaft waren. Unter dieser Bedingung beobachten Niebuhr und Ambrazaitis (2006) für die F0-Verläufe des Zeichens NEU ebenfalls, dass sich der Anstiegsbeginn in unmittelbarer Nähe des Akzentsilbenbeginns ausprägte und das F0-Maximum fast ausnahmslos im Vokal der Akzentsilbe positioniert wurde. Das Maximum in den F0-Verläufen des Zeichens UNERWARTET wurde überwiegend nach dem Ende der Akzentsilbe gefunden. In vielen dieser Fälle wurde es auch erst nach dem Vokaleinsatz der darauf folgenden unakzentuierten Silbe produziert, wo es auch bei Gartenberg und Panzlaff-Reuter (1991) lag, wenn eine unakzentuierte Silbe auf die Akzentsilbe folgte. Anders als bei Gartenberg und Panzlaff-Reuter (1991) zeigt sich bei Niebuhr und Ambrazaitis (2006) jedoch, dass der Anstiegsbeginn für das Zeichen UNERWARTET nicht innerhalb der Grenzen des Akzentvokals den Bewegungen des Gipfelmaximums folgte, sondern davon losgelöst an der gleichen silbeninitial-prävokalischen Position produziert wurde wie der Anstiegsbeginn des Zeichens NEU. Der wesentliche Unterschied zwischen den F0-Verläufen beider Zeichen bestand so in der Anstiegsdauer, die für das Zeichen UNERWARTET – bei vergleichbarem Anstiegsumfang – deutlich größer ausfiel als für das Zeichen NEU. Die Anstiegsdauer variierte für beide Zeichen zudem parallel zu den Dauerveränderungen in der darunterliegenden Lautsequenz, die zum Beispiel durch Unterschiede in der Vokalquantität oder in der Anzahl der Konsonanten in der Akzentund Nachakzentsilbe entstanden sind. In den Daten von Niebuhr und Ambrazaitis drückt sich dies aus in Form einer (positiven) Korrelation der Anstiegsdauer mit der Dauer der Akzentsilbe einerseits und mit dem Zeitintervall zwischen Akzentsilbenbeginn und dem Vokalbeginn der nachfolgenden unakzentuierten Silbe andererseits. Das weist darauf hin, dass nicht nur der Anstiegsbeginn, sondern auch das F0-Maximum eine stabile Position zu Segmentgrenzen eingenommen hat, wobei das Maximum für die Zeichen NEU und UNERWARTET an unterschiedlichen Stellen positioniert ist. Zu beachten ist, dass eine stabile Positionierung des F0-Maximums zu bestimmten Punkten in der Lautkette nicht ausschließt, dass es gleichzeitig in unterschiedlicher Entfernung vom Akzentvokalbeginn realisiert wurde. Im Gegenteil geht aus den Daten von Niebuhr und Ambrazaitis zu den beiden Zeichen NEU und UNERWARTET klar hervor, dass eine kleinere/größere Anstiegsdauer auch mit einer kleineren/größeren Distanz zwischen dem F0-Maximum und dem Einsatz des Akzentvokals einherging.
70 70
Einleitung Erkenntnisse und Hypothesen
Insofern sind die von Niebuhr und Ambrazaitis beschriebenen stabilen Positionierungen der F0-Maxima beider Zeichen mit den von Gartenberg und Panzlaff-Reuter (1991) gefundenen Verschiebungen des F0-Maximums nicht inkompatibel, sondern eine Frage der Perspektive. Unklar ist indes, zu welchen Segmentgrenzen die F0-Maxima der Zeichen NEU und UNERWARTET stabil positioniert sind und ob sie diese stabilen Positionen unter allen Bedingungen beibehalten, die von Gartenberg und PanzlaffReuter (1991) untersucht worden sind. Gerade im Überschneidungsbereich zwischen stabilen Positionierungen und kontextsensitiven Verschiebungen ist die Erkenntnisdecke aus verschiedenen Gründen noch sehr dünn. Zu diesen Gründen gehört, dass die Ergebnisse aus beiden Phänomenbereichen durch unterschiedliche segmentelle Referenzen in vielen Fällen nicht aufeinander beziehbar sind und dass stabile Positionierungen bislang kaum für sprechmelodische Kontraste innerhalb einer Sprache untersucht worden sind (Niebuhr und Ambrazaitis 2006 sprechen diesen Problemkreis an). Die akustische Ausprägung der standarddeutschen Zeichentriade GEGEBEN, NEU und UNERWARTET wurde nicht nur vor dem Hintergrund des KIM untersucht. Auch im Rahmen der AM-Phonologie sind hierzu einige Analysen durchgeführt worden. Die wichtigste Analyse stammt von Grabe (1998)13. Hierin ergibt sich für das Zeichen NEU14 in Verbindung _____________ 13
Grabe (1998) gibt die Form des Zeichens NEU in ihrer Arbeit nicht als H*, sondern als H*+L an. Aus ihren Ausführungen wird jedoch deutlich, dass sie den trailing tone L primär aufgrund rhythmischer Erwägungen, vermutlich aber auch in Symmetrie zur Form des Zeichens UNERWARTET, L*+H, in den Tonakzent integriert. Unter diesen Voraussetzungen stellt H*+L weniger ein Komplement, als vielmehr ein Substituent von H* im Inventar sprechmelodischer Zeichen des Standarddeutschen dar und wird hier auch als ein solches behandelt.
14
Wie zu Beginn des dritten Kapitels erläutert, geschieht die Projektion der Ergebnisse der hier vorgestellten akustischen Analysen auf die behandelten Zeichen bzw. auf deren bedeutungsbezogene Nomenklatur mit Hilfe der phonologischen Etiketten, die sich in den akustischen Analysen finden. So wird z.B. davon ausgegangen, dass Befunde, die sich im KIM-Zusammenhang für den ‚späten Gipfel’ ergeben haben, auf das Zeichen UNERWARTET projiziert werden können. Analog dazu werden z.B. auch die Ergebnisse von Grabe (1998), die mit dem Etikett ‚L*+H’ versehen sind, dem Zeichen UNERWARTET zugeordnet. Die Zuordnung bei der Projektion basiert auf der Herleitung der phonologischen Formen für die sprechmelodischen Zeichen. Letztere wurden zuvor unabhängig davon anhand ihrer Phonetik und Bedeutung umrissen (vgl. Kap. 2). Bei der beschriebenen Projektion wird angenommen, dass sich hinter einem phonologischen Etikett (a) das gesuchte Zeichen und (b) immer das gleiche Zeichen verbirgt. Beide Annahmen sind sicherlich nicht immer zutreffend, sodass zu einem geringen Teil auch fehlerhafte Projektionen in die Darstellung der Ergebnisse und die daraus abgeleitete Diskussion der Zeichenformen eingehen. In diesem Zusammenhang erscheint die Projektion der KIM-Etiketten auf die sprechmelodischen Zeichen grundsätzlich treffsicherer, da hier die Etikettierung –
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
71 71
mit Nuklearakzentsilben im Vergleich zu den nuklearen F0-Gipfeln bei Gartenberg und Panzlaff-Reuter (1991) ein überwiegend ähnliches Bild vom komplexen Einfluss des Kontextes auf die Positionierung des Anstiegsbeginns und F0-Gipfelmaximums. Der einzige markante Unterschied zu den Beobachtungen im KIM-Zusammenhang besteht darin, dass Grabe einen breiteren Rahmen angibt, in dem das F0-Maximum kontextbedingt variierte. Dieser erstreckte sich von einer Position vor dem Einsatz des Akzentvokals bis zum Beginn der nachfolgenden unakzentuierten Silbe, während sich zum Beispiel bei Gartenberg und PanzlaffReuter (1991) das F0-Maximum lediglich innerhalb der Grenzen des Akzentvokals verlagert hat. Was das Zeichen UNERWARTET (in Verbindung mit pränuklearen Akzentsilben) anlangt, so hat Grabe (1998) den Anstiegsbeginn anders als Gartenberg und Panzlaff-Reuter (1991) nicht im Akzentvokal ausgemacht, sondern ähnlich wie im Falle der pränuklearen F0-Gipfel bei Niebuhr und Ambrazaitis (2006) meist am Akzentsilbenbeginn gefunden (tendenziell sogar eher weiter davor). Allerdings bemerkt Grabe (1998) für die Realisierungen des Zeichens UNERWARTET gegenüber denen des Zeichens NEU eine deutlich größere Streuung der beiden F0-Gipfelpunkte. Niebuhr und Ambrazaitis (2006) haben dies bei einer Gegenüberstellung der F0Verläufe beider Zeichen ebenfalls festgestellt. Auch wenn die Perspektive über die standarddeutschen Zeichen NEU und UNERWARTET hinaus auf phonetisch ähnliche Zeichen anderer sprachlicher Varietäten des Deutschen oder gänzlich anderer Sprachen erweitert wird (die zum Teil aber vergleichbare Bedeutungen wie die standarddeutschen Zeichen haben), bleibt das entstandene Bild zur Ausprägung der F0-Gipfel ähnlich (vgl. Peters 1999 zu regionalen Varietäten des Deutschen; Steele 1986, Silverman 1987, Silverman und Pierrehumbert 1990 sowie van Santen und Hirschberg 1994 zum amerikanischen Englisch; Prieto et al. 1995 und Llisterri et al. 1995 für Varietäten des Spanischen; Gili Fivela und Savino 2003 zu Varietäten des Italienischen; House _____________ die Bedeutung im Auge behaltend – von geschulten Hörern auf Basis der Perzeption vorgenommen wurde und sich somit direkt am rechtsliegenden, zentralen und linksliegenden Sprechmelodiegipfel orientiert hat. Im AM-Rahmen hingegen kommen für die Etikettierung unterschiedliche Kriterien zur Anwendung (vgl. hierzu die Kritik von Atterer und Ladd 2004). Im speziellen Fall von Grabe (1998) kam die Etikettierung jedoch in ähnlicher Weise wie im KIM-Rahmen zustande und ist daher ähnlich treffsicher auf die sprechmelodischen Zeichen projizierbar. Grabe hat ihre Etiketten ‚H*+L’ und ‚L*+H’ perzeptorisch interpretiert vergeben und falsche Fälle manuell aussortiert. Zudem wurden die Äußerungen zur besseren Kontrolle der Bedeutung in einen Kontext eingebettet produziert. Im übrigen ist die perzeptorische Etikettierung Voraussetzung dafür, dass die hiermit gewonnenen Ergebnisse anschließend zur Evaluierung der Zeichenformen herangezogen werden können, ohne zirkulär zu argumentieren.
72 72
Einleitung Erkenntnisse und Hypothesen
1989, Ladd et al. 1999 und Wichmann et al. 2000 zum britischen Englisch; Caspers und van Heuven 1993 sowie Ladd et al. 2000 zum Holländischen, Arvaniti et al. 1998 zum Griechischen, Bruce 1990 zum Schwedischen und Igarashi 2004 zum Russischen). Der Beginn des Anstiegs zu den entsprechenden F0-Gipfeln ist eng mit dem Beginn der Akzentsilbe koordiniert, während das F0-Maximum in seiner Position sehr viel stärker variiert. Dabei wirken sich die untersuchten Einflussfaktoren immer in gleicher Weise auf die Verschiebung des F0-Maximums aus. Auch wenn diese Verschiebungen zum Teil von unterschiedlichen Segmentgrenzen aus betrachtet worden sind, so sprechen die übereinstimmenden Befunde dennoch dafür, dass in den betreffenden Fällen die gleichen Phänomene beobachtet worden sind. Unter bestimmten Bedingungen kann bei der Variation des F0-Maximums eine stabile Positionierung zu Segmentgrenzen ausgemacht werden. Zu diesen Bedingungen zählt, dass keine Phrasengrenze oder weitere Akzentsilbe dicht auf die Akzentsilbe folgt, die mit dem untersuchten F0-Gipfel verbunden ist. In diesem Fall ist die Variabilität des F0-Maximums in sprachlichen Unterschieden zu suchen, zum Beispiel in welcher Entfernung es stabil zur Segmentgrenze positioniert ist oder an welcher Segmentgrenze es ausgerichtet ist Ladd et al. (1999:1544) gehen angesichts der skizzierten Parallelen davon aus „that similar principles govern the alignment of F0 movements with the segmental string in all languages“. 3.2.2 Implikation für einen Einfluss von Dauer und Intensität Das zuvor gegebene Zitat wirft zwei fundamentale Fragen auf. Erstens, welche Prinzipien sind es, die das alignment und damit die Ausprägung der F0-Verläufe sprechmelodischer Zeichen vorgeben? Und zweitens, wodurch sind diese Prinzipien motiviert? Die zweite Frage ist leichter zu beantworten als die erste. Die beobachteten akustischen Phänomene stehen in einem sprachlichen Zusammenhang. Insofern kann davon ausgegangen werden, dass in den Prinzipien die Signalisierung bzw. die Kodierung sprechmelodischer Zeichen (und damit indirekt auch die Zeichenform) zum Ausdruck kommt. Gestützt wird dies durch Untersuchungen von Gartenberg und Panzlaff-Reuter (1991) sowie von Rietveld und Gussenhoven (1995), die bislang allerdings nur punktuelle Einblicke in die Zusammenhänge zwischen Akustik und Perzeption liefern. Sie zeigen, dass sich die perzeptorische Grenze zweier sprechmelodischer Zeichen parallel zur produzierten Position des F0-Gipfels bzw. des Gipfelmaximums verschiebt. Die Schilderungen informeller Perzeptionsexperimente bei Prieto et al. (1995), die auf einem sprechmelodischen Zeichen in der mexikanischen Varietät des Spanischen basieren, das in seiner Phonetik dem standarddeutschen NEU ähnelt, lassen auf ähnliche Beobachtungen schlie-
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
73 73
ßen. Kohler (1990:115) vertritt ebenfalls die Auffassung, dass „changes in the F0 contour [...] have to take place to guarantee the identity of a linguistic [...] intonation pattern across different segmental strings”. Bezüglich der ersten Frage entsteht aus der von Ladd et al. betriebenen autosegmentell-metrischen Forschung und einem Forschungsüberblick, den Ladd (2003) hierzu gibt, der Eindruck eines Standpunktes, der wie folgt umrissen werden kann: Sprechmelodische Zeichen (in erster Linie Tonakzente) sind dadurch gekennzeichnet, dass signifikante Punkte des F0-Verlaufs, wie zum Beispiel der Anstiegsbeginn zu einem F0-Maximum und das F0-Maximum selbst, eine feste Verbindung mit bestimmten signifikanten Punkten des lautlichen Kanals, insbesondere Segmentgrenzen, eingehen. Diese Verbindung wird als segmental anchoring bezeichnet. Ein segmental anchoring wird solange aufrechterhalten, wie keine time pressureEffekte auf die Zieltöne einwirken. Solche Effekte entstehen dadurch, dass weitere Zieltöne in unmittelbarer Nähe der untersuchten Töne realisiert werden müssen, sodass die damit einhergehenden phonetischen Anforderungen die Grenze der physiologischen F0-Dynamik erreichen bzw. überschreiten (vgl. Caspers und van Heuven 1993).15 Der umrissene Standpunkt hat zwei grundsätzliche Probleme: Erstens kann das Gesamtbild der Verschiebungen nicht durch time pressure-Effekte allein entstehen. Auf den ersten Blick erscheinen tatsächlich viele beobachtete Verschiebungseffekte auf time pressure zurückführbar, so zum Beispiel die in Abbildung 11 illustrierte Vorverlagerung des F0-Maximums in Richtung des Akzentvokalbeginns im Falle einer bevorstehenden Phrasengrenze (der F0-Verlauf vor der Phrasengrenze beherbergt im AM-Rahmen noch die Phrasen- und Grenztöne und ist auch im KIM-Rahmen phonologisch relevant). Andererseits ist im Hinblick auf Abbildung 11 auch die Frage zu stellen, warum die auf der linken Seite dargestellte F0-Kontur (d.h. die genannte Vorverlagerung des F0-Maximums) nicht auch bei einer weiter entfernten Phrasengrenze beibehalten wird, da sie doch zur Signali_____________ 15
Eine alternative Argumentationslinie wird von Xu (1998) verfolgt. Sie basiert darauf, dass die muskulären Aktivitäten im gesamten menschlichen Bewegungsapparat nicht beliebig koordiniert werden können (siehe auch coordination constraints bei Xu 2004b). So erklärt Xu z.B. eine stabile Lage von Punkten des F0-Verlaufs zu bestimmten Segmentgrenzen über Beschränkungen in der Koordination der laryngalen (melodischen) Muskulatur mit der supralaryngalen (lautlichen) Muskulatur. Die Schwachpunkte einer solchen artikulationsbezogenen Argumentation liegen unter anderem darin, dass die in der Lautkette verankerten F0-Punkte nicht immer mit Segmentgrenzen koinzidieren, sondern nur eine relative Position zu diesen Grenzen einhalten. Darüber hinaus gibt es über Untersuchungen sowie über Dialekte und Sprachen hinweg betrachtet deutliche Variationen in der Positionierung der betreffenden F0-Punkte, die mit Koordinationsbeschränkungen nicht beschreibbar sind. Dennoch können coordination constraints in dem Gesamtbild der alignment und anchoringPhänomene durchaus eine Rolle spielen.
74 74
Einleitung Erkenntnisse und Hypothesen
sierung des Zeichens NEU geeignet ist. Des weiteren bleibt vor dem Hintergrund von time pressure offen, warum die beobachteten Abweichungen von einer stabilen Verankerung vor allem das F0-Maximum betreffen, während zum Beispiel der Anstiegsbeginn zum Maximum weit weniger sensitiv auf benachbarte Töne oder andersartige phonologisch relevante Ereignisse zu reagieren scheint. Auch wenn time pressure durch eine Vorverlagerung des F0-Maximums an den Anstiegsbeginn weitergegeben wird, zieht dies oft keine parallele Verschiebung desselben nach sich. Ferner ist durch time pressure nicht immer begründbar, warum Veränderungen in der Silbenstruktur, zum Beispiel in Form des Austauschs stimmhafter und stimmloser Segmente in der Silbenkoda, bei der die Dauerstruktur im wesentlichen erhalten bleibt, einen deutlichen Einfluss auf die Position des F0-Maximums haben. Das zweite grundsätzliche Problem besteht darin, dass time pressure vor dem Hintergrund des segmental anchoring eigentlich irrelevant sein sollte. Wenn Verschiebungseffekte durch time pressure verursacht werden, würde dies nämlich bedeuten, dass die vermeintlich phonologisch relevante Eigenschaft – die Verankerungsposition – zugunsten einer anderen Eigenschaft aufgegeben wird. Ladd et al. (2000) ziehen beispielsweise in Betracht, dass in ihren holländischen Daten die Verankerungsposition des F0-Maximums zugunsten eines gleichbleibenden Anstiegsumfangs aufgegeben wurde. Somit ist die Frage der Prinzipien, nach denen sich die F0-Verläufe ausprägen, weiterhin nicht vollständig geklärt. Die Diskussion des zuvor präsentierten Standpunktes von Ladd et al. macht jedoch deutlich, dass hinter Phänomenen der Verankerung und Verschiebung von Punkten des F0-Verlaufs mehr steht als per Konvention determinierte segmentelle Anker und physiologisch bedingte Abweichungen von diesen Ankerpunkten. Von einem perzeptorischen Blickwinkel aus betrachtet, sollte bei der Beantwortung der aufgeworfenen Frage stärker berücksichtigt werden, dass sich in den Verankerungs- und Verschiebungsphänomenen die Signalisierung der sprechmelodischen Zeichen reflektiert. In diesem Zusammenhang fällt der Blick zunächst auf die Gipfelgestalt, die von den Verankerungs- und Verschiebungsphänomenen unmittelbar betroffen ist und von der bekannt ist, dass sie grundsätzlich in die Erkennung der behandelten standarddeutschen Zeichen involviert ist. Nolan und Farrar (1999) zum Beispiel stellen eine solche Verbindung zwischen kontextsensitivem alignment und der Gipfelgestalt für das britische Englisch her, indem sie erwägen, dass das spätere Erreichen des F0-Maximums eines hohen Zieltons unter der Bedingung einer vorangehenden Phrasengrenze dem Beibehalten eines flachen Anstiegs dient, der ihrer Ansicht nach wichtig für die Wahrnehmung des betreffenden sprechmelo-
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
75 75
dischen Zeichens ist. Die für die Zeichentriade des Standarddeutschen gefundenen Ausprägungen des F0-Gipfels lassen allerdings nicht auf die Herstellung zeichenspezifischer Gipfelgestalten schließen. Vielmehr kristallisieren sich sehr variable Gipfelgestalten für jedes der drei sprechmelodischen Zeichen heraus. Insofern kann keine direkte Verbindung zwischen den Verankerungs- und Verschiebungsphänomenen und der Gipfelgestalt hergestellt werden. Die Tatsache, dass die Gipfelgestalt durch die Verankerungs- und Verschiebungsphänomene tangiert wird, erlaubt nicht den Umkehrschluss, dass sie auch für diese Phänomene verantwortlich ist. Wie vor diesem Hintergrund der Einfluss der Gipfelgestalt auf die Wahrnehmung der Zeichen verstanden werden kann und wie die Gipfelgestalt und die Verankerungs- und Verschiebungsphänomene dennoch indirekt zusammenhängen, wird in Abschnitt 6.6 im Teil B der Arbeit erläutert, nachdem durch die eigenen Untersuchungen ein umfassenderer empirischer Hintergrund geschaffen und der Ansatz einer Theorie zur Wahrnehmung der Sprechmelodie dargestellt wurde. Eine andere Möglichkeit, die Verankerungs- und Verschiebungsphänomene zu interpretieren, ist, dass der F0-Verlauf mit bestimmten Eigenschaften koordiniert wird, die den darunterliegenden Laut bzw. die darunterliegende Lautkette kennzeichnen und die für die Signalisierung der sprechmelodischen Zeichen erforderlich sind oder diese – im Sinne des Redundanzprinzips im Sprachkode – zumindest unterstützen. Naheliegend sind unter diesem Gesichtspunkt die Eigenschaften der Dauer und Intensität. Im Folgenden soll diese Vermutung untermauert werden, indem einerseits Berichte zur perzeptorischen Relevanz von Dauer und Intensität für die Wahrnehmung der sprechmelodischer Zeichen und andererseits Beobachtungen zur akustischen Interaktion des F0-Verlaufs mit Dauer und Intensität vorgestellt werden. Hinsichtlich der Intensität bemerkt Kohler (1991c, d) auf der Basis seines eigenen Wahrnehmungseindrucks, dass eine F0-Gipfelverschiebung in der Äußerung „Er ist ja geritten“ (mit „-rit-“ als einziger Akzentsilbe der Äußerung) zwar einen Wechsel vom Zeichen GEGEBEN zum Zeichen NEU zur Folge hatte, dass jedoch selbst bei einer Verschiebung des F0Maximums in den Nasal [n] der folgenden Silbe kein weiterer Wechsel von NEU zu UNERWARTET eintrat. Kohler knüpft den Ausgang dieser Gipfelverschiebung an die Beobachtung unterschiedlicher Intensitätsverläufe für die drei sprechmelodischen Zeichen: Im Vergleich zu natürlichen Produktionen von „Er ist ja geritten“ mit den Zeichen GEGEBEN und NEU (über der Akzentsilbe „rit-“) fand sich in Verbindung mit dem Zeichen UNERWARTET ein besonders hohes Intensitätsniveau im äußerungsfinalen silbischen Nasal [n], in dem auch das F0-Gipfelmaximum produziert wurde. Demgegenüber erfuhr die Intensität im vorangehenden akzentuierten
76 76
Einleitung Erkenntnisse und Hypothesen
Vokal, der größtenteils mit einem tief liegenden F0-Plateau realisiert wurde, eine Absenkung. Kohler schließt in diesem Zusammenhang auf einen perzeptorisch relevanten „natural parallelism“ (Kohler 1991c:144) zwischen der für das jeweilige sprechmelodische Zeichen gegebenen (typischen) F0-Gipfelposition (vgl. Abb. 3) und dem Intensitätsverlauf im akustischen Signal. Da die zuvor genannte F0-Gipfelverschiebung von einer Äußerung ausging, die mit den Zeichen NEU produziert wurde, waren die Intensitätsverhältnisse zwar angemessen für eine Wahrnehmungsveränderung von GEGEBEN zu NEU, jedoch nicht von NEU zu UNERWARTET. Silverman und Pierrehumbert (1990) zeigen auf der Grundlage ihrer akustischen Analyse eines sprechmelodischen Zeichens im amerikanischen Englisch, das dem Zeichen NEU des Standarddeutschen in seiner Phonetik und Bedeutung ähnlich ist, die Möglichkeit auf, dass die gefundenen Variationen im alignment des F0-Maximums an das Sonoritätsprofil der Akzentsilbe gebunden sein könnten. Dabei nimmt das F0-Maximum eine bestimmte Lage relativ zur Position des Sonoritätsmaximums innerhalb der Akzentsilbe ein. In diesem Zusammenhang muss der Begriff der Sonorität kurz erläutert werden: Ladefoged (1975:219) definiert die Sonorität eines Segmentes beispielsweise als „its loudness relative to that of other sounds with the same length, stress, and pitch”. Goldsmith (1990:100f) sieht in der Sonorität entweder ein „ranking on a scale that reflects the degree of openness of the vocal apparatus during speech production” oder – ähnlich wie bei Ladefoged zuvor – „the relative amount of energy produced during the sound”. Die genannten Definitionsansätze vermitteln einen Eindruck davon, dass es, im Gegensatz zur Signalintensität, sehr unterschiedliche Auslegungen des Sonoritätskonzeptes gibt. Vielen von ihnen ist im Kern gemeinsam, dass es sich um ein relatives Lautheitsmaß für Lautsegmente handelt, das jedoch nicht kontinuierlich, sondern durch seine Projekten auf phonetische Merkmale bestimmter Segmentklassen diskret skaliert ist. Entscheidend für die Beurteilung der Sonorität ist also nicht die im Einzelfall wahrgenommene Lautheit eines bestimmten Segmentes, sondern die Lautheit, die dieses Segment durch seine Zugehörigkeit zu einer Segmentklasse prinzipiell von den Segmenten anderer Klassen unterscheidet. An dieser Stelle dringen phonologische Aspekte in das Konzept der Sonorität ein (vgl. Laver 1994). Die Sonorität bei Silverman und Pierrehumbert (1990) weicht von diesem gemeinsamen Kern in verschiedenen Punkten ab. Erstens geht sowohl aus ihrer graphischen Darstellung als auch aus ihrer dazugehörigen Argumentation hervor, dass sie Sonorität nicht als diskret, sondern als kontinuierlich skaliert auffassen, wodurch sie den Bezug zu bestimmten Segmentklassen aufgeben. Zweitens betrachten sie Sonorität nicht als Eigenschaft eines ganzen Segmentes. Sie gehen vielmehr davon aus, dass sich die Sonorität auch innerhalb eines Segmentes verändern
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
77 77
kann. Die Sonorität bei Silverman und Pierrehumbert betont demnach den psychophonetischen Charakter des Konzeptes, ohne die phonologischen Aspekte mit einzubeziehen. Ihr Sonoritätsprofil kommt somit dem Lautheitsverlauf über einer Silbe sehr nahe und das Sonoritätsmaximum dem Lautheitsmaximum dieser Silbe. Da die Intensität die wichtigste akustische Bezugsgröße für die wahrgenommene Lautheit ist, nehmen Silverman und Pierrehumbert somit indirekt eine Verbindung zwischen dem Intensitätsverlauf – genauer dem Intensitätsmaximum – und dem F0Maximum an. Diese Annahme geht in die gleiche Richtung wie der von Kohler (1991c:144) postulierte „natural parallelism“ zwischen F0- und Intensitätsverlauf. Angesichts des möglichen Zusammenwirkens von F0 und Intensität fallen die unterschiedlichen Verläufe der Hüllkurve der Wellenformen (d.h. die Veränderungen über die Maximal- oder Minimalwerte des Signals) in den beiden Äußerungen aus Abbildung 11 auf. Die Hüllkurve gibt in etwa den Intensitätsverlauf des Signals wieder. Wie zu erkennen ist, prägt sich die Hüllkurve in beiden Äußerungen so aus, dass der Bereich der größten Signalamplituden innerhalb des Akzentvokals [a] jeweils im Bereich der (recht breit ausgeprägten) Gipfelspitze des F0-Gipfel (des Zeichens NEU) liegt. Dies passt in die Vorstellungen von Kohler (1991c) sowie von Silverman und Pierrehumbert (1990) zur Interaktion beider Größen. Im Zusammenhang mit der Dauer in lautlichen Elementen bemerkt Kohler (1991c) erneut auf der Grundlage seiner natürlichen Produktionen der Äußerung „Er ist ja geritten“, dass der äußerungsfinale Nasal in Verbindung mit dem Zeichen UNERWARTET eine deutlich größere Dauer aufweist als mit dem Zeichen NEU. Im Rahmen seiner eigenen Beurteilung misst Kohler auch diesem Phänomen eine perzeptorische Relevanz für die Wahrnehmung beider Zeichen bei. Gartenberg und Panzlaff-Reuter (1991) bemerken in ihren Untersuchungen zur akustischen Ausprägung der drei Zeichen GEGEBEN, NEU und UNERWARTET einen Zusammenhang zwischen der Lage des F0-Gipfels des Zeichens UNERWARTET und der Dauer des akzentuierten Vokals. Je dichter das F0-Maximum des Gipfels durch Einflüsse der Silbenstruktur und der äußerungsfinalen Phrasengrenze an den Beginn des Akzentvokals heranrückte, desto größer wurde die gemessene Dauer des akzentuierten Vokals. So war der Vokal unter der Bedingung einer phrasenfinalen Akzentsilbe mit stimmloser Koda, bei der das F0-Maximum des Zeichens UNERWARTET den geringsten Abstand zum Vokaleinsatz zeigte, um zirka 80% (bzw. 100ms) länger als ein Vokal, der unter gleichen Bedingungen in Verbindung mit dem Zeichen NEU produziert wurde. Folgte eine unakzentuierte Silbe vor der Phrasengrenze, war das F0-Maximum des Zeichens UNERWARTET im größerem
78 78
Einleitung Erkenntnisse und Hypothesen
Abstand vom Beginn des Akzentvokals positioniert und der Dauerunterschied zu einem Akzentvokal, der mit dem Zeichen NEU im ansonsten gleichen Kontext stand, sank auf zirka 30%. Die vorgegangenen Ausführungen sind deutliche Hinweise darauf, dass Dauer und Intensität in lautlichen Elementen in die Signalisierung sprechmelodischer Zeichen wie die im Rahmen dieser Arbeit behandelte standarddeutsche Zeichentriade involviert sind. Insofern macht es Sinn anzunehmen, dass die im Zusammenhang mit der Ausprägung der F0Gipfel gefundenen Verankerungs- und Verschiebungsphänomene unter anderem dadurch zustande kommen, dass der F0-Verlauf mit Dauerstrukturen und Intensitätsverläufen koordiniert wird, die zunächst einmal unabhängig vom melodischen Kanal im Lautsyntagma durch die phonetische Ausprägung der einzelnen Segmente angelegt sind. Darüber hinaus weisen die vorangegangenen Ausführungen aber auch darauf hin, dass nicht nur gegebene Strukturen und Verläufe ausgenutzt, sondern auch in Abhängigkeit von dem zu signalisierenden sprechmelodischen Zeichen modifiziert werden. Vorausgesetzt, letzteres trifft zu, dann sind – da Sprechmelodie in sprachlichen Äußerungen immer präsent ist – die Dauerstrukturen und Intensitätsverläufe im Lautsyntagma zu keiner Zeit allein durch den lautlichen Kanal bestimmt, sondern immer auch Gegenstand einer melodischen Steuerung (diese Perspektive geht über die einer punktuellen Beeinflussung der Dauer und Intensität von Lautsegmenten durch Akzent im Sinne des KIM hinaus, vgl. 1.2.3). Um dies zum Ausdruck zu bringen, wird nicht von der Dauer und Intensität der Lautsegmente, sondern von der Dauer und Intensität in Lautsegmenten gesprochen. 3.2.3 Evaluierung der Zeichenformen angesichts der Erkenntnisse zur Ausprägung der F0-Gipfel Die standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET zeigen ebenso wie phonetisch und formal verwandte Zeichen aus anderen Sprachen eine komplexe kontextsensitive Ausprägung ihrer F0-Gipfel. Dabei sind nicht alle Aspekte dieser Ausprägung durch die Zeichenformalternativen des frühen, mittleren und späten Gipfels bzw. H+L*, H* und L*+H abgedeckt. Um mit den Zeichenformen der AM-Phonologie zu beginnen, besagt die Form des Zeichens NEU, H*, beispielsweise, dass ein phonologisch hoher Ton mit der akzentuierten Silbe assoziiert ist. In der akustischen Ausprägung äußert sich das definitionsgemäß dadurch, dass ein F0-Maximum innerhalb dieser Silbe auftritt. Wenn dies für den Hörer ausschlaggebend zur Erkennung des Zeichens NEU bzw. zur Abgrenzung dieses Zeichens gegenüber GEGEBEN und UNERWARTET sein soll, dann dürfen
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
79 79
die beiden folgenden Dinge nicht auftreten: Das F0-Maximum befindet sich außerhalb der Akzentsilbe, und es liegt mit dem Anstiegsbeginn ein weiterer phonologischer Ton innerhalb dieser Silbe vor. In den Befunden zu dem standarddeutschen Zeichen NEU bzw. zu einem in seiner Phonetik und Bedeutung verwandten Zeichen des amerikanischen Englisch wurde jedoch Beides – oft sogar in Kombination – gefunden. In vielen der untersuchten Akzentsilben trat das Maximum in den F0-Gipfeln des Zeichens nach der Akzentsilbe auf. Gleichzeitig befand sich ein F0-Minimum am Beginn bzw. innerhalb der Akzentsilbe. Derartige F0-Ausprägungen sind eigentlich der Zeichenform L*+H vorbehalten, die im Standarddeutschen das Zeichen UNERWARTET kodieren soll. Des weiteren wurde für das Zeichen GEGEBEN gefunden, dass sich sowohl das Gipfelmaximum als auch das Ende des Abstiegs vom F0-Gipfel meist auf der Akzentsilbe ausprägen. Da diese beiden Punkte des F0Verlaufs die Komponenten H und L des Tonakzentes H+L* bilden, ist eine solche Ausprägung mit der Vorgabe durch die Zeichenform ebenfalls nicht vereinbar. Daneben sieht die AM-Phonologie vor, dass der leading tone H in der Zeichenform H+L* in einer fixen zeitlichen Distanz zum tonalen Schwerpunkt L* positioniert wird. Auch hiermit stimmen die akustischen Daten nicht überein. Vielmehr erwies sich die Position des zu H gehörigen F0-Maximums als recht variabel, während L* in Form des Abstiegsendes nahezu invariant am Ausgang des Akzentvokals lag. Ähnlich verhält es sich mit dem Zeichen UNERWARTET. Auch hierfür wird ein stabiles Intervall zwischen L* und dem trailing tone H in L*+H gefordert. Tatsächlich hat sich jedoch für dieses Zeichen herausgestellt, dass das F0Maximum, das H repräsentiert, in sehr variabler Entfernung zu dem meist dicht am Anfang der Akzentsilbe liegenden Anstiegsbeginn produziert wird, der die L*-Komponente darstellt. Daneben wurden auch Realisierungen beobachtet, in denen sowohl der Anstiegsbeginn als auch das anschließende F0-Gipfelmaximum außerhalb der Akzentsilbe positioniert waren. Eine solche F0-Konfiguration ist mit keiner der AM-basierten Zeichenformen vereinbar und sollte nach diesem phonologischen Modell gar nicht vorkommen, da jeder Tonakzent genau einen phonologischen Ton aufweisen muss, der mit der akzentuierten Silbe assoziiert und somit auch phonetisch darin lokalisiert ist (die Konsequenzen hieraus werden bei Arvaniti et al. 2000 und Ladd 2003 diskutiert). Ein beschrittener Weg, die zuvor beschriebenen Konflikte zwischen den durch die Zeichenform abgesteckten F0-Ausprägungen und den tatsächlich gefundenen Ausprägungen zu lösen, führt über das Konzept der secondary association (siehe Pierrehumbert und Beckman 1988 sowie Gussenhoven 2000). Dieses anhand des Japanischen entwickelte und in abgewan-
80 80
Einleitung Erkenntnisse und Hypothesen
delter Form auf Intonationssprachen wie das Standarddeutsche übertragene Konzept gestattet den gesternten Tönen aus Tonakzenten, neben ihrer primären Assoziation mit der metrisch stärksten Silbe auch sekundäre Assoziationen mit anderen Punkten des lautlichen Kanals auszubilden (z.B. mit Segmenten und Segmentgrenzen aus anderen Silben). In den phonetischen Abbildern sind dann nur diese sekundären Assoziationen beobachtbar. Die Einführung einer secondary association erscheint in zweierlei Hinsicht problematisch. Erstens birgt dieses Konzept die Gefahr, die Grenzen zwischen den Zeichenformen zu verwischen, unter anderem deswegen, weil die Zuweisung von sekundär assoziierten Tönen zu Tonakzenten arbiträr wird. Zweitens führt die secondary association dazu, dass die in der autosegmentell-metrischen Theorie wichtige primäre Assoziation nicht mehr falsifizierbar ist, da jeder empirische Widerspruch zum postulierten primären Assoziationsmuster über die Annahme einer entsprechenden sekundären Assoziation aufgelöst werden kann. Die konturbasierte Phonologie des KIM betrachtet die F0-Gipfel als Einheit, deren zeitliche Positionierung zum Vokalbeginn in der Akzentsilbe phonologisch relevant ist. Dieser Ansatz geht daher mit Details in der Ausprägung des F0-Verlaufs flexibler um als dies im Tonsequenzkonzept, das der AM-Phonologie zugrundeliegt, möglich ist. Entsprechend ist ein weitaus größeres Spektrum der empirischen Befunde mit den Zeichenformen des frühen, mittleren und späten Gipfels in Einklang zu bringen. Dies gilt zum Beispiel für die variablen Zeitintervalle zwischen Anstiegsbeginn und Gipfelmaximum sowie für Beobachtungen, nach denen zwei der drei Gipfelpunkte (Anstiegsbeginn, Maximum, Abstiegsende) innerhalb der Akzentsilbe liegen. Der einzig gravierende Befund aus Sicht des KIM ist der, wonach für F0-Gipfel des Zeichens NEU das Gipfelmaximum vor dem Vokalbeginn gelegen hat. Dass dies für die mittleren Gipfel nicht vorgesehen ist, wurde jedoch bereits vor dem Hintergrund der Erkenntnisse zu Gipfelgestalt kritisiert. Gegenüber der Evaluierung der Zeichenformalternativen im Rahmen der Gipfelgestalt, zeichnet sich somit im Falle der Ausprägung der F0-Gipfel ein leichter Vorteil für die Zeichenformen des KIM ab. Das heißt, die Grenze zum Beginn des Akzentvokals erscheint als eine adäquatere Domäne, um die Verankerungs- und Verschiebungsphänomene in Zeichenformen zu integrieren. Abgesehen von den Details bei der Platzierung der einzelnen Gipfelpunkte, sind es sowohl die Verankerung an sich als auch viele Verschiebungsphänomene, die nach beiden Zeichenformalternativen nicht zu erwarten wären, die hierzu allerdings auch nicht zwangsläufig im Widerspruch stehen. Insbesondere die Koordination und Kovariation mit der Dauer und Intensität in lautlichen Elementen, die hinter diesen Phänomenen vermutet wird, ist in den derzeitigen Zeichenformen nicht repräsen-
Zum Begriff derder Sprechmelodie Ausprägung F0-Gipfel
81 81
tiert. Bevor dies jedoch kritisiert werden kann, muss zuvor erst experimentell überprüft werden, ob die Dauer und Intensität in lautlichen Elementen bei der Signalisierung der (behandelten) sprechmelodischen Zeichen tatsächlich eine Rolle spielt. Hypothesen hierzu werden nachfolgend formuliert. 3.2.4 Weiterführende Hypothesen zur Dauer und Intensität in lautlichen Elementen Es wurden Beobachtungen präsentiert, auf deren Grundlage anzunehmen ist, dass die Dauer- und Intensitätseigenschaften in Elementen des lautlichen Kanals und ihre perzeptorischen Effekte bei der Kodierung der drei Zeichen GEGEBEN, NEU und UNERWARTET eine Rolle spielen. Hinsichtlich der Intensität ist diese Annahme jedoch entweder auf zufällig gewonnenen auditiven Eindrücken basiert, oder sie leitet sich lediglich indirekt aus Befunden zum Verhalten von F0-Verläufen relativ zum lautlichen Kanal ab. In beiden Fällen ist die perzeptorische Relevanz dieser Phänomene experimentell unbelegt. Aus den vorliegenden Erkenntnissen zum Einfluss der internen Zeitstruktur des F0-Gipfels, der Gipfelgestalt, auf die Wahrnehmung der Zeichen (siehe 3.1.1) geht zweifelsfrei hervor, dass Merkmale der Dauer grundsätzlich an der Kodierung der behandelten sprechmelodischen Zeichen beteiligt sind. Doch möglicherweise ist diese Beteiligung weitreichender als bisher angenommen und betrifft neben dem F0-Verlauf auch Elemente des lautlichen Kanals (z.B. Segmente und Silben). Hierfür liegen neben bloßen Anhaltspunkten bereits Befunde aus akustischen Experimenten vor. Allerdings beschränken sich diese auf einzelne sprechmelodische Zeichen und lautliche Elemente. Zweitens steht eine systematische Untersuchung der Relevanz dieser rein akustischen Befunde für die Wahrnehmung der sprechmelodischen Zeichen noch aus. Bislang kann sich eine solche Relevanz nur auf informelle Hörerfahrungen stützen. Dementsprechend unspezifisch lauten die Hypothesen (C) und (D), die auf der Grundlage der lückenhaften und spekulativen Einblicke formuliert werden können: (C) (D)
Die Dauer in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET. Die Intensität in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET.
82 82
Einleitung Erkenntnisse und Hypothesen
Da die Hypothesen (C) und (D) in dieser Form keine konkreten Vorhersagen machen, die experimentell überprüft werden könnten, wird im Rahmen der eigenen Untersuchungen zu diesem Phänomenbereich zunächst eine akustische Analyse durchgeführt, aus der sich weitere Einzelheiten ableiten und in präzisere Hypothesen überführen lassen.
3.3 Einfluss der Gipfelhöhe auf die Wahrnehmung der sprechmelodischen Zeichen 3.3.1 Die Definition der Gipfelhöhe und ihre Abgrenzung zur Gipfelgestalt Im Abschnitt 2.2 wurde die phonetische Seite des Forschungsgegenstandes in Form dreier globaler Tonhöhen- und Lautheitsverläufe dargestellt, die als linksliegender, zentraler und rechtsliegender Sprechmelodiegipfel bezeichnet wurden. Im Licht dieser globalen Perspektive bezieht sich die Gipfelhöhe in dieser Arbeit nicht auf das lokale Tonhöhen- bzw. F0-Maximum des Gipfels, das zum Zweck der Interpretation zum Beispiel in Relation zu dem sprecherindividuellen Stimmumfang oder Durchschnittswerten männlicher und weiblicher Sprecher im allgemeinen betrachtet werden kann. Stattdessen beschreibt die Gipfelhöhe die Auslenkung des Gipfels in Form der Differenzen zwischen dem Gipfelmaximum und den beiden Minima am Anfang des Anstiegs sowie am Ende des Abstiegs. In dieser Definition ist die Gipfelhöhe eine Eigenschaft, die den Gipfel als Ganzes charakterisiert. Eine Variation in der Gipfelhöhe verändert ferner die Gradienten der An- und Abstiegsflanke des F0-Gipfels. Solche Veränderungen kommen auch durch unterschiedliche Gipfelgestalten zustande (vgl. 3.1.1 und Abb. 9). In diesem Parameter überschneiden sich die beiden phonetischen Eigenschaften der Gipfelhöhe und Gipfelgestalt. Abbildung 12 illustriert den Einfluss der Gipfelhöhe auf die Flankenneigungen des Gipfels. Dennoch sind Gipfelhöhe und Gipfelgestalt dadurch konzeptuell voneinander unterschieden, dass die Gipfelgestalt auf die Dauer des An- und Abstiegs ausgerichtet ist, ohne deren Umfang mit einzubeziehen. Im Falle der Gipfelhöhe ist es gerade umgekehrt. Vor diesem Hintergrund ist darauf hinzuweisen, dass die nachfolgend vorgestellten Beobachtungen und Erkenntnisse alle im Rahmen einer konstanten Gipfelbasis – also ohne Veränderungen der Transitionsdauern des An- und Abstiegs – gemacht wurden und damit definitionsgemäß als Einflüsse der Gipfelhöhe zu behandeln sind.
Zum Begriffder der Gipfelhöhe Sprechmelodie Einfluss
83 83
Abbildung 12: Einfluss der Gipfelhöhe auf die Gradienten des An- und Abstiegs eines symmetrischen F0-Gipfels. Die abweichenden Flankenneigungen der F0-Gipfel aus (a) und (b), die in (c) ersichtlich werden, entstehen bei gleich breiter Gipfelbasis (Dauer x) durch Verdoppelung der Gipfelhöhe von y (a) auf 2y (b).
3.3.2 Beobachtungen und Befunde zur Gipfelhöhe Experimentelle Untersuchungen zum Einfluss der Gipfelhöhe auf die Wahrnehmung der behandelten sprechmelodischen Zeichentriade des Standarddeutschen existieren meines Wissens bislang nicht. Es gibt jedoch Hinweise auf einen solchen Einfluss. Um die Auswirkung der Silbenstruktur auf die Positionen der Übergänge zwischen den Zeichen GEGEBEN, NEU und UNERWARTET zu untersuchen, hat Kohler (1991c) neben der (Ausgangs-)Äußerung „Sie hat ja gelogen“ (mit „-lo-“ als einziger Akzentsilbe, Näheres hierzu in 2.3.2) weitere Äußerungen mit einbezogen, in denen das Partizip variiert wurde, die aber ansonsten syntaktisch und morphologisch gleich aufgebaut waren. In allen Äußerungen wurde der F0-Gipfel in vergleichbar strukturierten Synchronisationsräumen von einer prävokalischen Position aus in äquidistanten Schritten (bezogen auf eine lineare Zeitskala in ms) über die initiale Grenze des Akzentvokals hinweg bis in eine postvokalische Position geschoben, wobei immer ein F0-Gipfel aus der Mitte des Synchronisationsraumes am Einsatz des Akzentvokals der jeweiligen Äußerung positioniert war. Für jede Gipfelposition wurde ein Stimulus generiert. Anschließend wurden die zu jeder Äußerung erzeugten Stimuli jeweils einer Versuchspersonengruppe in chronologischer Anordnung präsentiert (d.h., der F0-Gipfel bewegt sich in den dargebotenen Stimulusfolgen über den Eingang des Akzentvokals hinweg sukzessive in Richtung Äußerungsende). Die Versuchspersonen erhielten die Aufgabe, jeden Stimulus im Vergleich zum jeweils vorangehenden auf Veränderungen in der Melodie zu beurteilen. Kohler (1991c) fand im Rahmen dieses Diskriminationstests zum einen in jeder Serie eine deutliche Häufung perzipierter Melodieveränderungen für zwei benachbarte Stimuli, deren F0-Gipfel im Bereich des Ein-
84 84
Einleitung Erkenntnisse und Hypothesen
satzes zum Akzentvokal positioniert waren. Die melodisch stabilen Abschnitte zu beiden Seiten dieses perzeptorischen Einschnitts wurden auf die beiden Zeichen GEGEBEN und NEU projiziert. Zum anderen wich die Äußerung „Sie hat ja gejodelt“ (mit der Akzentsilbe „-jo-“) von den anderen dadurch ab, dass diese Häufung perzipierter Melodieveränderungen nicht nur Stimuli mit innervokalischen Gipfeln betraf, sondern bereits für Stimuli auftrat, deren Gipfel mit dem Vokalbeginn koinzidierten. Hieraus kann gefolgert werden, dass der Übergang in der Wahrnehmung beider Zeichen, der sich über die Gipfelverschiebung hinweg vollzieht, bezogen auf den Akzentvokalbeginn in „Sie hat ja gejodelt“ eher erfolgt als in den übrigen Äußerungen. Kohler (1991c) erklärt diese Abweichung durch die weniger scharfe Segmentgrenze zwischen dem Akzentvokal und dem vorangehenden Approximanten in der Sequenz [jo:]. Bedingt durch die kontinuierlichen Bewegungen der Artikulationsorgane weist die spektrale Struktur des akustischen Signals für diese Lautsequenz keine Bruchstelle auf, wie sie zum Beispiel zwischen Lateral und Vokal in [lo:] im Partizip „gelogen“ charakteristisch ist. Ausgehend davon, dass die Differenzierung zwischen den Zeichen GEGEBEN und NEU am Beginn des Akzentvokals hängt (siehe die Darstellung der Zeichenform in 2.3.2), argumentiert Kohler, dass die Versuchspersonen diese Segmentgrenze nicht genau detektieren konnten und so Diskrepanzen zwischen der wahrgenommenen Synchronisation und der akustisch messbaren Synchronisation des F0-Gipfels entstanden sind. Dieser Argumentation steht meines Erachtens entgegen, dass eine im Vergleich zu den übrigen Silbenstrukturen unschärfere Segmentgrenze auch dazu führen müsste, dass sich die von den Versuchspersonen perzipierten Melodieveränderungen über mehr Stimuli bzw. mehr F0-Gipfelpositionen im Synchronisationsraum verteilen. Das heißt, der Wahrnehmungsübergang zwischen den betreffenden Zeichen (in diesem Fall GEGEBEN und NEU) müsste ebenfalls unschärfer werden. Tatsächlich ist den tabellarischen Angaben bei Kohler (1991c) aber zu entnehmen, dass die Häufigkeitsverteilung der perzipierten Melodieveränderungen über die Stimuli des Synchronisationsraumes in allen Äußerungen und somit in allen Silbenstrukturen ähnlich ausfällt. Um eine alternative Erklärung dafür zu finden, dass die melodische Grenze zwischen GEGEBEN und NEU im Falle der Äußerung „Sie hat ja gejodelt“ näher am Akzentvokalbeginn liegt als in allen übrigen Äußerungen ohne dabei an Schärfe einzubüßen, muss nach weiteren Aspekten gesucht werden, in denen sich die von Kohler erzeugten Stimulusserien unterschieden haben. Hierbei ist zu beachten, dass am Ausgangspunkt jeder Stimulusserie eine natürlich produzierte Äußerung stand. Für die Erzeugung
Zum Begriffder der Gipfelhöhe Sprechmelodie Einfluss
85 85
der Synchronisationsräume wurde dann eine stilisierte Variante des natürlich produzierten F0-Gipfels verschoben. Dadurch wurde es möglich, dass die F0-Gipfel zwischen den einzelnen Synchronisationsräumen voneinander abweichen konnten. Hinsichtlich solcher Abweichungen fällt insbesondere die Gipfelhöhe als potentieller Verursacher des gefundenen Effekts auf. So ist den von Kohler (1991c) skizzierten F0-Verläufen der untersuchten Äußerungen zu entnehmen, dass der F0-Gipfel, der in der Äußerung „Sie hat ja gejodelt“ am Ausgangspunkt der Gipfelverschiebung stand, eine deutlich größere Gipfelhöhe aufwies als die F0-Gipfel der übrigen Äußerungen. Sein F0-Maximum lag mit annähernd 200Hz ungefähr 60Hz höher als das Maximum in der Äußerung „Sie hat ja gelogen“ und gut 30Hz höher als die Maxima der F0-Gipfel in den übrigen Äußerungen. Gleichzeitig lagen der Beginn des Anstiegs und das Ende des Abstiegs in allen Äußerungen auf einem ähnlichen F0-Niveau und in ähnlichen zeitlichen Abständen zum Gipfelmaximum. Wenn die im Falle der Äußerung „Sie hat ja gejodelt“ eingetretene Vorverlagerung der perzeptorischen Grenze zwischen den Zeichen GEGEBEN und NEU tatsächlich auf die Gipfelhöhe zurückgeht, dann würde dies bedeuten, dass eine größere Gipfelhöhe (im Rahmen der untersuchten Synchronisationsräume) die Wahrnehmung des sprechmelodischen Zeichens NEU unterstützt. Untermauert wird diese Vermutung durch experimentelle Untersuchungen von Gósy und Terken (1994) zur melodischen Signalisierung des Satzmodus im Ungarischen. Der Satzmodus wird in dieser Sprache über sprechmelodische Zeichen angezeigt, die seitens ihrer phonetischen Ausprägung mit den standarddeutschen Zeichen GEGEBEN und NEU vergleichbar sind. Die Annahme, dass es sich bei GEGEBEN und NEU im Standarddeutschen sowie AUSSAGE und FRAGE im Ungarischen um sprechmelodische Zeichen mit einer gemeinsamen phonetischen (und entsprechend auch formalen) Grundlage aber divergenter Bedeutung handelt, basiert vor allem auf parallelen Befunden im Rahmen einer F0-Gipfelverschiebung (darüber hinaus existieren ferner parallele Befunde zum Einfluss der Gipfelgestalt auf die Wahrnehmung der aufeinander bezogenen Zeichen, vgl. 3.1.1). So erzeugten Gósy und Terken (1994) einen Synchronisationsraum, in dem ein F0-Gipfel von einer prävokalischen über eine innervokalische bis zu einer postvokalischen Position über die Akzentsilbe verschoben wurde. Dieser Synchronisationsraum ist dem sehr ähnlich, den Kohler (1991c) in seinen Experimenten zu den Zeichen GEGEBEN, NEU und UNERWARTET verwendet hat (vgl. 2.3.2). Im Rahmen der Beurteilung der einzelnen Stimulusäußerungen dieses Synchronisationsraumes als Aussage oder Frage durch ungarische Muttersprachler kristallisiert sich eine ähnliche Strukturierung des sprechmelodischen Raumes heraus, wie Kohler sie für die
86 86
Einleitung Erkenntnisse und Hypothesen
standarddeutschen Zeichen gefunden hat. Das heißt, die Bedeutungsveränderung von Aussage zu Frage fand ebenso wie die attitudinale Bedeutungsveränderung, die durch die Zeichen GEGEBEN und NEU im Standarddeutschen verursacht wird, kurz nach dem Eintritt des F0-Gipfels in Akzentvokal statt. Darüber hinaus beobachten Gósy und Terken (1994) für F0-Gipfel, die kurz vor dem Ende des Akzentvokals und postvokalisch positioniert waren, einen erneuten Rückgang der Beurteilung der Stimuli als Frage, ebenso wie Kohler (1991c) für postvokalische F0-Gipfel des Standarddeutschen eine erneute attitudinale Bedeutungsverschiebung in Verbindung mit dem Wechsel von NEU zu UNERWARTET festgestellt hat. Die letztgenannte Parallele lässt darauf schließen, dass auch im Ungarischen neben den beiden sprechmelodischen Zeichen AUSSAGE und FRAGE noch ein drittes Zeichen existiert, das phonetisch ein Pendant zum Standarddeutschen UNERWARTET darstellt, dessen Bedeutung auf der Grundlage der Studie von Gósy und Terken (1994) aber nicht spezifiziert werden kann. Zurückkommend auf die Untersuchung der Gipfelhöhe, haben Gósy und Terken das Maximum eines symmetrischen F0-Gipfels in einem Umfang von insgesamt 100Hz (von 234Hz bis 334Hz) variiert. Die Manipulation der Gipfelhöhe erfolgte in fünf Stufen zu jeweils 20Hz. Der F0Gipfel wurde jeweils 20ms außerhalb der Grenzen des Akzentvokals und in der Vokalmitte mit 60ms Abstand zu jeder Grenze positioniert16. Gósy und Terken bezeichnen die drei Gipfelpositionen als ‚early’, ‚middle’ und ‚late’. Bei einer Beurteilung der Stimuli als Aussage oder Frage finden sie, dass eine Anhebung der Gipfelhöhe an allen drei Gipfelpositionen die Wahrnehmung der zugrundeliegenden Äußerung als Frage verstärkte. Dies ist in Abbildung 13 dargestellt. Der deutlichste Effekt zeigt sich hiernach für die F0-Gipfel in der Vokalmitte (60ms nach dem Vokalbeginn). Das heißt, in dieser Position reichte bereits eine sehr geringe Gipfelhöhe _____________ 16
Bei diesen Positionsangaben ist zu beachten, dass Gósy und Terken einen F0-Gipfel verwendet haben, in den ein kurzes Plateau von 30ms zwischen An- und Abstieg eingefügt wurde. In Übereinstimmung mit den Angaben bei Gósy und Terken beziehen sich die Positionsangaben auf das Ende des Anstiegs. Während der 20ms nach dem Vokalende liegende F0-Gipfel damit in jedem Fall postvokalisch ist, hängt die Positionsangabe des F0Gipfels am anderen Ende des Vokals davon ab, ob man das Ende des Anstiegs oder den Beginn des Abstiegs betrachtet. Unter perzeptorischen Gesichtspunkten bemerkt Kohler (1991c), dass F0-Gipfel mit einem prävokalisch endenden Anstieg und einem Plateau in den Akzentvokal hinein weiterhin als das Zeichen GEGEBEN erkannt werden, während sich die Wahrnehmung des Zeichens NEU in Richtung des Zeichens GEGEBEN verändert, wenn die dazugehörige absteigende Gipfelflanke an der gleichen Position belassen und nur der Anstieg zum F0-Gipfel in eine prävokalische Position vorverlegt wird. Auf dieser Grundlage soll auch die erste Gipfelposition bei Gósy und Terken (1994) als prävokalisch gelten und mit anderen prävokalischen F0-Gipfeln ohne Plateau verglichen werden.
Zum Begriffder der Gipfelhöhe Sprechmelodie Einfluss
87 87
aus, um die Stimuli als Frage wahrzunehmen. Doch auch für die 20ms vor und nach dem Vokalbeginn positionierten F0-Gipfel verlagerte sich der Satzmodus der Äußerung hin zur Frage, wenn die Gipfelhöhe entsprechend groß ausfiel. Im Falle der kleinsten Gipfelhöhe ging von keiner der drei F0-Gipfelpositionen ein deutliches Fragesignal aus.
Abbildung 13: Prozentsatz der Beurteilung der Stimulusäußerung als FRAGE in Abhängigkeit von der fünfstufig variierten Gipfelhöhe an den drei F0-Gipfelpositionen ‚early’ (20ms vor dem Akzentvokalbeginn), ‚middle’ (in der Vokalmitte) und ‚late’ (20ms nach dem Ende des Akzentvokals). Die Abbildung wurde aus Gósy und Terken (1994) entnommen.
Zusammenfassend zeigen die Ergebnisse von Gósy und Terken mit zunehmender Gipfelhöhe eine Expansion des Synchronisationsraumes, in dem die F0-Gipfel eine Frage signalisieren. Ein Teil dieser Expansion findet dadurch statt, dass bei einer umfangreichen Gipfelhöhe auch Äußerungen mit prävokalisch liegenden F0-Gipfeln als Frage perzipiert werden. Übertragen auf die sprechmelodischen Pendants des Standarddeutschen bedeutet dies, dass bei einer entsprechend umfangreichen Gipfelhöhe auch prävokalisch positionierte F0-Gipfel zur Wahrnehmung des Zeichens NEU führen können. Da der von Kohler (1991c) in der Äußerung „Sie hat ja gejodelt“ verschobene F0-Gipfel durch eine deutliche größere Gipfelhöhe gekennzeichnet war als die F0-Gipfel in den übrigen Äußerungen, erhärten die Befunde von Gósy und Terken (1994) den Verdacht, dass die sich im Rahmen der Äußerung „Sie hat ja gejodelt“ andeutende Vorverlagerung der Grenze zwischen den Zeichen GEGEBEN und NEU einen Effekt der Gipfelhöhe darstellt.
88 88
Einleitung Erkenntnisse und Hypothesen
3.3.3 Evaluierung der Zeichenformen angesichts der Erkenntnisse zur Gipfelhöhe Ein Einfluss der Gipfelhöhe auf die Wahrnehmung der Zeichentriade, wie er auf Basis der Erkenntnisse aus dem Ungarischen für das Deutsche vermutet wird, wäre – unabhängig davon, wie er sich im Detail ausprägt – weder anhand der KIM- noch der AM-Zeichenformen nachzuvollziehen, da er die Position der relevanten Konturpunkte bzw. die der lokalen Zieltöne relativ zur jeweiligen lautlichen Domäne unverändert lässt. Sollte sich ein Einfluss der Gipfelhöhe experimentell tatsächlich nachweisen lassen (die Hypothesen hierzu werden nachfolgend in 3.3.4 vorgestellt), dann ergeben sich vergleichbare Kritikpunkte an den Zeichenformen, wie sie bereits im Zusammenhang mit der Gipfelgestalt in 3.1.2 benannt wurden. Anders als im Rahmen der Gipfelgestalt oder der Verschiebung und Verankerung der F0-Gipfelpunkte (vgl. 3.2.3) ist jedoch bei einem Einfluss der Gipfelhöhe auf die Wahrnehmung der Zeichen keine der beiden Zeichenformalternativen vorzuziehen. 3.3.4 Weiterführende Hypothesen zur Gipfelhöhe Werden die Erkenntnisse von Gósy und Terken (1994) auf die in dieser Arbeit behandelte sprechmelodische Zeichentriade des Standarddeutschen übertragen, so ist zu erwarten, dass eine Erweiterung der Gipfelhöhe die Wahrnehmung des Zeichens NEU unterstützt. Diese Unterstützung manifestiert sich zum Beispiel darin, dass sich der Synchronisationsraum vergrößert, in dem F0-Gipfel als das sprechmelodische Zeichen NEU wahrgenommen werden. Aufgabe nachfolgender eigener Untersuchungen wird es sein, sich der Erkenntnislücken zur standarddeutschen Zeichentriade anzunehmen, die in diesen Spekulationen sichtbar werden. Dabei werden die folgenden vier Hypothesen (F1)-(F3) und (G) überprüft: (F1) (F2) (F3) (G)
Für prävokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Für innervokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Für postvokalische F0-Gipfel unterstützt eine Erweiterung Gipfelhöhe die Wahrnehmung des Zeichens NEU. Die Gipfelhöhe ist bedeutsamer für die Wahrnehmung Zeichentriade als die Gipfelposition.
der der der der
Eine Unterstützung der Wahrnehmung des Zeichens NEU, wie sie für eine erweiterte Gipfelhöhe in den Hypothesen (F1)-(F3) angenommen wird, liegt auch dann vor, wenn sich die Beurteilung der betreffenden Stimuli
Zum Begriff der Sprechmelodie Zusammenfassung
89 89
erkennbar dahingehend verlagert. Es muss nicht bedeuten, dass in den Stimuli die Wahrnehmung des sprechmelodischen Zeichens NEU dominiert. Die Befunde von Gósy und Terken (1994) zeigen jedoch, dass die Gipfelhöhe unabhängig von einer prä-, inner- oder postvokalischen Position des F0-Gipfels die Wahrnehmung des sprechmelodischen Zeichens FRAGE fast vollständig unterdrücken konnte. Insofern hat sich die Gipfelhöhe in der Untersuchung von Gósy und Terken als bedeutsamer für die Wahrnehmung herausgestellt als die Gipfelposition. Hypothese (G) überträgt diesen weitergehenden Befund auf das Standarddeutsche und stellt insofern eine Ergänzung der Hypothesen (F1)-(F3) dar. Sie formuliert darüber hinaus eine Erwartung zum perzeptorischen Status der Gipfelposition, die der im Zusammenhang mit der Gipfelgestalt aufgestellten Hypothese (A1) entgegenläuft (vgl. 3.1.3).
3.4 Zusammenfassung der vorliegenden Erkenntnisse Unterschiedliche Ausprägungen der F0-Gipfelgestalt – in Form von Veränderungen in der Dauer des An- und Abstiegs – beeinflussen im gleichen segmentellen Kontext die Wahrnehmung der standarddeutschen Zeichen GEGEBEN und NEU. Der Einfluss der Gestalt führt nicht nur über einen Bereich von Gipfelpositionen zu einer unterschiedlich deutlichen Identifikation der F0-Gipfel als GEGEBEN und NEU. Die gefundenen perzeptorischen Effekte betreffen auch den Zeitpunkt und die Schärfe des Übergangs zwischen den sprechmelodischen Zeichen. Sie sind in gleicher Weise auch in phonetisch verwandten sprechmelodischen Zeichen anderer Sprachen erkennbar. Daneben zeigen akustische Analysen eine komplexe kontextsensitive Ausprägung der F0-Gipfel der drei sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET, die vor allem auf das Gipfelmaximum zurückgeht. Es ist denkbar, dass ein Teil der vom Einsatz des Akzentvokals aus beobachteten Verschiebungen des Gipfelmaximums der beiden Zeichen NEU und UNERWARTET mit einer stabilen zeichenspezifischen Positionierung zu einer bestimmten Segmentgrenze einhergeht. Informelle Beobachtungen und erste experimentelle Befunde weisen darauf hin, dass solche kontextsensitiven Anpassungen des F0-Gipfels notwendig sind, um die Identifikation des Zeichens aufrecht zu erhalten und dass die Dauer und Intensität in lautlichen Elementen bei diesen Anpassungen und der Identifikation der Zeichen involviert sind. Letztlich weist eine Reinterpretation experimenteller Ergebnisse von Kohler (1991c), gestützt durch Befunde zu sprechmelodischen Zeichen
90 90
Einleitung Erkenntnisse und Hypothesen
des Ungarischen, darauf hin, dass auch die Gipfelhöhe bei der Wahrnehmung der standarddeutschen Zeichentriade eine Rolle spielt. Die meisten der perzeptorischen und akustischen Befunde sind durch die zurzeit gültigen Zeichenformalternativen des frühen, mittleren und späten Gipfels einerseits sowie von H+L*, H* und L*+H andererseits nicht abgedeckt. Einige Befunde zu sprechmelodischen Zeichen stehen sogar im Widerspruch zu den für sie vorgeschlagenen Formen. Hieraus ergibt sich die Forderung nach einer grundlegenden Revision der Zeichenformen, bei der drei Aspekte berücksichtigt werden müssen: Erstens muss F0 in den Zeichenformen differenzierter und umfassender repräsentiert werden. Die Konzentration auf Punkte des F0-Verlaufs, für die ein mehr oder weniger genauer phonetischer Variationsbereich abgesteckt wird, ist nicht ausreichend. Zweitens ist anzunehmen, dass die Zeichenformen neben F0 weitere Größen wie die Intensität und Dauer in lautlichen Elementen mit einbeziehen müssen. Das heißt, die Zeichenform muss – der Definition in 1.2.1 entsprechend – die Sprechmelodie als Ganzes ins Auge fassen. Drittens sollten die Zeichenformen einen stärkeren Bezug zur Perzeption haben. Die nachfolgend präsentierten eigenen Untersuchungen werden das Gesamtbild der Erkenntnisse zur Wahrnehmung der sprechmelodischen Zeichentriade ergänzen und so dazu beitragen, die skizzierten Änderungen an den Zeichenformen weiter zu konkretisieren. Eigene Vorschläge für die Formen der drei Zeichen GEGEBEN, NEU und UNERWARTET werden auf dieser Grundlage dann im Zusammenhang mit generellen Überlegungen zur Perzeption der Sprechmelodie im Teil (B) dieser Arbeit entwickelt (siehe 6.6).
4 Eigene Untersuchungen zur sprechmelodischen Zeichentriade GEGEBEN, NEU und UNERWARTET Der Schwerpunkt der eigenen Untersuchungen liegt in Perzeptionsexperimenten, in denen die sprechmelodischen Zeichen in den Stimuli über einen Abgleich ihrer Bedeutung mit einem vorangehenden Kontext zugänglich gemacht werden (vgl. Kohler 1991c in 2.3.2 und Niebuhr 2003a, b in 3.1.1). Die Experimente greifen die weiterführenden Hypothesen auf, die aus den vorliegenden Erkenntnissen des vorangegangenen Kapitels hervorgegangen sind. Folglich beziehen sie sich auf die Variablen Gipfelgestalt (4.1), Dauer und Intensität17 in lautlichen Elementen (4.2) sowie die Gipfelhöhe (4.3) in den sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET. Alle im Rahmen der Experimente generierten Stimuli sind ebenso wie die daraus zusammengestellten Hörtests und die Ergebnisrohdaten in den Anhängen A-J auf der beiliegenden CD zu finden. Die vorliegenden Erkenntnisse lassen an mehreren Stellen erkennbar werden, dass die genannten Variablen untereinander und mit der Gipfelposition bei der Signalisierung der drei Zeichen komplex interagieren. In den präsentierten Perzeptionsexperimenten wird diese Interaktion aufgebrochen. Das heißt, die einzelnen Variablen werden herausgetrennt und vor dem (konstanten) Hintergrund der übrigen Variablen systematisch manipuliert. Diese Manipulationen werden mit einer F0-Gipfelverschiebung gekoppelt, die in Synchronisationsräumen von einer prä- zu einer innervokalischen und von einer inner- zu einer postvokalischen Gipfelposition stattfindet. Es ist anzunehmen, dass die meisten der dabei erzeugten Stimuli in natürlich gesprochener Sprache so nicht auftreten. Dies gilt zum einen hinsichtlich der Wertekonfigurationen in den untersuchten Variablen und der Synchronisationsräume, die Gipfelpositionen enthalten, die für die untersuchten sprechmelodischen Zeichen akustischen Analysen zufolge nicht charakteristisch sind (vgl. 3.2). Zum anderen gilt dies auch für die Kombination von Wertekonfigurationen und Gipfelpositionen. Die Isolation einzelner Variablen ist notwendig, um deren Relevanz für die Wahrnehmung der sprechmelodischen Zeichen beurteilen zu kön_____________ 17
Unter Intensität ist eine Kurzzeitenergie(-messung) zu verstehen. Der Begriff der Intensität wird verwendet, da er im Bereich der phonetischen Forschung vielfach im genannten Sinne anzutreffen ist, unter anderem im weit verbreiteten Sprachverarbeitungsprogramm praat.
92 92
Eigene Einleitung Untersuchungen
nen. Bei der Generierung der Stimuli wird zudem darauf geachtet, dass ein natürlichsprachlicher Eindruck der Stimuli weitgehend gewahrt bleibt. Es kann daher davon ausgegangen werden, dass die in den Stimuli enthaltenen bedeutungstragenden Einheiten nicht anders als in natürlichsprachlichen Stimuli im Rahmen der auditiven Verarbeitung dekodiert werden. Der skizzierte methodische Rahmen, der für alle Perzeptionsexperimente gilt, stellt daher kein grundsätzliches Problem für die Validität der Ergebnisdaten dar. Er ist vielmehr als ein erster und nicht unüblicher Forschungsschritt zu sehen. Auch in der Psychoakustik und der visuellen Wahrnehmung werden nicht natürlich vorkommende Stimuli eingesetzt, um Grundsätzliches über die dahinterstehenden Verarbeitungsmechanismen zu erfahren. Erst der anschließende Forschungsschritt besteht dann in der gleichzeitigen Variation der untersuchten Variablen. Zu den perzeptorischen Auswirkungen einer solchen Variation können auf Grundlage der durchgeführten Experimente nur Vermutungen angestellt werden. Diese schrittweise Einbeziehung der interaktiven Komponente und die damit verbundene Annäherung an natürlichsprachliche Stimuli bleiben weiterführenden Forschungsarbeiten vorbehalten.
4.1 Die Rolle der Gipfelgestalt Im Rahmen des unter 3.1.1 geschilderten Perzeptionsexperimentes von Niebuhr (2003a, b) wurde der Einfluss der F0-Gipfelgestalt auf die Wahrnehmung der sprechmelodischen Zeichen GEGEBEN und NEU erforscht. Das nachfolgend beschriebene Experiment setzt diese Forschung mit einer analogen Methode für das sprechmelodische Zeichen UNERWARTET fort. Ausgangspunkt hierbei sind die Hypothesen (A1)-(A3), die aus den Ergebnissen von Niebuhr (2003a, b) abgeleitet wurden. (A1)
(A2) (A3)
Unabhängig von Effekten der Gipfelgestalt kann durch die Verschiebung eines F0-Gipfels von einer innervokalischen zu einer postvokalischen Position ein Übergang von der Wahrnehmung des Zeichens NEU zur Wahrnehmung des Zeichens UNERWARTET erreicht werden. Die Gipfelgestalt hat einen Effekt auf die Wahrnehmung beider Zeichen. F0-Gipfel mit steilem Anstieg der Art s/f und s/s unterstützen gegenüber F0-Gipfeln mit flachem Anstieg f/s und f/f die Wahrnehmung des Zeichens NEU.
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
93 93
4.1.1 Die Methode des Perzeptionsexperimentes zur Gipfelgestalt Die vier Gipfelgestalten Wie in Niebuhr (2003a, b) standen vier F0-Gipfelgestalten im Zentrum des Experimentes. Die Gipfelgestalten kamen durch die Kreuzung zweier unterschiedlicher Transitionsdauern zustande, die jeweils mit der an- und absteigenden Gipfelflanke verbunden wurden. Die Variation der An- und Abstiegsdauer erfolgte bei konstantem Transitionsumfang (von 7 Halbtonschritten). Insofern wurde die Gipfelgestalt abgekoppelt von der Gipfelhöhe variiert und untersucht (vgl. 3.3.1). Die Werte für die Transitionsdauern in den F0-Gipfeln lagen geringfügig unter denen aus Niebuhr (2003a, b, vgl. Abb. 9 in 3.1.1). Dies erhöhte nach Meinung des Versuchsleiters (des Autors, on) in Verbindung mit der zugrundeliegenden Äußerung den Natürlichkeitseindruck der Stimuli. Das Variationsprinzip hingegen, bei dem sich die beiden Transitionsdauern (und infolgedessen auch die Neigungen der Gipfelflanken) um den Faktor 2 bzw. 0,5 unterscheiden, wurde aus dem Experiment von Niebuhr beibehalten. Dies sollte gemäß den Angaben von ´t Hart et al. (1990) dazu führen, dass die konstruierten Gipfelgestalten nicht nur akustisch, sondern auch perzeptorisch diskriminierbar ausfielen. Es entstanden zwei symmetrische F0-Gipfel mit spitzer oder stumpfer Gestalt sowie zwei asymmetrische Gipfel. Die beiden symmetrischen sind als steil-steil (s/s) und flach-flach (f/f) zu bezeichnen. Die beiden asymmetrischen weisen einen flach-steilen (f/s) und steil-flachen (s/f) Verlauf auf. Die verwendeten Gipfelgestalten sind in Abbildung 14 dargestellt. Die Gradienten in allen vier Gipfelgestalten liegen unterhalb der von Xu und Sun (2000, 2002) abgeschätzten physiologischen Grenzen der F0-Variation.
Abbildung 14: Gradienten und Transitionsdauern der vier im Perzeptionsexperiment verwendeten Gipfelgestalten. Jede Gipfelgestalt bildete die Grundlage für eine Stimulusserie. Den Gipfelgestalten lag das Konstruktionsprinzip aus Niebuhr (2003a, b) zugrunde (vgl. 3.1.1), nur die Werte der Transitionsdauern wurden verändert.
94 94
Eigene Einleitung Untersuchungen
Die Stimulusäußerung Alle F0-Manipulationen gingen von derselben Äußerung aus, die zuvor von einem männlichen Sprecher (bp) mit intendiert monotoner Sprechmelodie produziert wurde. Abweichend zu Niebuhr (2003a, b) wurde nicht die Äußerung „Sie war mal Malerin“ verwendet. In dieser Äußerung befinden sich lediglich zwei unakzentuierte Silben zwischen der (einzigen) Akzentsilbe „Ma-“ und dem Äußerungsende. Bei der Verschiebung des F0-Gipfels über die hintere Grenze des Akzentvokals [a:] hinaus bieten diese beiden Silben kein ausreichend großes stimmhaftes Intervall, um den F0-Gipfel vollständig darin zu realisieren. In der Folge wäre ein mit jedem Verschiebungsschritt sukzessive größeres Stück am Ende des Abstiegs abgeschnitten worden, insbesondere in Verbindung mit den flach absteigenden Gipfelgestalten s/f und f/f. Da sich dadurch nicht nur die phonetischen Eigenschaften des F0-Gipfels ändern, sondern auch das F0- bzw. Tonhöhenniveau am Äußerungsende (das im KIM und im AM-Modell phonologisch relevant ist, vgl. 2.5), wäre eine solche Vorgehensweise unter experimentellen Gesichtspunkten problematisch gewesen. Vor diesem Hintergrund wurde die Äußerung „Sie’s mal Malerin gewesen“ als Grundlage für die Stimuli verwendet. Sie enthält fünf unakzentuierte Silben zwischen der Akzentsilbe „Ma-“ aus „Malerin“ und dem Äußerungsende. Dadurch stand genügend Platz für die vollständige Umsetzung der F0-Gipfel zur Verfügung. Zugleich sind die Akzentsilbe und ihre umliegenden Silben („mal Malerin“), über denen sich die F0-Gipfel hauptsächlich ausprägen, in der neuen Äußerung segmentell genauso aufgebaut wie in der Äußerung aus Niebuhr (2003a, b). Etwaige Einflüsse der Silbenstruktur auf die Wahrnehmung sprechmelodischer Zeichen (wie sie in 3.2.2 und 3.3.2 präsentiert wurden) können so bei einem Vergleich der Ergebnisse beider Experimente vernachlässigt werden. Eine weitere Gemeinsamkeit zwischen der Äußerung aus Niebuhr (2003a, b) und der Äußerung aus diesem Experiment besteht darin, dass sie ab der Vorakzentsilbe (hier „mal“) bis zum Äußerungsende (phonologisch und phonetisch) durchgehend stimmhaft waren. Dadurch konnte die Variable F0 in diesem relevanten Bereich vollständig experimentell kontrolliert werden. Dies gilt sowohl seitens der Manipulation des F0, da nur stimmhafte Signalabschnitte über eine veränderbare Grundfrequenz verfügen, als auch seitens der Perzeption, da nur vermutet werden kann, welche Tonhöhen (-verläufe) Hörer in interferierenden stimmlosen Signalabschnitten perzipieren und wie sie zu diesen Perzepten gelangen.18 _____________ 18
Dass Hörer auch in stimmlosen Abschnitten des Sprachsignals ein Tonhöhenperzept haben, erscheint sicher. Jones (1969:275) beschreibt die perzeptorischen Eindrücke sprach
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
95 95
Die eingangs genannte Produktion der Äußerung „Sie’s mal Malerin gewesen“ mit einem intendiert ebenen Melodieverlauf, der physikalisch tatsächlich weitgehend eben war, sollte erstens dafür sorgen, dass die anschließende F0-Manipulation im Rahmen des PSOLA-Verfahrens in praat nicht zu hörbaren Artefakten führt, da die zu konstruierenden F0-Konturen insgesamt weniger stark von einem ebenen Verlauf abweichen als von einem Verlauf, der bereits einen F0-Gipfel enthält. Neben diesem Aspekt der Stimulusqualität sollte durch einen intendiert ebenen Melodieverlauf eine phonologische Neutralität der Ausgangsäußerung hergestellt werden, aus der nachfolgend alle Stimuli des Experimentes abgeleitet wurden. Im Gegensatz zur Produktion der Ausgangsäußerung mit einem der drei sprechmelodischen Zeichen GEGEBEN, NEU oder UNERWARTET kann so unterbunden werden, dass die Stimuli in experimentell nicht kontrollierten Signalparametern, die von potentieller Relevanz für die Erkennung der behandelten sprechmelodischen Zeichen sind (einige hiervon werden unter 4.2 und 4.3 noch erforscht), auf ein bestimmtes Zeichen weisen und so die Untersuchungsergebnisse zugunsten dieses Zeichens beeinflussen. Letztlich hat der intendiert flache F0-Verlauf auch dazu geführt, dass die Akzentsilbe „Ma-“ mit besonders großer Dauer realisiert wurde (233ms, 164ms davon entfielen auf den Akzentvokal). Diese markante Dauerstruktur gewährleistete, dass der Akzent für jede Position des F0-Gipfels (nach dem Eindruck des Versuchsleiters) perzeptorisch unzweifelhaft auf der Silbe „Ma-“ verblieb (vgl. 1.2.3). Die F0-Manipulation Die F0-Manipulationen wurden mit der PSOLA-Resynthese in praat durchgeführt. Dabei wurde das annähernd ebene F0 durch einen neuen _____________ licher Tonhöhenverläufe z.B. als „certainly subjectively continuous“. Solche Impressionen werden durch psychoakustische Experimente untermauert, die zeigen, dass Hörer Sinustonbewegungen, die von Rauschen unterbrochen werden, unter bestimmten Bedingungen kontinuierlich wahrnehmen können, also offenkundig die fehlenden Fragmente des Tonhöhenverlaufs ergänzen (vgl. z.B. Bregman 1990; siehe auch 5.4). Auf der anderen Seite ist aus dem Bereich der Sprachwahrnehmung ebenfalls bekannt, dass Hörer in geflüsterter Sprache, in der F0 durchgängig fehlt, auch zur Perzeption von Tonhöhen(-verläufen) gelangen (vgl. hierzu z.B. Traunmüller 1987). Hierbei handelt es sich nicht um eine Tonhöhenwahrnehmung durch Ergänzung, sondern um eine Tonhöhenwahrnehmung, die vermutlich unter anderem durch die Modulation der spektralen Zusammensetzung und Dauerstruktur des Rauschens zustande kommt. In normalen sprachlichen Äußerungen liegen nun primär stimmlose Signalabschnitte vor, in denen der Hörer sowohl über die Ergänzungsstrategie als auch über die Auswertung der zeitlichen und spektralen Eigenschaften des Rauschens zu einem Tonhöhenperzept gelangen kann. Wie diese beiden Strategien in solchen Fällen interagieren und welche Rolle es spielt, dass Sprachschall anders als psychoakustische Stimuli Informationen transportiert, ist bislang nur unzureichend erforscht.
96 96
Eigene Einleitung Untersuchungen
Verlauf ersetzt, der an 8 Konturpunkten stilisiert wurde (Konturpunkte repräsentieren Richtungswechsel im F0-Verlauf). Drei dieser 8 Konturpunkte gehörten zum F0-Gipfel (Beginn des Anstiegs, Gipfelmaximum, Ende des Abstiegs) und wurden je nach Gipfelgestalt und -position an unterschiedlichen Zeitpunkten im Signal platziert. Durch die übrigen fünf Konturpunkte wurde der F0-Gipfel in einen Vor- und Nachlauf eingebettet. Sie waren fest im Signal platziert. Abbildung 15 zeigt den stilisierten F0-Verlauf am Beispiel eines innervokalisch liegenden steil-steilen F0Gipfels (s/s). Die drei zeitlich variablen Konturpunkte des Gipfels sind schwarz, die fünf zeitlich fixierten Konturpunkte des Vor- und Nachlaufs grau dargestellt. Die Werte oberhalb der Konturpunkte geben deren Frequenzwerte in Hertz (rechts) bzw. in Halbtonschritten relativ zu 100Hz (links) an. Die Frequenzwerte aller Konturpunkte blieben unabhängig von der Gestalt und Position des F0-Gipfels unverändert.
Abbildung 15: Oszillogramm (oben) und der an 8 Konturpunkten stilisierte F0-Verlauf (unten) in der Stimulusäußerung „Sie’s mal Malerin gewesen“. Die grauen Konturpunkte repräsentieren den in Zeit (und Frequenz) konstant gehaltenen leicht fallenden Vor- und Nachlauf. Die drei schwarzen Konturpunkte in der Mitte des F0-Verlaufs zeigen die zeitlich variablen F0-Gipfelpunkte an. Exemplarisch ist ein innervokalisch liegender F0-Gipfel der s/s-Gestalt dargestellt. Oberhalb der Konturpunkte sind die dazugehörigen F0-Werte in Hertz (rechts) und in Halbtonschritten (relativ zu 100Hz, links) angegeben. Die senkrechten Linien im Oszillogramm zeigen die Grenzen der als stimmhaft klassifizierten Signalperioden an.
Wie aus Abbildung 15 zu erkennen ist, wurde der (von links nach rechts betrachtet) erste Konturpunkt des Vorlaufs zum F0-Gipfel an der ersten stimmhaften Signalperiode (diese Klassifikation geht auf die Analyse in praat zurück) bei einem F0-Wert von 100Hz platziert. Die erste stimmhafte Signalperiode entsprach dem Beginn des Vokals [K] in „Sie’s“. Der zweite Konturpunkt des Vorlaufs lag am Ende dieses Vokals bei 95Hz.
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
97 97
Der Nachlauf des F0-Gipfels fiel über drei Konturpunkte, die jeweils in der Vokalmitte der Silben „ge-“ und „-we-“ aus „gewesen“ sowie an der letzten stimmhaften Signalperiode der Äußerung platziert waren, bis auf einen als terminal wahrgenommenen F0-Wert von 66Hz ab. Der F0-Gipfel selbst überspannte sowohl im Anstieg als auch im Abstieg ein Frequenzintervall von 7 Halbtonschritten bzw. 45Hz. Das Gipfelmaximum lag dabei bei 134Hz, der F0-Wert am Beginn des Anstiegs sowie am Ende des Abstiegs betrug jeweils 89Hz. Dadurch, dass der Vorlauf über dem Beginn des Anstiegs zum F0Gipfel einsetzt und der Nachlauf unter dem Ende des Abstiegs vom F0Gipfel liegt, erhält die F0-Kontur der Äußerung insgesamt gesehen eine leichte Deklination19, die den Natürlichkeitseindruck beim Hörer erhöhen sollte. In diesem Sinne ist es auch zu sehen, dass die F0-Werte aller Konturpunkte des konstruierten F0-Verlaufs am ursprünglich vom Sprecher (bp) produzierten F0-Niveau ausgerichtet waren. Letzteres wird in Abbildung 15 als grau gepunktete Linie angezeigt. Die drei Konturpunkte des F0-Gipfels wurden parallel in der Zeit verschoben, sodass die Gipfelgestalt nach jedem Verschiebungsschritt identisch blieb. Das Zeitfenster und -intervall der Verschiebung wurde durch den Synchronisationsraum vorgegeben. Der für dieses Experiment gewählte Synchronisationsraum sah fünf Verschiebungen in äquidistanten Schritten von jeweils 20ms vor. Das Zeitfenster der Verschiebung betrug somit 100ms. Die Verschiebung ging von einem F0-Gipfel aus, der – gemessen am F0-Maximum – an der hinteren Grenze des Akzentvokals [a:] positioniert wurde. Von hier aus fanden zwei Gipfelverschiebungen nach links in Richtung Vokalanfang und drei Gipfelverschiebungen nach rechts über das Ende des Akzentvokals hinaus statt. Phonetisch wird damit ein Bereich von inner- zu postvokalischen Gipfelpositionen abgedeckt, von dem anzunehmen ist, dass hierin befindliche F0-Gipfel (für den lautlichen Kontext der gegebenen Äußerung, vgl. hierzu 3.2.1) prinzipiell die Wahrnehmung der Zeichen NEU und UNERWARTET evozieren können. Die beschriebene Verschiebung von inner- zu postvokalisch wurde mit jeder der vier F0-Gipfelgestalten aus Abbildung 14 durchgeführt. Auf _____________ 19
Bei der Deklination handelt es sich um ein sukzessives Abfallen des F0-Niveaus vom Beginn bis zum Ende einer Äußerung bzw. Phrase, das annähernd linear modelliert werden kann (vgl. Cohen und ´t Hart 1967; Pierrehumbert 1980; Grønnum 1992). Nach Liberman und Pierrehumbert (1984:161) zum Beispiel liegt Deklination vor, wenn „the range of F0 values employed is narrower and lower at the end of the phrase than at the beginning“. Aufgrund der großen Verbreitung dieses Phänomens über die Sprachen der Welt wird kontrovers diskutiert, ob es auf physiologische Eigenschaften des Sprechapparates zurückzuführen ist (siehe hierzu z.B. Maeda 1974; Ohala 2004).
98 98
Eigene Einleitung Untersuchungen
diese Weise entstanden vier Stimulusserien mit jeweils 6 Stimuli. In jeder Serie fällt das Maximum des F0-Gipfels in Stimulus 3 mit dem Ende des Akzentvokals zusammen. Abbildung 16 zeigt die 6 Gipfelverschiebungen (und damit gleichzeitig die F0-Verläufe der 6 Stimuli) für die beiden symmetrischen Gipfelgestalten s/s und f/f über dem Oszillogramm und Sonagramm der Stimulusäußerung „Sie’s mal Malerin gewesen“. Wie der Abbildung zu entnehmen ist, liegt der am weitesten über das Ende des Akzentvokals hinausgeschobene F0-Gipfel (also der F0-Gipfel in Stimulus 6 jeder Serie) kurz nach dem Vokalbeginn der nachfolgenden unakzentuierten Silbe „-le-“ (letzterer ist in Abb. 16 durch die ganz rechte gepunktete Linie gekennzeichnet). Darüber hinaus ist in Abbildung 16 zu erkennen, dass der Beginn des Anstiegs zum Gipfel unter der Bedingung einer kurzen Transitionsdauer bzw. einer steilen Gipfelflanke (s/s und s/f) unabhängig von der Gipfelposition im Akzentvokal lag. Für die beiden F0-Gipfel mit großer Anstiegsdauer und dementsprechend flacher Gipfelflanke (f/f und f/s) lag der Beginn des Anstiegs hingegen immer vor dem Akzentvokal (Der Beginn des Akzentvokals ist in Abb. 16 durch die ganz linke gepunktete Linie gekennzeichnet).
Abbildung 16: Die sechs F0-Gipfelpositionen im Synchronisationsraum von inner- zu postvokalisch. Jeweils ausgehend von einem an der hinteren Grenze des Akzentvokals positionierten F0-Gipfel wurden zwei Verschiebungsschritte nach links und drei nach rechts vorgenommen. Die Gipfelverschiebung wurde analog für alle vier Gipfelgestalten durchgeführt. Exemplarisch sind die Gipfelgestalten s/s (links) und f/f (rechts) wiedergegeben. Über der Gipfelverschiebung ist das Oszillogramm (oben) und das Sonagramm (Mitte) der Äußerung „Sie’s mal Malerin gewesen“ dargestellt. Die gepunkteten Linien kennzeichnen (von links nach rechts) den Beginn des Akzentvokals, das Ende des Akzentvokals und den Beginn des Vokals der nachfolgenden Silbe in „Malerin“.
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
99 99
Die Manipulation der Intensität Durch die Produktion der Stimulusäußerung mit einem intendiert flachen F0-Verlauf ist der äußerungsfinale Intensitätsrückgang nahezu vollständig ausgeblieben (vgl. hierzu zum Beispiel die Schilderungen bei Kohler 1991a). Er musste durch eine Intensitätsmanipulation nachträglich hergestellt werden. Dafür wurde das Intensitätsniveau über „gewesen“ silbenweise von knapp 80% über 60% bis zuletzt auf 28% heruntergesetzt. Die Manipulation fand in cool edit (siehe www.cooledit.com) statt. Die genannten Werte wurden auf einer perzeptorischen Basis gewählt. Die beschriebene Manipulation wurde in identischer Weise für die 6 Stimuli aller 4 Stimulusserien durchgeführt. Abbildung 17 zeigt das hierfür verwendete Intensitätsmuster (die prozentuale Veränderung der Signalelongationen über einen gewählten Zeitraum) neben dem markierten Signalbereich ab dem initialen velaren Plosiv [g] von „gewesen“ bis zum Äußerungsende. Auf Basis der in F0 und Intensität bearbeiteten Stimuli konnten nun Hörtests entstehen, deren Konstruktion nachfolgend geschildert wird.
Abbildung 17: Intensitätsmuster (im Fenster oben links) für die Erzeugung des äußerungsfinalen Intensitätsabstiegs über dem zur Wortform „gewesen“ gehörigen weiß unterlegten Signalabschnitt (großes Fenster) in allen Stimuli mit Hilfe von cool edit.
100 100
Eigene Einleitung Untersuchungen
Zur Konstruktion der Hörtests des Experimentes Aus jeder der zuvor generierten Stimulusserien wurde ein eigenständiger Hörtest konstruiert. Die einzelnen Hörtests waren in einen gemeinsamen Experimentrahmen eingebettet, der das experimentelle Paradigma und damit das Konstruktionsprinzip für alle Tests gleichermaßen vorgab. Bei dem Paradigma handelte es sich um den Identifikationstest wie er unter anderem von Kohler (1987, 1991c) und Niebuhr (2003a, b) verwendet wurde (siehe 2.3.2). Dieser Test nutzt aus, dass sich die Gesamtbedeutung der Stimulusäußerung bei einem Wechsel des sprechmelodischen Zeichens verändert, wodurch nur Stimuli mit einem der beiden untersuchten Zeichen (in diesem Fall NEU oder UNERWARTET) mit dem vorangestellten Kontext inhaltlich kompatibel sind. Die Beurteilung der Kompatibilität durch Hörer entspricht insofern einer indirekten Identifikation der untersuchten Zeichen. Als Kontext wurde die Äußerung „Ganz bestimmt“ gewählt, die mit dem sprechmelodischen Zeichen NEU in der Akzentsilbe „-stimmt“ realisiert wurde. Der Sprecher des Kontextes (bp) war derselbe wie in der Stimulusäußerung „Sie’s mal Malerin gewesen“. Der Kontext wurde so produziert, dass er in F0-Niveau, Sprechgeschwindigkeit und Stimmqualität mit den Stimuli vergleichbar war. Alles zusammen sollte es ermöglichen, dass die Kontext-Stimulus-Paare von den Versuchspersonen prinzipiell als zusammenhängend geäußert wahrgenommen werden konnten, was für die gemeinsame inhaltliche Bewertung in einem Identifikationstest wesentlich ist. Um andererseits Kontext und Stimulus aufeinander beziehen zu können, müssen sie als eigenständige Äußerungen wahrgenommen werden können. Um dies zu erreichen, wurde mit Blick auf empirische Befunde (vgl. hierzu Peters 2006; Koiso et al. 1998) eine Pausendauer von 100ms zwischen Kontext und Stimulus eingefügt. Der verwendete Kontext signalisiert seitens des Sprechers das Anliegen, dass der Hörer die zuvor vom Sprecher schon genannte Information – nämlich „Sie’s mal Malerin gewesen“ – als zutreffende neue Information anerkennt. In der anschließenden (und im Rahmen der skizzierten Dialogsituation erneuten) Verbalisierung dieser Information in der Stimulusäußerung muss sich die Signalisierung dieses Anliegens des Sprechers fortsetzen, damit Kontext und Stimulus eine inhaltlich stimmige Einheit bilden. Dies geschieht durch das sprechmelodische Zeichen NEU in der Akzentsilbe „Ma-“ aus „Malerin“. Die Wortfolge des Kontextes „Ganz bestimmt“ macht es hingegen sehr unwahrscheinlich, dass hierauf (in der Stimulusäußerung) ein Widerspruch zu einer Erwartungshaltung zum Ausdruck gebracht wird, weder zu der des Sprechers, der sich der mitzuteilenden Information ganz sicher ist, noch zu der des Hörers, da die betreffende Information zuvor bereits mindestens einmal mitgeteilt wurde. Die Stimu-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
101 101
lusäußerung „Sie’s mal Malerin gewesen“ in Verbindung mit dem sprechmelodischen Zeichen UNERWARTET ist daher im gegebenen Kontext abwegig. Die 6 Kontext-Stimulus-Paare, die für jede der vier Serien entstanden, wurden verachtfacht und automatisch in eine serienindividuell randomisierte Reihenfolge gebracht. Die 48 Paare (für jeden der vier Identifikationstests) wurden durch einen Signalton eingeleitet. Nach jedem zehnten Paar wurden zwei Signaltöne eingefügt. Auf jedes Paar folgte eine Pause von vier Sekunden, in der die Versuchspersonen in der vorgesehenen Weise auf das Paar reagieren konnten (dies wird im nachfolgenden Abschnitt zur Durchführung des Experimentes weiter ausgeführt). Die einzelnen Elemente summierten sich zu einer Dauer von 6 Minuten auf, die für alle vier Hörtests (in diesem Fall Identifikationstests) identisch war. Zur Durchführung des Perzeptionsexperimentes Die vier Hörtests zu jeder Gipfelgestalt wurden alle mit derselben Versuchspersonengruppe durchgeführt, die aus insgesamt 20 Personen, zumeist Studierenden, bestand. Davon waren 12 weiblich und 8 männlich. Nach eigenen Angaben waren alle Personen deutsche Muttersprachler mit normalem Hörvermögen. Einige Versuchspersonen haben schon einmal an anderen, ähnlich aufgebauten Hörtests teilgenommen. Dies lag allerdings bereits mehrere Monate zurück. Die Versuchspersonengruppe wurde in vier Untergruppen aufgeteilt. Zwischen den einzelnen Untergruppen wurde die Reihenfolge gewechselt, in der die vier Hörtests präsentiert wurden. Da die Versuchspersonen viermal mit analog aufgebauten Tests konfrontiert wurden, musste berücksichtigt werden, dass Erfahrungs- und Lerneffekte das Antwortverhalten der Probanden verändern konnten. Der Entstehung dieser Effekte kann nicht vorgebeugt werden. Durch die Permutation der Hörtests sollte aber vermieden werden, dass sich Erfahrungs- und Lerneffekte auf bestimmte Tests konzentrierten. Gleichzeitig sollte auf diese Weise verhindert werden, dass die Präsentationsreihenfolge der vier Gipfelgestalten zu Artefakten in den Ergebnisdaten führt. Zu Beginn jeder Sitzung erhielten die Versuchspersonen schriftliche Instruktionen. Sie sind dieser Arbeit auf der CD im Anhang A beigefügt. Hierin wurde ihnen erklärt, dass sie die Äußerungspaare (bestehend aus Kontext- und Stimulusäußerung) dahingehend beurteilen sollten, ob sie eher gut oder eher schlecht zusammenpassen. Es musste immer eine dieser beiden Antwortmöglichkeiten gegeben werden. In diesem Sinne handelt es sich um Tests, die in der Literatur unter dem Begriff des 2AFCTest (two-alternative forced-choice test) bekannt sind. Die Versuchspersonen sollten ihre Entscheidung möglichst spontan treffen.
102 102
Eigene Einleitung Untersuchungen
Im Unterschied zu der bislang gebräuchlichen Formulierung (siehe z.B. Kohler 1987, 1991c in 2.3.2 oder Niebuhr 2003a, b) wurden die Wörter eher gut bzw. eher schlecht in die Instruktion eingefügt. Dies basiert auf der Überlegung, dass besonders im Hinblick auf die relationalen Bedeutungen der untersuchten sprechmelodischen Zeichen (vgl. 1.3.1) immer ein Szenario erdacht werden könnte, in der auch die zuvor als inkompatibel klassifizierten Kombinationen sprechmelodischer Zeichen zusammenpassen und die kompatiblen nicht zusammenpassen würden. In den Hörtests sollte es jedoch darum gehen, den Regelfall zu beurteilen. Die eingefügten Wörter sollten den Versuchspersonen dies andeuten und ihnen so die Entscheidung erleichtern. Auf diese Weise könnte für einige Probanden ein profilierteres Bewertungsverhalten erreicht werden. Ferner wurde den Versuchspersonen im Rahmen der schriftlichen Instruktionen mitgeteilt, dass die erste Äußerung in einem Paar natürlich produziert wurde und immer gleich blieb. Die zweite wurde künstlich bearbeitet und variiert. Die Probanden wurden angewiesen, klangliche Eigenschaften der zweiten Äußerung, die sie für Effekte der künstlichen Bearbeitung hielten, bei ihrer Bewertung als eher gut oder eher schlecht zusammenpassend zu ignorieren. Diese Anweisung sollte verhindern, dass die Versuchspersonen allein aufgrund des leicht unterschiedlichen Natürlichkeitseindrucks zwischen Kontext und Stimulus die Äußerungspaare immer als eher schlecht zusammenpassend beurteilten (der genannte Eindruck ist im Rahmen einer vorherigen Überprüfung aller Hörtests beim Versuchsleiter und einem weiteren trainierten Hörer, ga, entstanden). Auch in dieser Hinsicht erschienen die Formulierungen mit eher gut und eher schlecht hilfreich. Abschließend wurden die Versuchspersonen darüber in Kenntnis gesetzt, wieviele Hörtests sie in der beschriebenen Weise zu beurteilen hatten und dass sie vorweg einen Test zur Übung erhalten würden. Diese Übung wurde durch die Kontext-Stimulus-Paare mit den beiden extremen F0-Gipfelpositionen aus allen vier Hörtests gebildet. Die Übung bestand folglich aus 8 Kontext-Stimulus-Paaren. Sie sollte dazu dienen, die Versuchspersonen mit der nachfolgend zu beurteilenden Reizbandbreite und dem Testablauf an sich vertraut zu machen. Hierdurch sollten die Versuchspersonen in die Lage versetzt werden, schnellere und reliablere Urteile in den darauf präsentierten eigentlichen Hörtests zu treffen. Die Hörtests selbst wurden in Form von wav-Dateien von einem Laptop aus in einem schallberuhigten Raum über Lautsprecher abgespielt. Die Lautstärke wurde vor Beginn des ersten Hörtests auf ein komfortables Niveau eingestellt und blieb danach für alle Hörtests unverändert. Die Probanden haben ihre Antworten durch das Drücken zweier Tasten auf einem vor ihnen platzierten kleinen Kästchen abgegeben. Alle diese Käst-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
103 103
chen waren mit einer zentralen Einheit, dem am IPdS entwickelten RMG 3, verbunden, das die Antwort registriert und gleichzeitig die Reaktionszeit für die jeweilige Antwort auf die präsentierten Stimuli gemessen hat, beginnend ab einem zuvor festgelegten Punkt. 4.1.2 Die Ergebnisse des Perzeptionsexperimentes zur Gipfelgestalt Jede Versuchsperson hat alle Kontext-Stimulus-Paare innerhalb des eingestellten Reaktionszeitfensters von vier Sekunden als eher gut oder eher schlecht zusammenpassend beurteilt. Im Rahmen der vier Hörtests, die jeweils 48 solcher Paare enthielten, hat sie somit insgesamt 192 Urteile abgegeben (die in der Übung abgegebenen Urteile nicht mitgerechnet). Für jedes Kontext-Stimulus-Paar liegt entsprechend – über die 20 Versuchspersonen betrachtet – die maximale Zahl von 160 Urteilen vor. Die gewonnenen Daten wurden graphisch aufbereitet und prüfstatistisch ausgewertet. Im Rahmen der graphischen Aufbereitung wurden Polygone relativer Häufigkeiten gezeichnet, die als Identifikationsfunktionen bezeichnet werden sollen. Hierzu wurde für jedes Kontext-Stimulus-Paar berechnet, in wieviel Prozent der pro Paar insgesamt abgegebenen 160 Urteile es als eher schlecht zusammenpassend bewertet wurde. Diese Einzelwerte wurden über den aufsteigend sortierten Stimulusnummern (1-6) linear zu einem Polygon verbunden. Diese (lineare) Interpolation betont die Richtung von Veränderungen im Urteilsverhalten und trägt so zur Klarheit in der Ergebnisdarstellung bei. Die aufsteigende Sortierung der Stimuli entspricht der vorgenommenen zeitlichen Verschiebung des F0-Gipfels von einer innervokalischen Position im hinteren Drittel des Akzentvokals zu einer postvokalischen Position in der nachfolgenden unakzentuierten Silbe. Paarweise Vergleiche für die Identifikationsfunktionen zu den vier Stimulusserien mit den F0-Gipfelgestalten s/s, s/f, f/s und f/f sind in der Abbildung 18(a)-(f) dargestellt. Zusätzlich zu der graphischen Aufbereitung der Ergebnisdaten wurde eine inferenzstatistische Auswertung vorgenommen. Hierbei sollte überprüft werden, ob die vier unterschiedlichen Gipfelgestalten die Wahrnehmung der Zeichen NEU und UNERWARTET im Sinne der Hypothesen (A2) und (A3) beeinflusst haben. Ein solcher Einfluss würde sich im Rahmen des Identifikationstests in einer unterschiedlichen Kompatibilitätsbewertung der Kontext-Stimulus-Paare (mit jeweils gleichen F0-Gipfelpositionen im Stimulus und entsprechend gleichen Stimulusnummern) niederschlagen. Auf dieser Grundlage wurden – parallel zu den 6 Paarvergleichen in Abbildung 18(a)-(f) – 12 statistische Tests durchgeführt. Die Zahl der
104 104
Eigene Einleitung Untersuchungen
statistischen Tests fällt doppelt so groß aus wie die Zahl der Paarvergleiche, da für jeden Paarvergleich zwei Tests durchgeführt wurden, einer für die Stimulusgruppe 1-3 mit innervokalisch positionierten F0-Gipfeln und einer für die Stimulusgruppe 4-6 mit postvokalisch positionierten F0Gipfeln. Eine solche Bipartitionierung des Synchronisationsraumes wurde bereits in der Untersuchung zum Einfluss der Gipfelgestalt bei Niebuhr (2003a, b) vorgenommen. So konnten diejenigen Bereiche, die Erkenntnissen aus der Akustik zufolge die charakteristischen Gipfelpositionen für beide beteiligten sprechmelodischen Zeichen abdecken (vgl. hierzu Abb. 3 und 3.2.1), prüfstatistisch getrennt voneinander analysiert werden. Hierbei ist zu beachten, dass dies nicht gleichbedeutend damit ist, dass die beiden Zeichen selbst separat analysiert wurden. Bereits aufgrund der Erkenntnisse aus früheren Identifikationstests, nach denen ein gradueller Übergang zwischen den untersuchten sprechmelodischen Zeichen zu erwarten war (vgl. u.a. 2.3.2 und 3.1.1), erschien dies nicht möglich. Darüber hinaus ist der potentielle Einfluss der Gipfelgestalt auf die Position des Übergangs zwischen den sprechmelodischen Zeichen zu berücksichtigen. Es wurde jedoch in der Tat damit gerechnet, dass eine gewisse Korrespondenz zwischen der Trennung der Stimuli mit inner- und postvokalischen F0-Gipfeln und der Wahrnehmung der Zeichen NEU und UNERWARTET bestehen würde, die groß genug ist, damit der Einfluss der Gipfelgestalt getrennt für beide Zeichen sichtbar gemacht werden kann (vorausgesetzt, es kommt in Verbindung mit der jeweiligen Gipfelgestalt überhaupt zur Wahrnehmung beider Zeichen). Die Unterteilung der Stimulusserien ist in Abbildung 18(a)-(f) durch vertikale Linien in den paarweisen Vergleichen der Identifikationsfunktionen dargestellt. Die 12 statistischen Tests sollten nun zeigen, ob sich die pro Versuchsperson aufsummierten ‚passt eher gut’-Urteile, die sich für zwei Stimulusgruppen aus unterschiedlichen Serien (z.B. für die aus den Stimuli 1-3 bestehenden Gruppen der Serien s/s und f/f) ergeben haben, statistisch signifikant voneinander unterscheiden. In einem solchen Test ist die Gipfelgestalt der jeweiligen Stimulusserie die unabhängige Variable und die Summe der ‚passt eher gut’-Urteile über die drei Stimuli einer Gruppe die abhängige Variable. Die Stichprobengröße entspricht der Anzahl der Versuchspersonen (n=20). Da es sich um dieselben Versuchspersonen handelte, die die Stimuli aller vier Serien hinsichtlich ihres Zusammenpassens mit der Kontextäußerung bewertet haben, liegen abhängige Stichproben vor. Ferner ist hervorzuheben, dass die Summen der ‚passt eher gut’-Urteile Werte zwischen 0-24 annehmen können. Dabei zeigt zum Beispiel ein Wert von 20 an, dass die Stimuli genau doppelt so häufig mit dem gegebenen Kontext als eher gut zusammenpassend beurteilt wurden wie bei einem Wert von 10. Für die Daten, die den statistischen Tests zugrunde-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
105 105
liegen, kann somit ein metrisches Niveau angenommen werden. Letzteres erlaubt es grundsätzlich, t-Tests für abhängige Stichproben in den 12 Paarvergleichen durchzuführen. Bevor dies jedoch geschehen konnte, wurde mit dem bei Sachs (1972) geschilderten Verfahren von David et al. (1954) kontrolliert, ob die Verteilung der 20 Differenzen zwischen den abhängigen Summen in jedem der 12 Paarvergleiche annähernd einer Normalverteilung entsprach (die genannten 20 Differenzen entstehen, wenn die Werte der aufsummierten ‚passt eher gut’-Urteile zweier der miteinander verglichenen Stimulusgruppen pro Versuchsperson subtrahiert werden). Die Verteilung der Differenzen galt dann als annähernd normal, wenn die Irrtumswahrscheinlichkeit für die Ablehnung der Normalitätshypothese mindestens 10% betrug. Die Resultate der erläuterten Prüfung auf Normalität sind im Anhang C der beigefügten CD einzusehen. Die Ergebnisrohdaten befinden sich im Anhang B. Es hat sich ergeben, dass in 9 der Vergleiche die Differenzen auf Basis des genannten Kriteriums als annähernd normalverteilt gelten konnten. Hier wurden t-Tests gerechnet. Die anderen drei Vergleiche weisen nicht normalverteilte Differenzen der abhängigen Summen auf. In diesen Fällen wurde mit dem Wilcoxon-Test für Paardifferenzen (Wilcoxon matched pairs signed rank test) ein verteilungsfreies Verfahren zur Prüfung der abhängigen Summen auf signifikante Unterschiede herangezogen. Die Ergebnisse der 12 statistischen Tests sind in Tabelle 1 zusammengefasst. Abbildung 18 zeigt, dass die Stimuli 1, 2 und 3 mit innervokalischen F0-Gipfelpositionen unabhängig von der Gipfelgestalt für die Versuchspersonen in 70-80% der Fälle eher gut mit dem vorangehenden Kontext „Ganz bestimmt“ zusammengepasst haben. Zwischen den Identifikationsfunktionen sind in diesem Synchronisationsbereich nur geringe Unterschiede zu erkennen. Die prüfstatistische Analyse geht mit diesem Bild konform. So finden sich keine signifikanten Unterschiede zwischen den ‚passt eher gut’-Urteilen, die über die Stimuli 1-3 mit den jeweiligen Gipfelgestalten aufsummiert wurden (siehe Tabelle 1). Mit der Verschiebung des F0-Gipfels in den postvokalischen Bereich im Rahmen der Stimuli 4-6 spalten sich die bis dahin gebündelt verlaufenden Identifikationsfunktionen in zwei Gruppen auf. Für die Stimuli mit den beiden steil ansteigenden Gipfelgestalten s/s und s/f zeigt Abbildung 18(a) eine deutliche Änderung des Beurteilungsverhaltens. Je weiter der F0-Gipfel über den Ausgang des Akzentvokals hinaus geschoben wurde, desto häufiger wurden die Stimuli als eher schlecht mit dem Kontext zusammenpassend empfunden. Der sechste Stimulus, in dem sich der F0Gipfel bzw. dessen Maximum 60ms nach dem Akzentvokal befand, passte in deutlich über der Hälfte der Fälle (knapp 70%) eher schlecht mit dem vorangehenden Kontext zusammen.
106 106
Eigene Einleitung Untersuchungen
(a)
(b)
(c)
(d)
(e)
(f)
Abbildung 18: Paarvergleiche zwischen den vier Identifikationsfunktionen zu den Hörtests der vier Stimulusserien mit den Gipfelgestalten f/f, f/s, s/f und s/s im Synchronisationsraum von inner- zu postvokalisch. Vertikale Linien verweisen auf eine getrennte prüfstatistische Auswertung der Stimuli 1-3 und 4-6. Jeder Wert gibt 160 Urteile wieder. Datentabellen befinden sich im Anhang B auf der beiliegenden CD.
107 107
Zum Begriff der Sprechmelodie Zur Gipfelgestalt Stim. s/s vs. s/f f/f vs. f/s s/s vs. f/s f/f vs. s/f f/s vs. s/f s/s vs. f/f
t|R
df
p
1-3
0,661 | -
19
n.s.
4-6
-1,322 | -
19
n.s.
1-3
0,987 | -
19
n.s.
4-6
- | 43,5
16
n.s.
1-3
0,043 | -
19
n.s.
4-6
-3,955 | -
19
>0,001***
1-3
- | 33,5
16
n.s.
4-6
-3,366 | -
19
>0,01**
1-3
- | 36
15
n.s.
4-6
-4,642 | -
19
>0,001***
1-3
0,507 | -
19
n.s.
4-6
-2,601 | -
19
>0,05*
Tabelle 1: Werte der Prüfgrößen (t) oder (R), Freiheitsgrade (df) und Wahrscheinlichkeit eines Fehlers (p, zweiseitig, Sterne indizieren das Signifikanzniveau) für die 12 Tests abhängiger Stichproben über die Teilsummen der ‚passt eher gut’-Urteile zu den Kontext-Stimulus-Paaren mit den Stimulusnummern 1-3 bzw. 4-6 ( Stim.) aus den Serien mit den vier F0-Gipfelgestalten f/f, f/s, s/f und s/s des Synchronisationsraumes von inner- zu postvokalisch. Die dargestellten Vergleiche beziehen sich auf Abbildung 18(a)-(f). Rohdaten befinden sich im Anhang B (CD).
Anders verhält es sich bei den Stimuli mit den flach ansteigenden F0Gipfeln f/f und f/s. Die dazugehörigen Identifikationsfunktionen sind in Abbildung 18(b) dargestellt. Wie hieraus zu entnehmen ist, werden die Stimuli 4-6 mit diesen Gipfelgestalten im gegebenen Kontext kaum anders bewertet als die Stimuli 1-3, auch wenn eine schwache Veränderung des Urteilsverhaltens hin zu ‚passt eher schlecht’ insbesondere in Verbindung mit den f/f-Gipfeln durchaus sichtbar ist. Dennoch war auch Stimulus 6 mit dem am weitesten postvokalisch positionierten F0-Gipfel in der f/f- und f/s-Bedingung noch klar in über der Hälfte der Fälle mit dem Kontext zusammen vereinbar. Die beschriebene Divergenz zwischen den Identifikationsfunktionen von s/s und s/f auf der einen und f/f und f/s auf der anderen Seite, die in den Abbildungen 18(c)-(f) deutlich zu erkennen ist, wird in den prüfstatistischen Befunden reflektiert. Tabelle 1 zeigt in allen vier Vergleichen, dass die Stimuli 4-6, in denen der F0-Gipfel nach dem Akzentvokal lag, in der Summe signifikant mehr ‚passt eher gut’-Urteile erhalten haben, wenn sie die steil ansteigenden F0-Gipfel enthielten als wenn sie mit den flach ansteigenden F0-Gipfeln kombiniert dargeboten wurden.
108 108
Eigene Einleitung Untersuchungen
4.1.3 Die Diskussion der Ergebnisse des Perzeptionsexperimentes zur Gipfelgestalt Die Wortfolgen der beiden Äußerungen „Ganz bestimmt“ und „Sie’s mal Malerin gewesen“ sind prinzipiell kombinierbar. Durch das sprechmelodische Zeichen NEU, das über der Akzentsilbe „-stimmt“ in der Kontextäußerung realisiert wurde, erhält diese Äußerung jedoch in Verbindung mit ihrer Wortfolge eine bestimmte Sprecherattitüde. Diese schränkt die Kombinierbarkeit mit der nachfolgenden Stimulusäußerung „Sie’s mal Malerin gewesen“ ein. Die Stimulusäußerung bleibt vor allem dann weiterhin gut mit der Kontextäußerung kombinierbar, wenn in ihr ebenfalls das sprechmelodische Zeichen NEU (in „Ma-“ aus „Malerin“) vorkommt. Zusammen mit dem sprechmelodischen Zeichen UNERWARTET kann die Stimulusäußerung hingegen keine inhaltlich naheliegende Verbindung mit dem vorangehenden Kontext eingehen. Angesichts dessen werden die Ergebnisdaten so interpretiert, dass in der Beurteilung der Kontext-StimulusPaare als eher gut zusammenpassend die Identifikation des Zeichens NEU im Stimulus zum Ausdruck kommt, während das Urteil ‚passt eher schlecht’ die Identifikation des Zeichens UNERWARTET im Stimulus wiedergibt.20 Zur Hypothese (A1) Lediglich für die Stimuli mit den steil ansteigenden F0-Gipfeln der Art s/s und s/f hat sich eine Verlagerung der Urteile von mehrheitlich ‚passt eher gut’ zu mehrheitlich ‚passt eher schlecht’ ergeben. Wie in Niebuhr (2003a, b) soll auch im Rahmen der vorliegenden Arbeit das nachhaltige Überqueren der 50%-Marke im Urteilsverhalten über alle Versuchspersonen als Kriterium dafür verwendet werden, dass ein Übergang von der Wahrnehmung des einen sprechmelodischen Zeichens zur Wahrnehmung des anderen sprechmelodischen Zeichens stattgefunden hat (siehe 3.1.3). Während für _____________ 20
Es muss klar sein, dass diese Interpretation eine gewisse Vereinfachung darstellt. Streng genommen kann z.B. an der Beurteilung der Kontext-Stimulus-Paare als eher schlecht zusammenpassend nicht direkt abgelesen werden, dass in diesen Paaren das Zeichen UNERWARTET im Stimulus erkannt wurde. Es kann lediglich mit gewisser Sicherheit die negative Schlussfolgerung gezogen werden, dass nicht das Zeichen NEU erkannt wurde. Dass das ‚passt eher schlecht’-Urteil dennoch als Indikator für die Wahrnehmung des Zeichens UNERWARTET aufgefasst wird, basiert auf den vorliegenden Erkenntnissen zur phonetischen Ausprägung dieses Zeichens und auf der Annahme, dass kein weiteres Zeichen existiert, das in seinen phonetischen Eigenschaften „zwischen“ NEU und UNERWARTET einzuordnen ist. Insofern liegt der Interpretation der Ergebnisse der aktuelle phonetische und phonologische Forschungsstand zugrunde. Weitere Vereinfachungen und ihre Konsequenzen für die Schlussfolgerungen aus den Ergebnisdaten werden im Rahmen einer allgemeinen Diskussion des Identifikationstest-Paradigmas im Anschluss an die Darstellung der eigenen Untersuchungen in 4.4.3 angesprochen.
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
109 109
die Stimuli mit den beiden steil ansteigenden F0-Gipfeln s/s und s/f somit ein Wahrnehmungsübergang von NEU zu UNERWARTET eingetreten ist, ist er bei den Stimuli mit den beiden flach ansteigenden F0-Gipfeln f/f und f/s ausgeblieben. Folglich hat sich die Hypothese (A1) für die verwendeten Kontext-Stimulus-Paare nicht bestätigt. Die F0-Gipfel f/f und f/s waren zur Signalisierung des Zeichens UNERWARTET nicht geeignet. Die Gründe hierfür werden im weiteren Verlauf der Diskussion noch eruiert. In den Identifikationsfunktionen von f/f und f/s ist allerdings der Beginn einer solchen Wahrnehmungsveränderung vom einen zum anderen sprechmelodischen Zeichen zu erkennen (vgl. Abb. 18b). Aufgrund dessen ist nicht auszuschließen, dass im Falle einer weiteren Verschiebung des F0-Gipfels nach rechts über das Ende des Akzentvokals hinaus auch die flach ansteigenden F0-Gipfel mehrheitlich als das Zeichen UNERWARTET identifiziert worden wären. Insofern gilt die Ablehnung der Hypothese (A1) nicht grundsätzlich, sondern nur im Rahmen des präsentierten und beurteilten Synchronisationsraumes. Hierbei ist jedoch zu berücksichtigen, dass einer derartigen Verschiebung Grenzen gesetzt sind. Untersuchungen von Kohler (1991c) sowie von Landgraf (2003) beispielsweise haben sowohl für steigend-fallende F0-Gipfel als auch für (fallend-)steigende F0-Täler eindeutig gezeigt, dass durch eine Rechtsverschiebung des lokalen F0-Gipfels bzw. -Tals eine Verlagerung des Akzents auf die nachfolgende Silbe hervorgerufen wird (hier „-le-“ in „Malerin“). Das heißt, die Äußerung ist phonologisch und auch inhaltlich nicht länger dieselbe. Beim Entwurf des Synchronisationsraumes, der für das vorliegende Experiment zur Gipfelgestalt verwendet wurde, war nach Ansicht des Versuchsleiters diese Grenze nahezu erreicht. Obwohl die Grenze der Akzentverschiebung über entsprechende Veränderungen in der Dauer- und Intensitätsstruktur weiter nach hinten verlagert werden kann (auch dies wird durch die Entstehung rhythmischer Unebenheiten limitiert), wäre es daher ebenso unangemessen, a priori davon auszugehen, dass nur eine weitere Rechtsverschiebung erforderlich gewesen wäre, damit auch für die Gipfelgestalten f/f und f/s eine Wahrnehmungsveränderung von NEU zu UNERWARTET eintritt. Eine weitere Aufhellung dieser Frage ist nur durch zusätzliche Perzeptionsexperimente möglich. Im Zusammenhang mit Hypothese (A1) ist ferner darauf hinzuweisen, dass es in der vorliegenden Untersuchung erstmalig gelungen ist, über alle Versuchspersonen einen mehrheitlichen Wechsel in der Beurteilung der Kontext-Stimulus-Paare zu dokumentieren und in diesem Sinne eine Wahrnehmungsveränderung von NEU zu UNERWARTET nachzuweisen. Kohler (1991c) hat in seinem leicht abgewandelten Identifikationstest für
110 110
Eigene Einleitung Untersuchungen
Stimuli mit inner- und postvokalischen F0-Gipfeln lediglich einen leichten Rückgang im Zusammenpassen mit dem vorangehenden Kontext registriert. Er hat sich daher neben dem Identifikationstest auch auf die Resultate eines Diskriminationstests berufen, um die Existenz des Zeichens UNERWARTET neben dem Zeichen NEU im Standarddeutschen zu untermauern. Angesichts dessen belegen die Ergebnisse der vorliegenden Untersuchung zum ersten Mal unzweifelhaft, dass das Zeichen UNERWARTET neben dem Zeichen NEU im Standarddeutschen existiert. Für die deutliche Veränderung im Urteils- und dem daraus abgeleiteten Identifikationsverhalten der Versuchspersonen, das in der vorliegenden Untersuchung erzielt werden konnte, kommen mehrere Gründe in Betracht. Einer hiervon ist die Modifikation der Instruktion von ‚passt’ und ‚passt nicht’ bei Kohler (1987, 1991c) zu ‚passt eher gut’ und ‚passt eher schlecht’. Letzteres verlangt von den Versuchspersonen nicht, einige Kombinationen von Kontext und Stimulus kategorisch abzulehnen oder zu akzeptieren, sondern nur, einige Kombinationen für naheliegender als andere zu befinden. So erhalten die Versuchspersonen mehr Freiheiten bei der inhaltlichen und situativen Interpretation der Kontext-StimulusPaare. Insbesondere im Hinblick auf den im Vergleich zu den Zeichen GEGEBEN und NEU relativ kleinen Bedeutungsunterschied zwischen NEU und UNERWARTET dürfte dies zu einem differenzierten Urteilsverhalten beigetragen haben. Ein weiterer hiermit zusammenhängender Grund ist, dass bei Kohler (1991c) alle drei Zeichen (GEGEBEN, NEU und UNERWARTET) in einem Hörtest zusammen vorkamen. Der markante Unterschied in Melodie und Bedeutung zwischen den beiden Zeichen GEGEBEN und NEU könnte den weniger prägnanten weiteren Unterschied zwischen NEU und UNERWARTET teilweise überdeckt haben. Dies konnte durch die Konzentration auf die beiden Zeichen NEU und UNERWARTET im vorliegenden Experiment nicht geschehen. Andererseits ist aber auch festzustellen, dass die Veränderungen im Urteils- bzw. Identifikationsverhalten in der vorliegenden Untersuchung insgesamt nicht so prononciert ausgefallen sind, wie sie zuvor mehrfach für den Übergang zwischen den beiden Zeichen GEGEBEN und NEU gefunden wurden (z.B. Niebuhr 2003a, b und Kohler 1987, 1991c). Dieser Aspekt wird später in der Diskussion noch weiter behandelt werden. Im Hinblick auf die vermuteten Einflüsse der Instruktion der Versuchspersonen und der im Hörtests berücksichtigten sprechmelodischen Zeichen auf das Urteils- bzw. Identifikationsverhalten ist letztlich auch das Experiment von Kleber (2005, 2006) interessant. Sie hat die Wahrnehmung der Pendants zu den sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET im britischen Englisch untersucht. Ausgehend von den Experimenten von Kohler (1987, 1991c), wurde dafür eine F0-Gipfelver-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
111 111
schiebung von prävokalischen, über innervokalische bis hin zu postvokalischen Positionen durchgeführt. Die dabei entstandenen Stimuli wurden in einen Identifikationstest eingebettet, in dem die Versuchspersonen die Stimuli des gesamten Synchronisationsraumes als gut oder schlecht zusammenpassend mit dem vorangehenden Kontext bewertet haben, der auf das Pendant zu NEU in den Stimuli abgestimmt war. Ebenso wie Kohler findet Kleber (2005, 2006) unter diesen Voraussetzungen im Anschluss an den Übergang vom Pendant des Zeichens GEGEBEN zum Pendant des Zeichens NEU nur einen leichten erneuten Rückgang des Zusammenpassens der Kontext-Stimulus-Paare, der auf den Übergang zum Pendant von UNERWARTET hindeutet. Es wäre lohnenswert zu überprüfen, ob es auch diesem im Fall zu einer deutlicheren erneuten Änderung des Urteilsbzw. Identifikationsverhaltens und damit zu einem klareren Nachweis des britischen Pendants zu UNERWARTET kommt, wenn sich der Hörtest auf die beiden Pendants der Zeichen NEU und UNERWARTET konzentriert und/oder in die Instruktion Entsprechungen zu ‚eher gut’ und ‚eher schlecht’ eingefügt werden. Zu den Hypothesen (A2) und (A3) Die Hypothese (A2) hat sich im Rahmen dieses Experimentes bestätigt. Das heißt, die Gipfelgestalt hatte einen Effekt auf die Wahrnehmung beider Zeichen. Dieser konzentriert sich im Einklang mit der Hypothese (A3) auf nur einen Teil der Gipfelgestalt, nämlich die Anstiegsflanke. Die Variation der Abstiegsflanke hat sich als irrelevant herausgestellt. Der für die Variation der Anstiegsflanke gefundene Effekt fällt jedoch weder im Bereich der innervokalischen, noch im Bereich der postvokalischen Gipfelpositionen so aus, wie er in Hypothese (A3) vorhergesagt wurde. Danach hätten die steil ansteigenden F0-Gipfel s/s und s/f die Wahrnehmung des Zeichens NEU in beiden Positionsbereichen unterstützen sollen. Für die innervokalischen F0-Gipfel in dieser Untersuchung hat sich hingegen kein statistisch relevanter Einfluss der Gipfelgestalt ergeben. In allen Stimuli wurde gleichermaßen deutlich das Zeichen NEU erkannt. Das heißt, die Ergebnisse aus Niebuhr (2003a, b), die als Ausgangspunkt für die Hypothesen dienten, konnten unter den gegebenen experimentellen Bedingungen (hierzu zählen u.a. der Synchronisationsraum, der natürlich produzierte Kontext und die lautlichen Eigenschaften der Stimulusäußerung) nicht repliziert werden. Bei dieser Feststellung sollte allerdings nicht außer Acht gelassen werden, dass sich in einigen Paarvergleichen ein Unterschied zwischen den Identifikationsfunktionen abzeichnet, wie er bei Niebuhr gefunden wurde und wie er dementsprechend in den Hypothesen formuliert ist. Dies trifft besonders auf den Vergleich zwischen f/f und s/f zu, der in Abbildung 18(d) dargestellt ist. Hieraus wird klar ersichtlich,
112 112
Eigene Einleitung Untersuchungen
dass die Identifikationsfunktion zu den Stimuli mit s/f-Gipfeln im Bereich der ersten drei innervokalischen Gipfelpositionen unter der Funktion zu den Stimuli mit f/f-Gipfeln liegt. Dies zeigt an, dass die drei innervokalischen Gipfel mit s/f-Gestalten häufiger als das Zeichen NEU perzipiert wurden als mit f/f-Gestalten. Seitens der Prüfstatistik ist dieser Unterschied jedoch als zufällig zu klassifizieren. Im Hinblick auf die Parallelen zu den Ergebnissen von Niebuhr (wo der beschriebene Unterschied auch statistisch signifikant hervorgetreten ist) und die geringe Wahrscheinlichkeit eines -Fehlers, die mit p=0,052 die auf 5% (p>0,05) angesetzte Signifikanzschranke nur knapp überschreitet, sollte diese Klassifikation jedoch nicht überbewertet werden. Angesichts dessen ist das Bild, das durch die Ergebnisse der vorliegenden Untersuchung für den Bereich innervokalischer F0-Gipfel gezeichnet wird, mit dem von Niebuhr und den daraus abgeleiteten Hypothesen nicht völlig unvereinbar. Anders verhält es sich für den Bereich der postvokalisch positionierten F0-Gipfel. Die Ergebnisse dieser Untersuchung zeigen eindeutig, dass die beiden steil ansteigenden F0-Gipfel s/s und s/f gegenüber den beiden flach ansteigenden f/f und f/s die Wahrnehmung des Zeichens UNERWARTET in den Stimuli unterstützt haben. Es ist somit das Gegenteil von dem eingetreten, was nach Hypothese (A3) erwartet wurde. In diesem Zusammenhang ist es wichtig zu sehen, dass die Hypothese (A3), in der die erwarteten Gestalteffekte beschrieben werden, auf die Erkenntnisse von Niebuhr (2003a, b) zu den innervokalischen F0-Gipfeln zurückgeht, die hauptsächlich zur Wahrnehmung des Zeichens NEU geführt haben. Es wurde angenommen, dass diese Gestalteffekte auch für den Bereich postvokalischer F0-Gipfel gelten würden. Die Ergebnisse des vorliegenden Experimentes zeigen nun aber, dass die Gipfelgestalt in beiden Synchronisationsbereichen differenziert gewirkt hat. Die genannte Annahme hat sich also als unzutreffend erwiesen. Infolgedessen wird die Hypothese (A3) im Rahmen der innervokalisch positionierten Gipfel, die ebenfalls vornehmlich das Zeichen NEU hervorgerufen haben, zumindest andeutungsweise unterstützt, während die postvokalischen F0-Gipfel der Hypothese klar zuwiderlaufen. Dies weist auf die Interaktion von Gipfelgestalt und -position in der Signalisierung der beiden sprechmelodischen Zeichen NEU und UNERWARTET hin. Das heißt, die Gipfelgestalten werden vom Hörer nicht für sich genommen als Signal für eines der sprechmelodischen Zeichen interpretiert, sondern in Verbindung mit der Position des Gipfels, mit dem zusammen sie vorkommen. So ist zu verstehen, dass die beiden Gestalten s/s und s/f bei Niebuhr (2003a, b) in innervokalischer Position signifikant die Wahrnehmung des Zeichens NEU unterstützten können (andeutungsweise hat sich dies auch in dieser Untersuchung gezeigt) und in post-
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
113 113
vokalischer Position – wie in der vorliegenden Untersuchung gefunden – gleichzeitig als Signal für die Wahrnehmung des Zeichens UNERWARTET fungieren. Diese Interpretation korrespondiert ferner mit den Ergebnissen der Produktionsuntersuchungen, in denen auch keine zeichenspezifischen, sondern vielmehr kontext- bzw. positionsspezifische Gipfelgestalten gefunden wurden (vgl. 3.2.1). Im Folgenden werden Aspekte der Interaktion zwischen Gipfelposition und -gestalt für das Zeichen UNERWARTET weiter vertieft. Mögliche Ursachen für die gefundenen Effekte der Gipfelgestalt Wie die Ergebnisse des Experimentes gezeigt haben, konnten nur die steil ansteigenden F0-Gipfel ein Überwechseln von der Wahrnehmung des Zeichens NEU zur Wahrnehmung des Zeichens UNERWARTET in den Stimuli bewirken. Im Falle der flach ansteigenden F0-Gipfel f/f und f/s ist eine solche Wahrnehmungsveränderung trotz postvokalischer Gipfelpositionen ausgeblieben. Das heißt, die postvokalische Gipfelposition, bei der sich das Gipfelmaximum nach dem Akzentvokal befindet, reicht allein zur Wahrnehmung des Zeichens UNERWARTET nicht aus. Es ist jedoch fraglich, ob die Dauer bzw. die Neigung der Anstiegsflanke selbst als weiterer phonetischer Indikator für das Zeichen UNERWARTET betrachtet werden kann. In den Ausführungen zum Synchronisationsraum wurde darauf hingewiesen, dass aufgrund der gewählten Anstiegsdauer zum F0-Gipfelmaximum und der segmentellen Dauerstruktur der zugrundeliegenden Stimulusäußerung der Beginn der steil ansteigenden Gipfel immer nach dem Beginn des Akzentvokals lag, während der Beginn der flach ansteigenden Gipfel ausschließlich prävokalische Positionen einnahm. Dies ist in der Gegenüberstellung der Verschiebung des steil-steilen und flach-flachen F0-Gipfels in Abbildung 16 illustriert. Es ist gut möglich, dass diese innervokalische Position des Anstiegsbeginns, die durch die kurze Anstiegsdauer und die daran gekoppelte steile Anstiegsneigung entstanden ist, vom Hörer als Signal für das Zeichen UNERWARTET aufgefasst wird. Unterstützt wird diese Möglichkeit durch Erkenntnisse aus der Produktion. Gartenberg und Panzlaff-Reuter (1991) beobachten beispielsweise, dass der Anstiegsbeginn des Zeichens UNERWARTET nach dem Akzentvokalbeginn realisiert wurde, unabhängig von den unterschiedlichen Ausprägungen des F0-Gipfels in Abhängigkeit von der Silbenstruktur und der Anzahl unakzentuierter Silben zwischen der Akzentsilbe und dem Äußerungsende (vgl. 3.2.1). Dass nicht in allen akustischen Analysen eine solche konsistent innervokalische Positionierung des Anstiegsbeginns gefunden wurde (vgl. Niebuhr und Ambrazaitis 2006; Grabe 1998 in 3.2.1), mag auf weitere Signalisierungsstrategien neben Gipfelposition und -ge-
114 114
Eigene Einleitung Untersuchungen
stalt hindeuten. Es kann aber auch darauf zurückzuführen sein, dass der F0-Gipfel (bzw. dessen Maximum) in diesen Analysen zum Teil in Entfernungen nach dem Ende des Akzentvokals gefunden wurde, die deutlich über den hier erzeugten Synchronisationsraum hinausgehen. Dadurch könnte ein früh einsetzender Anstiegsbeginn kompensiert werden. Abgesehen von den abweichenden Positionsangaben für den Beginn des Anstiegs, entsteht über die verschiedenen akustischen Analysen aber der generelle Eindruck, dass die Positionierung des Anstiegsbeginns stabiler ist als die Dauer und Neigung des Anstiegs. Bei diesen Überlegungen ist zu berücksichtigen, dass die innervokalische Position des Anstiegsbeginns – sofern sie tatsächlich als Signal für das Zeichen UNERWARTET verstanden wird – vor allem bei gleichzeitiger postvokalischer Position des F0-Gipfels perzeptorisch relevant wird. Im Rahmen der innervokalisch liegenden F0-Gipfel der Stimuli 1-3 war es für die Identifikation der Zeichen NEU und UNERWARTET weit weniger bedeutsam (prüfstatisch war es streng genommen völlig ohne Belang), wo der Anstieg begann, bzw. durch welche Dauer und Neigung er gekennzeichnet war. Zusammengefasst zeigen die Ergebnisdaten, dass es für die (mehrheitliche) Wahrnehmung des sprechmelodischen Zeichens UNERWARTET unter den gegebenen Bedingungen erforderlich war, dass das Gipfelmaximum nach dem Ende des Akzentvokals lag und gleichzeitig der Anstieg zum Maximum erst nach dem Einsatz des Akzentvokals begann. Andere Konstellationen führten im erzeugten Synchronisationsraum überwiegend zur Wahrnehmung des Zeichens NEU. Weitere Perzeptionsexperimente sind nötig, um zu ergründen, ob Hörer – wie vermutet – die Position des Anstiegsbeginns als Signal für die Wahrnehmung des Zeichens UNERWARTET verwenden oder ob die simultan variierte Dauer und Neigung des Anstiegs den relevanten perzeptorischen Indikator darstellen. Unterschiede zu den Ergebnissen aus dem Experiment von Niebuhr (2003a, b) Im Vergleich zwischen den Resultaten, die sich für das vorliegende Experiment und das Experiment von Niebuhr (2003a, b) ergeben haben, fallen einige Unterschiede auf. Erstens war für die Gipfelverschiebung von einer prä- zu einer innervokalischen Position im Perzeptionsexperiment von Niebuhr unabhängig von der Gipfelgestalt ein Übergang von der Wahrnehmung des Zeichens GEGEBEN zur Wahrnehmung des Zeichens NEU eingetreten. Das heißt, die Gipfelposition hatte sich als bedeutsamer für die Signalisierung beider Zeichen erwiesen als die Gipfelgestalt. Im vorliegenden Experiment hingegen konnte der Wahrnehmungsübergang von NEU zu UNERWARTET durch die flach ansteigenden Gipfelgestalten
Zum Begriff der Sprechmelodie Zur Gipfelgestalt
115 115
f/f und f/s bei der durchgeführten Gipfelverschiebung von inner- zu postvokalisch unterdrückt werden. Angesichts einer F0-bedingten Verlagerung des Akzentes auf die nachfolgende Silbe wurde es als fraglich angesehen, dass eine weitere Verschiebung des F0-Gipfels in den postvokalischen Bereich zu einer mehrheitlichen Identifikation des Zeichens UNERWARTET in den Stimuli und damit zu einem Wahrnehmungsübergang von NEU zu UNERWARTET führen wird. Sollte dies jedoch erreicht werden können (weitere Perzeptionsexperimente müssen dies zeigen), dann ergibt sich voraussichtlich ein Einfluss der Gipfelgestalt auf die Lage der Grenze zwischen der Perzeption beider sprechmelodischen Zeichen, der größer ist als der in Niebuhr (2003a, b) gefundene Einfluss. Hier konnte das Überwechseln von der mehrheitlichen Wahrnehmung des Zeichens GEGEBEN zur mehrheitlichen Wahrnehmung des Zeichens NEU durch die Variation der Gipfelgestalt um bis zu 40ms (zwei Verschiebungsschritte des F0-Gipfels) hinausgezögert bzw. beschleunigt werden. Letztlich fällt auf, dass das Urteilsverhalten über alle Versuchspersonen für die 6 Stimuli, die aus dem Synchronisationsraum hervorgegangen sind, weniger differenziert ausfällt, als dies im Experiment von Niebuhr (2003a, b), aber auch in Experimenten von Kohler (1987, 1991c) der Fall gewesen ist. Das heißt, selbst die Stimuli mit den F0-Gipfeln von den Endpunkten des Synchronisationsraumes wurden im vorliegenden Experiment mit dem vorangehenden Kontext nicht eindeutig als eher gut oder eher schlecht zusammenpassend beurteilt. Hierfür kommen unterschiedliche Ursachen in Frage, von denen mehrere gleichzeitig zutreffen können. Zum einen ist zu berücksichtigen, dass die Synchronisationsräume, die in den Experimenten von Niebuhr (2003a, b) und Kohler (1987, 1991c) verwendet wurden, weitaus größer ausfielen als der Synchronisationsraum, der dem vorliegenden Experiment zugrundelag. Da sich die Gipfelverschiebung über ein größeres Zeitintervall erstreckte, könnten die Stimuli bei Niebuhr und bei Kohler klarere Exemplare der beteiligten sprechmelodischen Zeichen enthalten haben, was in einer entsprechend differenzierteren Bewertung derselben zusammen mit dem vorangehenden Kontext zum Ausdruck kommen würde. Des weiteren ist zu bedenken, dass die Bedeutungen der Zeichen GEGEBEN und NEU, auf denen die Beurteilung der Kontext-Stimulus-Paare in den Untersuchungen von Niebuhr und von Kohler basiert, weiter voneinander entfernt sind als die Bedeutungen der Zeichen NEU und UNERWARTET, die in der vorliegenden Untersuchung die Beurteilung gesteuert haben. Auch dies kann für die beschriebenen Unterschiede im Urteilsverhalten verantwortlich sein. Es muss aber auch die Möglichkeit mit einbezogen werden, dass die in dieser Untersuchung verwendete Kontextäußerung „Ganz bestimmt“, die mit dem
116 116
Eigene Einleitung Untersuchungen
Zeichen NEU auf „-stimmt“ produziert wurde, keinen inhaltlich und situativ ausreichend begrenzten Rahmen vorgegeben hat, sodass sich der Bedeutungsunterschied zwischen den sprechmelodischen Zeichen NEU und UNERWARTET im Stimulus nicht in vollem Umfang auf die Kombinierbarkeit von Kontext und Stimulus auswirken konnte. Letzteres wird aufgrund der eigenen Einschätzung der Kontext-Stimulus-Paare als eine der wahrscheinlichsten Erklärungen für die vergleichsweise geringe Urteilsverlagerung über die Stimuli des Synchronisationsraumes betrachtet. In den noch folgenden eigenen Experimenten, in denen die Zeichen NEU und UNERWARTET zusammen untersucht werden, wird daher ein anderer Kontext verwendet, der die Bedeutungsunterschiede zwischen beiden Zeichen besser herausarbeitet.
4.2 Die Rolle der Dauer und Intensität in lautlichen Elementen Im Anschluss an die Präsentation der vorliegenden Erkenntnisse zur Ausprägung der F0-Gipfel der Zeichentriade und der Implikationen, die sich daraus für einen Einfluss der Dauer und Intensität in lautlichen Elementen auf die Wahrnehmung der drei Zeichen ergeben haben, wurden die folgenden Hypothesen formuliert: (C) (D)
Die Dauer in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET. Die Intensität in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET.
Diese fundamentalen Hypothesen bilden den Ausgangspunkt für eine eigene Untersuchung, die sich aus zwei Bausteinen zusammensetzt. Der zweite Baustein stellt das eigentliche Perzeptionsexperiment dar, das aus einem Set von 14 Hörtests besteht. Diesem Baustein ist als weiterer Baustein eine akustische Analyse vorgeschaltet. Hierin werden anhand eines einfachen Modells Dauer- und Intensitätsmessungen durchgeführt. Sie dienen dazu, die Hypothesen (C) und (D) durch konkrete Hypothesen über den Zusammenhang zwischen sprechmelodischen Zeichen sowie Dauer- und Intensitätsmustern in lautlichen Elementen zu ergänzen, die dann im Perzeptionsexperiment experimentell prüfbar sind. Auf diese Weise geben die konkreten Hypothesen auch den Weg für die Manipulation und Resynthese der Stimuli im Perzeptionsexperiment vor. Hauptanliegen dieser bikomponentialen Untersuchung ist es, Gewissheit in den beiden fundamentalen Hypothesen (C) und (D) zu schaffen.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
117 117
Sollten sich die beiden Hypothesen bestätigen, ist es ein sekundäres Ziel der Untersuchung, einen ersten Einblick darin zu vermitteln, welche Ausprägungen von Dauer und Intensität in lautlichen Elementen der Kodierung des jeweiligen Zeichens zuzuordnen sind. Ferner ist hervorzuheben, dass es diese Untersuchung erstmalig gestattet, Aussagen zur Rolle von Dauer und Intensität in lautlichen Elementen bei der Kodierung sprechmelodischer Zeichen aufgrund von experimentell gewonnenen, zeichenübergreifend vergleichbaren Ergebnissen zu treffen. 4.2.1 Die Methode der akustischen Analyse zur Dauer und Intensität in lautlichen Elementen Die Auswahl und Vermessung der lautlichen Elemente Es war davon auszugehen, dass das Auffinden von systematischen Zusammenhängen zwischen den auszuwertenden sprechmelodischen Zeichen auf der einen Seite und Veränderungen der Dauer und Intensität in lautlichen Elementen auf der anderen Seite von zwei Entscheidungen abhängt, nämlich welche Elemente für die Messung selektiert und welche Messwerte hieraus entnommen werden. Aufgrund dessen sollten diese Entscheidungen dadurch geleitet werden, welche Elemente und Messpunkte sich in den hauptsächlich informellen Beobachtungen bereits als auffällig erwiesen hatten. Die getroffene Auswahl hat sich dabei vorrangig an den Beobachtungen von Kohler (1991c, d) orientiert, die unter Abschnitt 3.2.2 bereits detailliert vorgestellt wurden. Kohler fand für die Zeichen NEU und UNERWARTET, dass der Bereich um den Hochpunkt des F0-Gipfels durch ein erhöhtes, der periphere Gipfelbereich hingegen durch ein herabgesetztes Intensitätsniveau gekennzeichnet war. Ein Durchbrechen dieses „natural parallelism“ (Kohler 1991c:144) zwischen dem F0-Verlauf und dem Intensitätsverlauf konnte die Identifikation beider sprechmelodischen Zeichen negativ beeinflussen, denn „their coupled time courses are expected by listeners“ (Kohler 1991d:188). Er bemerkte ferner, dass das Zeichen UNERWARTET auch eine größere Dauer des äußerungsfinalen silbischen Nasals [n] bewirkte, über dem sich der F0-Gipfel ausprägte. Für das Zeichen NEU war dieser silbische Nasal kürzer ausgefallen. Auch diesem akustischen Unterschied misst Kohler eine Bedeutung für die Erkennung beider Zeichen bei. In Kohler (1991d) sowie in Gartenberg und PanzlaffReuter (1991) wird im Zusammenhang mit dem Zeichen UNERWARTET zudem auf eine größere Dauer des akzentuierten Vokals hingewiesen. Das Ausmaß dieser Dauervergrößerung hing dabei von Eigenschaften des Vokals sowie von der Anzahl und Struktur der Nachakzentsilben ab.
118 118
Eigene Einleitung Untersuchungen
Für die Auswahl zu messender Elemente zeigten die Beobachtungen von Kohler (1991c, d) vor allem, dass sich mögliche sprechmelodische Effekte nicht auf Dauer- und Intensitätsveränderungen in einzelnen lautlichen Elementen konzentrieren. Entsprechend musste die Suche nach solchen Effekten den gesamten Bereich abdecken, über dem sich der F0Gipfel hauptsächlich ausbreitet. Doch welche lautlichen Elemente in diesem Bereich sind für eine Vermessung geeignet? Kohler (1991c, d) bezieht sich bei seinen Beobachtungen von Intensitäts- und Dauerveränderungen vorrangig auf die Silbennuklei. Dies ist vermutlich auf zwei Ursachen zurückzuführen: Erstens stammen die Beobachtungen von Kohler aus einer Äußerung, die durch stimmlose Plosive im Ausgang (der Koda) der Akzentsilbe und im Eingang (dem Kopf) der Nachakzentsilbe gekennzeichnet war. Solche Laute sind während der Verschlussphase durch eine vollständige Stille gekennzeichnet und können daher keine an melodische Zeichen gebundenen Intensitätsvariationen aufweisen. Kohler konnte demzufolge nur Intensitätsveränderungen in den daran angrenzenden stimmhaften Silbennuklei beobachten und für eine perzeptorische Evaluierung manipulieren. Zweitens ist davon auszugehen, dass diese Perspektive vor dem Hintergrund des Kieler Intonationsmodells (Kohler 1991a, b) zu sehen ist, in dem den Vokalen (insbesondere dem Beginn des Akzentvokals) eine zentrale Rolle bei der Modellierung der sprechmelodischen Zeichen zukommt (vgl. 2.3). In Anbetracht der phonetischen Variation in der Positionierung der F0-Gipfel sprechmelodischer Zeichen über den Lautsegmenten einer Äußerung (vgl. 3.2.1) und unter gleichzeitiger Berücksichtigung der von Kohler (1991c, d) postulierten Verbindung des F0-Verlaufs mit dem Intensitätsverlauf, die aussagt, dass sich die gesuchten sprechmelodischen Effekte gerade nicht nur in bestimmten Lautsegmenten manifestieren, wirkt die sich bei Kohler herauskristallisierende Perspektive zu restriktiv. Ungeachtet der zu wählenden Messwerte erscheint es unangemessen, die akustische Analyse auf lautlichen Elementen zu basieren, bei denen Lücken in der Lautsequenz (wie etwa die Konsonanten in der Silbenperipherie) zurückbleiben. Die in Betracht kommenden lautlichen Elemente sollten ferner eine sinnvolle Beschreibungseinheit für die zu messenden Dauerund Intensitätswerte darstellen und folglich weder zu atomistisch, noch zu global ausfallen. Vor dem Hintergrund dieser Anforderungen wurde die Silbe als das lautliche Element gewählt, in dem die Intensitäts- und Dauermessungen durchgeführt wurden. Welche Silben dabei zu berücksichtigen waren, wurde daran festgemacht, über welchen Silben sich die F0-Gipfel der Zeichen GEGEBEN, NEU und UNERWARTET im Wesentlichen ausbreiten (vgl.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
119 119
hierzu 2.2 und Abb. 3). Es wurden Messwerte aus der Vorakzentsilbe, der Akzentsilbe und der Nachakzentsilbe entnommen. Was die Auswahl der Messwerte anlangt, so legte die silbenbezogene Perspektive nahe, die Dauern der Vorakzentsilbe, Akzentsilbe und Nachakzentsilbe zu bestimmen. Um mehr Informationen über mögliche Dauereffekte sprechmelodischer Zeichen zu erhalten und dabei gleichzeitig eine Beziehung zu den Beobachtungen von Kohler (1991c, d) zu wahren, wurden zusätzlich die Dauern der Silbennuklei aller drei Silben gemessen. Unter der Voraussetzung, dass sich die Konsonantendauern in der Silbenperipherie nicht kompensatorisch zu den von Kohler beobachteten Dauerveränderungen der Silbennuklei verhalten, sollte die Messung der Silbenund Vokaldauern annähernd äquivalente Effekte sichtbar werden lassen. Im Rahmen der Intensitätsmessungen wurde der Wert für das Intensitätsmaximum in jeder der genannten drei Silben bestimmt. Die Entscheidung für diesen Messpunkt wurde aus den folgenden Gründen getroffen: Der Intensitätsverlauf in der sprachlichen Einheit der Silbe zeichnet sich – grob schematisiert – in vielen Fällen durch einen gipfelförmigen Verlauf aus, ein Umstand, der auf die eine oder andere Art und Weise in viele Definitionsversuche der Silbe eingegangen ist (vgl. z.B. Sievers 1901; Selkirk 1984; siehe auch Abb. 3). Das Maximum des Intensitätsverlaufs liegt dabei in der Regel im vokalischen Silbennukleus (im Rahmen der eigenen Untersuchungen werden die Silben so aufgebaut sein, dass dies immer zutrifft). Das Intensitätsmaximum erschien daher ein geeigneter Messpunkt zu sein, um die Intensität der betreffenden Silbe bzw. ihres Silbennukleus zu repräsentieren, auf die Kohler (1991a, c) in seinen informellen Beobachtungen mehrfach hingewiesen hat. Silverman und Pierrehumbert (1990) ziehen ferner die Möglichkeit in Betracht, dass die gemessene Variation im alignment des F0-Maximums beim Pendant des standarddeutschen Zeichens NEU im amerikanischen Englisch durch die Position des Sonoritätsmaximums in der betreffenden Silbe determiniert sein könnte (vgl. 3.2.2). Sie deuten damit an, dass nicht (nur) das Intensitätsniveau der Silbe bzw. ihres Nukleus, sondern das Intensitätsmaximum selbst perzeptorisch relevant sein könnte. Hinzu kommt, dass das Intensitätsmaximum durch den gipfelförmigen Intensitätsverlauf vieler Silben ein klar zugänglicher und somit reliabler Messpunkt sein dürfte. Bei der Messung der Intensität mit dem Ziel, mögliche systematische Unterschiede zwischen sprechmelodischen Zeichen zu entdecken, muss ein weiterer Umstand bedacht werden. Dieser betrifft die mathematische Bindung des gemessenen dB-Wertes an die damit zusammenfallenden F0Werte. Eine solche Bindung besteht, da ein berechneter Intensitätswert auf der Summe der quadrierten Signalelongationen in einem bestimmten Zeitintervall basiert (vgl. RMS-Amplitude bei Reetz 1999). Eine Erhöhung
120 120
Eigene Einleitung Untersuchungen
des F0 führt zu einer höheren Anzahl betragsmäßig größerer Elongationswerte im betreffenden Zeitintervall und damit zu einem größeren Intensitätswert. Ein Herabsetzen des F0 bewirkt entsprechend das Gegenteil. In konkreten Zahlen bedeutet zum Beispiel eine Verdoppelung bzw. eine Halbierung des F0 eine Intensitätsveränderung um 3dB21. Da die untersuchten sprechmelodischen Zeichen GEGEBEN, NEU und UNERWARTET in der Regel beträchtliche Unterschiede in den F0-Gipfelpositionen aufweisen (vgl. Abb. 3 in 2.2), liegen den gemessenen Intensitätsmaxima der Silben zumeist sehr verschiedene F0-Wertebereiche zugrunde. Es ist daher zu erwarten, dass unter ansonsten identischen Bedingungen allein durch die unterschiedlichen F0-Gipfelpositionen systematische dB-Unterschiede zwischen den Zeichen gefunden werden. Von Interesse für die Frage einer zeichenspezifischen Intensitätsausprägung müssen jedoch gerade diejenigen Intensitätsvariationen sein, die jenseits des F0-bedingten Einflusses liegen, auch weil eine perzeptorische Relevanz F0-bedingter Intensitätsschwankungen im Hinblick auf die vergleichsweise geringen F0-Schwankungen sprachlicher Signale fragwürdig ist (vgl. Moore 1997). Es sollte daher ein Ziel der Intensitätsmessung sein, die F0-bedingten Anteile am gemessenen Intensitätsmaximum in einer Silbe nachträglich herauszurechnen. Zu diesem Zweck wurde zu jedem Intensitätsmaximum ebenfalls der dazugehörige F0-Wert, dass heißt, der F0-Wert desselben Analysefensters, erfasst. Zusammenfassend ergaben sich die folgenden Messungen in jeder dafür relevanten Äußerung: • Die Dauern der Vorakzentsilbe (VAS), der Akzentsilbe (AS) und der Nachakzentsilbe (NAS) • Die Dauern der Silbennuklei (in diesem Fall der Vokale) der drei genannten Silben • Das Intensitätsmaximum in jeder der drei genannten Silben • Die F0-Werte an den Zeitstellen der drei Intensitätsmaxima Die Zusammenstellung verdeutlicht, dass es sich nur um ein sehr simples silbenorientiertes Modell handelt, das an die Sprachdaten herangetragen wurde. Unberücksichtigt blieben beispielsweise Verlaufseigenschaften der Intensitätskontur, wie etwa die Breite und Lage der Intensitätsmaxima zu den Segmenten der Silbe, der Umfang des Intensitätsanstiegs, der die Er_____________ 21
Auf digitalisierte Signale trifft dies nur approximativ zu, da die Erhöhung bzw. die Absenkung der Frequenz aufgrund der begrenzten Anzahl an Abtastpunkten nicht vollständig abgebildet werden kann. Der Wert für die durchschnittliche Elongation fällt somit in der Regel etwas zu niedrig aus. Entsprechend liegt die Intensitätsveränderung für ein verdoppeltes und halbiertes F0 etwas unterhalb von 3dB.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
121 121
fassung der umliegenden Intensitätsminima erforderlich gemacht hätte und Informationen zum F0-Verlauf, um Parallelen zur Intensitätskontur sichtbar machen zu können. Es ist daher unwahrscheinlich, dass das gewählte Modell ausreicht, um die akustischen Hinweise auf einen möglichen Beitrag von Dauer und Intensität zur Kodierung der behandelten sprechmelodischen Zeichen in Gänze aufzuzeigen. Es erschien jedoch sinnvoll, für eine erste Annäherung an diesen Fragekomplex von vorliegenden Beobachtungen auszugehen und diese zunächst nur auf sehr globale Merkmale abzubilden. Die Auswahl des Sprachmaterials Der Vergleich von lautlichen Dauern und Intensitätsmaxima über Äußerungen hinweg macht es unerlässlich, dass die Segmente der betreffenden Silbensequenzen in ihren grundlegenden phonetischen Eigenschaften konstant gehalten werden, um intrinsische Intensitätsunterschiede sowie intrinsische und durch die Silbenstruktur bedingte Unterschiede in den Segmentdauern zu kontrollieren (Lehiste 1970; Klatt 1979 und Laver 1994 geben einen Überblick über verschiedene Einflussfaktoren auf die Segmentdauern). Zudem ist zu berücksichtigen, dass die lokalen phonetischen Ausprägungen von Dauer und Intensität (sowie F0), die über bestimmten Segmenten bzw. Segmentketten lokal gemessen werden sollen, Bestandteile einer (ggf. pro Parameter beschreibbaren) globalen Struktur (z.B. der Äußerung) darstellen und folglich auch durch diese globale Struktur beeinflusst werden. Was die Intensität anlangt, so gibt es zum Beispiele Hinweise aus anderen Sprachen als dem Deutschen, dass das Intensitätsniveau ähnlich der F0-Deklination (siehe Fußnote 19 auf Seite 90) über die Äußerung hinweg in der Regel kontinuierlich absinkt (vgl. u.a. Tseng und Fu 2005; Dubeda 2006). Es ist wahrscheinlich, dass dies für das Deutsche ebenfalls gilt (vgl. Jokisch und Kühne 2003). Auch von den Dauereigenschaften von Segmenten und Silben ist bekannt, dass sie durch die Position innerhalb der Äußerung beeinflusst werden (vgl. z.B. Laver 1994). Daher sollten die zu untersuchenden Silbensequenzen in einer konstante Äußerungsstruktur eingebettet sein. Um darüber hinaus auch systematische Einflüsse abweichender rhythmischer Muster auf die Dauer- und Intensitätsmessungen zu unterdrükken, sollten nicht nur die messphonetisch analysierten Silben, sondern alle Silben der Äußerungen im Kern gleich bleiben. Es sollte also allen Äußerungen der identische Wortlaut zugrundeliegen (hierauf bezogen, wird der Begriff der Äußerung im Singular verwendet). Dies ist auch wichtig, da die im vorangehenden Abschnitt angeführten Beobachtungen von Kohler (1991c, d) sowie von Gartenberg und Panzlaff-Reuter (1991) eine Kon-
122 122
Eigene Einleitung Untersuchungen
textsensitivität in den Effekten sprechmelodischer Zeichen auf die Dauern in lautlichen Elementen andeuten. Um zeichenspezifische Effekte sichtbar zu machen, müssen sie daher in der gleichen Umgebung beobachtet werden. Ferner ist es sinnvoll, dass die für das anschließende Perzeptionsexperiment herangezogene Äußerung im Wortlaut mit den zuvor akustisch analysierten übereinstimmt. Überdies sollte eine Vergleichbarkeit der Ergebnisse dieses Perzeptionsexperimentes mit Perzeptionsergebnissen aus anderen Untersuchungen angestrebt werden. Dem genannten Forderungskatalog entsprechend, beruhte die akustische Analyse und das Perzeptionsexperiment zur Dauer und Intensität in lautlichen Elementen auf der Äußerung „Sie’s mal Malerin gewesen“, die im Rahmen der Untersuchungen zur Gipfelgestalt in 4.1 bereits verwendet wurde. Die zu untersuchende Sequenz aus Vorakzentsilbe, Akzentsilbe und Nachakzentsilbe entspricht hierin den Silben „mal“ (VAS), „Ma-“ (AS) und „-le-“ (NAS). Diese Silbeneinteilung ist nicht an existierenden phonetischen oder phonologischen Silbendefinitionen (vgl. z.B. Selkirk 1984; Kohler 1966; Kloster Jensen 1963 gibt einen Überblick zu verschiedenen Definitionen der Silbe) ausgerichtet, sondern basiert auf der muttersprachlich-perzeptorischen Intuition des Autors. Dies schließt eine Übereinstimmung mit solchen Definitionen jedoch grundsätzlich nicht aus. Aufgrund der gewählten Äußerung konnte nicht auf das Sprachmaterial vorliegender lese- oder spontansprachlicher Korpora wie etwa dem Kiel Corpus of Spontaneous Speech (IPDS 1995, 1996, 1997) zurückgegriffen werden. Stattdessen wurde eigenes lesesprachliches Material gewonnen. Um die Produktion der drei Zeichen GEGEBEN, NEU und UNERWARTET in der Äußerung „Sie’s mal Malerin gewesen“ zu steuern, wurde die Bedeutung der Zeichen herangezogen. Des weiteren wurde Gebrauch davon gemacht, dass inhaltlich zusammengehörige Äußerungen bzw. Akzentstellen innerhalb einer melodischen Phrase22 häufig mit gleichartigen Zeichensequenzen realisiert werden. Peters et al. (2006) haben letzteres für das Deutsche anhand der Etikettierung im Kiel Corpus of Spontaneous Speech (IPDS 1995, 1996, 1997) demonstriert. _____________ 22
Unter einer melodischen Phrase (bekannter ist der Terminus der Intonationsphrase) werden gesprochene Abschnitte zwischen perzipierten Einschnitten verstanden. Derartige Einschnitte können unter anderem durch terminal fallende Tonhöhen- bzw. F0-Bewegungen oder deutliche Bruchstellen im Tonhöhen- bzw. F0-Verlauf (sog. Reset), die Längung von Segmenten oder Veränderung der Stimmqualität kodiert sein (vgl. Peters 2006). Abgesehen von abgebrochenen Phrasen sind melodische Phrasen strukturell wohlgeformte Einheiten. Das heißt, sie bestehen aus vollständig ausgeprägten, zu Ende geführten (also phonologisch vollständigen), sprechmelodischen Zeichen. In syntaktischer oder grammatischer Hinsicht müssen sie hingegen nicht vollständig sein. Insbesondere in Spontansprache ist letzteres selten der Fall.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
123 123
Auf der Grundlage dieser Erkenntnisse wurden vier Absätze konstruiert, in denen die Äußerung „Sie’s mal Malerin gewesen“ jeweils in Kontexte eingebettet vorkam, die das Auftreten eines der sprechmelodischen Zeichen besonders wahrscheinlich machten. Warum die Konstruktion einzelner Absätze der Erstellung eines einzigen zusammenhängenden Textes vorgezogen wurde, wird im Zusammenhang mit der Aufnahme der Sprachdaten ersichtlich werden. Im Folgenden sind die vier Absätze aufgeführt. Ihre Formatierung wird dabei in Kernpunkten so wiedergegeben, wie sie auch den Versuchspersonen präsentiert wurde. Um zum Beispiel sicherzustellen, dass die relevante Äußerung „Sie’s mal Malerin gewesen“ beim Ablesen des Textes flüssig produziert werden konnte, wurde die Formatierung der Absätze so gestaltet, dass diese Äußerung immer innerhalb einer Zeile geschrieben stand. Im Idealfall sollte mit den Kontextualisierungen in den vier Absätzen erreicht werden, dass sich die Zeichen GEGEBEN, NEU und UNERWARTET gleichmäßig über die sechs Fälle von „Sie’s mal Malerin gewesen“ verteilen, jedes Zeichen also pro Sprecher und Durchgang doppelt produziert werden würde (die Ergebnispräsentation wird zeigen, inwieweit dies tatsächlich erreicht wurde). Welcher Kontext dabei zur Elizitation welches Zeichens dienen sollte, wird im Nachfolgenden detaillierter erläutert. Absatz 1
Absatz 2
Peter und Anna unterhalten sich über ihre gemeinsame Freundin Sabine. Peter sagt zu Anna: „Hab ich Dir das schon erzählt? Sie’s mal Malerin gewesen. Interessant, oder?“ Anna guckt ihn ungläubig an und fragt: „War sie nicht mal Köchin?“ Es entbrennt eine längere Debatte. Schließlich gibt Anna nach und kommt zu dem Schluss: „Na gut. Du hast wohl recht. Sie’s mal Malerin gewesen.“ Peter und Anna reden über ihre gemeinsame Freundin Sabine. Sie’s mal Malerin gewesen. Vielleicht werden sie ihr ein Bild für ihre gemeinsame Wohnung abkaufen, in die die beiden gerade erst eingezogen sind. Beim näheren Betrachten von Sabines Werken bemerkt Peter: „Das sieht ja furchtbar aus. Sowas kann ich auch pinseln. Und das soll nun Kunst sein?“ Anna entgegnet entrüstet: „Na hör mal. Sie’s mal Malerin gewesen. Sie wird schon wissen, wie gute Kunst auszusehen hat.“
124 124
Eigene Einleitung Untersuchungen
Absatz 3
Peter und Anna sind auf einer Party bei Freunden. Nach einer Weile trifft auch Sabine bei der Party ein. Ein Gast sagt zu Peter: „Kaum zu glauben, dass sie jetzt Tag für Tag im Büro arbeitet. Schließlich war sie früher mal Malerin.“ Peter staunt überrascht: „Oh. Sie’s mal Malerin gewesen. Und ich hatte gedacht, sie war davor Köchin gewesen.“
Absatz 4
Peter und Anna stehen vor einem Gemälde in einer Kunstausstellung. „Wer das wohl gemalt hat?“ fragt Anna. „Das weißt Du nicht?“ fragt Peter erstaunt. „Sabine hat das gemalt.“ „Ach ja“ entfährt es Anna sofort, „sie’s mal Malerin gewesen. Das hatte ich beinahe vergessen.“
Am Ende des ersten Absatzes möchte die Sprecherin mit der Äußerung „Sie’s mal Malerin gewesen“ die vorangegangene Diskussion zu einem inhaltlichen Abschluss führen. Verstärkt wird diese Intention für den Leser durch Schlüsselbegriffe wie „Schließlich“ und „Schluss“ sowie durch die Formulierung „Na gut. Du hast wohl recht.“, mit der die Sprecherin ihr Nachgeben in der betreffenden Streitfrage signalisiert. In diesem Zusammenhang ist das Zeichen GEGEBEN auf „Malerin“ zu erwarten. Gleiches gilt auch für die vorangehenden beiden Akzente auf „gut“ und „recht“, da alle drei Äußerungen eine inhaltliche Einheit darstellen. Diese Zusammengehörigkeit sollte die Wahrscheinlichkeit des Zeichens GEGEBEN auf „Malerin“ zusätzlich erhöhen. Die ersten beiden Äußerungen des zweiten Absatzes bilden ebenfalls eine inhaltliche Einheit, bei der die erste Äußerung mit hoher Wahrscheinlichkeit mit dem Zeichen GEGEBEN auf dem letzten Wort „Sabine“ realisiert wird. Dies wird angenommen, da es sich um eine Feststellung handelt, die zu nichts Vorangehendem im Widerspruch steht und die in diesem Sinne ebenfalls einen definitiven, abschließenden Charakter erhält. Da die Tätigkeit der „Malerin“ eine nähere Spezifikation von „Sabine“ ist, ist zu erwarten, dass das Zeichen GEGEBEN ebenfalls auf die Spezifikation „Malerin“ übertragen wird. In der Mitte des zweiten Absatzes bereitet Peter seine Dialogpartnerin mittels der syntaktischen Frageäußerung „Hab ich Dir das schon erzählt?“ darauf vor, dass aus seiner Sicht eine für Anna neue Information folgen wird. Es ist daher zu erwarten, dass der Gegenstand dieser vermeintlich neuen Information, die „Malerin“, mit dem Zeichen NEU produziert wird. Im vierten Absatz bringt die Sprecherin mit „Ach ja“ zum Ausdruck, dass die vorangegangene Information für sie eine Auffrischung von zeitweilig nicht verfügbarem Wissen enthielt und in diesem Sinne als neu einzustu-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
125 125
fen ist. Entsprechend ist für die Realisierung von „Ach ja“ das Zeichen NEU auf „ja“ zu erwarten. Da die nachfolgende Äußerung „Sie’s mal Malerin gewesen“ als inhaltliche Weiter- bzw. Ausführung von „Ach ja“ anzusehen ist, sollte auf „Malerin“ ebenfalls das Zeichen NEU auftreten. Die erwarteten Fälle des Zeichens UNERWARTET stehen jeweils im Kontext einer Überraschung. Unterschiedlich ist lediglich, worauf diese Überraschung gerichtet ist. Gegen Ende des zweiten Absatzes wird dem Leser durch die Kombination aus dem Schlüsselbegriff „entrüstet“ und der nachfolgenden Äußerung „Na hör mal.“ angezeigt, dass die Sprecherin bislang von einer anderen Einstellung ihres Gegenübers zur Kunst ausgegangen ist (nämlich von der gleichen Einstellung, die sie selbst vertritt). Die Verletzung dieser Erwartungshaltung äußert sich in einer Überraschung, die auf das sprachliche Gegenüber gerichtet ist und so das Zeichen UNERWARTET auf „hör“ und dem inhaltlich daran anknüpfenden „Malerin“ nahelegt. Gegen Ende des dritten Absatzes wird durch die Formulierung „staunt überrascht“ eine Überraschung eingeleitet, die auf den Sprecher selbst gerichtet ist. Sprachlichen Ausdruck findet diese Überraschung in den inhaltlich zusammengehörigen Äußerungen „Oh“ und „Sie’s mal Malerin gewesen“. Für beide sollte daher die Realisierung des Zeichens UNERWARTET auf „Oh“ und „Malerin“ vorgezeichnet sein. Die Auswahl der Sprecher Akustische Messungen und perzeptorische Beschreibungen belegen übereinstimmend, dass die regionalen Varietäten des Deutschen in ihren Sprechmelodien auffällige Unterschiede aufweisen (vgl. u.a. Selting 2004; Gilles 2005; Peters 1999). Die in dieser Arbeit behandelten phonologischen Kontraste würden daher, sofern sie die jeweilige regionale Varietät überhaupt bzw. mit der angesetzten funktionalen Anbindung vorsieht, sehr heterogen produziert werden. Zwar bezieht sich die erwartete Heterogenität mit Blick auf die genannten Quellen in erster Linie auf den F0bzw. Tonhöhenverlauf. Es kann jedoch nicht ausgeschlossen werden, dass diese Heterogenität auch die Dauer und Intensität in lautlichen Elementen involviert. Der von Kohler (1991c:144) postulierte „natural parallelism“ zwischen F0 und Intensität unterstützt diesen Verdacht. Aus diesem Grund wurden als Versuchspersonen nur norddeutsche Muttersprachler herangezogen. Zudem wurde die Auswahl auf norddeutsche Männer beschränkt. Frauen weisen gegenüber Männern nicht nur anatomische Unterschiede im Sprachproduktionsapparat auf, es muss auch von der Existenz geschlechtsspezifischer Artikulationsmuster ausgegangen werden. Simpson (1998) zeigt anhand einer segmentellen Analyse lese- und spontansprachlicher Datenkorpora des Standarddeutschen (IPDS 1994, 1995, 1996,
126 126
Eigene Einleitung Untersuchungen
1997) beispielsweise, dass Frauen insbesondere im Bereich der (vokalischen) Silbennuklei in beiden sprachlichen Bedingungen größere Segmentdauern produzieren als Männer. In Verbindung mit der Vermessung der ersten und zweiten Formanten der Silbennuklei gelangt Simpson überdies zu der Schlussfolgerung, dass Frauen die von Männern erreichten artikulatorischen Konfigurationen speziell für offene und vordere Vokalqualitäten übertreffen. Aufgrund seiner Daten weist Simpson auf einen möglichen kausalen Zusammenhang zwischen den Dauer- und Formantmessungen hin, der allerdings einige Fragen offen lässt. Die Beobachtungen von Simpson (1998) machen es sehr wahrscheinlich, dass auch die Dauermessungen dieser Untersuchung unterschiedliche Wertebereiche für Männer und Frauen liefern würden. Gleiches lässt sich mit Blick auf die von Simpson angesetzten Unterschiede in den Vokalkonfigurationen auch für die Intensitätswerte ableiten, da die gemessene Intensität wesentlich vom erreichten Öffnungsgrad des Vokals mitbestimmt wird (vgl. z.B. Lehiste 1970). Ferner ist bekannt, dass Frauen im allgemeinen auf einem anderen Intensitätsniveau sprechen als Männer (vgl. z.B. Laver 1994). Durch das ausschließliche Heranziehen männlicher Versuchspersonen sollte eine dahingehende Heterogenität in der Stichprobe vermieden werden. Vor diesem Hintergrund ist die Beschränkung auf männliche Versuchspersonen letztlich auch sinnvoll, um die Vergleichbarkeit der Analyseergebnisse in dieser Arbeit mit früheren Beobachtungen zu wahren, die überwiegend auf männliche Sprecher zurückgehen. Insgesamt wurden 8 untrainierte Sprecher mit einer Altersspanne von 18 bis 49 Jahren für die messphonetische Analyse herangezogen. Hiervon sind 7 in Schleswig-Holstein geboren, einer stammt aus dem niedersächsischen Raum. Alle 8 Sprecher haben zum Zeitpunkt des Experimentes in Schleswig-Holstein gelebt. Die Aufnahme des Sprachmaterials Die Sprecher waren nicht über das Ziel der Aufnahme informiert. Sie wurden für die Aufnahme in einen eigens dafür präparierten Stuhl gesetzt, bei dem die Rückenlehne so verlängert worden war, dass sie ihren Kopf während der Aufnahme daran anlehnen konnten. Auf diese Weise sollte verhindert werden, dass Kopfbewegungen während der Aufnahme die späteren Intensitätsmessungen beeinflussen konnten. Das Mikrophon wurde in einem konstanten Abstand von 20cm vor ihrem Mund platziert. Im Rahmen der Aufnahme hat jeder Sprecher die vier Absätze in insgesamt vier Durchgängen gelesen. Im ersten Durchgang wurden die Absätze in der zuvor dargestellten Reihenfolge von eins bis vier präsentiert. In den darauf folgenden drei Durchgängen wurde die Reihenfolge randomisiert.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
127 127
Der erste Durchgang war hinzugefügt worden, damit sich die Sprecher an die Aufnahmesituation und das laute Vorlesen gewöhnen konnten. Diese Daten wurden bei der späteren Auswertung nicht berücksichtigt. Somit verblieben drei Wiederholungen pro Absatz und Sprecher. Die Randomisierung innerhalb dieser drei Wiederholungen sollte die Aufmerksamkeit des Lesers bewahren helfen und der Entstehung einer Monotonie beim Lesen vorbeugen. Dadurch sollte die Häufigkeit von Lesefehlern reduziert und die Entstehung deutlich ausgeprägter sprechmelodischer Zeichen forciert werden. Hierin lag letztlich auch der Grund für die Konstruktion einzelner Absätze anstelle eines zusammenhängenden Textes. Die Aufnahme fand in Einzelsitzungen in einem ruhigen Raum statt. Das Mikrophonsignal wurde über cool edit mit 16kHz Abtastrate und 16bit Amplitudenauflösung digital aufgezeichnet. Vor Beginn der Aufnahme bekamen die Sprecher die vier Absätze zum stillen Einlesen bereits ausgehändigt. Nachdem sie ihre Bereitschaft zur Aufnahme signalisierten, erhielten sie jeweils die Instruktion, dass sie die vier unterschiedlichen Absätze mehrfach in einer vom Versuchsleiter vorgegebenen Reihenfolge lesen sollten. Der Erzähltext in den Absätzen sollte möglichst in einem Vorlesestil wiedergegeben werden, wie er zum Beispiel von Hörspielen her bekannt ist. Die Dialoge sollten möglichst natürlich klingen. Sie sollten die Absätze in einem für sie angenehmen und gleichbleibenden Tempo mit normaler Zimmerlautstärke lesen und bei Versprechern den betreffenden Satz von vorne beginnen. Die Filterung der aufgenommenen Sprachdaten Im Anschluss an die Aufnahme der Sprachdaten wurde eine Filterung der Daten durchgeführt. Hiermit sollten zum einen Fälle aussortiert werden, in denen die relevante Äußerung „Sie’s mal Malerin gewesen“ mit keinem der zu untersuchenden sprechmelodischen Zeichen auf der Akzentsilbe des Wortes „Malerin“ produziert worden war. Weiterhin berücksichtigt werden sollten indes diejenigen Fälle, in denen die gesuchten Zeichen nur in nicht dafür vorgesehenen Kontexten realisiert worden waren, da die Kontextualisierungen nicht als experimentelle Variable, sondern als strategisches Mittel eingesetzt wurden. Zum anderen wurde mit der Filterung der Daten kontrolliert, ob die Kriterien, nach denen die relevante Äußerung konstruiert wurde und die bei der Produktion dieser Äußerung für ansonsten konstante melodische und akzentbezogene Rahmenbedingungen sorgen sollten, tatsächlich effektiv waren. Um die Filterung durchführen zu können, wurden in einem ersten Arbeitsschritt zunächst alle Realisierungen der Äußerung „Sie’s mal Malerin gewesen“ in separaten Dateien pro Absatz und Sprecher zusammengeschnitten. Da die einzelnen Absätze drei Mal pro Sprecher wiederholt
128 128
Eigene Einleitung Untersuchungen
wurden, und die genannte Äußerung in jedem Absatz ein oder zwei Mal vorkam, enthielten die Dateien entweder drei oder sechs potentiell messrelevante Fälle (abgebrochene Äußerungen wurden an dieser Stelle bereits aussortiert). Diese Fälle wurden mit dem Etikettiersystem auf Grundlage des Kieler Intonationsmodells, PROLAB (siehe Kohler 1997), hinsichtlich ihrer sprechmelodischen und akzentbezogenen Ausprägung etikettiert. Entsprechend wurden die Zeichen GEGEBEN, NEU und UNERWARTET als frühe, mittlere und späte Gipfel gekennzeichnet. Gemäß den Prinzipien des Kieler Intonationsmodells (Kohler 1991a, b) erfolgte die Etikettierung allein auf perzeptorischer Basis, ohne die Einbeziehung akustischer Eigenschaften. Das heißt, sie richtete sich nach dem Melodie- und Prominenzeindruck des Etikettierers. Alle Etikettierungen wurden nicht vom Versuchsleiter selbst, sondern vom unabhängigen Etikettierer Gilbert Ambrazaitis durchgeführt23. Auf der Grundlage der beschriebenen Etikettierung wurden alle Fälle mit den folgenden Merkmalen aussortiert: • Fälle, die einen Akzent auf „Sie’s“ aufwiesen (einschließlich partieller Deakzentuierung, siehe hierzu 2.3.1) • Fälle, in denen eine partielle Deakzentuierung oder ein emphatischer Akzent auf „Malerin“ vorlag (siehe hierzu 2.3.1) • Fälle, in denen keines der gesuchten sprechmelodischen Zeichen auf „Malerin“ vorkam. Dies schloss auch Fälle mit ein, in denen die sprechmelodischen Zeichen auf „Malerin“ mit einem weiteren sprechmelodischen Zeichen auf „gewesen“ in einem gemeinsamen Hutmuster (siehe hierzu ’t Hart et al. 1990; Kohler 1991b; Kohler 1997) standen, da dies nach der Auffassung des Kieler Intonationsmodells (Kohler 1991a, b) die phonologischen Eigenschaften des Zeichens über „Malerin“ verändert und es sich somit nicht länger um das zu untersuchende Zeichen handelt. Im Rahmen der autosegmentell-metrischen Phonologie ist es hingegen irrelevant, ob die phonetischen Eigenschaften eines Hutmusters vorliegen oder nicht (vgl. Pierrehumbert 1980). Die Messung der Intensitäts- und Dauerelemente Innerhalb der ausgewählten Sprachsignale wurden alle Dauer- und Intensitätsmessungen mittels praat vorgenommen. Die Messungen der Segmentund Silbendauern fanden primär anhand einer Abgleichung von Informationen aus Oszillogramm und Sonagramm statt. Für letzteres wurde eine Breitbandeinstellung (200Hz Fensterbreite im Frequenzbereich mit Gaus_____________ 23
Ich danke Gilbert Ambrazaitis für die Anfertigung der Etikettierung.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
129 129
scher Fensterfunktion) gewählt, die eine gute zeitliche Auflösung des Signals ermöglichte. Die an den Akzentvokal angrenzenden Nasale bzw. Laterale führten zu deutlichen spektralen Brüchen, aufgrund derer die Grenzen der Akzentsilbe, die gleichzeitig das Ende der Vorakzentsilbe sowie den Beginn der Nachakzentsilbe markierten, klar erkennbar waren. Der initiale Nasal [m] der Silbe „mal“ wurde durch den vorangehenden Frikativ [s] in der Regel ganz oder teilweise entstimmt realisiert, sodass in diesen Fällen keine vergleichbar profilierten Bruchstellen wie in den stimmhaften Signalabschnitten zur Festlegung des Beginns der Vorakzentsilbe herangezogen werden konnten. Durch die artikulatorische Koordination von Frikativ und Nasal ergab sich jedoch ein anderer markanter Orientierungspunkt für die Bestimmung der genannten Silbengrenze: In vielen Fällen haben die Sprecher den vollständigen (bilabialen) Verschluss für den Nasal etabliert, bevor sie das Velum gesenkt und so den Weg durch den Nasenraum für den pulmonalen Luftstrom freigegeben haben. Infolgedessen konnte sich ein Überdruck im Ansatzrohr aufbauen, der im Moment der Senkung des Velums zu einem Lösungsimpuls geführt hat. Dieser wurde als initiale Grenze der Vorakzentsilbe definiert. In Fällen, in denen dieser Impuls nicht oder mehrfach auftrat, diente die Veränderung in der spektralen Zusammensetzung der Friktion von [s] zu [m] kombiniert mit dem Wahrnehmungseindruck der Bestimmung der initialen Silbengrenze von „mal“. Da sich /r/ in initialer prävokalischer Distribution im Standarddeutschen als (stimmhafter) Frikativ =¯? ausprägt (vgl. Kohler 1995), wurde als hintere Grenze der Nachakzentsilbe der Einsatz von Friktion im oberen Frequenzbereich des Signals definiert. Zusätzlich zu den Silbendauern sollten die Dauern der Silbennuklei ermittelt werden. Hierbei ist darauf hinzuweisen, dass der silbenfinale Lateral [l] in „mal“ entweder vollständig elidiert wurde oder nur in Form einer Diphthongierung des offenen Vokals auftrat. Es ist denkbar, dass ein Teil der Lateralartikulation durch den bilabialen Verschluss des folgenden Nasals akustisch maskiert wurde. Unabhängig davon besteht auf akustischer Ebene kein Anlass, [l] als eigenständiges Segment neben dem vorangehenden offenen Vokal zu führen. Der Signalabschnitt zwischen den bilabialen Nasalen der Vorakzentsilbe und Akzentsilbe wurde daher insgesamt als Silbennukleus der Vorakzentsilbe gewertet. Auf dieser Grundlage lagen für alle drei untersuchten Silben CV-Strukturen vor. Aus der Bestimmung der Segmentgrenze zwischen Konsonant und Vokal konnten somit – in Kombination mit den Silbendauern – die Dauern beider Segmente einer Silbe errechnet werden. Diese Segmentgrenzen
130 130
Eigene Einleitung Untersuchungen
waren wiederum über deutliche spektrale Brüche in den meisten Fällen klar zugänglich. Insgesamt konnten die Grenzen und damit die Dauern der Silben und ihrer vokalischen Silbennuklei in allen zu untersuchenden Fällen recht präzise und reliabel erfasst werden. Abbildung 19 illustriert dies anhand eines charakteristischen Beispiels. In Zweifelsfällen, in denen die genannten akustischen Kriterien nicht oder nicht eindeutig anwendbar waren, war der Perzeptionseindruck ausschlaggebend. Die Intensitätsmessungen wurden in einem Anzeigebereich von 65dB bis 85dB durchgeführt (siehe Abb. 19). Die Messwerte selbst wurden mit einer konstanten Fensterbreite von 40ms berechnet (ein zu einem bestimmten Zeitpunkt gemessener Intensitätswert berücksichtigt somit die Eigenschaften des Signals über 20ms zu jeder Seite). Die verwendete Fensterbreite wurde als angemessener Kompromiss zwischen einer guten zeitlichen Auflösung einerseits und einer Glättung der einzelnen Schwingungen des Signals sowie lokaler Perturbationen der Signalamplitude (Weiteres im nachfolgenden Abschnitt zur Messwertaufbereitung) andererseits erachtet.
Abbildung 19: Oszillogramm (oben) und Sonagramm (0-5kHz, unten) der Äußerung „Sie’s mal Malerin gewesen“, produziert mit dem Zeichen NEU. Im Sonagramm sind zusätzlich der F0Verlauf (0-200Hz, hellgrau) und der Intensitätsverlauf (65-85dB, dunkelgrau) dargestellt. Zur besseren Erkennbarkeit wurden beide von praat erzeugten Verlaufsdarstellungen manuell nachgezeichnet. Unter dem Sonagramm befindet sich eine phonetische Transkription der Segmente der Vorakzent-, Akzent- und Nachakzentsilbe. Ihre Grenzen sind durch vertikale Linien angezeigt.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
131 131
Die gemessenen F0-Werte basieren auf dem gleichen Analysefenster wie die Intensitätswerte. Hinsichtlich seiner zeitlichen Auflösung unterliegt der F0-Verlauf daher den gleichen Beschränkungen wie der Intensitätsverlauf. Die Aufbereitung der Messwerte Die Abbildung 20 gibt einen Überblick über die Faktoren, aus denen sich die grau unterlegten Messwerte der Intensität und Dauer im Wesentlichen zusammensetzen. Gestrichelte Pfeile zu dem jeweiligen Messwert zeigen an, dass ein solcher Einfluss bislang nur hypothetisch ist. Die links positionierten Faktoren sind für beide gemessenen Signaleigenschaften relevant, die ober- und unterhalb der Messwerte angeordneten Faktoren stellen messwertspezifische Einflüsse dar. Der rechte von einem breiten Rahmen eingefasste Faktor repräsentiert denjenigen Einfluss auf die Messwerte, der in dieser akustischen Analyse sichtbar gemacht werden sollte: Extrinsische systematische Variationen aufgrund der unterschiedlichen Kodierung sprechmelodischer Zeichen. Eine experimentelle Untersuchung dieses Einflussfaktors setzt voraus, dass alle anderen Faktoren kontrolliert (das heißt z.B. konstant gehalten) werden. Einige dieser Einflüsse, die nachfolgend zusammengefasst werden, können bereits durch die Vorgehensweise bei der Sprachdatengewinnung und -messung als kontrolliert gelten. Hinsichtlich der dauerbezogenen Faktoren kann durch die Verwendung der gleichbleibenden Äußerung „Sie’s mal Malerin gewesen“ und der Beschränkung auf bestimmte phonologische Akzentmuster davon ausgegangen werden, dass die drei untersuchten Silben in eine stabile globale (u.a. rhythmische) Struktur eingebettet sind und die behandelten sprechmelodischen Zeichen in einer vergleichbaren Umgebung beobachtet werden. Die untersuchten Silben selbst werden sich, ebenso wie alle übrigen Silben der Äußerung, durch die genannten Maßnahmen in ihren grundlegenden phonetischen Eigenschaften nicht entscheidend verändern, wodurch nicht nur intrinsische und durch die Silbenstruktur hervorgerufene Dauereinflüsse weitgehend ausgeklammert werden können, sondern auch intrinsische Intensitätsveränderungen. Auch mit der genannten Eingrenzung der ausgewerteten phonologischen Akzentmuster wurde gleichzeitig ein für die Intensitätsmessungen relevanter Einflussfaktor kontrolliert. Dadurch, dass die Silben immer an konstanter Position innerhalb der Äußerung auftreten, wurde ferner ein Aspekt des Intensitätsniveaus kontrolliert (der sich auf die Intensitätsdeklination bezieht, sofern dies im Deutschen überhaupt vorkommen sollte). Die Auswahl männlicher Sprecher norddeutscher Herkunft sollte die Stichprobe hinsichtlich geschlechtsspezifischer und vermuteter dialektaler Einflüsse auf die Dauerund Intensitätsmessungen homogen halten. Letztlich kann durch die
132 132
Eigene Einleitung Untersuchungen
Fixierung des Kopfes jedes Sprechers mittels einer verlängerten Rückenlehne der intensitätsbezogene Faktor der Aufnahmebedingung (in Form des Mikrophonabstandes) als kontrolliert gelten.
Abbildung 20: Zusammenstellung von Faktoren, aus denen sich die gemessenen Intensitäts- und Dauerwerte konstituieren.
Durch eine entsprechende Aufbereitung der Messwerte sollte die experimentelle Kontrolle auf weitere Faktoren ausgeweitet werden. Aus den Intensitätsmaxima der Vorakzentsilbe, Akzentsilbe und Nachakzentsilbe wurden für jede ausgewertete Äußerung zwei Differenzen gebildet, eine zwischen der Vorakzentsilbe und der Akzentsilbe und eine weitere zwischen der Akzentsilbe und der Nachakzentsilbe. Die so aufbereiteten (relativen) Werte sind unabhängig vom Einflussfaktor (sprecherindividuell) unterschiedlicher Intensitätsniveaus, da letztere sich global ausprägen und somit keine relevanten Variationen innerhalb der drei untersuchten Silben erwarten lassen. Aus den genannten Differenzen wurde des weiteren der Einflussfaktor unterschiedlicher zugrundeliegender F0-Werte herausgerechnet. Hierfür wurde der Logarithmus des Verhältnisses der F0-Werte beider Differenzelemente (a und b) gebildet und mit dem Faktor zehn multipliziert (dies entspricht dB-Werten auf F0-Basis, siehe hierzu die vorangegangenen Erläuterungen auf S. 119f.). Das Ergebnis hieraus wurde von der Differenz der gemessenen Intensitätswerte subtrahiert. Die folgende Formel (1) fasst die beschriebenen Rechenoperationen zusammen: (1)
(Intensität(a)-Intensität(b)) – 10 log
F0(a) F0(b)
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
133 133
Unterschiede in der Lautqualität (bzw. Timbre gemäß 1.2.4) beeinflussen die gemessenen Intensitätswerte primär durch Unterschiede in der Fläche der Öffnung, aus der das Sprachsignal aus dem Ansatzrohr abgestrahlt wird (vgl. Lehiste 1970). Da die ermittelten Intensitäten ausschließlich aus den vokalischen Silbennuklei stammten, konnten sich die Überlegungen zur Kontrolle dieses Faktors auf diese Segmentgruppe beschränken. Der Vokal der Silbe „Ma-“ aus „Malerin“ fällt offener aus als die Vokale der beiden umliegenden Silben. In der phonetischen Transkription des Beispiels aus Abbildung 19 kommt dieser Unterschied im Öffnungsgrad durch die Verwendung der Symbole [C:] gegenüber [m] und [«] zum Ausdruck. Ursächlich hierfür ist insbesondere die Akzentuierung der Silbe „Ma-“ (vgl. hierzu z.B. de Jong 1995). Die Transkription der Vokale der Vor- und Nachakzentsilbe als [m] und [«] zeigt darüber hinaus, dass auch für sie in der Regel nicht der gleiche Öffnungsgrad zu erwarten ist. Ein wie im Falle von F0 vorgenommenes nachträgliches Herausrechnen dieses lautqualitätsbezogenen Faktors ist problematisch. Da der Öffnungsgrad zum Zeitpunkt der Aufnahme nicht erfasst wurde, könnte eine solche Kalkulation nur indirekt anhand der Messung des ersten Formanten (ggf. in Relation zu F0, vgl. Miller 1953; Traunmüller 1981, 1985) durchgeführt werden. Es ist fraglich, ob solche Messungen mit der nötigen Präzision vorgenommen werden können. Als effektiver wurde es angesehen, den Faktor der Lautqualität bzw. des Timbre nicht durch die Aufbereitung der Messwerte zu kontrollieren, sondern durch Restriktionen bei der Betrachtung der Messwerte. So wurden Intensitätsdifferenzen nicht in ihrer Genese betrachtet (wobei der Wert aus Vorakzent- und Akzentsilbe auf den aus Akzent- und Nachakzentsilbe bezogen werden würde), sondern nur im Vergleich zu anderen Intensitätsdifferenzen zwischen den gleichen Silben. Ähnlich schwierig wie die Kontrolle von Unterschieden im Öffnungsgrad der Vokale gestaltet sich die Extraktion der Einflüsse (sprecherindividuell) unterschiedlicher Sprechgeschwindigkeiten aus den gemessenen Dauerwerten der drei untersuchten Silben, sofern vorhanden. Die Schwierigkeit beginnt bereits mit der Frage, wie Sprechgeschwindigkeit in den akustischen Abbildern des Sprachsignals überhaupt zu bestimmen ist. In der phonetischen Forschung kommen hierfür unterschiedliche Verfahren zur Anwendung, die oft durch die individuelle Problemstellung inspiriert sind (vgl. z.B. Pfitzinger 1998, 2001; Shinozaki und Furui 2003; Morgan und Fosler-Lussier 1998; Koreman 2006) und somit immer nur Facetten des Phänomens Sprechgeschwindigkeit erfassen. Grundsätzlich ist aber davon auszugehen, dass Sprechgeschwindigkeit eine globale multifaktoriell determinierte Erscheinung ist (vgl. Kohler 1986; Pfitzinger 2001). Gemäß der perzeptorischen Ausrichtung dieser Arbeit wurde das ausgewertete
134 134
Eigene Einleitung Untersuchungen
Sprachmaterial zunächst nach Gehör auf Unterschiede in der Sprechgeschwindigkeit hin überprüft. Der Globalität dieses Faktors Rechnung tragend, wurden für diese Überprüfung die kompletten Absätze herangezogen. Hierbei konnten keine entscheidenden Unterschiede festgestellt werden. Ausschlaggebend ist jedoch, dass die Silbendauern auf akustischer Ebene hinsichtlich eines Einflusses der Sprechgeschwindigkeit vergleichbar sind. Durch die multifaktorielle Zusammensetzung der Sprechgeschwindigkeit ist der gewonnene Perzeptionseindruck nur ein Hinweis darauf, dass diese Vergleichbarkeit gegeben ist. Zumindest sollte durch den homogenen Perzeptionseindruck aber ausgeschlossen sein, dass das gesammelte Sprachmaterial grobe Verletzungen dieser Vergleichbarkeit enthält. Um die restliche Unsicherheit weiter zu minimieren, wurde die perzeptorische Kontrolle durch akustische Maßnahmen ergänzt, indem für jede ausgewertete Äußerung relative Dauerwerte in Form zweier Verhältnisse gebildet wurden. Wie im Falle der Intensitätsdifferenzen, wurden auch die relativen Dauerwerte an der Akzentsilbe ausgerichtet. Entsprechend wurde der prozentuale Anteil der Dauer der Vorakzentsilbe an der Akzentsilbe sowie der prozentuale Anteil der Nachakzentsilbe an der Akzentsilbe berechnet. Durch die Bildung von Verhältnissen, die als adäquater für die Kontrolle der Sprechgeschwindigkeit angesehen wurden als die Bildung von Differenzen (wobei zu berücksichtigen ist, dass den Intensitätswerten ebenfalls Verhältnisse zugrundeliegen), werden äußerungsübergreifende Unterschiede in der Sprechgeschwindigkeit aufgefangen. Da sich solche Unterschiede allerdings nicht in gleicher Weise auf alle Silben und deren Segmente auswirken, wird hierbei ein kleinerer Fehler begangen. Da dieser kleinere Fehler angesichts der perzeptorischen Kontrolle jedoch allenfalls von sehr geringen Sprechgeschwindigkeitseinflüssen ausgeht, wird er insgesamt als vernachlässigbar betrachtet. Jenseits der Kontrolle von Sprechgeschwindigkeitsunterschieden wurden zusätzliche Dauerverhältnisse berechnet, die sich auf den Silbennukleus beziehen. Hierfür wurde der Wert für die Vokaldauer einer Silbe durch die Gesamtdauer dieser Silbe dividiert. Diese Werte geben – jeweils für die Vorakzentsilben, Akzentsilben und Nachakzentsilben – den Anteil des Vokals an der Silbendauer an. Sie lassen darauf schließen, welches Element der Silbe für Unterschiede in der Silbendauer primär verantwortlich ist. Hinsichtlich der in Abbildung 20 zusammengestellten Einflüsse auf die gemessenen Intensitäts- und Dauerwerte können damit alle Faktoren mit Ausnahme des zu untersuchenden Faktors und dreier weiterer Faktoren als kontrolliert betrachtet werden. Bei letzteren handelt es sich um die Interaktion von F0 und Timbre (in Abb. 20 angezeigt mit einem hori-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
135 135
zontalen Pfeil), durch die lokale Perturbationen der Signalamplitude entstehen, sowie um zufällige Variationen und Ungenauigkeiten in der Messung. Zu den lokalen Perturbationen kommt es, wenn eine Harmonische der Grundfrequenz (im Quellensignal) die Frequenz im Zentrum eines Formanten des Ansatzrohres (im Filtersignal) durchquert. Einzelheiten zu Harmonischen und Formantfrequenzen sowie zum Quelle-Filter-Modell finden sich bei Fant (1970) und Ladefoged (1996). In Sprachsignalen sind durch die permanente Fluktuation von F0 und Timbre sowohl die Harmonischen als auch die (zentralen) Formantfrequenzen ständigem Wandel unterworfen. Ein Zusammenfallen von Frequenzen aus Quelle und Filter wird daher nur von sehr kurzer Dauer sein. Tritt dieser Fall jedoch ein, äußert sich dies in einem lokalen Anstieg der Signalamplitude. Wie umfangreich dieser ist, hängt von der Höhe des Formanten und der Harmonischen ab. Je höher die beteiligten Formanten und Harmonischen sind, desto geringer wird der Einfluss auf die Signalamplitude und damit auf die gemessene Intensität (vgl. optimal vocal frequency bei House 1959). Studien wie die von Peterson und McKinney (1961) kommen zu der Auffassung, dass der durch den Zusammenfall von Quelle- und Filterfrequenzen verursachte Intensitätsanstieg nicht in die Lautheitswahrnehmung der betreffenden Äußerung durchdringt. Neben dem Umstand, dass es sich bei den beschriebenen Intensitätsfluktuationen nicht um extrinsisch gesteuerte handelt, ist ihre perzeptorische Irrelevanz ein weiterer Grund, weswegen sie nicht mit in die Messungen eingehen sollten. Die in der Analyse verwendete Fensterbreite von 40ms sollte dazu beitragen, diese lokalen Perturbationen in den Intensitätsmessungen abzuschwächen. Da die Analyse ausschließlich auf männlichen Sprechern basiert, deren F0Niveau zum Beispiel im Vergleich zu weiblichen Sprechern deutlich niedriger ausfällt, fallen so im relevanten Bereich der Silbentriade immer in etwa vier bis fünf Perioden in ein Analysefenster. Das relativ niedrige F0Niveau männlicher Sprecher hat ebenfalls zur Folge, dass nur die schwächeren höheren Harmonischen mit zentralen Formantfrequenzen koinzidieren können. Angesichts der offeneren Vokalqualitäten in der relevanten Silbentriade liegen die Formantfrequenzen (insbesondere der energiereichste erste Formant) zudem sehr hoch. Die Kombination aus großem Analysefenster, männlichen Sprechern und offeneren Vokalen sollte insgesamt dazu führen, dass die Intensitätsmessung durch die Interaktion von F0 und Timbre nicht entscheidend beeinflusst werden kann. Wenn ein solcher Einfluss überhaupt zu beobachten ist, dann sollte sich dieser aufgrund der charakteristischen Positionierung der F0-Gipfel zu den Vokalen der drei Silben (siehe Abb. 3), durch die immer ähnliche Frequenzwerte der Harmonischen mit immer
136 136
Eigene Einleitung Untersuchungen
ähnlichen zentralen Formantfrequenzen zusammenfallen, in Form von zeichenspezifischen Niveaus der Intensitätsdifferenzen ausprägen. Dies wird im Rahmen der Diskussion der Ergebnisse wieder aufgegriffen. Die zweite sich experimenteller Kontrolle entziehende Variable ist die der zufälligen Variationen. Diese entstehen, da die sprachlichen Äußerungen durch biologische Organismen zustande kommen. Der dritte Faktor der Ungenauigkeiten in der Messung ist vornehmlich zurückzuführen auf Grenzen der Signalanalyse (z.T. aufgrund der Digitalisierung des Signals) und auf vereinfachende Konzepte, die an die Signalanalyse herangetragen werden (z.B. die Zerlegung des akustischen Signals in eine Sequenz stabiler Einzelsegmente, siehe 1.3.2). Dass die beiden letztgenannten Einflussfaktoren nicht konstant gehalten werden können, liegt daran, dass ihnen keine kontrollierbare Systematik zugrundeliegt. Das bedeutet aber gleichzeitig, dass sie nicht imstande sind, die Intensitäts- und Dauermessungen in systematischer Weise zu beeinflussen. Die Einflussfaktoren der zufälligen Variation und der Messungenauigkeiten können als ein Grundrauschen in den Messergebnissen aufgefasst werden, aus dem heraus potentielle zeichenspezifische Unterschiede in der Intensität und Dauer beobachtet und – in gewissen Grenzen – auch quantifiziert werden können, wie es die nachfolgende Präsentation der Ergebnisse zeigen wird. Zusammenfassend sind die folgenden 7 aufbereiteten Messwerte Gegenstand dieser Ergebnispräsentation: • Intensitätsdifferenzen zwischen Vorakzentsilbe und Akzentsilbe sowie zwischen Akzentsilbe und Nachakzentsilbe, jeweils F0-bereinigt • Dauerverhältnisse zwischen der Vorakzentsilbe und Akzentsilbe und zwischen der Nachakzentsilbe und der Akzentsilbe • Der Anteil der Vokaldauer an der Dauer der dazugehörigen Silbe, jeweils für die Vorakzentsilben, die Akzentsilben und die Nachakzentsilben 4.2.2 Die Ergebnisse der akustischen Analyse zur Dauer und Intensität in lautlichen Elementen Merkmale der Stichproben Bei der Filterung der aufgenommenen Sprachdaten mussten 44 der insgesamt 144 messrelevanten Fälle (8 Sprecher x 6 relevante Äußerungen in den gelesenen vier Absätzen x 3 Wiederholungen der vier Absätze) aussortiert werden, primär aufgrund einer Akzentuierung (meist partielle Deakzentuierung, vgl. 2.3.1) des äußerungsinitialen Pronomens „Sie“. Im dritten Absatz ist die durch ein überraschtes „Oh“ eingeleitete Äußerung
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
137 137
„Sie’s mal Malerin gewesen“ anstatt mit einem steigend-fallenden F0- bzw. Tonhöhenverlauf zudem einige Male mit einem durchgehenden F0- bzw. Tonhöhenanstieg ab der Akzentsilbe bis zum Äußerungsende produziert worden, sodass keines der behandelten sprechmelodischen Zeichen vorlag (sondern eine Talkontur im Kieler Intonationsmodell, siehe Kohler 1991a, b; bzw. H-^H% nach GToBI, siehe Grice und Baumann 2000). Von den verbliebenen 100 Fällen entfallen 22 auf das Zeichen GEGEBEN, 50 auf das Zeichen NEU und 23 auf das Zeichen UNERWARTET. Während die 22 Fälle des Zeichens GEGEBEN ohne Ausnahme aus dafür vorgesehenen Kontexten stammen, sind 24 der ausgewerteten 50 Fälle des Zeichens NEU in Kontexten realisiert worden, die eigentlich für das Zeichen UNERWARTET konzipiert worden waren. Zehn dieser Fälle stammen aus dem zweiten, die anderen 14 Fälle aus dem dritten Absatz. In entgegengesetzter Richtung sind lediglich vier der ausgewerteten 23 Realisierungen des Zeichens UNERWARTET in Kontexten des Zeichens NEU produziert worden, jeweils zwei aus dem ersten und vierten Absatz. Die übrigen 19 Fälle stammen aus den dafür vorgesehenen Kontexten. Die Stichprobenumfänge der untersuchten Zeichen sind jedoch nicht nur unterschiedlich groß. Die angewandte Methode hat ferner dazu geführt, dass die 8 Sprecher mit unterschiedlich vielen Produktionen in den Stichproben vertreten sind. Für jeden Sprecher liegt aber mindestens eine Realisierung in den Stichproben aller drei Zeichen vor (weitere Einzelheiten in Anhang D auf der beigelegten CD). Die Ergebnisse in Form von Mittelwerten und Standardabweichungen In Tabelle 2 ist anhand von Mittelwerten und Standardabweichungen zusammengefasst, was die aufbereiteten Intensitäts- und Dauermessungen ergeben haben. Hinsichtlich der Intensität ist zu erkennen, dass die Differenzwerte zwischen Vorakzentsilbe und Akzentsilbe (VAS|AS) zeichenunabhängig negativ ausfallen, während die Differenzwerte zwischen Akzentsilbe und Nachakzentsilbe (AS|NAS) durchweg positiv sind. Dies zeigt, dass das Intensitätsmaximum der Akzentsilbe im Mittel immer über denen der beiden benachbarten Silben angesiedelt war. Es gab jedoch für alle drei Zeichen auch einige Fälle, in denen das Intensitätsmaximum der Vor- und Nachakzentsilbe über dem der Akzentsilbe lag. Jenseits dieser generellen Vergleichbarkeit bestehen jedoch auch Unterschiede zwischen den Zeichen. Im Bereich der Silbenpaarung VAS|AS fällt hierzu auf, dass die durchschnittliche Differenz für das Zeichen GEGEBEN mit -1,35dB nur etwa halb so groß ausfällt wie die Differenzen der anderen beiden Zeichen, die -2,96dB und -3,50dB betragen. Das heißt, die Intensitätsmaxima der Vorakzent- und Akzentsilbe liegen beim Zeichen GEGEBEN deutlich dichter beieinander als bei den beiden Zeichen
138 138
Eigene Einleitung Untersuchungen
und UNERWARTET. Auch im Vergleich der Intensitätsdifferenzen zwischen der Akzentsilbe und Nachakzentsilbe (AS|NAS) hebt sich das Zeichen GEGEBEN von den Zeichen NEU und UNERWARTET ab. Diesmal jedoch besteht der Unterschied darin, dass die Intensitätsmaxima zwischen Akzent- und Nachakzentsilbe deutlich weiter auseinanderliegen. Der Differenzwert beträgt hier 2,76dB. Im Falle des Zeichens NEU sind die beiden Intensitätsmaxima etwa 1dB und im Falle des Zeichens UNERWARTET sogar fast 2dB enger zusammen. Die durchschnittlichen Differenzwerte betragen nur 1,70dB und 1,01dB. Insgesamt sei in Anbetracht der aufgeführten Werte darauf hingewiesen, dass 3dB eine Verdoppelung bzw. Halbierung der Signalintensität bedeuten. Die gefundenen zeichenspezifischen Unterschiede sind daher bemerkenswert. NEU
Zeichen GEGEBEN
NEU
UNERWARTET
Silben VAS|AS AS|NAS
I-Diff. (dB) x s -1,35 1,47 2,76 1,52
%D x 66,79 53,03
s 8,93 9,31
n=22
VAS|AS AS|NAS
-2,96 1,70
2,66 1,73
61,27 53,38
9,84 9,82
n=50
VAS|AS AS|NAS
-3,50 1,01
1,72 2,14
62,11 56,32
10,28 8,73
n=23
Tabelle 2: Mittelwerte (x) und Standardabweichungen (s) der vom F0-Einfluss bereinigten Intensitätsdifferenzen (von der Vorakzentsilbe „mal“, VAS, zur Akzentsilbe „Ma-“, AS, und von der Akzentsilbe zur Nachakzentsilbe „-le-“, NAS) sowie der Dauerverhältnisse (in %) zwischen der Vor- bzw. Nachakzentsilbe und ihrer jeweiligen Akzentsilbe, getrennt nach Zeichen. Die Berechnungen basieren auf den Werten im Anhang D, enthalten auf der beigefügten CD.
Was die Silbendauern anlangt, so sind in Tabelle 1 nur im Vergleich der Verhältnisse aus Vorakzentsilbe und Akzentsilbe (VAS|AS) nennenswerte Unterschiede erkennbar. Diese betreffen vor allem das Zeichen GEGEBEN. Hier erreicht die Dauer der Vorakzentsilbe einen Mittelwert von 66,79% an der Dauer der Akzentsilbe. Im Falle der anderen beiden Zeichen fällt dieser Wert geringer aus und ist mit 61,27% bzw. 62,11% in etwa gleich groß. Jenseits dieser Unterschiede war die Dauer der Akzentsilbe zeichenunabhängig immer größer als die Vor- und Nachakzentsilbe.
139 139
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
Die Ergebnisse in Form von Korrelationen und Regressionen = GEGEBEN
= NEU
= UNERWARTET
(a)
(b)
Abbildung 21: F0-bereinigte Intensitätsdifferenzen zwischen der Vorakzentsilbe und Akzentsilbe (dBvas|as) über den dazugehörigen Dauerverhältnissen (%D) für die Zeichen GEGEBEN, NEU und UNERWARTET (n=22, n=50, n=23). Zusätzlich sind die berechneten Regressionsgeraden eingezeichnet (siehe hierzu Tabelle 3). Die Regressionsgerade für die Werte des Zeichens GEGEBEN ist analog zu den unausgefüllten Kreisen gestrichelt dargestellt.
In einer Gesamtbetrachtung der in Tabelle 1 dargestellten Ergebnisse für die aufbereiteten Messwerte fallen nicht nur die skizzierten Unterschiede in den Mittelwerten zur Dauer und Intensität auf, sondern auch die jeweils daran gebundenen durchweg beträchtlichen Standardabweichungen. Die darin zum Ausdruck kommenden umfangreichen Streuungen in den Messwerten werfen die Frage auf, ob vielleicht noch mehr Informationen
140 140
Eigene Einleitung Untersuchungen
in den Ergebnissen enthalten sind. Um dieser Frage nachzugehen, wurden die Dauerverhältnisse als Funktion der dazugehörigen Intensitätsdifferenzen betrachtet. Es wurden die Korrelationskoeffizienten (Produktmomentkorrelation) und Regressionsgeraden dieser Funktionen berechnet. Die Resultate dieser über Mittelwerte hinausgehenden Betrachtung der akustischen Messungen sind in den Abbildungen 21 und 22 sowie in Tabelle 3 zusammengestellt. Die einzelnen Messwerte können im Anhang D der CD nachgeschlagen werden. = GEGEBEN
= NEU
= UNERWARTET
(a)
(b)
Abbildung 22: F0-bereinigte Intensitätsdifferenzen zwischen der Akzentsilbe und Nachakzentsilbe (dBas|nas) über den dazugehörigen Dauerverhältnissen (%D) für die Zeichen GEGEBEN, NEU und UNERWARTET (n=22, n=50, n=23). Zusätzlich sind die berechneten Regressionsgeraden eingezeichnet (siehe hierzu Tabelle 3). Die Regressionsgerade für die Werte des Zeichens GEGEBEN ist analog zu den unausgefüllten Kreisen gestrichelt dargestellt.
141 141
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
Silben VAS|AS AS|NAS
Korrelation Int-Diff. mit %D r df p 0,59 20 >0,01** -0,54 20 >0,01**
Regression Gleichung r² y=3,61x+71,7 0,35 y=-3,28x+62,1 0,29
NEU
VAS|AS AS|NAS
0,12 -0,53
48 48
n.s. >0,001***
y=0,43x+62,5 y=-2,99x+58,5
0,01 0,28
UNERWARTET
VAS|AS AS|NAS
0,63 -0,08
21 21
>0,01** n.s.
y=3,74x+75,2 y=-0,33x+56,7
0,39 0,01
Zeichen GEGEBEN
Tabelle 3: Berechnete Werte für die Korrelationskoeffizienten (r) der Produktmomentkorrelation der Intensitätsdifferenzen (Int.-Diff.) mit den Dauerverhältnissen (%D), die dazugehörigen Freiheitsgrade (df) und Wahrscheinlichkeiten eines -Fehlers (p, zweiseitig, Sterne indizieren das Signifikanzniveau) sowie die Gleichungen und Bestimmtheitsmaße (r²) der Regressionsgeraden. Die Berechnungen sind getrennt nach Zeichen und Silbenpaarung dargestellt. Alle Angaben basieren auf den aufbereiteten Messwerten im Anhang D (siehe beigefügte CD).
Die Wiederaufspaltung der Mittelwerte der Intensitätsdifferenzen und Dauerverhältnisse aus Tabelle 2 und die Kombination der zusammengehörigen Einzelwerte deckt systematische Zusammenhänge zwischen beiden Messgrößen auf. Die Darstellung dieser Zusammenhänge soll sich zunächst der Silbenpaarung aus Vorakzentsilbe und Akzentsilbe (VAS|AS) zuwenden. Die in Abbildung 21(a) dargestellte Punktwolke des Zeichens GEGEBEN zeigt in der Tendenz, dass die Dauerverhältnisse zwischen der Vorakzentsilbe und der Akzentsilbe größer werden, je höher das Intensitätsmaximum der Vorakzentsilbe im Vergleich zu dem der Akzentsilbe ausfällt (d.h. der negative Wert wird kleiner und wechselt in den positiven Bereich). Diese visuelle Analyse wird durch einen positiven Korrelationskoeffizienten (r=0,59; siehe Tabelle 3) gestützt, der statistische Signifikanz erreicht. Der beschriebene Zusammenhang kann insofern als überzufällig gewertet werden. Im Falle des Zeichens UNERWARTET ergibt sich nach Abbildung 21(a) die gleiche Tendenz wie für das Zeichen GEGEBEN. Auch für das Zeichen UNERWARTET erreicht der auf dieser Datengrundlage ermittelte positive Korrelationskoeffizient statistische Signifikanz (r= 0,63; siehe Tabelle 3). Darüber hinaus zeigt der Vergleich der Punktwolken der beiden Zeichen GEGEBEN und UNERWARTET, dass die korrelativen Zusammenhänge zwischen Intensitätsdifferenzen und Dauerverhältnissen nicht nur qualitative, sondern auch quantitative Ähnlichkeiten aufweisen. So ist in Abbildung 21(a) zu sehen, dass die beiden Punktwolken nicht nur in etwa
142 142
Eigene Einleitung Untersuchungen
den gleichen Winkel zur x-Achse einnehmen. Zusätzlich sind für ähnliche Intensitätsdifferenzen auch Dauerverhältnisse in der gleichen Größenordnung gefunden worden. Besonders deutlich wird die quantitative Ähnlichkeit der Zusammenhänge beider Zeichen im Vergleich der auf Basis der Punktwolken berechneten Regressionsgeraden, die ebenfalls in Abbildung 21(a) eingezeichnet sind. Die dazugehörigen Gleichungen sind in Tabelle 3 eingetragen. Regressionskoeffizient und y-Achsenabschnitt der Gleichung des Zeichens GEGEBEN liegen mit 3,61 und 71,1 nur ein wenig unter den Werten der Gleichung des Zeichens UNERWARTET, die 3,74 und 75,2 betragen. Eine weitere Gemeinsamkeit zwischen den Punktwolken der Zeichen GEGEBEN und UNERWARTET liegt in ihrer zweidimensionalen Ausdehnung im Koordinatenraum. Hinsichtlich der Intensitätsdifferenz wird ein Intervall in der Größenordnung von 5dB abgedeckt. Die Dauerverhältnisse variieren hauptsächlich in einem Bereich von zirka 30%. Neben den genannten Ähnlichkeiten besteht ein wesentlicher Unterschied zwischen den Punktwolken der Zeichen GEGEBEN und UNERWARTET in ihrer Lage im Koordinatenraum. Die Punktwolke des Zeichens GEGEBEN ist gegenüber der des Zeichens UNERWARTET entlang der vergleichbar verlaufenden Regressionsgeraden nach oben rechts verschoben. Dies ist die Hauptursache für die in Verbindung mit Tabelle 2 beschriebenen Mittelwertsunterschiede der Intensitätsdifferenzen und Dauerverhältnisse (VAS|AS) beider Zeichen. Die Frage, ob diese Verschiebung als stichprobenspezifisches oder zeichenspezifisches Merkmal zu interpretieren ist, wird in der Diskussion der Ergebnisse erörtert. Im Gegensatz zu den Ergebnissen der Zeichen GEGEBEN und UNERWARTET lässt die in Abbildung 21(b) dargestellte Punktwolke des Zeichens NEU keinen systematischen Zusammenhang zwischen den gefundenen Intensitäts- und Dauerwerten erkennbar werden. Die Wertepaare der Punktwolke verteilen sich vielmehr zufällig über den Koordinatenraum. Auch statistisch ist der Zusammenhang nicht signifikant. Der berechnete Korrelationskoeffizient liegt bei lediglich r=0,12 (siehe Tabelle 3). Das Bestimmtheitsmaß r² beträgt entsprechend nur 0,01 und zeigt damit an, dass sich gerade einmal 1% der Variation in den Intensitätsdifferenzen/Dauerverhältnissen aus der Veränderung der Dauerverhältnisse/ Intensitätsdifferenzen mit linearer Regression erklären lässt. Im Falle der Zeichen GEGEBEN und UNERWARTET kann hingegen über ein Drittel der aufeinander bezogenen Intensitäts- und Dauerwerte mit Hilfe linearer Regression erklärt werden (r²=0,35 bzw. r²=0,39, siehe Tabelle 3). Ferner hebt sich die Punktwolke des Zeichens NEU auch in ihrer Extension von denen der anderen beiden Zeichen ab. Insbesondere auf der Intensitäts-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
143 143
achse überspannt sie ein Intervall von ungefähr 12dB. Das ist in etwa doppelt so viel wie im Falle der Punktwolken der anderen beiden Zeichen. In der Silbenpaarung aus Akzentsilbe und Nachakzentsilbe (AS|NAS) sind es nicht die Zeichen GEGEBEN und UNERWARTET, sondern die Zeichen GEGEBEN und NEU für die signifikante Korrelationen zwischen den Intensitätsdifferenzen und ihren Dauerverhältnissen bestehen. Beide Korrelationskoeffizienten sind negativ (r=-0,54 und r=-0,53, siehe Tabelle 3). Dass jedoch die Koeffizienten nicht wie im Falle der Ergebnisse der Silbenpaarung aus Vorakzentsilbe und Akzentsilbe einen positiven Wert annehmen, ist lediglich darauf zurückzuführen, dass das Intensitätsmaximum der Akzentsilbe hier nicht Subtrahend, sondern Minuend ist. Ansonsten ist der darin zum Ausdruck kommende Zusammenhang der gleiche. Je höher das Intensitätsmaximum in der an die Akzentsilbe angrenzenden Silbe – in diesem Fall der Nachakzentsilbe – liegt (d.h. der Wert der Intensitätsdifferenz wird kleiner und wechselt in den negativen Bereich), desto größer fällt die Dauer dieser angrenzenden Silbe in Relation zur Akzentsilbe aus (d.h. desto größer wird der Wert für das Dauerverhältnis). Unter Einbeziehung der Punktwolken beider Zeichen aus Abbildung 22(a) und der hieraus abgeleiteten Regressionsgeraden wird zudem deutlich, dass der Zusammenhang zwischen den Intensitäts- und Dauerwerten nicht nur von gleicher Art, sondern auch auf einem vergleichbaren quantitativen Niveau anzusiedeln ist. Das beinhaltet nicht nur, dass die beiden Punktwolken in etwa die gleiche Ausdehnung im zweidimensionalen Koordinatenraum einnehmen. Anders als die Punktwolken der Zeichen GEGEBEN und UNERWARTET in der Silbenpaarung VAS|AS zuvor sind sie überdies auch durch eine vergleichbare Lage in diesem Raum gekennzeichnet (vgl. hierzu auch die Steigungsfaktoren und y-Achsenabschnitte der Regressionsgeraden in Tabelle 3). Aufgrund dessen haben sich für den genannten Vergleich auch bei den Mittelwerten der Intensitätsdifferenzen und Dauerverhältnisse in Tabelle 2 keine deutlichen Unterschiede gezeigt. Während sich im Rahmen der Silbenpaarung aus Vorakzent- und Akzentsilbe für das Zeichen NEU kein systematischer Zusammenhang zwischen den Intensitäts- und Dauerrelationen ergeben hat, ist es in der Silbenpaarung aus Akzent- und Nachakzentsilbe das Zeichen UNERWARTET, das sich hierdurch von den anderen beiden Zeichen abhebt. Wie Abbildung 22(b) zeigt, streuen die Dauerverhältnisse des Zeichens UNERWARTET unabhängig von der Ausprägung der Intensitätsdifferenzen hauptsächlich in einer engen Wertespanne zwischen 45-65%. Der dazugehörige Korrelationskoeffizient liegt dementsprechend fast bei Null (r= -0,08) und bleibt weit unterhalb einer statistisch signifikanten Beziehung (siehe Tabelle 3). Des weiteren hebt sich die Punktwolke des Zeichens
144 144
Eigene Einleitung Untersuchungen
von denen der anderen beiden Zeichen dadurch ab, dass sie um zirka 1dB nach links auf der Intensitätsachse verschoben ist. Dies schlägt sich entsprechend in den Intensitätsmittelwerten der Tabelle 2 nieder.
UNERWARTET
Eine weiterführende Analyse der Dauervariation Während die Intensitätsdifferenzen aus einzelnen Maxima bestehen, werden die Dauerverhältnisse aus Silbendauern berechnet, die selbst komplexe Einheiten sind und sich aus einzelnen Elementen, den Segmenten, zusammensetzen. Das Vorliegen einer internen Silbenstruktur wirft die Frage auf, welche Elemente hieraus primär für die beobachteten Variationen der Silbendauer und die darauf basierten Variationen der Dauerverhältnisse verantwortlich sind. Bekannte Ansätze zur Modellierung der Dauern lautlicher Elemente können hierfür nicht herangezogen werden, da hiernach – abgesehen von zufälligen Abweichungen – überhaupt keine Dauervariation hätte auftreten sollen. Das lineare Modell von Klatt (1979) sieht für die Beeinflussung lautlicher Dauern durch Elemente des melodischen Kanals nur akzentund phrasenstrukturbezogene Faktoren vor, die für alle analysierten Äußerungen der akustischen Analyse konstant gehalten wurden. In der Adaption des Ansatzes von Klatt im Kieler Intonationsmodell (Kohler 1991a, b) kommen zwar Einflüsse sprechmelodischer Zeichen auf die Lautdauer herein. Allerdings beziehen sich diese auf ganz andere kontextuelle Bedingungen und beschränken sich zudem nur auf den Akzentvokal. Angesichts dessen muss die Suche nach dem Hauptverursacher für die beobachteten Dauervariationen aus den eigenen Daten heraus erfolgen. Zu diesem Zweck wurde der Anteil des Silbennukleus an seiner Silbe mit der Gesamtdauer der Silbe korreliert. Fällt der Korrelationskoeffizient des hergestellten Zusammenhangs negativ aus, so bedeutet dies, dass der Anteil des Vokals an der Silbe größer/kleiner wird, wenn die Silbendauer abnimmt/zunimmt. Die beobachtete Variation der Silbendauern wäre folglich primär auf andere Elemente als den Nukleus zurückzuführen. Dies wären für die vorliegenden Silbenstrukturen die initialen Konsonanten [m] und [l]. Bei einem positiven Korrelationskoeffizienten wäre entsprechend der Silbennukleus dasjenige Element, welches die Dauervariation in erster Linie bedingen würde. Ein Korrelationskoeffizient mit einem Wert um Null würde hingegen anzeigen, dass beide Silbenbestandteile unabhängig voneinander variieren. Die beschriebene Analyse wurde mittels Produktmomentkorrelationen durchgeführt. Die Ergebnisse der Berechnungen sind in Tabelle 4 zusammengefasst.
145 145
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
Zeichen GEGEBEN
NEU
UNERWARTET
Silbe VAS AS NAS
Korrelation %DV mit Silbendauer r df p -0,69 20 >0,001*** 0,39 20 n.s. 0,03 20 n.s.
VAS AS NAS
0,40 0,57 0,41
48 48 48
>0,01** >0,001*** >0,01**
VAS AS NAS
0,43 0,03 0,68
21 21 21
>0,05* n.s. >0,01**
n=22
n=50
n=23
Tabelle 4: Produktmomentkorrelationen des Anteils des Vokals an der Silbe (%DV) mit der Gesamtdauer der Silbe, getrennt nach Zeichen und Silbe. Dargestellt sind die berechneten Korrelationskoeffizienten (r), Freiheitsgrade (df) und Wahrscheinlichkeiten eines -Fehlers (p, zweiseitig, Sterne indizieren statistische Signifikanzniveaus). Die dazugehörigen Rohdaten sind im Anhang D auf der beiliegenden CD einzusehen.
Wie Tabelle 4 zeigt, ergeben sich für die Korrelationen des Vokalanteils an seiner Silbe mit der Gesamtdauer der jeweiligen Silbe bis auf eine Ausnahme (Vorakzentsilbe des Zeichens GEGEBEN) ausschließlich positive Korrelationskoeffizienten. Zwei Drittel dieser positiven Korrelationen (6 von 9) erreichen statistische Signifikanz. Global betrachtet, weist der Ausgang der Berechnungen somit darauf hin, dass das vokalische Element vorrangig bzw. wesentlich mitverantwortlich für die Dauervariation der Vorakzentsilbe, Akzentsilbe und Nachakzentsilbe ist. Die Korrelationskoeffizienten sind allerdings in allen Fällen weit von funktionalen Zusammenhängen entfernt, weswegen sicherlich noch einige andere Faktoren auf die Silben- und Vokaldauer einwirken. 4.2.3 Diskussion der Ergebnisse der akustischen Analyse zur Dauer und Intensität in lautlichen Elementen Zur kontextgesteuerten Elizitation der sprechmelodischen Zeichen Das Ziel der dargestellten akustischen Analyse bestand darin, silbenbezogene Dauer- und Intensitätsmessungen unter der Bedingung der drei Zeichen GEGEBEN, NEU und UNERWARTET vorzunehmen. Diese Messungen sollen ein empirisches Fundament für die Durchführung eines Perzeptionsexperimentes legen. Die Methode der Datengewinnung sah vor, dass
146 146
Eigene Einleitung Untersuchungen
die drei Zeichen in einer ansonsten konstanten Äußerung von untrainierten Sprechern kontextgesteuert produziert werden. Das heißt, unter der Berücksichtigung vorliegender Erkenntnisse zur Bedeutung und Bedeutungsverkettung sprechmelodischer Zeichen wurde die relevante Äußerung in verschiedene Kontexte eingebettet, die jeweils die Realisierung eines der zu untersuchenden Zeichen in der dafür vorgesehenen Akzentsilbe provozieren sollten. Wie die Ergebnisse zeigen, kann die Methode der kontextgesteuerten Elizitation sprechmelodischer Zeichen insgesamt als erfolgreich bewertet werden. So gab es keinen Fall, in dem eine Äußerung, die in einem Kontext für das Zeichen GEGEBEN stand, mit einem der beiden anderen Zeichen realisiert wurde und umgekehrt. Dass diese klare Steuerung in den Produktionen der Sprecher erreicht werden konnte, ist wahrscheinlich auf den markanten Bedeutungsunterschied zwischen dem Zeichen GEGEBEN einerseits sowie den Zeichen NEU und UNERWARTET andererseits zurückzuführen. Letztere liegen in ihrer Bedeutung enger zusammen. Die Bedeutung des Zeichens UNERWARTET ist als ein Spezialfall der Bedeutung des Zeichens NEU zu betrachten (vgl. 1.3.1). Aufgrund dessen war zu erwarten, dass diese beiden Zeichen in den auf sie abgestimmten Kontexten eher ausgetauscht werden würden, wobei dieser Austausch stärker in der Richtung von einer spezielleren zu einer allgemeineren Bedeutung auftreten sollte als umgekehrt. Die Etikettierung der gewonnenen Sprachdaten hat dies bestätigt. Dennoch stammt auch für diese beiden Zeichen die Mehrheit der ausgewerteten Fälle aus den dafür vorgesehenen Kontexten. Der Nachteil dieser Methode besteht vor allem darin, dass die Anzahl der auswertbaren Äußerungen und ihre Verteilung über die drei Zeichen von der Fähigkeit der einzelnen Sprecher abhängt, sich in die gegebenen Kontexte hineinzuversetzen und entsprechend adäquate Melodien zu produzieren. Im Vergleich zu alternativen Verfahren wie der Imitation von Produktionen des Versuchsleiters durch untrainierte Sprecher oder der gezielten Instruktion trainierter Sprecher ist das gewählte Verfahren daher ggf. mit einem größeren Aufwand in der Datengewinnung verbunden. Der entscheidende Vorteil einer kontextgesteuerten Elizitation der sprechmelodischen Zeichen liegt aber in der geringen Einflussnahme auf die Produktionen der (untrainierten) Sprecher im Vergleich zu den genannten alternativen Verfahren. Dies erhöht die Natürlichkeit und damit die Generalisierbarkeit der darauf basierten Messungen in den durch lesesprachliches Material gegebenen Grenzen.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
147 147
Zur Beeinflussung der Ergebnisse durch das Messverfahren Im Rahmen der Aufbereitung der Messwerte (siehe 4.2.1) wurde auf eine potentielle Beeinflussung der gemessenen Intensitätswerte durch lokale Perturbationen hingewiesen. Diese entstehen, wenn Harmonische des Quellensignals zentrale Formantfrequenzen passieren. Das Ausmaß der Beeinflussung wurde durch Merkmale der Äußerung, der Sprecher und des Messverfahrens so gering wie möglich gehalten, konnte jedoch mit den gegebenen Mitteln nicht vollends ausgeschaltet werden. Insofern ist der Frage nachzugehen, inwieweit die gefundenen Ergebnisse diese Beeinflussung reflektieren. Durch die charakteristische Positionierung der F0-Gipfel zu den Vokalen der Silbentriade, in denen die Intensitätsmaxima gemessen wurden und die sich in ihren grundlegenden phonetischen Eigenschaften nicht wesentlich veränderten, ist ein solcher Einfluss primär in Unterschieden der Intensitätsdifferenzen zwischen den drei Zeichen zu suchen. Es ist daher möglich, dass die beschriebenen Unterschiede in den Lagen der Punktwolken im Koordinatenraum und folglich auch die gefundenen Mittelwertsunterschiede für die Intensität in Tabelle 2 zum Teil auf die beschriebenen lokalen Perturbationen zurückgehen. Dennoch ist dies angesichts des Ausmaßes dieser Unterschiede eher unwahrscheinlich. Entscheidend ist des weiteren, dass solche Perturbationen als Ursache für die signifikanten Korrelationen zwischen Dauer- und Intensitätsrelationen gänzlich ausgeschlossen werden können. Diese Korrelationen werden nachfolgend diskutiert. Zur Interpretation der gefundenen Zusammenhänge zwischen den Dauerund Intensitätsrelationen Für die untersuchten sprechmelodischen Zeichen wurden in beiden Silbenpaarungen Zusammenhänge zwischen den Intensitätsdifferenzen und Dauerverhältnissen gefunden. Diese waren von der Art, dass die Dauern der Vor- bzw. Nachakzentsilbe in Relation zur Akzentsilbe größer wurden, je höher ihre Intensitätsmaxima im Vergleich zum Maximum der Akzentsilbe ausfielen. Die gefundenen Zusammenhänge beruhen auf Korrelationskoeffizienten über |r|=0,5. Angesichts des Grundrauschens, das in die Ergebnisse durch Messungenauigkeiten und zufällige phonetische Variationen eindringt (im Zusammenhang mit der Aufbereitung der Messwerte wurde hierauf hingewiesen), ist die Stärke der gefundenen Zusammenhänge beachtlich. Vor diesem Hintergrund stellt sich die Frage, inwieweit die gefundenen Korrelationen als Folge der Kodierung der untersuchten sprechmelodischen Zeichen interpretiert werden können.
148 148
Eigene Einleitung Untersuchungen
Hierbei ist Folgendes zu berücksichtigen: Artikulatorische und akustische Untersuchungen wie Moon und Lindblom (1994) sowie Gendrot und Adda-Decker (2005) deuten in übereinstimmender sprachübergreifender Weise auf einen Zusammenhang zwischen der Dauer des Vokals und dessen Position im Vokalraum hin. Je länger ein Vokal (in einer Kette von Segmenten) ist, desto präziser werden die dafür vorgesehenen Zielpunkte in Zungenposition und Öffnungsgrad angesteuert (vgl. auch Lindblom 1963). In den analysierten Silben sind offene Vokalqualitäten anzusteuern. Es ist somit denkbar, dass die Vokale mit zunehmender Dauer auch offener produziert werden, insbesondere, da die dauerbedingte Reduktion von Vokalqualitätsunterschieden empirischen Ergebnissen zufolge vor allem den Öffnungsgrad zu betreffen scheint (vgl. Flemming 2005). Da ein größerer Öffnungsgrad (d.h. eine größere Abstrahlöffnung des Ansatzrohres) zu einer erhöhten Signalintensität führt, können sich so allein aufgrund artikulatorischer Ursachen Zusammenhänge zwischen Silbendauer und Intensitätsmaximum – und dementsprechend zwischen Dauerverhältnis und Intensitätsdifferenz – ergeben. Der artikulationsbasierten Interpretation der beobachteten Korrelationen sind zwei Aspekte entgegenzustellen. Erstens setzt sie voraus, dass Dauer und Intensität immer in einer bestimmten Weise kovariieren. Diese Kovariation entspricht einer positiven Korrelation im Rahmen der Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) und einer negativen Korrelation in der Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS). Dass das Dauerverhältnis auch unabhängig von der Intensitätsdifferenz variiert, wie es sich für die Zeichen NEU (VAS|AS) und UNERWARTET (AS|NAS) gezeigt hat, kann aus dem artikulatorischen Blickwinkel heraus nicht erklärt werden. Der zweite gewichtigere Aspekt betrifft den Umfang der gefundenen Intensitätsvariation. Ladefoged (1967) zeigt in diesem Zusammenhang, dass der Schalldruckpegel von [a] und [i] aus isoliert produzierten Logatomen englischer Sprecher um zirka 5dB voneinander abweicht. Da dieser Wert für ein vergleichbares subglottales Druckniveau gefunden wurde, kann er allein als Konsequenz des abweichenden Öffnungsgrades verstanden werden. Aufgrund der Rahmenbedingungen der Produktion ist davon auszugehen, dass beide Vokalqualitäten sehr präzise artikuliert wurden. Da [a] und [i] zugleich extreme Öffnungsgrade des Ansatzrohres repräsentieren, ist davon auszugehen, dass öffnungsgradbedingte Intensitätsdifferenzen nicht viel mehr als 5dB ausmachen können (dieser Wert steht im Einklang mit den Ergebnissen von Lehiste und Peterson 1959. Eine umfangreichere Liste öffnungsgradbedingter und in diesem Sinne intrinsischer Intensitätsunterschiede findet sich bei Lehiste 1970).
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
149 149
Die Unterschiede im Öffnungsgrad der Vokale, die für beide Silbenpaarungen in der vorliegenden Untersuchung erwartet werden können, sind weit weniger extrem als die aus Ladefoged (1967) zitierten, da die Vokalqualitäten – selbst unter Berücksichtigung der phonetischen Variationen innerhalb jeder Silbe – viel dichter beieinander liegen. Dennoch haben sich sowohl für einzelne Intensitätsdifferenzen als auch für die Variation innerhalb der Intensitätsdifferenzen pro Zeichenklasse Werte von deutlich über 5dB ergeben. Die gefundenen Intensitätsdifferenzen sind insofern nicht ausschließlich auf artikulatorische Beweggründe zurückführbar. In diesem Zusammenhang ist zu beachten, dass die Intensitätswerte von Ladefoged (1967) und der vorliegenden Untersuchung auf unterschiedlichen Messmethoden basieren. So hat Ladefoged beispielsweise eine Breite des Analysefensters im akustischen Signal von 230ms verwendet. Diese sollte das gesamte Logatom abdecken. In dieser Untersuchung kam eine Fensterbreite von 40ms zur Anwendung. Da in beiden Untersuchungen aber ausschließlich Differenzen zwischen Intensitätswerten miteinander verglichen werden, sollten diese methodischen Unterschiede ignoriert werden können. Zur Interpretation der Ergebnisse vor dem Hintergrund der Kodierung sprechmelodischer Zeichen Im Rahmen der Diskussion der gefundenen Korrelationen wurde deutlich, dass die gefundenen Intensitätswerte unter anderem aufgrund ihrer Variationsbreite nicht auf Artefakte der Methode zurückgeführt werden können. Auch für die Dauerwerte ist anzunehmen, dass sie eine gezielte Steuerung durch den Sprecher wiedergeben. Diese Einschätzung basiert vor allem auf dem Befund, dass die Dauervariationen primär über Veränderungen in der Vokaldauer erzeugt wurden. Würden die Dauervariationen beispielsweise auf zufällige Veränderungen in den Segmentdauern zurückgehen, wäre zu erwarten, dass diese zufälligen Veränderungen alle Segmente der Silbe gleichermaßen betreffen. Ferner ist in diesem Rahmen darauf hinzuweisen, dass sich auch die von Kohler (1991a, c) beobachteten und nach seiner Ansicht für die Wahrnehmung der sprechmelodischen Zeichen relevanten Dauerveränderungen auf die Silbennuklei konzentrierten. In der hier verwendeten Äußerung „Sie’s mal Malerin gewesen“ entspricht dies den Vokalen. Letztlich sprechen auch die gefundenen Zusammenhänge dafür, dass es sich in beiden Messgrößen um eine gezielte Variation handelt. Hiervon ausgehend, ist zu berücksichtigen, dass im Rahmen der Datengewinnung alle (bekannten) Faktoren, die für eine solche gezielte Dauer- und Intensitätsvariation verantwortlich gemacht werden könnten, konstant gehalten wurden. Daher ist es wahrscheinlich, dass die Ausprä-
150 150
Eigene Einleitung Untersuchungen
gungen der beiden in lautlichen Elementen untersuchten Größen, Intensitätsdifferenzen und Dauerverhältnisse, auf sprechmelodisch motivierte Variationen zurückgehen, die eine Folge der Kodierung der drei beteiligten sprechmelodischen Zeichen sind. Das für die akustischen Messungen verwendete, zunächst sehr elementar gehaltene Modell kann dementsprechend als erfolgreich bewertet werden. Vor diesem Hintergrund ist zu diskutieren, warum nicht unter allen Bedingungen die skizzierten Zusammenhänge zwischen Dauer- und Intensitätsrelationen gefunden wurden. In Verbindung mit den Zeichen NEU und UNERWARTET variieren beide Größen in jeweils einer der beiden Silbenpaarungen unabhängig voneinander. Im Falle des Zeichens NEU ist dies die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS, vgl. Abb. 21b), und im Falle des Zeichens UNERWARTET handelt es sich um die Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS, vgl. Abb. 22b). Hierfür sind verschiedene Ursachen denkbar. Eine Möglichkeit ist, dass unter den beiden genannten Bedingungen varianzerzeugende Einflussfaktoren in die Messwerte eingegangen sind, die unabhängig von der Kodierung der sprechmelodischen Zeichen sind und aufgrund derer die zugrundeliegenden Zusammenhänge nicht zutage treten. Da jedoch alle Daten zusammenhängend und damit einheitlich gewonnen wurden, ist dies eher unwahrscheinlich. Eine zweite Möglichkeit besteht darin, dass in den beiden abweichenden Bedingungen Zusammenhänge existieren, die aber mit der Messung der Intensitätsmaxima und Silbendauern nicht beschreibbar sind. Wie zu Beginn von 4.2.1 bereits erwähnt, ist nicht davon auszugehen, dass die Einflüsse sprechmelodischer Zeichen auf die Dauer und Intensität in lautlichen Elementen mit den sehr einfachen auf Silben basierten Messungen erschöpfend aufgedeckt werden. Drittens ist es letztlich auch vorstellbar, dass für die Kodierung der sprechmelodischen Zeichen in den beiden abweichenden Bedingungen einfach keine Interaktion von Dauer und Intensität vorgesehen ist. Das heißt, der Sprecher hat die Freiheit, beide Größen unabhängig voneinander zu variieren. Auf der Grundlage des derzeitigen Kenntnisstandes und im Hinblick auf die Daten der akustischen Analyse kann keiner der angeführten Erklärungsansätze eindeutig widerlegt oder bestätigt werden. Im Hinblick darauf, dass die durchgeführte akustische Analyse als Vorbereitung auf ein Perzeptionsexperiment dient, soll von der letztgenannten dritten Erklärung ausgegangen werden, da sie die einzig konstruktive ist. Das heißt, sie gestattet die Formulierung von Hypothesen für das Perzeptionsexperiment.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
151 151
4.2.4 Die Hypothesen für das Perzeptionsexperiment zur Dauer und Intensität in lautlichen Elementen Auf der Grundlage der bereits vorhandenen empirischen Erkenntnisse, die im dritten Kapitel vorgestellt wurden, konnten zunächst nur die beiden unspezifischen und daher experimentell noch nicht überprüfbaren Hypothesen (C) und (D) formuliert werden: (C) (D)
Die Dauer in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET. Die Intensität in Elementen des lautlichen Kanals spielt eine Rolle bei der Kodierung der drei standarddeutschen Zeichen GEGEBEN, NEU und UNERWARTET.
Anhand der zuvor dargestellten akustischen Analyse können nun konkrete Hypothesen über die Effekte unterschiedlicher Dauern und Intensitäten in lautlichen Elementen auf die Wahrnehmung der drei Zeichen formuliert werden. Diese Hypothesen sollten eigentlich so gewählt werden, dass sie das Ergebnisbild der akustischen Analyse nachzeichnen. Für die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) wäre also zum Beispiel die Hypothese zu formulieren, dass für die Zeichen GEGEBEN und UNERWARTET Dauerverhältnisse nicht beliebig mit Intensitätsdifferenzen kombiniert werden können. Die Wahrnehmung des jeweiligen Zeichens wird durch Kombinationen unterstützt, die entlang der berechneten Regressionsgeraden für die gefundene Punktwolke liegen (vgl. z.B. Abb. 21a). Im Rahmen solcher Kombinationsbeschränkungen als Bestandteil der Kodierung sprechmelodischer Zeichen ist generell anzunehmen, dass die genannte Unterstützung für Kombinationen entlang der Regressionsgeraden gleichwertig ausfällt. Das heißt, im Vergleich zwischen solchen Kombinationen sollten sich für die Wahrnehmung des betreffenden Zeichens keine Unterschiede ergeben. Des weiteren wäre mit Blick auf Abbildung 21(b) für das Zeichen NEU zu erwarten, dass die Dauerverhältnisse und Intensitätsdifferenzen beliebig kombinierbar sind. Das heißt, unterschiedliche Dauer- und Intensitätsrelationen haben keinen Effekt auf die Wahrnehmung des Zeichens NEU. Parallel zu den erwarteten perzeptorischen Einflüssen der Dauer- und Intensitätsrelationen in der Silbenpaarung aus Vorakzent- und Akzentsilbe ist auch im Rahmen der Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) zu erwarten, dass für eines der drei Zeichen – in diesem Fall UNERWARTET – keine kombinatorischen Restriktionen gelten, die Wahrnehmung dieses Zeichens also nicht durch unterschiedliche Dauer- und Intensitätsrelationen beeinflusst wird, während die Wahrnehmung der anderen beiden Zeichen – GEGEBEN und NEU – durch Kombinationen von
152 152
Eigene Einleitung Untersuchungen
Dauer- und Intensitätsrelationen unterstützt wird, die entlang der berechneten Regressionsgeraden für die gefundenen Punktwolken liegen (vgl. Abb. 22a-b). Die skizzierten Hypothesen, nach denen nur für bestimmte sprechmelodische Zeichen Effekte auftreten sollen, experimentell zu überprüfen, setzt allerdings voraus, die Ergebnisse des Perzeptionsexperimentes nicht nur aus dem Blickwinkel eines bestimmten Zeichens zu beschreiben (vgl. hierzu Fußnote 11 in 3.1.1), sondern sie auf ein bestimmtes Zeichen zurückzuführen. Im Rahmen der Silbenpaarung aus Vorakzent- und Akzentsilbe muss beispielsweise plausibel begründbar sein, dass durch unterschiedliche Dauer- und Intensitätsrelationen hervorgerufene Effekte von der Wahrnehmung des Zeichens GEGEBEN herrühren und nicht von der Wahrnehmung des Zeichens NEU. Es erscheint grundsätzlich schwierig, im Rahmen von Perzeptionsexperimenten derartige Verbindungen zwischen gefundenen Effekten und sprechmelodischen Zeichen herzustellen. Besonders problematisch ist die Herstellung solcher Verbindungen, wenn – wie in der vorliegenden Arbeit – phonetisch benachbarte sprechmelodische Zeichen untersucht werden und die Ergebnisse auf einem 2AFCParadigma wie dem Identifikationstest-Paradigma basieren (vgl. 4.1.1). Dem geschilderten Problem Rechnung tragend, können im Rahmen des Perzeptionsexperimentes nur die folgenden drei Hypothesen überprüft werden, die auf die Zusammenhänge zwischen Dauerverhältnissen und Intensitätsdifferenzen aus den Abbildungen 21(a) und 22(a) Bezug nehmen: (CD1) In der Silbenpaarung aus Vorakzent- und Akzentsilbe sind die Dauerverhältnisse und Intensitätsdifferenzen nicht beliebig kombinierbar. Dauer- und Intensitätskonfigurationen, die entlang der Regressionsgeraden zu dem Zeichen GEGEBEN bzw. UNERWARTET liegen, unterstützen die Wahrnehmung des jeweiligen Zeichens gegenüber Konfigurationen, die der kombinatorischen Restriktion der Regressionsgeraden zuwiderlaufen. (CD2) In der Silbenpaarung aus Akzent- und Nachakzentsilbe sind die Dauerverhältnisse und Intensitätsdifferenzen nicht beliebig kombinierbar. Dauer- und Intensitätskonfigurationen, die entlang der Regressionsgeraden zu dem Zeichen GEGEBEN bzw. NEU liegen, unterstützen die Wahrnehmung des jeweiligen Zeichens gegenüber Konfigurationen, die der kombinatorischen Restriktion der Regressionsgeraden zuwiderlaufen. (CD3) Dauer- und Intensitätskonfigurationen, die entlang einer gemeinsamen Regressionsgeraden aus (CD1) oder (CD2) liegen, üben keinen unterschiedlichen Einfluss auf die Wahrnehmung der sprechmelodischen Zeichen aus.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
153 153
Damit werden keine Hypothesen einbezogen, die sich auf die Punktwolken aus den Abbildungen 21(b) und 22(b) beziehen und besagen, dass es für die Wahrnehmung der Zeichen NEU und UNERWARTET irrelevant ist, welche Intensitätsdifferenzen mit welchen Dauerverhältnissen kombiniert werden. Dies gilt im Falle des Zeichens NEU für die Silbenpaarung VAS|AS und im Falle des Zeichens UNERWARTET für die Silbenpaarung AS|NAS. Um diese Annahmen zu überprüfen, wäre es erforderlich, zu belegen, dass die im Rahmen der jeweiligen Silbenpaarung gefundenen Effekte nicht der Wahrnehmung der Zeichen NEU bzw. UNERWARTET zuzuschreiben sind. Hypothese (CD3) wurde allerdings so formuliert, dass sie einen Aspekt aus den genannten Annahmen aufgreift. Sie kann (innerhalb jeder Silbenpaarung) nur dann zutreffen, wenn die Dauer- und Intensitätskonfigurationen, die an der kombinatorischen Restriktion einer gemeinsamen Regressionsgeraden ausgerichtet sind, nicht nur die Wahrnehmung des dazugehörigen Zeichens gleichermaßen unterstützen, sondern auch mit demjenigen Zeichen gleichermaßen kompatibel sind, für das keine Restriktion in der Kombination von Dauerverhältnissen und Intensitätsdifferenzen gelten soll. Dies wird im nachfolgenden Abschnitt 4.2.5 zur Methode des Perzeptionsexperimentes an Beispielen verdeutlicht. Durch die Evaluierung der Hypothesen (CD1)-(CD3) vor dem Hintergrund der Ergebnisse des Perzeptionsexperimentes wird sich ein Gesamtbild dieser Ergebnisse herauskristallisieren. Auf der Basis dieses Gesamtbildes und dessen Korrespondenz mit dem Gesamtbild der Ergebnisse aus der akustischen Analyse können über die Auseinsandersetzung mit den experimentell prüfbaren Hypothesen hinaus mit einer gewissen Sicherheit Verbindungen zwischen gefundenen Effekten und sprechmelodischen Zeichen hergestellt werden. Das heißt, es kann aufgeschlüsselt werden, welche Rolle die Dauer- und Intensitätskonfigurationen in beiden Silbenpaarungen bei der Wahrnehmung der einzelnen sprechmelodischen Zeichen spielen. So wird das geschilderte Problem umgangen, derartige Rückschlüsse an einzelnen Befunden bzw. Hypothesen festzumachen. Letztlich werden die Hypothesen (CD1)-(CD3) wie bereits in 4.1 durch eine weitere Hypothese (E) ergänzt, die der erwarteten Stärke des Einflusses der Dauer und Intensität in lautlichen Elementen auf die Wahrnehmung der Zeichentriade gewidmet ist und die angesichts der bislang vorliegenden empirischen Erkenntnisse (vgl. z.B. 3.1.3) die Synchronisation als primären Faktor für die Wahrnehmung der Zeichentriade ansieht: (E)
Eine F0-Gipfelverschiebung von prä- über inner- zu postvokalisch liegenden F0-Gipfeln bewirkt unabhängig von den aus
154 154
Eigene Einleitung Untersuchungen
(CD1)-(CD2) erwarteten Einflüssen einen Wahrnehmungsübergang von GEGEBEN, über NEU zu UNERWARTET. 4.2.5 Die Methode des Perzeptionsexperimentes zur Dauer und Intensität in lautlichen Elementen Allgemeines zum Aufbau des Perzeptionsexperimentes Um den Hypothesen (C) und (D) sowie den darauf aufbauenden Hypothesen (CD1)-(CD3) und (E) nachzugehen, wurden insgesamt 14 Stimulusserien auf der Basis der Äußerung „Sie’s mal Malerin gewesen“ generiert. Sie wurden auf der Grundlage 14 verschiedener Dauer- und Intensitätskonfigurationen in den darunter liegenden lautlichen Elementen erzeugt. Ingesamt 8 der 14 Serien zeichnen sich durch eine systematische Variation der Konfiguration aus, die auf die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) bezogen ist. In den anderen 6 Serien wurde die Konfiguration systematisch variiert, die durch die Werte der Akzent- und Nachakzentsilbe (AS|NAS) gebildet wird. Für die Konfiguration, die in beiden Gruppen von Stimulusserien jeweils nicht systematisch variierte wurde, wurden neutrale über alle Serien einer Gruppe vergleichbare Dauer- und Intensitätswerte gewählt. Hierauf wird später noch näher eingegangen. Beide Gruppen von Stimulusserien zerfallen zudem in zwei Untergruppen, die sich durch den Synchronisationsraum unterscheiden, in dem der F0-Gipfel verschoben wurde. In der Gruppe, die aus 8 Serien besteht, sind vier Serien durch eine identische Gipfelverschiebung von einer präzu einer innervokalischen Position entstanden. Die anderen vier Serien kamen durch einen Synchronisationsraum zustande, der sich von einer inner- zu einer postvokalischen Position erstreckte und der ebenfalls für alle vier Serien identisch war. Er entsprach dem Synchronisationsraum aus dem Experiment zur Gipfelgestalt in 4.1. In der Gruppe, die aus 6 Serien besteht, wurden vier auf Basis des Synchronisationsraumes von prä- zu innervokalisch und zwei auf Basis des Raumes von inner- zu postvokalisch hergestellt. Diese grundlegenden Eckpfeiler des Experimentaufbaus sind in Abbildung 23 als Strukturdiagramm zusammengefasst. Die Werte in den systematisch variierten Dauer- und Intensitätskonfigurationen sollten so ausfallen, dass möglichst ausgeprägte Unterschiede zwischen den jeweiligen Stimulusserien eines Synchronisationsraumes geschaffen werden. Diese generelle Vorgabe wurde durch zwei Kriterien eingeschränkt. Erstens sollten sich die Werte in den Dauer- und Intensitätskonfigurationen an den Messwerten der akustischen Analyse orientieren. Das heißt, sie sollten die Punktwolken und die hiernach berechneten Re-
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
155 155
gressionsgeraden berücksichtigen. Zweitens wurde darauf geachtet, dass die Werte nicht so extrem ausfielen, dass der natürlichsprachliche Charakter der Stimuli verloren ging und/oder weitere Akzentsilben neben der Silbe „Ma-“ aus „Malerin“ entstanden. Für Beides war der Perzeptionseindruck des Versuchsleiters maßgeblich.
Abbildung 23: Struktur des Perzeptionsexperiments zum Einfluss der Dauer- und Intensität in lautlichen Elementen auf die Wahrnehmung der Zeichentriade.
Die hiernach gewählten Dauer- und Intensitätskonfigurationen sind zusammen mit den dazugehörigen Punktwolken in den Abbildungen 24-27 eingekreist dargestellt. Die Abbildungen 24-25 zeigen die Konfigurationen in der Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) für die jeweils vier Stimulusserien der Synchronisationsräume von prä- zu innervokalisch (Abb. 24) und von inner- zu postvokalisch (Abb. 25). In den Abbildungen 26-27 sind die Konfigurationen in der Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) dargestellt. Vier Konfigurationen gehören zu den Stimulusserien des Synchronisationsraumes von prä- zu innervokalisch (Abb. 26) und zwei zu den Stimulusserien des Synchronisationsraumes von inner- zu postvokalisch (Abb. 27). Tabelle 5 gibt einen Überblick über die genauen Werte in den einzelnen Konfigurationen.
156 156
Eigene Einleitung Untersuchungen
= GEGEBEN
Abbildung 24: Gewählte Dauer- und Intensitätskonfigurationen für die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) der 4 Stimulusserien des Synchronisationsraumes von präzu innervokalisch. Die Konfigurationen orientieren sich an der dazugehörigen Punktwolke des Zeichens GEGEBEN (vgl. Abb. 21a in 4.2.2). Die Regressionsgerade für die Werte des Zeichens GEGEBEN ist analog zu den unausgefüllten Kreisen gestrichelt dargestellt.
= UNERWARTET
Abbildung 25: Gewählte Dauer- und Intensitätskonfigurationen für die Silbenpaarung aus Vorakzent- und Akzentsilbe (VAS|AS) der 4 Stimulusserien des Synchronisationsraumes von innerzu postvokalisch. Die Konfigurationen orientieren sich an der dazugehörigen Punktwolke des Zeichens UNERWARTET (vgl. Abb. 21a in 4.2.2).
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
= GEGEBEN
157 157
= NEU
Abbildung 26: Gewählte Dauer- und Intensitätskonfigurationen für die Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) der 4 Stimulusserien des Synchronisationsraumes von prä- zu innervokalisch. Die Konfigurationen orientieren sich an den dazugehörigen Punktwolken der Zeichen GEGEBEN und NEU (vgl. Abb. 22a in 4.2.2). Die Regressionsgerade für die Werte des Zeichens GEGEBEN ist analog zu den unausgefüllten Kreisen gestrichelt dargestellt.
= NEU
Abbildung 27: Gewählte Dauer- und Intensitätskonfigurationen für die Silbenpaarung aus Akzent- und Nachakzentsilbe (AS|NAS) der 2 Stimulusserien des Synchronisationsraumes von inner- zu postvokalisch. Die Konfigurationen orientieren sich an der dazugehörigen Punktwolke des Zeichens NEU (vgl. Abb. 22a in 4.2.2).
158 158
Eigene Einleitung Untersuchungen Systematische Variation der Konfiguration VAS|AS
Dauer
VAS
MALCV MALCV
MALCV
MALCV
MALVC
MALVC
MALVC
MALVC
I
I
107
I 107
155
155
114
114
164
164
AS
218
218
218
218
218
218
218
218
NAS
123
123
123
123
123
123
123
123
%Dvas|as
49
49
71
71
52
52
75
75
%Das|nas
56
56
56
56
56
56
56
56
-6,1
-0,1
-6,1
-0,1
-7,1
-0,9
-7,3
-1,1
3,3
3,3
3,7
3,7
3,1
3,1
3,7
3,7
(ms)
Ivas|as (dB) Ias|nas (dB)
Systematische Variation der Konfiguration AS|NAS
Dauer (ms)
LECV
LECV
LECV
LECV
LEVC
LEVC
I
I
>D und < zeigen einen großen Wert bzw. einen kleinen Wert an. Die Konfigurationen aus Abbildung 24 und 25 zielen auf die Hypothese (CD1) ab. Hiernach sollten die beiden Dauer- und Intensitätskonfigurationen MALCVI, die entlang der Regressionsgeraden der Punktwolke des Zeichens GEGEBEN liegen, die Wahrnehmung dieses Zeichens gegenüber den beiden Konfigurationen MALCVI und MALCV>DDDDDI, deren Werte an der Punktwolke des Zeichens GEGEBEN ausgerichtet wurden (vgl. Abb. 24), im Kontext „Jetzt versteh’ ich das erst“ deutlich seltener als passend beurteilt als die Stimuli mit den Konfigurationen MALCVI und MALCV>DD>I vs. MALCVI (Abb. 31a), konzentriert sich der Unterschied auf die Stimuli mit innervokalisch liegenden F0-Gipfeln (Stimuli 5-7) und fällt hier statistisch signifikant aus (vgl. Tabelle 6). In der anderen Gegenüberstellung der Stimuli mit den Konfigurationen MALCV>D>I und MALCV>DDD>I (vgl. Tabelle 6). Wie zuvor stehen dabei die Werte von LECV>DDDDDD>I, beide repräsentiert durch die grau gestrichelten Identifikationsfunktionen, im jeweiligen Kontext signifikant häufiger als passend bewertet als die Stimuli mit den Konfigurationen MALVCI und LECVI und LECV>DDD>I aufgetreten ist (Abb. 31d und 33d), wurde allein durch die Veränderung der Intensitäts-
186 186
Eigene Einleitung Untersuchungen
differenz zwischen der Akzentsilbe und ihrer Vor- bzw. Nachakzentsilbe herbeigeführt. Dass in den Stimuli 5-7 bzw. 4-6 mit inner- bzw. postvokalisch liegenden F0-Gipfeln zusammen mit den Konfigurationen MALCVI und MALVC>DD>I und MALVCI die Wahrnehmung des Zeichens GEGEBEN gegenüber den Konfigurationen MALCV>DDDDDDDD>I. Dieser Befund stimmt daher mit Hypothese (CD2) überein. Darüber hinaus enthalten die Ergebnisse zu den betreffenden Stimulusserien (dargestellt in Abb. 33) allerdings keine weiteren Unterschiede, die Hypothese (CD2) untermauern könnten.
Zum Sprechmelodie ZurBegriff Dauerder und Intensität
189 189
Ebenso wie im Zusammenhang mit Hypothese (CD1) zuvor finden sich in den Daten aber auch keine Effekte, die Hypothese (CD2) widersprechen. Wie bereits im Rahmen von Hypothese (CD1) erläutert, trifft dies auch auf Effekte zu, die sich im Vergleich zwischen Konfigurationen ergeben, die beide nicht unter Berücksichtigung der kombinatorischen Restriktionen der jeweiligen Punktwolken bzw. der hierzu berechneten Regressionsgeraden zusammengestellt wurden. Im Rahmen der Silbenpaarung aus Akzent- und Nachakzentsilbe ist so ein Effekt für die Konfigurationen LECVI im Bereich der prävokalischen F0Gipfel der Stimulusgruppe 1-4 aufgetreten (vgl. Abb. 33e). Hier wurde in den Stimuli mit der Konfiguration LECVI. Zur Hypothese (CD3) (CD3) Dauer- und Intensitätskonfigurationen, die entlang einer gemeinsamen Regressionsgeraden aus (CD1) oder (CD2) liegen, üben keinen unterschiedlichen Einfluss auf die Wahrnehmung der sprechmelodischen Zeichen aus. Hypothese (CD3) bezieht sich auf die Vergleiche zwischen den schwarzen Identifikationsfunktionen aus den Abbildungen 31-33(f) und 34. Sie wird durch die Ergebnisdaten vollständig unterstützt. In der Silbenpaarung aus Vorakzent- und Akzentsilbe haben sich entsprechend im Vergleich zwischen den beiden Konfigurationen MALCVI mit Werten entlang der Regressionsgeraden zur Punktwolke des Zeichens GEGEBEN keine signifikanten Unterschiede für die Stimulusgruppen 1-4 und 5-7 ergeben. Gleiches gilt für die Stimulusgruppen 1-3 und 4-6 im Rahmen der Konfigurationen MALVCI, deren Dauer- und Intensitätswerte an der Regressionsgeraden des Zeichens UNERWARTET ausgerichtet wurden. In der Silbenpaarung aus Akzent- und Nachakzentsilbe sind es die beiden Konfigurationspaare LECVI und LECV>DDDDDDDDH, CVH, VCH und H und VC>H die Ausgangsserien mit den Dauer- und Intensitätskonfigurationen LECVI und LEVC>DH rapide von ‚passt eher gut’ zu fast ausschließlich ‚passt eher schlecht’ um. Bei den Stimuli der Bedingung VC