Die Bände der Reihe Fischer Kompakt gliedern sich in vier Abschnitte. Der GRUNDRISS gibt eine bündige Gesamtdarstellung...
119 downloads
1474 Views
3MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Die Bände der Reihe Fischer Kompakt gliedern sich in vier Abschnitte. Der GRUNDRISS gibt eine bündige Gesamtdarstellung des Themas. Die VERTIEFUNGEN geben die Möglichkeit, verschiedene Facetten, die im Grundriss angesprochen werden, genauer kennen zu lernen. Das GLOSSAR erläutert zentrale Begriffe. Die LITERATURHINWEISE geben Empfehlungen für weitere Lektüren. Laufend aktualisierte Hinweise des Autors auf interessante Texte und Links sind im Internet zu fin den unter www.fischer-kompakt.de/molekulare-evolution S.109
Die Markierungen in der Marginalspalte, zusammen mit Her vorhebungen im Text, verweisen auf einen entsprechenden Abschnitt in den Vertiefungen.
Originalausgabe Veröffentlicht im Fischer Taschenbuch Verlag, einem Unternehmen der S. Fischer Verlag GmbH, Frankfurt am Main, Mai 2003 Gestaltungskonzept/Umschlag/Satz: Wolff Kommunikation, Frankfurt am Main Grafiken: von Solodkoff, Neckargemünd Druck und Bindung: Clausen & Bosse, Leck Printed in Germany ISBN 3-596-15365-4
MOLEKULARE EVOLUTION
GRUNDRISS 1. Einige Grundlagen der Vererbung .......................................3
DNA-ein Bote aus der Vergangenheit .......................................3
Die DNA und ihr Code ..............................................................5
Gene und Genom ....................................................................7
Die Protein-Biosynthese .........................................................10
2. Veränderungen einer DNA-Sequenz im Laufe der Zeit .....14
Mutationen in einer DNA-Sequenz .........................................14
Evolution einer DNA-Sequenz.................................................17
Lücken und Ergänzungen in DNA-Sequenzen .......................22
3. Eine kleine Baumschule .......................................................25
AllgemeineTerminologie .........................................................25
Phylogenetische Klassifikation ...............................................28
Die Zahl der Bäume ................................................................31
4. Molekulare Phylogenie ........................................................32
Maximum-Parsimonie .............................................................36
Distanzbasierte Methoden ......................................................41
Maximum-Likelihood ...............................................................45
Experimentelle und theoretische Phylogenien.........................48
Der Bootstrap .........................................................................55
5. Gen-Bäume in der Phylogenie ............................................56
Gen-Bäume in Spezies-Bäumen ............................................56
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen .58
Auswirkungen von Gen-Duplikationen auf Gen-Bäume ..........63
Gen-Duplikationen als Motor
der physiologischen Feinabstimmung .....................................64
6. Gen-Bäume in Populationen ...............................................66
Rekonstruktion der Populationsgeschichte
anhand von DNA-Sequenzen..................................................68
Die Genealogie einer Stichprobe ............................................70
Wann lebte der jüngste Vorfahre
der menschlichen Population? ................................................72
Demographie...........................................................................76
Wo kommen wir her? .............................................................85
7. Die Zukunft.............................................................................87
VERTIEFUNGEN Molekulare Techniken.................................................................91
Genetische Drift ......................................................................100
Die neutrale Theorie der molekularen Evolution ....................... 101
Die molekulare Uhr ................................................................... 103
Der Coalescent-Prozess ........................................................... 105
Die genetische Variabilität einer Population ............................ 109
Das Jukes-Cantor-Modell der Sequenzevolution ..................... 110
Wer sind die nächsten Verwandten der Wale? Ein nicht sequenzbasierter Ansatz zur Aufklärung der Phylogenie ......... 112
»Fossile DNA« - eine Zeitreise in die Vergangenheit .............. 115
ANHANG Glossar .................................................................................... 122
Literaturhinweise....................................................................... 127
GRUNDRISS
1 EINIGE GRUNDLAGEN DER VERERBUNG DNA - ein Bote aus der Vergangenheit Die Menschheit ist nicht nur daran interessiert, ihre Zukunft zu deu ten, sondern auch ihre Herkunft zu rekonstruieren. Zentrale Fragen sind: Wo kommen wir her? Wie ordnen wir uns in die belebte Welt ein? Und wie können wir alle Lebewesen in einem einheitlichen Schema gruppieren, das uns hilft die Vielfalt des Lebens auf der Erde und ihre Genese zu verstehen? Carl von Linne (1707-1778) »sortierte« die Natur und gab den meis ten Tieren und Pflanzen mittels der binären Nomenklatur eine syste matische Zuordnung. Die Dynamik in der Entstehung der Vielfalt blieb jedoch verborgen. Erst ein Jahrhundert später, auf einem Tref fen der Londoner Linne an Society am 1. Juli 1858, haben Charles Dar win (1809 -1882) und Alfred Rüssel Wallace (1823 -1913) ihre Ideen zur Entstehung der Arten vorgetragen. Im Jahr darauf publizierte Darwin sein bahnbrechendes Buch On the Origin of Species. Darwins Theorie basierte entscheidend auf der Weitergabe von vererbbaren Merkmalen. Die zugrunde liegenden Mechanismen waren zu dieser Zeit jedoch noch unklar. Erst 1944 gelang dem amerikanischen Team um Oswald Theodore Avery (1877 - 1955) der eindeutige Nachweis, dass die Desoxyribonukleinsäure (desoxyribonucleic acid, abgekürzt DNA) die erblichen Eigenschaften von den Eltern auf die Nachkom men überträgt. Vererbung beruht also auf einer stofflichen Weitergabe in Form einer Umsetzung von Molekülen. Die DNA besteht aus vier Grund bausteinen, nämlich den Basen Adenin (A), Cytosin (C), Guanin (G) 3
Einige Grundlagen der Vererbung
S.91
und Thymin (T). Die Molekular-Genetik beschreibt, wie aus der se quentiellen Abfolge dieser vier Grundbausteine der gesamte Bau plan für einen vollständigen Organismus entsteht und wie die Wei tergabe der genetischen Information erfolgt. Da die DNA in fast allen Lebewesen als Träger der Erbinformation fungiert, sind die ge fundenen Prinzipien für die Umsetzung der genetischen Informa tion in den Phänotypen nahezu allgemeingültig. Rasch wurde klar, dass die DNA nicht nur für die Weitergabe der Eigenschaften von Eltern auf ihre Kinder verantwortlich ist. Sie ist auch ein »Dokument der Evolutionsgeschichte«, so Emile Zucker kandl und Linus Pauling. Die DNA, die in heute lebenden Organismen zu finden ist, gab in grauer Vorzeit ein Vorfahr an den Nächsten wei ter. Im Laufe dieser Weitergabe wurde die DNA modifiziert. Nicht mehr benötigte Segmentabschnitte gingen verloren, neue Sequenzabschnitte wurden erworben und wieder andere Abschnitte erfuh ren kleine Veränderungen, da der Prozess der Informationsweiterga be nicht fehlerfrei ist. Welche Modifizierungen auch immer eine DNA erfahren hat, die heutigen Organismen zeigen Spuren dieser Änderungen in ihrem Genom. Die Forschung zur molekularen Evolu tion versucht diesen Prozess zu rekonstruieren und die Mechanis men herauszuarbeiten, die zu der heutigen Vielfalt der Organismen geführt haben. Besonders in den letzten Jahrzehnten wurden völlig neue For schungstechniken entwickelt. Beispiele sind die Klonierung von DNA-Segmenten, die Sequenzierung der DNA und die PolymeraseKettenreaktion (PCR) (Molekulare Techniken). Mit der rasanten Ent wicklung dieser molekularbiologischen Techniken gelang es, ein detailliertes und immer umfassenderes Bild von den der Evolution zugrunde liegenden Mechanismen zu entwickeln. Insbesondere bei der Frage nach einem biologischen System der Organismen erweist sich die Analyse von DNA- und Aminosäure sequenzen als eine wertvolle Methode, um sowohl die Verwandt 4
Die DNA und ihr Code Schaftsverhältnisse zwischen nah verwandten Arten zu studieren, als auch einen Baum zu rekonstruieren, der die Evolutionsgeschichte aller Organismen der Erde darstellt.
Die DNA und ihr Code Die genetische Zusammensetzung eines Organismus wird im We sentlichen durch die Nukleinsäuren bestimmt. Sie enthalten den Bauplan, der die verschiedenen Bauphasen im Organismus steuert und der als Kopie an die nächste Generation weitergegeben wird. Es gibt in den Zellen zwei Arten von Nukleinsäuren, die Desoxyribonu kleinsäure (DNA) und die Ribonukleinsäure (RNA). Nukleinsäuren sind Makromoleküle. Ihre Grundbausteine sind Nukleotide, die ket tenförmig miteinander verbunden sind. Jedes Nukleotid ist aus drei Molekülen aufgebaut: einer stickstoffhaltigen, heterozyklischen Ba se (N), einem Zucker (Z) und einer Phosphorsäure (P) (Abbildung la). Als Zuckerbaustein dient bei der DNA die Desoxyribose, bei der RNA ist es die Ribose. Als Basenanteile treten die Pyrimidinderivate Thymin (T) und Cytosin (C) (einfache Ringstruktur) und die Purinde rivate Adenin (A) und Guanin (G) (doppelte Ringstruktur) auf (Abbil dung 1b). In der RNA kommt statt Thymin die Base Uracil (U) vor, die chemisch nah verwandt ist mit Thymin. Ein vollständiges DNA-Molekül besteht aus zwei gegenläufigen Polynukleotid-Strängen (Abbildung 1c). Diese sind über Wasserstoff brücken-Bindungen zu einem Doppelstrang so verknüpft, dass sich immer Thymin beziehungsweise Cytosin des einen Strangs mit Ade nin beziehungsweise Guanin vom anderen Strang paaren (Watson Crick-Basenpaarung). Dabei werden zwischen Adenin und Thymin zwei Wasserstoffbrücken-Bindungen (A=T) ausgebildet, zwischen Guanin und Cytosin sind es drei (G==C). Zusätzlich sind diese zwei Polynukleotid-Stränge noch spiralförmig umeinander gewunden, und es entsteht die charakteristische Gestalt der DNA-Doppelhelix. 5
Einige Grundlagen der Vererbung
Abb.1: Schematischer Aufbau der DNA
In einer Nukleinsäure sind mehrere tausend Nukleotide zu einem langen, unverzweigten Strang angeordnet. Die genetischen Infor mationen werden in der unterschiedlichen Abfolge der vier Basen entlang der jeweiligen Sequenz kodiert. Die genetische Information einer DNA-Sequenz wird in der Pro tein-Biosynthese an die Eiweißmoleküle (Proteine) weitergegeben, die wiederum die spezifischen Merkmale eines Organismus prägen. Die Bausteine der Proteine sind zwanzig verschiedene Aminosäuren; am Aufbau der Nukleinsäuren hingegen sind nur die vier Basen be teiligt. Zur Kodierung der zwanzig Aminosäuren sind daher spezifi sche »Codewörter« notwendig. Sie geben an, aus welchen Nukleoti den die Aminosäuren bestehen. Eine einfache Überlegung zeigt, dass mindestens drei Nukleotide (zum Beispiel ACG) notwendig sind, um 6
Gene und Genom alle Aminosäuren zu kodieren. Aus vier Nukleotiden können nur 16 Kombinationen von Zweiergruppen (zum Beispiel GC), wohl aber 64 Kombinationen von Dreiergruppen (wie CGA) gebildet werden. Je weils drei Nukleotide lassen sich also zu einem Wort aus drei Buch staben oder in der Sprache der Molekularbiologie zu einem Codon oder Triplett zusammenfassen. So stehen genügend Wörter zur Ver fügung, um jede Aminosäure durch die Abfolge von drei Nukleotiden zu verschlüsseln. Die Übersetzung der Tripletts der DNA in Amino säuren der mRNA zeigt Abbildung 2. Die meisten Aminosäuren werden durch mehrere Tripletts kodiert. So dienen als Codon für die Aminosäure Serin (Ser) die sechs Wörter AGC, AGU, UCU, UCC, UCA oder UCG. Man spricht daher von der Re dundanz des genetisches Codes. Eindeutig kann nämlich nur von der DNA- beziehungsweise RNA-Sequenz auf die Aminosäure geschlos sen werden, nicht jedoch umgekehrt von der Aminosäure auf die Nukleotid-Sequenz. Lediglich für Tryptophan (Trp) und Methionin (Met) gibt es allein ein einziges Schlüsselwort, nämlich UGG respek tive AUG. Das AUG-Triplett hat weiterhin die Funktion eines so genannten Startcodons, das den Beginn der kodierenden Sequenz anzeigt. Jedes neu synthetisierte Protein beginnt also mit Methio nin. Zu den so genannten Stoppcodons UGA, UAA, und UAG gehören keine Aminosäuren. Diese Tripletts beenden die Protein-Biosynthese.
Gene und Genom Der DNA-Strang enthält viele tausend Nukleotide. Aber nur einige Abschnitte der DNA tragen die Informationen für den Bauplan eines Organismus in sich. Diese Abschnitte heißen Gene. Sie enthalten die Informationen zur Herstellung von spezifischen Proteinen und sind daher im Wesentlichen für die Gestalt eines Lebewesens verant wortlich. Für die Herstellung der Proteine müssen die Gene ihre Ko dierung weitergeben, sie bilden die kodierende DNA. 7
Einige Grundlagen der Vererbung Darüber hinaus gibt es in dem DNA-Strang zwischen den kodieren den Bereichen weitere, häufig sehr lange Abschnitte, die keine Infor mationen zur Herstellung von Proteinen tragen. Damit differenziert sich der DNA-Strang in verschiedene Domänen: Gene, die ihre Kodie rung weitergeben, bilden die funktionellen Bereiche der DNA. Die anderen Abschnitte, die keine Kodierung tragen und daher auch keine Kodierung weitergeben, bilden die nicht-kodierende DNA. Letz tere machen bei den Lebewesen, die einen echten Zellkern haben (Eukaryoten), den Großteil des Genoms aus (siehe Abbildung 3). Seit langem bekannt ist die Unterteilung des Genoms in Chromo somen. Im Kern einer menschlichen Körperzelle befinden sich 22 au tosomale Chromosomen (griechisch auto = selbst, soma = Körper). Sie steuern hauptsächlich die körpereigenen Prozesse. Die Chromo somen unterscheiden sich in Form und Größe und liegen je zweimal vor. Ein Pärchen gleichartiger Chromosomen heißt homolog (überein stimmend). Hinzu kommen die Geschlechtschromosomen X und Y. Bei männlichen Individuen gibt es ein X- und ein Y-Chromosom, bei weiblichen Individuen zwei X-Chromosomen. Zellen, in denen die Chromosomen doppelt vorliegen, heißen diploid (zweifach). Eine diploide Zelle des Menschen enthält daher immer 46 Chromosomen, zweimal 22 homologe Autosomen und zwei Geschlechtschromoso men, entweder XY bei männlichen oder XX bei weiblichen Organis men. In den menschlichen Keimzellen (Spermien und Ei) ist die Anzahl der Chromosomen halbiert, sie enthalten nur je einen auto somalen Chromosomensatz (n=22) und von den Geschlechtschro mosomen entweder das Y- oder das X-Chromosom. In den reifen Ge schlechtszellen befinden sich daher 23 Chromosomen. Im Gegensatz zu den diploiden Körperzellen sind die Keimzellen haploid (einfach). Die molekulare Differenzierung des menschlichen Genoms ist erst in den letzten Jahren aufgeklärt worden. Nach der vollständigen Be stimmung der Abfolge und Anzahl der Nukleotide wurde mit Er staunen festgestellt, dass ca. 97% der drei Milliarden Basen nicht 8
Gene und Genom
Abb.2: Der genetische Code für die mRNA. Die Codons sind von innen nach außen zu lesen und geben die Basenabfolge der mRNA-Codons wieder. Außerhalb des Kreises stehen die Aminosäuren, die vom Triplett kodiert werden.
kodierende DNA sind. Sich vielfach wiederholende Abschnitte (re petitive DNA) mit bisher unbekannter Funktion machen ca.40% des gesamten Genoms aus. In der Forschung werden sie je nach Länge als SINE, LINE oder Satelliten-DNA bezeichnet. Lediglich 3% des menschlichen Genoms sind kodierende DNA. Neben den schät 9
Einige Grundlagen der Vererbung zungsweise 30000-40000 Genen sind auch regulatorische Se quenzen und spezielle RNA-Moleküle bei der Synthese von Proteinen wichtig. Das eukaryotische Genom enthält neben den im Zellkern lokali sierten Chromosomen (auch Kern-DNA genannt) zusätzliche extra chromosomale DNA, die in den Mitochondrien der Zellen vorkommt. Sie heißt mitochondriale DNA (mtDNA). Beim Menschen handelt es sich hierbei um ein kleines, ca. 16000 Basenpaare langes, ringförmi ges DNA-Molekül. Die mtDNA wird in der Regel maternal vererbt. Nur die Mütter geben das Mitochondrien-Genom an ihre Kinder weiter, die väterliche mtDNA wird nicht vererbt. Im Unterschied zur Kern-DNA ist die Abfolge der kodierenden Abschnitte nahezu lücken los. Der einzige nicht-kodierende Abschnitt ist die Kontroll region (Abbildung 3). Sie steuert die Replikation (originalgetreue Nachbil dung) des ringförmigen Genoms. Eine weitere Eigenheit der mito chondrialen DNA besteht darin, dass es nach dem derzeitigen Wis sensstand so gut wie keine Rekombination gibt, das heißt es findet kein Austausch zwischen verschiedenen DNA-Abschnitten statt. Die se Tatsache macht die mtDNA besonders geeignet für evolutions biologische Analysen. Pflanzen besitzen noch ein weiteres, extra-chromosomales Ge nom, das in den Plastiden der Zellen vorkommt und daher PlastidenGenom heißt. Zu den Plastiden zählen unter anderem die grünen Chloroplasten, die maßgeblich für die Photosynthese verantwortlich sind sowie die rötlich bis gelben Chromoplasten der reifen Früchte und Blüten. Das Plastiden-Genom ist ebenfalls ringförmig geschlos sen und hat eine Länge von 85000-190000 Basenpaaren.
Die Protein-Biosynthese Ein Gen trägt die Information zur Bildung eines spezifischen Eiweiß moleküls (Protein). Diese sind vorwiegend aus Aminosäuren aufge 10
Die Protein-Biosynthese
Abb.3: Anteil kodierender und nicht-kodierender DNA im menschlichen Genom
11
Einige Grundlagen der Vererbung baut. Ganz ähnlich wie bei der DNA bestimmt die Abfolge der Amino säuren in der Proteinsequenz die charakteristischen Eigenschaften dieses Proteins. Da die Gene in der Abfolge ihrer Nukleinsäuren die Informationen zum Aufbau der Proteine enthalten, muss es einen Mechanismus geben, der die Abfolge dieser Nukleinsäuren eines Gens in eine Abfolge von Aminosäuren übersetzt. Dieser Vorgang ist die Protein-Biosynthese, sie verläuft in zwei Schritten. Bei den Eukaryoten befindet sich die DNA im Zellkern. Die Eiweiß synthese erfolgt aber außerhalb des Zellkerns an den Ribosomen im Cytoplasma. Daher muss in einem ersten Schritt die Information aus dem Kern durch die Kernhülle zu den Ribosomen im Cytoplasma transportiert werden. Diese Übertragung übernimmt ein einsträngi ges RNA-Molekül. Da dieses die »Botschaft« nach außen überträgt, heißt das Molekül messenger-RNA (mRNA oder Boten-RNA). Die mRNA wird im Zellkern an der Kern-DNA gebildet. Die Basenfolge (die genetische Information) der Kern-DNA wird dabei auf das neu gebildete mRNA-Molekül übertragen (kopiert). Dieser erste Schritt der Protein-Biosynthese wird Transkription (Abbildung 4) genannt. Anstelle von Thymin in der DNA wird in die mRNA jedoch die Base Uracil eingebaut. Die mRNA gelangt durch die Kernporen in das Cytoplasma. Jetzt beginnt der zweite Schritt in der Übertragung der genetischen Infor mation der Kern-DNA auf die Proteinbildung. Im Cytoplasma heften sich zwei Teile eines Ribosoms an die mRNA an und bilden ein funk tionsfähiges Ribosom. Zugleich binden weitere RNA-Moleküle je eine bestimmte, in den Zellen frei existierende Aminosäure an sich. Diese RNA-Moleküle nennt man transfer-RNA oder tRNA. Sie trans portieren die Aminosäuren zum Ribosom, wo sie unter Mitwirkung der mRNA zu einem Polypeptid verknüpft werden. Die Reihenfolge, in der die Aminosäuren zu einem bestimmten Protein zusammenge setzt werden, wird durch die Abfolge der Codons in der mRNA bestimmt. Dieser zweite Schritt, die Übersetzung der in der Basen 12
Die Protein-Biosynthese
Abb.4: Die Teilprozesse der Protein-Biosynthese
abfolge der mRNA gespeicherten genetischen Information in eine Abfolge von Aminosäuren in einem Protein, heißt Translation. Die Stoppcodons auf der mRNA beenden die Translation. Das Polypeptid und die tRNA verlassen die Ribosomen, die anschließend in ihre Untereinheiten zerfallen. 13
Veränderungen einer DNA-Sequenz im Laufe der Zeit
2 VERÄNDERUNGEN EINER DNA-SEQUENZ IM LAUFE DER ZEIT Mutationen in einer DNA-Sequenz Die Vererbung der Eigenschaften eines Organismus auf seine Nach kommen beruht auf der Bildung einer genauen Kopie der DNA. Die Natur hat für diese Replikation der DNA viele Vorkehrungen getrof fen, um den Kopierprozess möglichst fehlerfrei zu gestalten. Den noch kommt es zu Fehlern. Die so genannten Mutationen (Verände rungen) entstehen sowohl bei der Replikation als auch spontan durch umweltbedingte Faktoren, wie beispielsweise radioaktive Strahlung oder chemische Stoffe in der natürlichen und industriellen Umwelt. Mutationen sind die entscheidende Kraft im Evolutionsgeschehen. Sie sind zum einen verantwortlich für die genetischen Unterschiede zwischen Individuen. Zum anderen sind Mutationen der Motor für die Mannigfaltigkeit beziehungsweise Vielgestaltigkeit des Lebens, die dann auf dem Prüfstand der Selektion auf ihre Lebensfähigkeit getestet wird. Aus dieser Vielfalt der Mutationen interessieren in der Erforschung der molekularen Evolution nur jene Veränderungen, die sich in den Geschlechtszellen (Keimbahn) manifestieren. Nur diese Mutationen werden an die Nachkommen sich sexuell fortpflanzen der Organismen weitergegeben. Veränderungen, die andere Körper zellen betreffen (somatische Mutationen), werden nicht vererbt und sind daher für die Rekonstruktion der molekularen Evolutionsge schichte ohne Bedeutung. Mittlerweile sind eine Vielzahl unterschiedlicher Mutationstypen bekannt. So kann in einer DNA-Sequenz ein Nukleotid durch ein an deres ersetzt werden (Punktmutation). Nur wenn die Reparaturme chanismen der Zelle diese Änderung nicht erkennen und korrigieren, sprechen wir von einer Substitution. Typische Substitutionen sind 14
Mutationen in einer DNA-Sequenz
Abb.5: Schema der möglichen Nukleotidsubstitutionen
die vielen Einzel- oder Single-Nukleotid-Polymorphismen (abgekürzt SNP), die im Zuge der Sequenzierung des menschlichen Genoms gefunden wurden. Nukleotidsubstitutionen treten als Transitionen und Transversio nen auf. Eine Transition ist ein Basenaustausch zwischen Pyrimidi nen (Cytosin ļ Thymin) oder zwischen Purinen (Adenin ļ Guanin). Bei der Transversion kommt es zu einem Austausch zwischen einer Purin- und einer Pyrimidinbase (Abbildung 5). Für das Auftreten einer Transversion gibt es prinzipiell zwei Mög lichkeiten, für eine Transition existiert hingegen nur eine Option. Daher liegt der Schluss nahe, dass Transversionen zweimal häufiger vorkommen als Transitionen. Beim Auszählen der Unterschiede zwi schen nah verwandten Sequenzen bestätigt sich diese einfache An nahme jedoch nicht. Transitionen finden wesentlich häufiger statt als Transversionen. Diese Tatsache muss bei der Analyse von DNASequenzen berücksichtigt werden. 15
Veränderungen einer DNA-Sequenz im Laufe der Zeit Hat der Austausch eines Nukleotids keinen Einfluss auf die kodierte Aminosäure (siehe Abbildung 2), handelt es sich um eine synonyme Substitution. Dagegen ändert eine nicht-synonyme Substitution die Aminosäure. Synonyme Substitutionen erfolgen meist an den drit ten Codonpositionen, die im Wesentlichen die Redundanz des gene tischen Codes bestimmen. Außerdem gehen im Verlauf der Zeit Stückchen der DNA verloren (Deletion) oder werden hinzugewonnen (Insertion). Die Einheit einer Deletion oder Insertion kann ein einzelnes Nukleotid sein, oder es können auch ganze Abschnitte von Nukleotiden sein. Darüber hin aus gibt es großräumige Veränderungen des genetischen Materials wie Translokationen und Inversionen, bei denen ganze Chromoso men-Abschnitte verlagert oder verdreht werden. Erstaunlicherweise ist die Natur so flexibel, dass eine solche Umgruppierung von DNAAbschnitten nicht zwangsläufig zur Funktionsunfähigkeit des be troffenen Organismus führen muss. Einer der wichtigsten genetischen Prozesse in der Evolution ist die Duplikation (Verdopplung) von Genen oder ganzer genomischer Abschnitte. Dadurch erhält der Organismus zwei Kopien desselben Gens. Eine der beiden Kopien kann eine neue Funktion bekommen oder aber seine Funktionsfähigkeit verlieren. Ein klassisches Beispiel sind die wiederholten Genduplikationen in der Superfamilie des Glo bingens, die sowohl den Sauerstofftransport in den Muskeln (Myo globin) als auch im Blut (Hämoglobin) regulieren. Dabei werden die sehr unterschiedlichen Sauerstoff-Bedürfnisse im Embryo respektive im erwachsenen Organismus berücksichtigt. Andere DNA-Abschnit te sind ganz ähnlich wie die Globingene aufgebaut, aber sie funktio nieren nicht, weil sie durch Deletionen und Insertionen unter brochen sind. Diese »Karikaturen« aktiver Gene werden Pseudogene genannt.
16
Evolution einer DNA-Sequenz
Evolution einer DNA-Sequenz Mutationen verändern die Basenabfolge der DNA-Sequenz. Bei jeder Substitution ändert sich durch den Austausch eines Nukleotids auch die in der DNA gespeicherte Information. Als eine zentrale Annahme gilt in der molekularen Evolutionstheorie, dass diese Änderungen ei nem stochastischen, das heißt einem Zufallsprozess unterliegen. Zu jedem gegebenen Zeitpunkt ist es möglich, dass eine Substitution erfolgt und ein Nukleotid der Sequenz durch ein anderes ersetzt wird. Prinzipiell sind solche Ersetzungen an jeder Position eines DNA-Stranges möglich. Es gibt allerdings bestimmte, meist konser vative Regionen in der DNA-Sequenz, in denen eine einzige Substitu tion bereits die Funktion des resultierenden Proteins beeinträchtigt. Hierzu zählt etwa die Änderung der Raumstruktur eines Moleküls, die möglicherweise eine verringerte Bindungsaffinität für bestimm te Gase oder Mineralien bewirkt. Ist eine Mutation nachteiligfür den Träger, wird aufgrund der reduzierten Fitness (weniger oder keine Nachkommen) diese Mutation wieder verloren gehen. Bei neutralen Substitutionen entscheidet der Zufall, ob die neue Mutante in der Population fixiert wird (Die neutrale Theorie der Molekularen Evolu tion, Genetische Drift). Die Auswertung von Aminosäure-Sequenzen zeigt, dass verschiedene Proteine unterschiedliche Substitutionsra ten haben, wobei es noch einen deutlichen Unterschied zwischen synonymen und nicht-synonymen Austauschen gibt (Tabelle 1). So zählen die Histone, die in den Kernen aller Tier- und Pflanzenzellen vorkommen und die dichte Verpackung des Genoms im Zellkern ge währleisten, zu den höchst konservierten Genen überhaupt. Vom Histon 3 und Histon 4 ist keine nicht-synonyme Substitution be kannt. Die Gene aus der Globinfamilie zeigen geringe (D-Globin, Myoglobin) bis moderate (E-Globin) Austauschraten. Die Substitutionsraten in Tabelle i sind Schätzungen. Es ist nicht möglich, eine DNA-Sequenz über eine Milliarde Jahre zu beobachten 17
S.101 S.100
Veränderungen einer DNA-Sequenz im Laufe der Zeit
Tabelle 1: Substitutionsraten für fünf proteinkodierende Gene. Die Rate ist als mitt lere Zahl an Substitutionen pro Position und pro 1 Milliarde Jahre angegebene AS = Aminosäure.
und die in dieser Zeit erfolgenden Substitutionen in der Keimbahn mitzuzählen. Vorteilhaft wäre es zwar, wäre die Zahl der Substitutio nen in diesem Zeitraum doch ein Maß für die Evolutionsgeschwin digkeit des Sequenzabschnittes, und die Substitutionsrate ließe sich direkt berechnen. Zum Glück stellen Mathematiker Modelle der Se quenzevolution bereit, um die Substitutionsrate zu ermitteln. Für das Entwickeln eines solchen Modells soll angenommen wer den, dass sowohl die ursprüngliche Sequenz als auch die heutige Se quenz und zudem die dazwischenliegende Zeitspanne bekannt sind. Unter der Annahme, dass nur Substitutionen erfolgten, kann dann jeder Position der heutigen Sequenz ihre Position in der ursprüng lichen Sequenz zugeordnet werden (Abbildung 6). Unterscheidet sich ein »heutiges« Nukleotid von dem Nukleotid der ursprünglich en Sequenz, fand mit Sicherheit an dieser Position mindestens ein Austausch statt. Da nur das Endprodukt und das Anfangsprodukt bekannt sind, können an dieser Position aber auch zwei, drei, vier und mehr Substitutionen stattgefunden haben. Sind zwei Nukleotide an einer Position gleich, können dennoch im Laufe der Zeit zwei, drei, vier und mehr Mutationen eingetreten sein, 18
Evolution einer DNA-Sequenz
Abb.6: Modell für die Veränderung einer DNA-Sequenz im Laufe der Zeit. Zwischen einer Vorfahr-Sequenz und einer heutigen Sequenz sind acht Generatio nen vergangen. Punkte stehen für identische Basen, ein Strich (-) markiert eine Deletion, das heißt den Verlust eines Nukleotids. Pfeile symbolisieren jeweils eine Substitution (schwarzer Pfeil = Transition, grüner Pfeil = Transversion) beziehungs weise Deletion (grauer Pfeil). Die Veränderungen führen zu unterschiedlichen Ergebnissen, das sind einfache (*) und multiple ($) Substitutionen, Rückmutatio nen (§) oder Deletionen (-).
eventuell aber auch gar keine. Wird also nur die Zahl der unter schiedlichen Nukleotidpaare registriert, dann wird die Zahl der Sub stitutionen unterschätzt. Die Wahrscheinlichkeit für diese mehrfa chen (multiplen) Substitutionen hängt von der betrachteten Zeitspanne und von der Substitutionsrate der Sequenz ab. Je weni ger Zeit vergangen ist und je kleiner die Substitutionsrate ist, desto unwahrscheinlicher sind multiple Ereignisse an einer Position. Um aus der beobachteten Zahl an unterschiedlichen Nukleotidpo sitionen zwischen zwei Sequenzen auf die Zahl der tatsächlich statt gefundenen Mutationen zu schließen, sind in den letzten Jahrzehn ten eine Vielzahl von mathematischen Modellen entwickelt worden. Abbildung 7 zeigt für das Jukes-Cantor-Modell der Sequenzevolution den Zusammenhang zwischen der Anzahl an stattgefundenen und der Anzahl an beobachteten Substitutionen. Die schwarze treppen 19
S.110
Veränderungen einer DNA-Sequenz im Laufe der Zeit förmige Kurve stellt die jeweils bis zu einem bestimmten Zeitpunkt ausgezählten Substitutionen dar. Die lineare Kurve der tatsächlichen Substitutionen (mit weißen Symbolen) berücksichtigt die nicht be obachtbaren Parallel- und Rückmutationen. Aus der Kurve der be obachteten Substitutionen muss also auf die Kurve der tatsäch lichen Substitutionen geschlossen werden. Es wird also nach einer Funktion, nämlich der Korrekturkurve gesucht, die aus der Anzahl der beobachteten Substitutionen die tatsächliche Anzahl an Basenaus tauschen bestimmt. Auch wenn die mathematischen Details von Modell zu Modell variieren, zeigen die Korrekturkurven (siehe Abbildung 7) bei allen Modellen dennoch einen ähnlichen Verlauf: Haben erst wenig Substitutionen stattgefunden, gibt es einen linearen Zusammen hang zwischen stattgefundenen und beobachteten Substitutionen. Nimmt die Anzahl der Substitutionen zu, nimmt die Steigung des Graphen ab. Schließlich erreicht die Kurve die so genannte Sätti gung. Der Unterschied zwischen einer Ursprungssequenz und ihrem Nachfahren ist dann im Mittel genauso groß wie zwischen zwei zu fälligen, nicht miteinander verwandten Sequenzen. Alle Spuren der gemeinsamen Vergangenheit zwischen Ursprungs- und Nachfah ren-Sequenz sind damit ausgelöscht. Anders als im mathematischen Modell ist in der molekularen Evo lutionsforschung die ursprüngliche Sequenz, das heißt die VorfahrSequenz der heutigen Sequenz, unbekannt. Für die benutzten Sub stitutionsmodelle ist dies auch gar nicht notwendig. Es reicht, zwei heutige DNA-Sequenzen zu kennen, von denen mit Sicherheit fest steht, dass sie auf eine gemeinsame Vorfahrensequenz zurückge hen. Aus einem Vergleich der zwei Sequenzen wird die Anzahl der variablen Positionen (beobachteten Substitutionen) ermittelt. Dann kommen Korrekturkurven wie in Abbildung 7 zur Anwendung. Sie erlauben Rückschlüsse über die Anzahl der tatsächlich stattgefunde nen Substitutionen, die zwischen der gemeinsamen Vorfahr 20
Evolution einer DNA-Sequenz
Abb.7: Jukes-Cantor-Modell der Sequenzevolution
21
Veränderungen einer DNA-Sequenz im Laufe der Zeit Sequenz und den heutigen Sequenzen stattgefunden haben. Nicht abschätzen lässt sich die Zeit, in der sich die heutigen Sequenzen aus ihrer gemeinsamen Vorfahr-Sequenz entwickelt haben. Daher kann nicht ohne weiteres eine Substitutionsrate wie in Tabelle i angege ben werden. Ursache dieser Beschränkung ist die strenge Proportio nalität d~P·t zwischen der Anzahl d der Substitutionen und dem Produkt aus Sub stitutionsrate P der Sequenz und der evolutionären Zeitspanne t. Um aus der Anzahl der Substitutionen auf die Substitutionsrate zu schließen, sind Informationen über den Zeitpunkt erforderlich, an dem sich die beiden heutigen Sequenzen aus einer Vorfahr-Sequenz entwickelt haben. Als Kalibrierungspunkte eignen sich die aus fossi len Befunden gewonnenen Zeitpunkte für die Aufspaltung der je weiligen Arten. Die vorangegangenen Betrachtungen stellen die Grundprinzipien eines Sequenzmodells der Evolution vor. Beim Vergleich biologischer Daten zeigt sich jedoch, dass Transitionen wesentlich häufiger erfol gen als Transversionen. Diese Beobachtung wird bei weiterführen den Substitutionsmodellen bedacht. Zusätzlich können die Modelle berücksichtigen, dass einige Positionen aufgrund funktioneller Zwänge - wie einer bestimmten Raumstruktur des Proteins - lang samer evolvieren als andere.
Lücken und Ergänzungen in DNA-Sequenzen Bei der Analyse von DNA-Sequenzen stellte sich heraus, dass im Mu tationsgeschehen nicht nur Substitutionen vorkommen. Auch Inser tionen und Deletionen treten selbst in kodierenden Regionen auf. Sie können dabei zum Teil eine erhebliche Größenordnung erreichen. In einem Vergleich zweier Sequenzen zeigen sich daher nicht nur Po sitionen mit unterschiedlicher Nukleotidpaarung, sondern die Se 22
Lücken und Ergänzungen in DNA-Sequenzen quenzen haben darüber hinaus aufgrund von Insertionen und Dele tionen (kurz Indels) auch verschiedene Längen. Anhand der Buch stabenabfolgen der DNA-Sequenzen ist nicht zu erkennen, wo und wie viele Indels erfolgt sind. Ein Problem der molekularen Evolution ist die Rekonstruktion dieser Indels, um so sicherzustellen, dass bei der Auszählung der paarweisen Nukleotidunterschiede auch tat sächlich orthologe, das heißt ursprungsgleiche Positionen verglichen werden. Die Prozedur, jene Stellen zu lokalisieren, an denen In sertionen respektive Deletionen stattgefunden haben, erhielt den Fachterminus Alignierung. Ergebnis der Prozedur ist das Alignement. Dies erinnert mit seinem lateinischen Wortstamm linea an das Ab stecken einer Linie, in der etwas angeordnet werden soll. Ziel eines Sequenzalignements ist es, die Sequenzen so untereinander zu schreiben, dass sie die gleiche Länge haben und dabei orthologe Positionen einander zugeordnet werden. Dazu müssen die Indels (die verlorenen oder hinzugewonnenen Stückchen DNA) mit erfasst werden. Hierfür dient das Zeichen »-«, das als Lücke (gap) eingefügt wird, sozusagen als Platzhalter für fehlende Nukleotide. Bei einer Beschränkung auf zwei Sequenzen lässt sich das Problem in einem so genannten dot-plot in Form einer Matrix veranschau lichen (Abbildung 8). Die erste Zeile des dot-plot repräsentiert die Sequenz i aus Abbildung 6, die erste Spalte die Sequenz 2 aus Abbil dung 6. Stimmen die Nukleotide an einem Positionspaar der Se quenzen überein, wird das entsprechende Feld mit einem Punkt (dot) markiert. Stimmen sie nicht überein, bleibt das Feld frei. Dann sucht man durchgehende oder »geknickte« Diagonalen. Lange Diagonalen deuten auf Regionen, in denen beide Sequenzen sehr ähnlich bezie hungsweise identisch sind. Das Ziel der Auswertung solcher dot plots besteht darin, den optimalen (»besten«) Weg durch diese Matrix zu finden, der möglichst viele identische Nukleotidpaare auf sammelt und so zu durchgehenden Diagonalen führt, ohne unnötig viele Indels einzubauen, welche die »Knicke« verursachen. Dazu wer 23
Veränderungen einer DNA-Sequenz im Laufe der Zeit
Abb.8: Evolution der Sequenz aus Abbildung 6 in Form eines dot-plot
den computergestützte Algorithmen verwendet, die aus der Vielzahl an möglichen Wegen den optimalen bestimmen. Die biologischen Mechanismen für Insertionen und Deletionen sind noch nicht ausreichend verstanden, daher sind die derzeitigen Methoden der Sequenzalignierung noch sehr heuristisch. In prakti schen evolutionsbiologischen Anwendungen findet meist eine Nach bearbeitung des Ergebnisses durch »visuelle Begutachtung« statt. Dies ist besonders dann der Fall, wenn mehr als zwei Sequenzen in einem so genannten multiplen Sequenzalignement verglichen oder aneinander ausgerichtet werden. Bei einem paarweisen Alignement zweier Sequenzen gehen Posi tionspaare auf eine gemeinsame Vorfahrposition zurück. Einem multiplen Alignement liegt die Annahme zugrunde, dass jeweils eine Spalte des multiplen Alignements auf eine gemeinsame Vor fahrposition zurückgeht. Paarweise und multiple Sequenzaligne ments sind der Ausgangspunkt für phylogenetische und popula tionsbiologische Studien. 24
Eine kleine Baumschule
Abb. 9: Ein schematischer Baum mit den wichtigsten anatomischen Begriffen
3 EINE KLEINE BAUMSCHULE Allgemeine Terminologie Die in diesem Buch verwendeten Begriffe veranschaulicht Abbildung 9. Mathematiker und Biologen haben sehr unterschiedliche Vorstel lungen von einem Baum. So sprechen die Mathematiker von Kanten und Knoten (abgeleitet aus der Grafentheorie), während Biologen Äste und Verzweigungen vor Augen haben (ganz wie bei Bäumen in der Natur). Im phylogenetischen Kontext ist ein Baum (Dendro gramm) eine mathematische Konstruktion, welche die stammesge schichtlichen Verwandtschaftsverhältnisse (Phylogenie) einer Grup pe von Lebewesen widerspiegelt. Ein Stammbaum besteht aus Knoten (Verzweigungspunkten), die durch Kanten (Äste) miteinander verbunden sind. Die äußeren Kno 25
Eine kleine Baumschule ten (endständiges Taxon oder OTU, Abkürzung für Operational Taxo nomic Unit) repräsentieren Organismen, für die reale Daten (zum Beispiel DNA-Sequenzen oder morphologische Messwerte) vorlie gen. Innere Knoten symbolisieren hypothetische Vorfahren für jene Taxa, die sich in einem anschließenden Speziations- beziehungs weise Aufspaltungsprozess in zwei Tochterlinien geteilt haben. Der Vorfahre aller im Datensatz enthalten DNA-Sequenzen oder Orga nismen ist die Wurzel des Baums. In der phylogenetischen Systema tik wird die Wurzel auch als Stammart bezeichnet. Ein Baum mit einer Wurzel heißt gewurzelter Baum. Knoten und Kanten eines Baumes enthalten eine Vielzahl von In formationen. So wird zum Beispiel beim Maximum-Parsimonie-Ver fahren jedem inneren Knoten ein diskreter Merkmalszustand, zum Beispiel eine DNA-Sequenz, zugeordnet. Viele Verfahren berechnen auch die evolutionäre Zeit, die zwischen zwei Aufspaltungsereignis sen verstrichen ist, die sich in der Länge einer Kante (Astlänge) wi derspiegelt. Während äußere Knoten (endständige Taxa) mit einer äußeren Kante verbunden sind, laufen auf innere Knoten drei oder mehr Kan ten zu. Wenn ein Knoten genau drei Kanten hat, besitzt er einen Vor fahren und zwei Nachfahren. In diesem Fall spricht man von einer dichotomen (zweigeteilten) Verzweigung. Enthält ein Baum an den inneren Knoten ausschließlich dichotome Verzweigungen, ist er voll ständig aufgelöst. Gibt es an einem inneren Knoten mehr als zwei Nachfahren, ist dies eine polytome, das heißt vielfache Verzweigung. Polytomien symbolisieren entweder die zeitgleiche Aufspaltung in mehrere Nachfahren oder eine noch nicht geklärte Beziehung zwi schen den untersuchten Organismen. Im zweiten Fall fand die Auf spaltung nicht zwangsläufig zum gleichen Zeitpunkt statt, sondern die Abfolge der Ereignisse ist noch unsicher. In der Regel ist es sehr unwahrscheinlich, dass sich mehr als zwei phylogenetische Linien zum exakt gleichen Zeitpunkt aufspalten. Daher kann in den meis 26
Allgemeine Terminologie
Abb.10: Verschiedene Topologien mit der dazugehörigen Kurzschreibweise in Klammernotation
ten Fällen davon ausgegangen werden, dass es zwar eine dichotome Baumstruktur gibt, die herangezogenen Merkmale aber die zeitliche Abfolge der Aufspaltung nicht auflösen können. Es gibt zahlreiche Möglichkeiten der Baumdarstellung (Abbildung 10). Nicht immer unterscheiden sich die Bäume in ihrer Topologie, das heißt in ihrem Verzweigungsmuster. Manchmal sind es lediglich verschiedene grafische Darstellungen, da sich die Kanten eines Bau mes um jeden inneren Knoten beliebig drehen lassen, ohne dass sich die relativen Beziehungen zwischen denTaxa ändern. Phylogenetische Bäume können computerfreundlich in Klammer notation dargestellt werden (Abbildung 10). Jeder innere Knoten (jeder clade) ist durch ein Klammerpaar repräsentiert, das alle Nach kommen dieses Knotens einschließt. Alle Nachkommen eines inne ren Knotens bezeichnet man manchmal auch als Cluster. So stehen in den drei linken Bäumen in Abbildung 10 die Klammern (D,E) und (A,B,C) für die oberen Knoten und die Klammer ((D,E) (A,B,C)) für die Wurzel. Mit dieser einfachen Schreibweise lässt sich die Topologie je des Baumes darstellen. Was hier noch fehlt, sind Informationen über die Kantenlängen und damit über die evolutionären Zeiten. Compu 27
Eine kleine Baumschule
S.103
terprogramme, die phylogenetische Bäume berechnen, speichern neben der Topologie auch die Länge jeder Kante. Für die Darstellung unterschiedlicher evolutionärer Fragestellun gen gibt es auch unterschiedliche Bäume. Die einfachste Form ist das Cladogramm, das lediglich die relativen Beziehungen der Taxa zueinander darstellt. Die Kantenlänge ist hierbei ohne jede Bedeu tung. Ein Phylogramm enthält zusätzliche Informationen über die Länge der Kanten, zum Beispiel die Anzahl an Substitutionen. Solche Bäume werden auch als additive oder metrische Bäume bezeichnet. Im Dendrogramm sind die äußeren Knoten alle gleich weit von der Wurzel entfernt. Ein Dendrogramm ist also ein Spezialfall des Phylo gramms. Dendrogramme werden benutzt, um unter Verwendung der molekularen Uhr die Evolutionszeiten der einzelnen Organismen darzustellen. Im gewurzelten Baum wird ein Knoten als Wurzel deklariert (siehe Abbildung 9), der hypothetische Vorfahre aller untersuchten Lebe wesen. Ein gewurzelter Baum hat folglich eine Lesrichtung, die pa rallel zur evolutionären Zeit verläuft. Somit gibt es eine eindeutige Beziehung zwischen älteren Vorfahren (deren Knoten näher an der Wurzel stehen) und jüngeren Nachkommen (deren Knoten weiter von der Wurzel entfernt sind).
Phylogenetische Klassifikation Bezüglich der Abstammung einzelner Organismen oder Taxa gibt es drei Szenarien, die in Abbildung 11 durch grüne Linien gekennzeich net sind. Eine monophyletische Gruppe (griechisch monophylos = aus einem Stamme) (Abbildung 11a) ist von einem gemeinsamen Vorfahren ab leitbar und enthält sämtliche Nachkommen der Stammart. Ein Bei spiel hierfür sind Mensch und Schimpanse, die als Schwesterarten oder nächste Verwandten bezeichnet werden. Weitere Monophyla 28
Phylogenetische Klassifikation sind etwa die Gruppe der Säugetiere, die Gruppe der Wirbeltiere oder die Gruppe der Vögel. Eine paraphyletische Gruppe (griechisch para = abweichend) (Ab bildung 11b) umfasst nicht alle Nachkommen einer Stammart. Ein Beispiel sind die Reptilien. Traditionell schließen sie nur die Schild kröten, Eidechsen und Krokodile ein. Dagegen gehören die Vögel nicht zu den Reptilien, obwohl sie die nächsten Verwandten der Kro kodile sind (Archosaurier). Eine polyphyletische Gruppe (Abbildung nc) umfasst Arten oder Taxa, die nicht direkt verwandt sind, sondern aus zwei oder mehr Ent wicklungslinien stammen. Aufgrund von Konvergenz in bestimm ten, meist morphologischen Merkmalen, wurden sie in eine Gruppe zusammengefasst. So bilden etwa die Geier der Alten Welt und der Neuen Welt eine polyphyletische Gruppe. Die jeweilige Schwester gruppe sind die Störche beziehungsweise die Greifvögel. Die Geier der Alten und Neuen Welt sind sich aber darin ähnlich, dass sie Aas fresser sind, einen typischen Hakenschnabel haben und ihr Kopfge fieder reduziert ist. Ungewurzelte Bäume haben keine Zeitachse, so dass die Vorfah ren-Nachkommen-Beziehungen nicht geklärt sind. Zur Berechnung der Bäume erzeugen viele Computerprogramme nur ungewurzelte Bäume. Ein Ausweg ist die Einbeziehung einer Außengruppe. Ein Beispiel hierfür ist der ungewurzelte Baum für Mensch, Schim panse, Gorilla und Orang-Utan in Abbildung 12. Er hat fünf Kanten (i bis 5). Soll hieraus ein gewurzelter Baum entstehen, kann die Wur zel an jede der fünf Kanten platziert werden. Vier der fünf Wurzelun gen sind aber biologisch sinnlos, da Mensch, Schimpanse und Gorilla im Verhältnis zum Orang-Utan eine monophyletische Gruppe sind, die sich aus einer gemeinsamen Stammart entwickelt haben. Wenn also bekannt ist, dass eine Gruppe von Organismen monophyletisch ist, so kann, durch Hinzufügen einer weiteren Art, die nicht diesem Monophylum angehört, der Baum gewurzelt werden. Diese Art wird 29
Eine kleine Baumschule
Abb.11: Mögliche Schwestergruppen-Beziehungen in einem Baum
30
Die Zahl der Bäume
Abb.12: Gewurzelte und ungewurzelte Bäume. Aus einem ungewurzelten Vier Sequenzen-Baum lassen sich fünf gewurzelte Bäume ableiten. Die Anzahl gewur zelter Bäume resultiert aus der Zahl der Kanten (1-5). M = Mensch, S = Schimpan se, G = Gorilla, O = Orang-Utan.
als Außengruppe bezeichnet. Der Orang-Utan ist daher die Außen gruppe für Mensch, Schimpanse und Gorilla.
Die Zahl der Bäume Die Rekonstruktion eines phylogenetischen Baumes ist ein immen ses Problem, weil allein schon die Anzahl der möglichen Verzwei gungsmuster mit der Anzahl der untersuchten Organismen expo 31
Eine kleine Baumschule nentiell wächst. Interessieren nur zwei Sequenzen, zum Beispiel von Mensch und Schimpanse, so gibt es lediglich einen einzigen Baum (Abbildung 13, Mitte oben). Wird als dritte Sequenz der Gorilla einbe zogen (schwarzer Pfeil in Abbildung 13), gibt es - unter der Annahme, dass keine Information über die Lage der Wurzel vorliegt - auch nur einen Baum. Sobald als vierte Sequenz der Orang-Utan hinzukommt, entstehen jedoch drei mögliche Bäume (grüne Pfeile in Abbildung^). Die Topologie der drei ungewurzelten Vier-Spezies-Bäume hängt da von ab, an welche Kante diese Sequenz eingefügt wird. Für eine fünfte Sequenz, etwa die des Gibbon, stehen dann drei Bäume mit jeweils fünf Kanten zur Verfügung. (In Abbildung 13 sind nur die fünf Bäume für die untere Gruppe eingezeichnet.) Somit können für fünf Sequenzen insgesamt 15 verschiedene Fünf-Spezies-Bäume (mit sie ben Kanten) erzeugt werden. Für eine sechste Sequenz stehen dann 15 Bäume mit je sieben Kanten zur Verfügung, so dass insgesamt 105 Sechs-Spezies-Bäume erzeugt werden können. Für zehn Sequenzen gibt es bereits 2 027 025 verschiedene Verzweigungsmöglichkeiten. Für 22 Sequenzen stehen 3,2-io23 Bäume zur Auswahl und jeder muss als mögliche Hypothese über die Verwandtschaftsverhältnisse ge prüft werden. Allgemein berechnet sich die Zahl der Bäume für n›3 Sequenzen aus der Formel B(n) = 1 · 3 · 5 · ... · (2n–5).
4 MOLEKULARE PHYLOGENIE Die Evolution einer DNA-Sequenz als Träger der Erbinformation und als Bote dieser Information in die nächste Generation erfordert El tern und Nachkommen dieser Eltern. Durch den lückenlosen Fortbe stand einer Ahnenreihe, auch Linie genannt, können die jeweiligen Gene beziehungsweise DNA-Sequenzen »weiterleben« und ihre Ge 32
Molekulare Phylogenie
Abb.13: Genese von ungewurzelten Bäumen am Beispiel der Primaten (M = Mensch, S = Schimpanse, G = Gorilla, O = Orang-Utan und B = Gibbon). Für zwei Sequenzen (M, S) gibt es nur eine Topologie, den Zwei-Sequenzen-Baum. Auch drei Sequenzen (M, S, G) lassen sich nur in einem einzigen Baum darstellen. Vier Sequenzen ergeben drei mögliche Topologien, nämlich (M,S)(G,O), (M,O)(G,S) und (O,S)(M,G) mit jeweils fünf Kanten. Wird eine fünfte Sequenz (B) einbezogen, kann diese an jeder Kante eingefügt werden, so dass es insgesamt 15 mögliche Topolo gien gibt.
33
Molekulare Phylogenie
S.115
S.105
schichte an nachfolgende Generationen weitergeben. Hat ein Indivi duum keine Nachfahren, stirbt dessen Linie aus und mit ihr gehen alle in der DNA enthaltenen Informationen verloren. Ausgehend von einer heutigen Sequenz lassen sich daher kontinuierliche Ahnenrei hen rückwärts in der Zeit konstruieren, von einer Generation zur vor herigen. Die heutigen DNA-Sequenzen sind jeweils das Produkt ihrer indivi duellen Ahnenreihe (»Fossile DNA«). So unterschiedlich Lebewesen auch sind, letztlich gehen sie auf einen gemeinsamen Ursprung zu rück. Daher werden DNA-Sequenzen verschiedener Individuen frü her oder später auf eine gemeinsame Vorfahr-Sequenz treffen. Man sagt auch, bei einer rückwärtigen Verfolgung in die Vergangenheit verschmelzen die Linien, was im Englischen durch den Begriff Coales cent ausgedrückt wird. Diese sehr abstrakt und vage anmutende Be hauptung findet eine formale Rechtfertigung in der Populationsge netik (Coalescent-Prozess). Rezente DNA-Linien verschmelzen »beim Marsch in die Vergan genheit«, bis nur noch eine DNA-Linie vorhanden ist. Das ist der jüngste gemeinsame Vorfahre aller Linien, der most recent common ancestor, kurz MRCA. In Abbildung 14 ist die Phylogenie von sechs heutigen RNA-Sequenzen Si bis S6 dargestellt. Dabei stehen Si für die Sequenz des Menschen, S2 für die Bäckerhefe, S3 für die Nackt samer-Pflanze Gnetum, S4 für ein Halobakterium, S5 für eine Blaual ge und S6 für das Bakterium Escherichia coli. Begibt man sich in dem Baum dieser sechs Taxa entgegen der Zeitachse, trifft man in der Ver gangenheit (ganz links) auf den MRCA der dargestellten sechs Sequenzen. Der Prozess kann auch von der Vergangenheit in die Gegenwart betrachtet werden: Ausgehend von einem einzigen Vorfahren, dem MRCA, spalten sich die Linien im Laufe der Zeit in dessen Nachkom men auf. Dieser Vorgang wird als Divergenz bezeichnet. Im phyloge netischen Kontext heißt dies, dass sich die Nachkommen einer 34
Molekulare Phylogenie
Abb.14: Divergenz und Coalescent als komplementäre Prozesse in einem Sequenz baum. Der Baum (links) zeigt die geschichtliche Verwandtschaft zwischen den Sequenzen: Die grünen Kreise stehen für hypothetische Vorfahr-Sequenzen. Die weißen Kreise repräsentieren Vorfahr-Sequenzen, die keine heutigen Nachfahren haben. Die sechs Sequenzen (rechts) mit einer Länge von 24 Basenpaaren (Zahlen über dem Alignement) sind ein Ausschnitt eines viel längeren Alignements mit 2335 Basenpaaren je Sequenz. Schwarz dargestellte Nukleotide weichen von dem häufigsten Nukleotid an der entsprechenden Position ab. * zeigt nicht-variable Spalten an.
gemeinsamen Stammart durch unterschiedlich verlaufende, zur Art bildung führende Entwicklung voneinander unterscheiden. Mit der Zeit werden Substitutionen, Insertionen und Deletionen die ursprüngliche Sequenz graduell verändern. Diese Änderungen werden über die Ahnenreihe an die rezenten Sequenzen weiterge geben. In einem multiplen Sequenzalignement sind sie als variable Spalten sichtbar, in Abbildung 14 sind dies zum Beispiel die Spalten 1 bis 7, 9,14,15 und weitere. 35
Molekulare Phylogenie
Abb.15a: Beispiel für vier Sequenzen mit je 11 Nukleotiden.
S.112
Die Aufgabe der molekularen Phylogenie ist es, anhand des multi plen Alignements die nicht beobachtbare Evolutionsgeschichte der Sequenzen zu rekonstruieren. Einen auf Sequenzen basierenden Baum nennen wir hier Sequenz-Baum oder Gen-Baum, auch wenn ihm keine kodierenden Sequenzen zugrunde liegen (siehe im Gegen satz dazu Ein nicht sequenzbasierter Ansatz zur Aufklärung der Phy logenie). Um unter den möglichen Bäumen einen geeigneten Baum zu ermitteln, ist die Definition eines Qualitätskriteriums notwendig. Die Mathematiker sprechen von einer Zielfunktion. Sie gibt für jeden der möglichen Bäume an, wie gut er das Kriterium erfüllt. Die Auf gabe besteht nun darin, ein Rechenschema zur Auswertung der Ziel funktion anzugeben und dann den besten Baum zu finden. Aus der Vielzahl möglicher Zielfunktionen werden drei populäre Kriterien und die dazugehörigen Methoden vorgestellt.
Maximum-Parsimonie Unter dem Gesichtspunkt einer maximalen Sparsamkeit wählt man den Baum als besten aus, der die Variabilität in einem Alignement mit der minimalen Anzahl an Substitutionen erklärt. Nach dem 36
Maximum-Parsimonie
Abb.15b: Die drei Möglichkeiten für ungewurzelte Vier-Sequenzen-Bäume. c-e: Parsimonische Interpretation für die Spalten 2, 11 und 6. Grüne Kanten zeigen Substitutionen an.
37
Molekulare Phylogenie lateinischen parsimonia für Sparsarnkeit heißt dieses Kriterium Maxi mum-Parsimonie-Kriterium. Maximum-Parsimonie wurde schon früh zur Baumrekonstruktion vorgeschlagen. Inzwischen gibt es zahlreiche Modifikationen des Grundalgorithmus, die aber alle mit dem Problem des Beweises der Minimalität des gefundenen Ergebnisses kämpfen. Als philosophi sche Rechtfertigung für das »Prinzip der Sparsamkeit« wird oft der mittelalterliche Scholastiker William of Ockham (1290-1349) heran gezogen. Seiner Auffassung nach ist eine Hypothese die beste, wenn sie nur so wenig Annahmen wie möglich macht. Das (evolutionäre) Parsimonie-Prinzip geht also davon aus, dass die Evolution von einer Ursequenz mit möglichst wenig Nukleotidaustauschen zu einer heutigen Sequenz stattfand. Ob dies eine realistische Annahme über den Verlauf der Evolution ist, bleibt gerade für DNA - oder Aminosäu re-Sequenzen eine unbeantwortete Frage. Möchte man sich nicht auf ideologische Vorstellungen berufen, so genügt als Begründung für das Sparsamkeitsprinzip die biologische Beobachtung, dass Sub stitutionen im Aligemeinen sehr seltene Ereignisse sind und es unwahrscheinlich ist, dass die gleiche Position mehrfach mutiert. Wie lässt sich die Anzahl an Substitutionen berechnen? Vereinfa chend wird zunächst vorausgesetzt, dass alle Positionen im Aligne ment unabhängig voneinander evolvieren. Die Gesamtzahl an Sub stitutionen eines Baumes ist somit die Summe der Basenaustausche pro Position. Die Berechnung der Substitutionen wird zur besseren Übersichtlichkeit vorerst für nur vier Sequenzen erklärt (Abbildung 15a), für die es drei ungewurzelte Bäume gibt (Abbildung 165b). Spalte 1 und Spalte 10 sind nicht variabel, dem Parsimonie-Prinzip folgend sind diese Positionen nicht mutiert. In Spalte 2 weicht die Sequenz 1 (G) von den drei anderen Sequenzen (C) ab. Das Maximum Parsimonie-Prinzip erfordert immer die kleinste Anzahl von Substi tutionen. Unabhängig von der Wahl des Baumes (Abbildung 15c) gibt es nur eine Substitution (grün dargestellte Kante), wenn man an den 38
Maximum-Parsimonie
Abb.16: Das Prinzip des Neighbor-Joining für die sechs Sequenzen Si - S6 aus
Abb.13.
a) Die sternförmige Phylogenie als Ausgangspunkt, ›V‹ ist die hypothetische Vor fahr-Sequenz
b) Gruppierungvon S5 und S6 (›A‹ als hypothetischer Vorfahr)
c) Gruppierung von ›A‹ und S4 (›ß‹ als hypothetischer Vorfahr)
d) Gruppierung von Si und S2 (›C‹ als hypothetischer Vorfahr)
39
Molekulare Phylogenie inneren Knoten ein C annimmt. Bei dem Maximum-Parsimonie-Prin zip sind solche Spalten phylogenetisch nicht informativ, denn sie können aufgrund der gleichen Anzahl an Substitutionen keinen Baum als den sparsamsten bestimmen. Die gleiche Situation trifft für die Spalten 3,4 und 5 zu. Setzt man an die inneren Knoten ein T (Spalte 3) beziehungsweise A (Spalten 4 und 5), ist wiederum nur jeweils ein Basenaustausch erforderlich, um das Sequenzmuster in dieser Spalte zu erklären. Auch hier hat die Baumtopologie keinen Einfluss auf die Anzahl an Substitutionen. In Spalte 11 erfordert das Sparsamkeitsprinzip für die zwei inneren Knoten jeweils ein T (Ab bildung i5d). Dann werden für jeden der drei Bäume zwei Substitu tionen (zwei grün dargestellte Kanten) benötigt. Daher ist auch die se Spalte phylogenetisch nicht informativ. Interessant werden erst die Spalten 6,7,8 und 9. Je nach gewählter Baumtopologie erfordern diese unterschiedlich viele Substitutionen. Diese Spalten sind somit phylogenetisch informativ. Abbildung 15c zeigt beispielhaft die Situation für Spalte 6. Man erkennt: Baum 1 be nötigt eine Substitution, Baum 2 und Baum 3 brauchen jeweils zwei Substitutionen. Die Gesamtzahl an Substitutionen für das komplette Alignement mit seinen 11 Spalten in Abbildung 15a berechnet sich wie folgt: Baum 1: 0+1+1+1+1+1+1+2+2+0+2 = 11 Substitutionen Baum 2: 0+1+1+1+1+2+2+2+1+0+2 = 13 Substitutionen Baum 3: 0+1+1+1+1+2+2+1+2+O+2 = 13 Substitutionen Damit ist für das vorliegende Alignement Baum 1 der sparsamste oder der Maximum-Parsimonie-Baum. Nach diesem einfachen Beispiel mit nur vier Sequenzen soll der Maximum-Parsimonie-Baum für die sechs Sequenzen in Abbildung 14 ermittelt werden. Hierfür muss die Anzahl der Substitutionen für alle 105 möglichen Gen-Bäume berechnet werden. Dies ist nur mit Computerprogrammen möglich. Werden diese Bäume nach dem 40
Distanzbasierte Methoden Maximum-Parsimonie-Kriterium bewertet, so zeigt sich, dass die kleinste Anzahl an Substitutionen 25 ist. Davon gibt es aber fünf Bäume. Es lässt sich nun keine weitere Aussage darüber treffen, wel cher dieser fünf Bäume die »wahre« Phylogenie widerspiegelt. An ders ist das Ergebnis, wenn von den sechs Sequenzen alle 2335 Basenpaare (in der Abbildung nicht gezeigt) in die Rechnung einbe zogen werden. Dann gibt es nur einen einzigen Maximum-Parsimo nie-Baum. Dies zeigt, dass sich die Beziehungen zwischen den Sequenzen nur verlässlich rekonstruieren lassen, wenn es viele Se quenzinformationen (lange Sequenzen mit Tausenden von Basenpaaren) gibt. Da mit der Anzahl der Sequenzen die Anzahl der Bäume exponen tiell wächst, ist ein systematisches Evaluieren aller Möglichkeiten für nur zehn Sequenzen (2027025 Bäume) selbst mit sehr schnellen Computern und vertretbarem Zeitaufwand kaum noch möglich. Um dennoch sparsame Bäume für möglichst viele Sequenzen zu rekon struieren, werden so genannte heuristische Suchverfahren einge setzt. Dabei wird mit einem beliebigen Startbaum begonnen und die Anzahl an Substitutionen berechnet. Anschließend wird die To pologie des Startbaumes zufällig geändert und die Anzahl der Sub stitutionen für den neuen Baum bestimmt. Ist die Zahl kleiner, wird das Verfahren mit dem neuen Baum wiederholt. Ist die Zahl größer, wird auf den ursprünglichen Baum zurückgegriffen und dieser er neut geändert. Der kürzeste gefundene Baum wird als ParsimonieBaum bezeichnet. Mit diesem Verfahren, von dem es viele Varianten gibt, lassen sich auch für viele hundert Sequenzen ParsimonieBäume bestimmen.
Distanzbasierte Methoden Bei zwei weiteren Kriterien finden die von Joseph Louise Lagrange (1736-1813) und Carl Friedrich Gauß (1777-1855) entwickelten Me 41
Molekulare Phylogenie
S.110
thoden der mathematischen Ausgleichsrechnung für Näherungs werte Eingang in die Welt der molekularen Evolution. Im Mittel punkt stehen dabei das Gauß'sche Prinzip der kleinsten Quadrate und das von Ronald A. Fisher (1890-1962) explizit eingeführte Maxi mum-Likelihood-Prinzip. Auf dem Prinzip der kleinsten Quadrate beruhen Distanzverfahren. Für die Rekonstruktion eines Gen-Baumes aus einem Alignement ermitteln diese Verfahren die evolutionäre Distanz (d) der Sequen zen in einem Baum und die berechnete Distanz (e) zweier Sequen zen. Für jeden Baum bildet man von den Differenzen dieser Distan zen die Quadrate, summiert diese und fragt nach dem Baum mit der kleinsten Summe für diese Quadrate. Der optimale Baum hat die kleinste Summe. In mathematischer Schreibweise nehmen diese Überlegungen die folgende Form an: Distanzbasierte Methoden berechnen die Distanz dij (Jukes-Cantor-Modell) für alle Sequenzpaare {i,j} eines Aligne ments. Das Ergebnis ist eine Distanzmatrix (Tabelle 2). Aus dieser Ma trix wird ein Baum rekonstruiert, der die Anzahl der Substitutionen, das heißt die Distanz zwischen allen Sequenzpaaren, wiedergibt. Was bedeutet »die Distanz zwischen allen Sequenzpaaren wieder geben«? In einem Baum gibt es stets einen eindeutigen Weg oder Pfad, der zwei endständige Taxa, vertreten durch die Sequenzen i und j, miteinander verbindet. Auf diesem Weg hat jede Kante eine bestimmte Länge, beispielsweise die Anzahl an Substitutionen. Die Summe der Substitutionen, die evolutionäre Distanz eij eines Se quenzpaares {i,j}, sollte im Idealfall gleich der berechneten Distanz dij dieses Sequenzpaars sein. Ein Baum ist dann optimal, wenn die evolutionäre Distanz aller Se quenzpaare nur geringfügig von den Einträgen in der Distanzmatrix abweicht. Da die berechnete Distanz dij immer nur eine Annäherung an die unbekannte evolutionäre Distanz eij ist, wird der Betrag der Abweichung dy-ey fast immer größer Null sein. Eine Möglichkeit, die 42
Distanzbasierte Methoden
Tabelle 2: Distanzmatrix für die Sequenzen Si bis S6 aus Abbildung 13. Der untere Teil der Matrix zeigt die Anzahl der beobachteten Unterschiede für den in Abbil dung 13 dargestellten Sequenzausschnitt von 24 Basenpaaren, der obere Teil die Anzahl der Unterschiede für das gesamte Alignement mit 2335 Positionen.
Abweichung der evolutionären Distanzen für einen Baum T von der Distanzmatrix zu quantifizieren, ist das Kriterium der kleinsten Qua drate R(T) mit
Der optimale Baum hat den kleinstmöglichen Wert R. Für drei Sequenzen gibt es nur einen Baum mit drei Kanten. Aus den Distanzen d12, d13, d23 (grüne Linien) lassen sich die optimalen Kantenlängen k1, k2, k3 (schwarze Linien) des Baumes wie folgt be rechnen: k1 = 1/2 (d12 + d13 – d23) k2 = 1/2 (d12 + d23 – d13) k3 = 1/2 (d13 + d23 – d12) 43
Molekulare Phylogenie Setzt man die evolutionären Distanzen e12 = k1 + k2, e13 = k1 + k3 und e23 = k2 + k3, so wird R(T) = 0. Für vier oder mehr Sequenzen ist R(T) im Allgemeinen größer Null. Die Berechnung von R(T) für einen Baum T ist mit Methoden der mathematischen Optimierung relativ einfach. Es ist jedoch unmöglich, alle Bäume zu evaluieren und den Baum mit minimaler quadratischer Abweichung zu finden. Daher werden wie bei Maximum-Parsimonie auch bei den distanzbasierten Methoden Näherungsverfahren angewendet. Das bekannteste solcher approximativer Verfahren ist das Neigh bor-Joining, was sich als »Zusammenfügen der nächsten Nachbarn« übersetzen lässt. Neighbor-Joining ist ein Clusterungs- oder Grup pierungsverfahren: Ähnliche Paare von Sequenzen werden zu einer Gruppe (einem Cluster) zusammengefasst und anschließend wie ein Taxon behandelt. Als Qualitätskriterium dient die Gesamtlänge L(T) des Baumes T. Das ist die Summe aller Kantenlängen, die mit dem Prinzip der kleinsten Quadrate geschätzt wurden. Ziel ist es, ei nen Baum mit möglichst kleiner Gesamtlänge L(T) zu finden. Dieses Qualitätskriterium wird Minimale Evolution genannt. Im Folgenden wird das Neighbor-Joining auf das Beispiel der sechs Sequenzen in Abbildung 15 angewandt, wobei alle 2335 Basenpaare in die Rechnung einbezogen werden. Ausgangspunkt für das Neigh bor-Joining ist ein sternförmiger Gen-Baum (Abbildung 16a). Die sechs Sequenzen Si bis S6 stammen von derselben Vorfahr-Sequenz ›V‹ ab. Basierend auf der Distanzmatrix (Tabelle 2) wird anschließend am Computer die Länge aller Bäume berechnet, in denen zwei Sequen zen einen von ›V‹ verschiedenen Vorfahren haben. Aus diesen Bäumen wird der kürzeste Baum ausgewählt. In dem Beispiel in Abbildung i6b ergibt die Computerrechnung für die Gruppierung der Sequenzen S5 und S6 den kürzesten Baum. Die Sequenzen S5 und S6 sind nun Nachbarn. Ihr hypothetischer Vorfahr wird ›A‹ genannt. In der weiteren Computeranalyse wird das Cluster S5 und S6 durch ›A‹ 44
Maximum-Likelihood ersetzt. Der Datensatz für die weiteren Rechnungen verringert sich damit um eine Sequenz. Mit den verbleibenden fünf »Sequenzen« S1, S2, S3, S4, ›A‹ beginnt die Prozedur von neuem. Es wird wiederum zuerst das Cluster aus zwei Sequenzen gesucht, das den kürzesten Baum ergibt. Für die fünf Sequenzen wird der kürzeste Baum bei der Gruppierung der Sequenzen ›A‹ und S4 gefunden. Deren hypothetischer Vorfahr wird ›B‹ genannt (Abbildung 16c). Damit reduziert sich der Datensatz auf vier Einträge, nämlich S1, S2, S3, ›B‹. Im folgenden Schritt werden die Sequenzen Si und S2 gruppiert und durch ›C‹ ersetzt (Abbildung i6d). Der Baum ist damit vollständig aufgelöst und das Neighbor-Joining-Verfahren beendet. Neighbor-Joining ist ein schnelles Verfahren zur Baumrekonstruk tion. Es ist möglich, bis zu 300 Sequenzen in einen Neighbor-JoiningBaum umzurechnen. Es lässt sich aber nicht überprüfen, ob der gefundene Baum der optimale Baum ist. Simulationsstudien zeigen, dass Neighbor-Joining mit großer Wahrscheinlichkeit den richtigen Baum rekonstruiert.
Maximum-Likelihood Maximum-Likelihood-Methoden versuchen, unter den möglichen Bäumen und einem Modell der Sequenzevolution den Baum zu bestimmender mit höchster Wahrscheinlichkeit zu den beobachte ten Sequenzen führt. Dieser Baum wird der Maximum-LikelihoodBaum genannt. Für das zugrunde liegende Prinzip wird zunächst auf das einfache Alignement aus vier Sequenzen in Abbildung 15a und Baum 1 (Abbil dung 15b) zurückgegriffen. Jede der elf Spalten wird zuerst einzeln betrachtet. Spalte 1 hat das Muster AAAA. Theoretisch kann an den inneren Knoten des Baumes 1 jeweils eines der vier Nukleotide A,C,G,T ste 45
Molekulare Phylogenie
S.110
hen. Welche Kombination von Nukleotiden ist die wahrscheinlichs te? Zunächst wird ein Modell der Sequenzevolution ausgewählt, etwa das Jukes-Cantor-Modell. In diesem Modell ist die Wahrschein lichkeit P, dass ein Nukleotid x unverändert erscheint -4d/3
Pxx(d) = (1/4) + (3/4) · e
wobei d die Zahl der Substitutionen ist. Die Wahrscheinlichkeit für das Auftreten verschiedener Nukleotide x und y ist -4d/3
PXy(d) = (1/4) – (1/4) · e
.
Damit kann für Spalte 1 die Wahrscheinlichkeit (P1) für das Muster AAAA berechnet werden, wenn beide inneren Knoten jeweils das Nukleotid A tragen und der Baum i mit den Kantenlängen (Substi tutionen) k1, k2, k3, k4 und k5 bekannt ist. Mathematisch heißt dies P1(AAAA|AA) = (1/4) {PAA(k1) PAA(k2) PAA(k5) PAA(k3) PAA(k4)} . Da die Nukleotide x beziehungsweise y an den inneren Knoten nicht bekannt sind, berechnet sich die gesamte Wahrscheinlichkeit für das Muster AAAA in Spalte 1 als P1 = P1(AAAA) = (1/4)
P1 (AAAA|xy)}.
Mit den verbleibenden Spalten wird genauso verfahren. Für das gesamte Alignement (A) mit seinen elf Spalten ist die totale Wahr scheinlichkeit Ptot über den Baum 1 (T1) und seinen fünf Kanten das Produkt aus den Wahrscheinlichkeiten für jede einzelne Spalte. Es gilt also Ptot (A|T1, k1, k2, k3, k4, k5) = P1 · P2 · P3 · P4 · ... · P11. In der Realität sind aber weder der Baum noch seine Kantenlängen bekannt. Einzig die Sequenzen liegen als Endprodukt der Evolution vor. Daher wird die letzte Gleichung als Wahrscheinlichkeits- oder Likelihood-Funktion mit den Parametern Baumtopologie und Kan 46
Maximum-Likelihood tenlänge bezeichnet. Sie ermittelt für jede Kombination von Para metern die Cesamtwahrscheinlichkeit. Gesucht ist nun die Parame terkombination, bei der die Likelihood-Funktion maximal wird. Der in Abbildung 14 dargestellte Baum (links) ist der Maximum Likelihood-Baum für sechs Sequenzen, wenn das gesamte Aligne mentvon 2335 Basenpaaren zugrunde gelegt wird. Werden hingegen nur die 24 dargestellten Spalten analysiert, ist der aus dieser kleinen Anzahl resultierende Baum biologisch unsinnig. Schon dieses kleine Beispiel mit sechs Sequenzen macht deutlich, welche Herausforde rung die Maximum-Likelihood-Methode darstellt. Dank schneller Computer und der Entwicklung intelligenter Suchstrategien können derzeit Maximum-Likelihood-Bäume für bis zu fünfzig Sequenzen berechnet werden. Für eine realistische Anwendung ist dies aber noch zu wenig. Der erhöhte Aufwand der Maximum-Likelihood-Methoden ist aber gerechtfertigt, da nun erstmals das methodische Inventar der Statistik für die weitere Analyse zur Verfügung steht. Der Vergleich der Maximum-Likelihood-Werte für verschiedene Modelle der Se quenzevolution erlaubt eine gesicherte Aussage darüber, welches Modell das bessere ist. Vereinfacht gilt: Je größer der Likelihood-Wert ist, desto wahrscheinlicher spiegelt das gewählte Modell für einen bestimmten Baum die Evolution der Sequenzen wider. Darüber hin aus liefern Maximum-Likelihood-Methoden wichtige Informationen über die evolutionären Parameter der Sequenzen. Sie geben zum Bei spiel Antworten darauf, welche Spalten im Alignement schnell und welche langsam evolvieren oder wie groß das Transitions-Transver sions-Verhältnis ist. Es wird also nicht nur ein Gen-Baum rekonstru iert, sondern zusätzlich ein Evolutionsmodell für das Alignement vorgeschlagen.
47
Molekulare Phylogenie
Experimentelle und theoretische Phylogenien Es wurden drei Verfahren zur Baumrekonstruktion vorgestellt, um aus einem Sequenzalignement einen Baum zu rekonstruieren. Die ungeklärte Frage ist jedoch, ob der rekonstruierte Baum mit der tat sächlichen Phylogenie der Sequenzen übereinstimmt. Wie in jeder naturwissenschaftlichen Disziplin gibt es zwei potentielle Fehler quellen: Der erste Fehler ist der zufällige Fehler (random error), der auftritt, weil nur ein endliches Alignement zur Verfügung steht. Die ser Fehler kann durch die Vergrößerung der Stichprobe (längere Sequenzen) minimiert werden. Der zufällige Fehler wurde am Bei spiel der sechs Sequenzen in Abbildung 14 bereits demonstriert. Nur aus hinreichend langen Sequenzen lassen sich biologisch sinnvolle Bäume rekonstruieren. Der zweite Fehler ist der systematische Feh ler (systematic error). Er tritt dann auf, wenn beispielsweise das gewählte Modell der Sequenzevolution nicht mit den Daten über einstimmt. Unabhängig von der Art des Fehlers kann ein rekonstru ierter Gen-Baum falsch sein, weil die Verzweigungsstruktur (Topolo gie) nicht stimmt oder die Kantenlängen falsch geschätzt wurden. Solche Fehler sind in der Regel nicht aufzudecken, da das Evolu tionsgeschehen und somit das Entstehen eines Gen-Baumes nicht beobachtet wird. Eine Ausnahme ist die »Sequenzevolution im Rea genzglas«. Im Labor lassen sich zum Beispiel Viren über mehrere tau send Generationen kultivieren. Durch Zugabe von Mutagenen, die künstlich die Mutationsrate erhöhen, werden experimentelle Phylo genien erzeugt. Forscher erstellten mit acht Taxa die in Abbildung 17 gezeigte Phy logenie. Um den Baum zu wurzeln, wurde ein weiteres Taxon als Au ßengruppe hinzugezogen (in Abbildung 17 nicht gezeigt). Für die neun Sequenzen gibt es 135135 Bäume. Die Wahrscheinlichkeit, aus diesen Tausenden von Bäumen die »wahre« Phylogenie zu erraten, ist verschwindend gering. Bei der computergestützten Rekonstruk 48
Experimentelle und theoretische Phylogenien
Abb.17: Experimentelle Phylogenie des Bakteriophagen T7. Acht Taxa (1-8) des Bak teriophagen T7 wurden im Labor gezüchtet. Die Mutationsraten wurden künstlich erhöht. Die Wurzel des Baumes W repräsentiert den Wildtyp, von dem die Experi mente ausgehen. Die Kantenlängen sind proportional zur Anzahl der Substitutio nen (Zahlen an den Kanten). Um den Baum zu wurzeln, wurde in die Rechnung eine Außengruppe hinzugezogen, die aber nicht dargestellt ist.
tion der Phylogenie ermittelten zwar alle Verfahren die richtige To pologie, aber keine Methode bestimmte die richtigen Kantenlängen. Dies zeigt, dass auch bei realen, biologischen Daten die Kantenlän gen möglicherweise einem gewissen Fehler unterworfen sind. Da das Erstellen experimenteller Phylogenien sehr aufwändig ist, wird die Verlässlichkeit der Baumrekonstruktionsverfahren auch an hand theoretischer Phylogenien überprüft. Dabei wird ein GenBaum vorgegeben, für den dann die Sequenzevolution auf dem Com puter simuliert wird. Das Ergebnis dieser »künstlichen Evolution« ist ein simuliertes Sequenzalignement, das anschließend mit verschie 49
Molekulare Phylogenie denen Methoden der Baumrekonstruktion untersucht wird. Somit lassen sich unterschiedliche Evolutionsszenarien für verschiedene Baumrekonstruktionsverfahren evaluieren. Hierbei treten Unter schiede in der Verlässlichkeit der einzelnen Methoden für die Baum rekonstruktion zutage. Mit der Untersuchung theoretischer Phylogenien gelang dem ame rikanischen Wissenschaftler Joe Felsenstein eine sehr bedeutende Entdeckung. Sie heißt heute nach ihrem Entdecker die Felsenstein zone. Diese Zone kennzeichnet den Bereich, in dem Methoden zur Baumrekonstruktion einen systematischen Fehler aufweisen, wobei die Ausdehnung und Lage der Zone von der jeweiligen Methode abhängen. Abbildung 18c zeigt eine solche Felsensteinzone für das Maximum-Parsimonie-Prinzip. Wie kommt die dort dargestellte Zone zustande und welche Aussage macht sie? Dem Computer werden folgende Informationen vorgegeben (Ab bildung i8a): eine theoretische Phylogenie mit den vier Taxa 1 bis 4 und eine Kombination von zwei Kantenlängen (k1 und k2). Die innere Kante des Baumes sowie die Kanten zu den Sequenzen 2 und 4 sind dabei gleich lang (k1), ebenso die Kantenlängen der Sequenzen 1 und 3 (k2). Für die zwei Kantenlängen k1 und k2 wird ein k1-k2-Diagramm erstellt. Dann wird am Computer die Sequenzevolution simuliert, wobei jede Kombination der Kantenlängen (k1, k2) erlaubt ist. Um den zufäl ligen Fehler der Baumrekonstruktion klein zu halten, sind die simu lierten Sequenzen möglichst lang. Anschließend wird aus diesem Alignement der Maximum-Parsimonie-Baum berechnet (zum Bei spiel Abbildung 18b) und mit der theoretischen Phylogenie (Abbil dungi8a) verglichen.Sind die Bäume verschieden,wird im Diagramm für das zugehörige k1-k2-Wertepaar ein grüner Punkt eingetragen. Stimmen sie überein, wird kein Punkt eingetragen. Die Simulationen werden Tausende Male wiederholt. Die Menge aller grünen Punkte im k1-k2-Diagramm ergibt die Felsensteinzone. 50
Experimentelle und theoretische Phylogenien
Abb.18: Die Felsensteinzone a) Eine theoretische Phylogenie mit vier Taxa (1-4) und zwei unterschiedlichen Kantenlängen (k1 und k2) b) Rekonstruierter Maximum-Parsimonie-Baum, basierend auf einem simulierten Sequenzalignement. c) Der Parameterraum der Kantenlängen k1 und k2. Die grün schattierte Region ist die Felsensteinzone, in der ein falscher Baum rekonstruiert wird.
Diese Zone kennzeichnet die Region im theoretischen Raum aller Kantenlängen eines Baumes, in der Maximum-Parsimonie einen sys tematischen Fehler aufweist. Ist k2 deutlich größer als k1, so wird der in Abbildung i8b dargestellte Baum rekonstruiert werden. Das heißt, Sequenzen mit hoher Substitutionsrate werden zu einem Cluster zusammengefasst. Dieses Phänomen wird als »Anziehungskraft zwischen langen Kanten« (long-branch-attraction) bezeichnet. Felsensteinzonen, also systematische Fehler, gibt es bei jeder Methode zur Baumrekonstruktion. Für distanzbasierte Rekonstruk 51
Molekulare Phylogenie tionsverfahren ist bekannt, dass sie bei mangelnder Korrektur für multiple Substitutionen fehlerhaft werden. Es bleibt eine spannende Frage der molekularen Evolutionstheorie, die Felsensteinzone auch für andere Methoden zu charakterisieren. Auch in biologischen Daten gibt es aufgrund der »Anziehungskraft zwischen langen Kanten« Hinweise auf falsch rekonstruierte Bäu me. Ein gut untersuchtes Beispiel ist der Stammbaum der Säugetiere (Sau), Vögel (Vö), Krokodile (Kr) und Eidechsen (Ei). Morphologische Befunde liefern eindeutige Hinweise, dass Vögel und Krokodile eine monophyletische Gruppe bilden, die Archosaurier (grün hinterlegt in Tabelle 3) hingegen werden im Maximum-Parsimonie-Baum der 18S rRNA-Sequenzen Vögel mit den Säugetieren in eine Schwestergrup pe eingeteilt. In Tabelle 3 sind in der linken Spalte und der obersten Zeile die drei möglichen Phylogenien für die vier Arten vorgegeben, wobei die Kantenlängen kt und k2 in allen Bäumen gleich bleiben. Die klassi sche Phylogenie ((Vö,Kr) (Säu,Ei)) ist grün unterlegt. Für jeden der drei theoretisch möglichen Bäume (linke Spalte) werden Tausende von Sequenzalignements simuliert und mit der Maximum-Parsimo nie-Methode die Baumtopologie rekonstruiert (oberste Zeile). In den fett markierten Kästchen stimmen die theoretische und rekonstru ierte Topologie überein. Die erste vorgegebene (theoretische) Topologie ((Kr,Ei) (Vö,Säu)) wird zu 100% von den simulierten Daten rekonstruiert, daher wer den die anderen zwei Topologien ((Vö,Ei) (Säu,Kr)) und ((Vö,Kr) (Säu, Ei)) niemals gefunden. Die zweite vorgegebene Topologie wird mit Maximum-Parsimonie nur in 15% der Fälle richtig rekonstruiert, während in 80% der Fälle der Baum rekonstruiert wird, bei dem die zwei langen Kanten (Vö und Säu) zusammenlaufen. Die dritte vorge gebene Topologie (die klassische Phylogenie) wird sogar nur in 7,5 von hundert Fällen gefunden, die (Vö,Säu)-Topologie macht 85% aller Fälle aus. 52
Experimentelle und theoretische Phylogenien
Abb.19: Gen-Bäume in Spezies-Bäumen. Die Entwicklung eines Gen-Baums (grün) findet innerhalb eines Spezies-Baums (schwarz) statt.
Unabhängig von der vorgegebenen (theoretischen) Phylogenie re konstruiert Maximum-Parsimonie mit hoher Wahrscheinlichkeit den Baum ((Krokodile, Eidechsen) (Vögel, Säugetiere)). Eine mögliche Er klärung für diese Diskrepanz liefert die Felsensteinzone. Der Maxi mum-Parsimonie-Baum, basierend auf 18S rRNA-Sequenzen, hat zwei lange Kanten (Tabelle 3). Eine Kante führt zu den Vögeln, die zweite zu den Säugetieren. Krokodile und Eidechsen befinden sich an kurzen Kanten und sind nur durch eine kurze, innere Kante von 53
Molekulare Phylogenie
Tabelle 3: Drei mögliche Stammbäume für Vögel (Vö), Säugetiere (Säu), Eidechsen (Ei) und Krokodile (Kr). Die linke Spalte zeigt die vorgegebenen, theoretischen Phylogenien. Die oberste Zeile zeigt die mit Maximum-Parsimonie rekonstruierten Topologien, basierend auf simulierten Sequenzalignements. Die Prozentzahlen geben an, wie oft die vor gegebene Baumtopologie im simulierten Alignement gefunden wurde. Grün unterlegt ist die klassische Phylogenie. Die Kantenlängen sind proportional zur Zahl der Substitutionen und basieren auf 18S rRNA-Sequenzen.
Säugetieren und Vögeln getrennt (siehe Abbildung 18). So sehen typischerweise Bäume aus, deren Topologie durch long-branch attraction geprägt wurde. Mit Maximum-Parsimonie-Methoden rutscht die Baumrekonstruktion in die Felsensteinzone, das heißt die langen Kanten werden als Cluster erkannt, sie ziehen sich an. Die ver wandtschaftlichen Beziehungen zwischen den vier Gruppen lassen sich daher anhand der vorliegenden Daten nicht klären. 54
Der Bootstrap Welche Auswege gibt es aus der Felsensteinzone? Zum einen ist es hilfreich, weitere Arten in die Analyse aufzunehmen, um die langen Kanten aufzubrechen. Zum anderen sollten zusätzliche Bereiche des Genoms sequenziert werden. Dieses Beispiel zeigt, dass Einzelergeb nisse durchaus fehlerhaft sein können und nicht jede am Computer berechnete Phylogenie zwangsläufig die »wahre« Evolution wider spiegelt. Daher ist es auch bei molekularen Merkmalen wichtig, mehrere Gene oder Sequenzen zu analysieren und die Ergebnisse mit den Befunden aus der Morphologie oder Verhaltensbiologie ab zugleichen.
Der Bootstrap Die phylogenetische Analyse des Datensatzes aus Abbildung 14 hat gezeigt, dass die Stichprobengröße, also die Länge eines Sequenz alignements, wesentlich für die verlässliche Rekonstruktion eines Gen-Baumes ist. Die Frage stellt sich, wie gut der rekonstruierte Baum die Verwandtschaftsverhältnisse wiedergibt. Wenn die Se quenzen lang genug sind, sollte im Prinzip der wahre Baum rekon struiert werden. Was kann getan werden, um den stochastischen Fehler aufgrund der Stichprobengröße in einer Phylogenie abzu schätzen? Eine Möglichkeit besteht darin, mehrere Stichproben aus der Gruppe, an deren Phylogenie man interessiert ist, zu analysieren und die resultierenden Gen-Bäume zu vergleichen. Die Variation in der Kollektion der Bäume liefert dann Informationen darüber, wie stabil beispielsweise eine bestimmte phylogenetische Gruppierung (Cluster) ist. Da die Bearbeitung vieler Stichproben in der Regel sehr teuer und zeitaufwändig ist, werden heute so genannte BootstrapVerfahren aus der Statistik angewendet, um den Stichprobenfehler abzuschätzen. Beim Bootstrap wird eine zufällige Stichprobe durch wiederholtes Ziehen mit Zurücklegen aus den bereits erhobenen Daten generiert. Dabei entstehen zahlreiche künstliche Stichproben, 55
Molekulare Phylogenie die Pseudoreplikate genannt werden. In der phylogenetischen Ana lyse werden aus einem multiplen Sequenzalignement (zum Beispiel Abbildung 7 und Abbildung 14) zufällig Spalten ausgewählt, die beim nachfolgenden Ziehen einer weiteren Spalte erneut zur Verfügung stehen. Diese Prozedur wird so lange wiederholt, bis die ursprüngli che Länge des Alignements erreicht ist. Für dieses Pseudoreplikat wird dann ein Gen-Baum ermittelt. Typischerweise werden auf diese Weise 1000 bis 10000 Gen-Bäume bestimmt. Kommt ein Cluster in allen Gen-Bäumen vor, so sagt man, die Gruppierung hat einen Bootstrap-Wert von 100%; das heißt der Stichprobenfehler ist anschei nend so klein, dass die rekonstruierte Gruppierung die wahre Phylo genie der entsprechenden Taxa widerspiegelt. Cluster, die einen geringeren Bootstrap-Wert haben, typischerweise < 90%, werden durch die Daten nicht sehr stark gestützt und bedürfen einer weite ren Analyse durch zusätzliche Sequenzen. Liegt der Bootstrap-Wert eines Clusters unter 50%, so kann es zu widersprüchlichen Ver wandtschaftsbeziehungen im Baum kommen. Solche Gruppierun gen sind dann in einem Gen-Baum mit äußerster Vorsicht zu inter pretieren.
5 GEN-BÄUME IN DER PHYLOGENIE Gen-Bäume in Spezies-Bäumen In einem biologischen Stammbaum soll die Aufspaltung von Arten (lateinisch spezies) nachgezeichnet werden. Die Artbildung wird in der Biologie als Phylogenese bezeichnet. »Phylogenese ist die wie derholte Aufspaltung von Populationen durch irreversible geneti sche Divergenz und der daraus resultierende Prozess der Entstehung von Organismengruppen unterschiedlichen Verwandtschaftsgra des.« Stammbäume werden daher auch Spezies-Bäume genannt. Ein Spezies-Baum zeigt somit die zeitliche Abfolge der Aufspaltungs
Gen-Bäume in Spezies-Bäumen
Abb.20: Widersprüchliche Säugetier-Phylogenien: a) klassischer Spezies-Baum, b) Gen-Baum basierend auf komplett sequenzierten Mitochondriengenomen.
ereignisse zwischen verschiedenen Populationen oder Arten. Im Ge gensatz dazu zeichnet ein Gen-Baum nur die Historie eines Gens oder eines DNA-Abschnitts nach. Dabei wird in der Fortpflanzungs gemeinschaft die Weitergabe des Sequenzabschnitts von einem Individuum auf das nächste rekonstruiert. Der Gen-Baum entwickelt sich gewissermaßen im Spezies-Baum (Abbildung 19) und sollte im Idealfall die Abfolge der Aufspaltungs ereignisse für verschiedene Arten wiedergeben. In den letzten Jahrzehnten wurden zahlreiche Gen-Bäume erstellt. Die Analyse einzelner Gen-Bäume führte mitunter zu sehr überra schenden Ergebnissen, die nicht immer mit den klassischen SpeziesBäumen übereinstimmen. Ein prominentes Beispiel sind die ver wandtschaftlichen Beziehungen zwischen den Säugetieren. Dazu zählen die Kloakentiere (Schnabeltier und Schnabeligel), die Beutel tiere und die höheren Säugetiere mit echter Plazenta (Eutheria). Die klassische Phylogenie nimmt an, dass die Beuteltiere die nächsten Verwandten der höheren Säugetiere sind; die Kloakentiere hätten sich demzufolge vorher abgespaltet (Abbildung 20a). Anhand der 57
Gen-Bäume in der Phylogenie vollständig sequenzierten, mitochondrialen DNA wurde ein alterna tiver Gen-Baum vorgeschlagen (Abbildung 20b). Der Gen-Baum zeigt, dass Beuteltiere und Kloakentiere eine Schwestergruppe bilden. Ent gegen der klassischen Lehre wären demzufolge die Beuteltiere nicht näher mit den höheren Säugetieren verwandt. Noch mehr Verwirrung erzeugten die unterschiedlichen Möglich keiten für einen Gen-Baum von Mensch, Schimpanse und Gorilla (Abbildung 21). Die Analyse von 45 unabhängigen Genen ergab drei Gen-Bäume und damit drei Möglichkeiten für Schwestergruppen. Im Ergebnis von 27 Genanalysen (60%) gehören Mensch und Schim panse zweifelsfrei einer Schwestergruppe an (Abbildung 21a). Die alternativen Schwestergruppierungen Schimpanse und Gorilla re spektive Mensch und Gorilla werden nur von jeweils neun Gen-Bäu men (20%) unterstützt, die aber ebenfalls hohe Bootstrap-Werte erhalten. Wie lassen sich diese unterschiedlichen Ergebnisse für die drei Gen-Bäume von Mensch, Schimpanse und Gorilla erklären?
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen Abbildung 22 zeigt in grüner Farbe die drei möglichen Gen-Bäume, die in dem Spezies-Baum ((Mensch, Schimpanse) Gorilla) vorkom men können. Für jeden Drei-Spezies-Baum sind zwei Aufspaltungs oder Artbildungsprozesse notwendig. In dem hier vorgestellten Bei spiel gehen Paläontologen davon aus, dass sich der Gorilla in einem 1. Artbildungsprozess vor ca. 7-8 Millionen Jahren von der gemein samen Stammart (Mensch-Schimpanse-Gorilla) abspaltete. Der 2. Aufspaltungsprozess fand vor ca. 5-6 Millionen Jahren statt. Das bedeutet, dass die Zeit zwischen dem ersten und zweiten Aufspal tungsereignis nur sehr kurz war und die gemeinsame Stammart von Mensch und Schimpanse nur schätzungsweise 1-3 Millionen Jahre existierte. 58
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen
Abb.2i: Die drei Gen-Bäume von Mensch, Schimpanse und Gorilla.
Die Zahlen geben an, wie oft das jeweilige Verzweigungsmuster unterstützt wird.
Werden nun die drei Gen-Bäume betrachtet, ergibt sich folgendes Bild: Im ersten Szenario (Abbildung 22a) verschmelzen die Sequen zen von Mensch und Schimpanse bei einer rückwärtigen Betrach tung in die Vergangenheit zeitgleich mit dem 2. Aufspaltungsereig nis. Die gemeinsame Linie von Mensch und Schimpanse existierte in ihrer Stammart M-S so lange, bis sie mit der Gorilla-Linie zum Zeit punkt des i. Aufspaltungsereignisses verschmolz. Zum Zeitpunkt U existierten sowohl im Spezies-Baum als auch im Gen-Baum nur zwei Arten beziehungsweise Linien, die eine in der Stammart von Mensch und Schimpanse (M-S) und die zweite im Gorilla. In dieser Situation stimmen die Topologien von Gen-Baum und Spezies-Baum überein. Die Stammart von Mensch und Schimpanse (M-S) existierte aber nur kurze Zeit. Es kann vorkommen, dass die Sequenzen beider Arten nicht verschmelzen. Diese Möglichkeit ist in den Bildern b und c dar gestellt. Zum Zeitpunkt t1 existierten formal bereits zwei Spezies, 59
Gen-Bäume in der Phylogenie nämlich die Stammart Mensch und Schimpanse (M-S) und der Gorilla. Im Gen-Baum sind aber noch alle drei Linien vorhanden. In einer solchen Situation entscheidet allein der Zufall, welches SequenzPaar zuerst verschmilzt und somit die Schwestergruppen definiert. Es können zuerst die Linien von Schimpanse und Gorilla verschmel zen, aber ebenso können die Linien von Mensch und Gorilla zuerst verschmelzen. In beiden Fällen weicht der Gen-Baum vom SpeziesBaum ab. Der Zeitpunkt der Verschmelzung von Linien, das Coalescent-Ereig nis, ist für jedes Gen unterschiedlich und kann weit in der Vergan genheit liegen. Die Stammart von Mensch und Schimpanse (M-S) kann eine oder zwei Linien enthalten, während in der Stammart von Mensch, Schimpanse und Gorilla (M-S-G) entweder eine, zwei oder noch alle drei Linien vorhanden sein können. In der Fachsprache wird hierfür der Begriff lineage sorting (Sortie rung der Linien) verwendet. Ist die Anzahl der Linien zu jedem Zeit punkt identisch mit der Anzahl der Arten (wie in Abbildung 22a), gibt es keine Diskrepanz zwischen dem Gen-Baum und dem SpeziesBaum. Man sagt, dass die Linien »aussortiert« sind. Ist im Gegensatz dazu, wie in Abbildung 22b und c, die Anzahl der Linien an einem bestimmten Zeitpunkt größer als die Anzahl an Arten, ist die Sortie rung der Linien noch nicht abgeschlossen. Man sagt, dass das »Line age Sorting« unvollständig ist. Zum Zeitpunkt t, existieren jeweils drei Linien, aber nur zwei Arten, nämlich die Stammart MenschSchimpanse (M-S) und der Gorilla. Abb.22: Der Spezies-Baum für Mensch, Schimpanse und Gorilla (schwarz) mit den drei möglichen Gen-Bäumen (grün). Gezeigt sind das Alter der zwei Aufspal tungsereignisse (gestrichelte Linie) in Millionen Jahren, die gemeinsame Stamm art (M-S) von Mensch und Schimpanse zum Zeitpunkt t1 sowie die gemeinsame Stammart (M-S-G) von Mensch, Schimpanse und Gorilla. a) Der Gen-Baum von Mensch (M), Schimpanse (S) und Gorilla (G) ist identisch zum Spezies-Baum, b) und c) Die Gen-Bäume sind verschieden vom Spezies-Baum und kommen mit gleicher Wahrscheinlichkeit vor (siehe Abb. 21).
60
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen
61
Gen-Bäume in der Phylogenie
Abb.23: Einfluss einer Gen-Duplikation auf den Gen-Baum von Mensch und Schimpanse. Die Verdopplung des Gens o erzeugt zwei Kopien, das Gen a und das Gen b. Bei späterer Speziation enthalten Mensch und Schimpanse je ein Set der Gene a und b. Der Spezies-Baum von Mensch und Schimpanse enthält zwei GenBäume, einen vom Gen a (grau) und einen zweiten vom Gen b (grün).
Dieses kleine Beispiel mit drei Arten zeigt bereits, dass es zu einem Spezies-Baum mehr als einen Gen-Baum geben kann. Anders ausge drückt bedeutet dies, dass es in der Molekularen Evolution keine »Ein-Spezies-Baum-Ein-Gen-Baum«-Beziehung gibt. Widersprüche sind im Besonderen dann zu erwarten, wenn die Aufspaltungsereig nisse zwischen zwei oder mehreren Arten in relativ kurzer Zeit ablie fen. Prinzipiell gilt, dass bei der Rekonstruktion von Gen-Bäumen mehrere unabhängige Gene oder DNA-Sequenzen analysiert wer den sollten. Dies ist dann besonders wichtig, wenn es Unstimmig keiten zwischen der klassischen Phylogenie und den molekularen Befunden gibt. 62
Auswirkungen von Gen-Duplikationen auf Gen-Bäumen
Auswirkungen von Gen-Duplikationen auf Gen-Bäume Ist im Verlauf der Evolution ein Gen verdoppelt (dupliziert) worden, kann dies ebenfalls zu einer Diskrepanz zwischen Gen-Baum und Spezies-Baum führen. Das grundsätzliche Phänomen wird in Abbil dung 23 veranschaulicht, in der wieder das Beispiel Mensch-Schim panse herangezogen wird. In der gemeinsamen Stammart von Mensch und Schimpanse (M-S) wird das vorhandene Gen 0 dupliziert, es entstehen zwei Kopien (Gen a und Gen b). Diese können im Verlaufe der Evolution in ganz unterschiedlichen Regionen des Genoms fixiert werden und sich zusätzlich in ihrer Funktion deutlich voneinander unterscheiden. Spaltet sich die Stammart M-S in Mensch und Schimpanse, so erhält jede Art jeweils ein Set der verdoppelten Gene. Im Menschen nen nen wir sie aM und bM, im Schimpansen aS und bS. In dem resultie renden Spezies-Baum von Mensch und Schimpanse gibt es zwei Gen-Bäume, einen für das Gen a (grau) und einen zweiten für das Gen b (grün). Zur Unterscheidung der relativen Beziehungen zwischen den ori ginalen und kopierten Genen werden in der molekularen Evolutions biologie die Fachausdrücke homolog, ortholog und paralog verwen det. Homologe Sequenzen ähneln sich in ihrem Aufbau und ihrer Struktur (griechisch homos = gleichartig, entsprechend). Obwohl seit der Duplikation des Vorfahr-Gens 0 viel Zeit vergangen ist, lassen sich noch Gemeinsamkeiten zwischen den vier Genen UM, as, bM und Verkennen. Orthologe Sequenzen haben den gleichen Ursprung (griechisch orthos = richtig). Die Gene aM und aS gehen auf das gemeinsame Vor fahren-Gen a zurück, die Gene bM und bS auf das Vorfahren-Gen b. Dementsprechend sind die Gen-Pärchen (aM, aS) und (bM, bS) ortho 63
Gen-Bäume in der Phylogenie log zueinander. Wird der Gen-Baum anhand orthologer Sequenzen re konstruiert, ist er in diesem Beispiel mit dem Spezies-Baum identisch. Paraloge Sequenzen haben keinen gemeinsamen Ursprung (grie chisch para = abweichend). In Abbildung 23 gilt dies für die Kombi nation der Gene aM und bS sowie für die der Gene bM und aS . Wenn die untersuchten Gene bekannt sind, mag es trivial erscheinen, para loge Sequenzen zu erkennen. In der Forschung ist die Funktion der untersuchten Gene oft nicht bekannt, und dann können die Ähnlich keiten ihrer Sequenzen dazu führen, dass fälschlicherweise ein gemeinsamer Ursprung angenommen wird. Bleibt die Paralogie unerkannt, kann der rekonstruierte Gen-Baum vom Spezies-Baum abweichen. Ein Ausweg besteht darin, nur solche Gene zu analysieren, die in einfacher Kopie vorliegen (single-copy Gene). Soll zum Beispiel unter sucht werden, ob ein menschliches Gen in einfacher oder mehrfa cher Kopie vorliegt, kann in der Datenbank des kompletten mensch lichen Genoms nach homologen Sequenzen gesucht werden. Findet sich im gesamten Genom keine ähnliche Sequenz, so liegt das Gen wahrscheinlich in einfacher Kopie vor. Die Situation verkompliziert sich, wenn Gene nach ihrer Duplikation wieder verloren gehen (Dele tionen). Es besteht dann kaum eine Chance, dass die Orthologie be ziehungsweise Paralogie von Sequenzen erkannt wird.
Gen-Duplikationen als Motor der physiologischen Feinabstimmung Das Wissen um Gen-Duplikationen ist zum einen wichtig für die kor rekte Rekonstruktion von Stammbäumen. Andererseits offenbaren Gen-Duplikationen faszinierende Einsichten in die Dynamik der molekularen Evolution. Mit der Duplikation eines Gens gehen oft Änderungen der Funktion sowie vielfache Spezialisierungen in einer oder sogar in beiden Kopien einher. 64
Gen-Duplikationen als Motor der physiologischen Feinabstimmung In der Proteinfamilie der Globin-Gene ist dieses Phänomen sehr gut studiert (Abbildung 24).GIobine sind für den Sauerstoff-Haushalt im Organismus verantwortlich. Bereits vor 600-800 Millionen Jahren wurde das »Ur-Globin-Gen« dupliziert. Die verdoppelten Gene diffe renzierten sich zum Myoglobin und zur Familie der »Ur«-Hämoglo bine. Das Myoglobin-Gen befindet sich beim Menschen auf dem Chromosom 22. Es reguliert die Speicherung des Sauerstoffs in den Muskeln. Vor 450-500 Millionen Jahren bildeten sich durch Duplikation des »Ur«-Hämoglobins die Familie der D-Globine und der E-Globine. Das Hämoglobin ist verantwortlich für den Transport des Sauerstoffs im Blut. Die Familie der D-Globine, die beim Menschen auf dem Chromo som 16 liegt, besteht aus den vier funktionellen Genen -, D1, D2 und T1 sowie drei Pseudogenen (