This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Biowissenschaftlich recherchieren Über den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik
Nicola Gaedeke
Birkhäuser Basel · Boston · Berlin
Autorin: Nicola Gaedeke - BioTools.info Neuwerker Weg 4 D-14167 Berlin
Bibliografische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar.
ISBN 978-3-7643-8525-5 Birkhäuser Verlag AG, Basel – Boston – Berlin Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung, der Wiedergabe auf photomechanischem oder ähnlichem Weg und der Speicherung in Datenverarbeitungsanlagen bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbedingungen des Urheberrechts.
Vorwort Dieses Buch ist ein Leitfaden für die Informationssuche im Bereich der Lebenswissenschaften, mit einem Schwerpunkt auf molekularbiologischen Daten. Es basiert auf einer erprobten Fortbildung zur „Fachkraft für Bioinformatik“, die vom Gläsernen Labor in Berlin-Buch mehrmals im Jahr angeboten wird (http://www.glaeserneslabor.de/). Der Fokus in diesem Buch liegt auf den Datenbanken und Ressourcen des National Center for Biotechnology Information (NCBI). Das hat zwei Gründe. Zum einen sind die Webseiten des NCBI stark frequentiert. So hatte die Homepage im Jahre 2002 allein über 28 Mill. Anfragen von über 240.000 Besuchern täglich. Mit BLAST, dem Basic Local Alignment Search Tool, wurden täglich über 100.000 Sequenzähnlichkeitssuchen durchgeführt. Der zweite Grund ergibt sich aus meinen persönlichen Erfahrungen. In den Jahren 2000 – 2002 habe ich in enger Zusammenarbeit mit dem NCBI einen Kurs für „Bioinformatics Information Specialists“ entwickelt, der seitdem einmal im Jahr angeboten wird (http://www. ncbi.nlm.nih.gov/Class/NAWBIS/). Die meisten der Kursteilnehmer arbeiten in einer medizinischen Bibliothek einer US-Amerikanischen Universität und geben dort einen „User Support Service“ für bioinformatische Fragestellungen. Meine größten Erfahrungen liegen daher bei den Tools des NCBI. In derselben Zeit habe ich einen Bioinformatics Support Service an der Universität von Utah in „Salt Lake City“ angeboten, der sehr gut angenommen wurde. Und obwohl die Seiten des NCBI eine einfache Bedienung suggerieren, zeigten mir die Fragen der Anwender, dass viele Einstellungen, Möglichkeiten und Bedeutungen der Anwendungen nicht bekannt sind und relevante Informationen oft gar nicht gefunden werden. Ich habe in diesem Buch versucht, die Suchmöglichkeiten am NCBI zu erläutern, sowie die Einstiegsseiten für die weniger bekannten Ressourcen aufzuzeigen. Auch die Seiten des NCBI ändern sich. Oft kommen neue Ressourcen hinzu. Der Leser ist nach der Lektüre dieses Buches jedoch mit den Prinzipien der Suchoberflächen am NCBI vertraut und kann neue Ressourcen hoffentlich leichter einordnen. Im Allgemeinen gilt, dass sich aus jeder neuen Methode im Bereich der Lebenswissenschaften, die eine große Menge an Datensätzen produziert, immer neue Datenbanken ergeben werden, die recherchiert werden müssen. Die Datensätze werden komplexer werden, wie wir es z.B. schon aus der Genexpressionsanalyse kennen. Die Suchoberflächen sollen jedoch – so will es der Anwender – so einfach wie möglich sein. Wie könnten also die Recherchemöglichkeiten nach komplexen Daten aussehen und wie kann das xi
xii
Vorwort
Ergebnis so zuverlässig ausfallen wie bei einer Sequenzrecherche? Und wie könnte eine Informationssuche nach komplexen Zusammenhängen, wie es die Systembiologie erfordert, durchgeführt werden? Vielleicht sind diese Fragen nur eine technische Herausforderung (an die programmierenden Bioinformatiker), vielleicht bedarf es aber auch in Zukunft aufmerksamer Anwender, die das Ziel der Informationssuche nicht aus dem Auge verlieren und geeignete Suchstrategien entwickeln können. Dieses Buch richtet sich an alle, die zu aufmerksamen Anwendern werden oder ihre Kenntnisse über Suchstrategien und Ressourcen in der Bioinformatik auffrischen und erweitern wollen. Ein sicherer Umgang mit dem Internet wird für die Übungen in diesem Buch vorausgesetzt. An dieser Stelle möchte ich mich bei allen bisherigen Kursteilnehmern bedanken, besonders aber bei Monika Jung und Sunita Singh, die maßgeblich zum Gelingen dieses Buches beigetragen haben. Ein ebenfalls großer Dank gilt Herrn Dr. Ulrich Scheller, dem Leiter des Gläsernen Labors in Berlin-Buch, der meine Idee für eine Fortbildung für Laborpersonal zur „Fachkraft für Bioinformatik“ aufgegriffen hat und die Voraussetzung für eine zertifizierte Weiterbildung (TÜV-Akademie) geschaffen hat. Das Glossar am Ende des Buches ist sehr ausführlich, da mir persönlich viele Glossare zu klein sind und gerade im Bereich der Bioinformatik viele Abkürzungen für IT-Begriffe, für molekulare Daten, aber auch für Institute wie Allgemeinwissen behandelt werden. Ich bemühe mich, die Weblinks zu Datenbanken und Ressourcen der Bioinformatik auf meiner Webseite (http://www.biotools.info) aktuell zu halten. Über Vorschläge des Lesers zur Vervollständigung und Aktualisierung dieser Seiten würde ich mich sehr freuen. Berlin, im Juli 2007
Nicola Gaedeke - BioTools.info -
1 Die Informationssuche im World Wide Web (WWW) Die Informationsflut ist heute größer als jemals zuvor. Die klassischen Informationsquellen werden durch das World Wide Web (WWW) abgelöst. Das Medium „WWW“ unterscheidet sich von den herkömmlichen Informationsquellen dadurch, dass sich der Anwender selbst aktiv auf die Informationssuche begibt. Die Herausforderung, der wir uns bei der Benutzung des WWW stellen müssen, ist daher, die Informationen zu filtern, um das für uns Wichtige und Richtige zu finden. Dieses Buch soll Ihnen helfen, diese Filter zu definieren. So kann die Informationssuche im WWW schon mit ein paar zusätzlichen Gedanken zur Suchstrategie effizienter werden. Oftmals ist eine Suche im WWW gar nicht der richtige Ansatz, da viele Informationen in Datenbanken hinterlegt sind und die Suche daher direkt in der Datenbank erfolgen sollte. Was früher nur in Bibliotheken oder bei Datenbankanbietern über eine Telnet-Verbindung möglich war, wie z. B. die Suche in Medline über Silverplatter, ist heute über eine Datenbankrecherche im Internet möglich. Da die Erstellung einer Suchstrategie für die Suche in einer Datenbank ebenso gilt wie für eine effiziente Suche im WWW, werden in diesem Buch zuerst die Grundlagen einer Suchanfrage vorgestellt.
Funktion des Internets Das Internet ist ein Zusammenschluss von individuellen regionalen Netzwerken. Über diese Netzwerke, die von Universitäten, Firmen oder Online-Diensten betrieben werden, können verschiedene Dienste aufgerufen werden, die sich durch unterschiedliche Funktionen am Bedarf des Anwenders orientieren. Die vier bekanntesten Dienste des Internets sind hier erwähnt: (1) Das World Wide Web (WWW) ist der am häufigsten genutzte Dienst im Internet. Die Anwendung des Internets ist hier durch eine grafische Aufbereitung für den Nutzer erleichtert. Die Dokumente/Webseiten stehen im HTML-Format zur Verfügung. 1
2
1. Die Informationssuche im WWW
a. HTML (Hypertext Markup Language) ist eine kodierte Sprache zur Darstellung von Webseiten über einen Internet-Browser. Weitere Kodierungssprachen oder zusätzliche Software können auf HTML-Seiten eingebunden werden, wie z.B. CGI (Common Gateway Interface für Animationen) und Java/ Java-Script (für PopUps). b. HTTP (Hypertext Transportation Protocol) ist das Protokoll zur Abfrage für HTML-Dokumente auf der Basis von ASCII Sequenzen. (2) FTP (File Transfer Protocol) dient dem Datenaustausch zwischen verschiedenen Rechnern. (3) E-Mail/Mailinglisten (4) Newsgroups Um eine Informationsübertragung im Internet zu gewährleisten, benötigen Sender und Empfänger eine einheitliche Sprache, ein so genanntes Protokoll. Die grundlegenden Protokolle des Internets sind TCP und IP. Sie werden meistens gemeinsam genannt, da sie sich ergänzen und somit eine Einheit bilden. 30% der verschickten Daten sind reine Protokolldaten. Ihre Funktionen sind folgende: • Das TCP (Transmission Control Protocol) teilt die Daten in ungefähr gleich große Blöcke auf und übergibt sie dem IP zur Übertragung. Zusätzlich überprüft TCP die Korrektheit der Übertragung über eine Prüfsumme, nachdem die Daten beim Empfänger wieder endgültig zusammengesetzt worden sind. • Das IP (Internet Protocol) ist dafür zuständig, dass die Daten über verschiedene Schaltstellen und Router gelenkt werden und trotzdem am gewünschten Ziel ankommen. Struktur eines HTML-Dokumentes In einem HTML-Dokument ist die Information, die auf der Webseite erscheinen soll, mit sogenannten „tags“ versehen. Jeder „tag“ muss geöffnet und wieder geschlossen werden. So bedeutet … , dass alle Informationen, die zwischen den „tags“ und kodiert sind, über das Internetprotokoll http lesbar sind. Dieses Dokument muss in dem Format *.html zur Verfügung stehen, um vom Web-Browser dargestellt werden zu können. Die Webseite besteht aus einem Kopf (head) und aus einem Körper (body). Der Kopf wird im Gegensatz zum Körper nicht auf der Webseite dargestellt. Weitere Kodierungen zur Gliederung des Inhaltes sind z.B. die Angabe des Titels ( … ), eines Zeilenumbruchs ( = break) oder „tags“ zur Darstellung von Tabellen (
), Listen (
= unordered list, = ordered list) und Paragrafen (
). Freie und käufliche HTML-Editoren helfen bei der Erstellung einer Webseite. Auch das MS-Office Programm WORD bietet die Option, ein Dokument in das HTMLFormat umzuwandeln und zu speichern („Datei“ – „Als Webseite speichern“). Ein einfacher Webeditor ist „Composer“ von Netscape. Das Programm kann von der Netscape-Menüleiste „Fenster“ aus gestartet werden. Anregungen zur Kodierung einer Webseite bietet ein Seitenquelltext, der für jede angezeigte Seite aufgerufen
1. Die Informationssuche im WWW
3
werden kann („Ansicht“ – „Seitenquelltext“). Weitere Tipps zur Herstellung von Internetseiten gibt es z.B. unter http://www.self-html.de.
Abbildung 1.1: Diese Webseite wurde in einem Texteditor-Programm geschrieben, als „Meine_kleine_Webseite. html“ gespeichert und im Internet-Browser Mozilla-Firefox aufgerufen.
Ein Internet-Browser (Web-Browser) bietet die grafische Oberfläche zur Darstellung von Webseiten. Unter Angabe des „Unique Resource Locator“ (URL) bzw. unter der Webadresse werden die Webseiten aufgerufen. Die drei am häufigsten verwendeten Web-Browser sind der Internet-Explorer (IE), Mozilla-Produkte wie Firefox oder SeaMonkey und Netscape. Zur effektiven Benutzung des Internets lohnt es sich, sich mit der Menüleiste seines bevorzugten Browsers intensiv vertraut zu machen. So sind viele Anwender mit der Verwaltung und Organisation von Lesezeichen noch vertraut, in der Verwaltung von Kennwörtern, Cookies und Mail-Einstellungen jedoch weniger geübt. Unter dem Menüpunkt „Hilfe“ kann der Anwender sowohl online als auch offline mehr Informationen zur Benutzung eines Web-Browsers aufrufen. Beispiele für freie Web-Browser sind ! Microsoft Internet Explorer 7 (http://www.microsoft.de/) ! Mozilla Produkte wie Firefox oder SeaMonkey (http://www.mozilla.org/products/) ! Netscape 7.1 http://www.netscape.de/
4
1. Die Informationssuche im WWW
Suchen und finden Eine Informationssuche, sei es im Internet oder in einer Datenbank, liefert fast immer Ergebnisse. Oft führt die Recherche sogar zu einer sehr hohen Anzahl von Treffern. Der Anwender erachtet jeden Treffer als „richtig“ und relevant und fängt an, sich von Treffer zu Treffer weiterzuhangeln, ohne auch nur die Möglichkeit einer fokussierten Suchanfrage in Erwägung zu ziehen. Die hier vorgestellten Strategien zur Informationssuche unterscheiden sich vom sogenannten „Browsen“ oder „Stöbern“ im Internet dadurch, dass es sich um eine zielgerichtete Informationssuche handelt. Das Internet zeichnet sich jedoch durch Besonderheiten aus, die einer starken Kontrolle der gefundenen Information sowie einer genauen Dokumentation über die Auffindungsparameter (Ort/Zeit) bedürfen. Diese Besonderheiten des Internets sind: (1) Fehlende Organisation – Niemand koordiniert oder kontrolliert, wer was wo und wie veröffentlicht. (2) Fehlende Strukturierung – Eine Veröffentlichung im Internet unterliegt keinerlei Standards. Es kann sich um ein Buch, eine Datenbank oder nur eine kurze Notiz handeln. Niemand muss Inhaltsangaben, Sachregister oder Stichwortkataloge erstellen. (3) Beliebigkeit – Nur auf Initiative von Einzelpersonen oder einer Institution kommen Informationen in das Netz. Es gibt keine Pflichtexemplar-Regelung. (4) Dynamik – Täglich kommen neue Einträge hinzu, andere verschwinden und wieder andere werden verlegt oder geändert. Suchhilfen im Internet Längst ist es unmöglich geworden, sich die für den Eigenbedarf nützlichen URLs (Internetadressen) zu merken, abzuspeichern oder aus gedruckter Literatur herauszusuchen. Zur Informationsbeschaffung bietet das Internet Suchhilfen an, die je nach Anbieter unterschiedliche Aspekte und Webinhalte berücksichtigen und eigene Suchtreffersortierungen vornehmen. (1) Internet-Suchmaschinen wie z.B. Google oder AltaVista sind roboterbasierte Programme (sog. Spider oder Robots). Sie suchen nach Webseiten, um sie zu indexieren. Dabei werden nahezu alle Wörter auf einer Webseite in den Suchindex eingetragen. Eine Suchmaschine zu benutzen, ist günstig, wenn man konkret weiß, was man sucht (bestimmte Firmen, Namen, Projekte, Programme etc.). (2) Internet – Thematische Verzeichnisse wie z.B. Web.de oder Yahoo!, sind intellektuell bearbeitete Register von Webseiten. Die Webseiten sind thematisch und oft hierarchisch sortiert. Thematische Verzeichnisse dienen als Einstieg in eine Internetsuche, wenn man noch keinen speziellen Suchbegriff hat, oder sich einen Überblick über die gesuchte Thematik verschaffen will. Ein Verzeichnis dient auch dem Einstieg ins „Deep Web“. Durch ein Verzeichnis kann man durchklicken (browsen).
1. Die Informationssuche im WWW
5
(3) Hybride Suchhilfen wie z.B. Web.de oder Yahoo! versuchen die Vorzüge der Suchmaschinen und der thematischen Verzeichnisse miteinander zu vereinen. (4) Metasuchmaschinen wie z.B. MetaGer oder MetaCrawler ermöglichen eine Internetrecherche unter gleichzeitiger Verwendung mehrerer Suchmaschinen. (5) Suchhilfen auf Servern mit Datenbankanbindungen wie z.B. Bestandskataloge von Bibliotheken (Web-OPACS) dienen dem Einstieg für eine Recherche in einer dieser Datenbanken oder in anderen Verzeichnissen. Vorbereitung der Suche Im Vordergrund der Informationssuche steht die Frage nach dem Suchort. Nicht immer ist eine Internetrecherche für die Lösung eines Problems geeignet. Eventuell befindet sich die gesuchte Information in einem (Fach-)Buch, in öffentlichen Registern oder Listen oder in einer Datenbank. Anhand folgender Fragen soll dargestellt werden, wie wichtig der richtige Suchort für das Rechercheergebnis ist. Wo z.B. könnte man suchen nach: • • • • • • • • •
Literatur zu einem medizinischen Thema? Literatur zu einer wissenschaftlichen Untersuchung? Nachrichten aus der Rubrik „Wissen“ aus einer Tageszeitung von vor zwei Wochen? Information zu einer Proteinsequenz? Firmeninformationen • Produktinformationen? • Wirtschaftsinformationen (Portfolio, Startkapital, Kapitalgeber etc.)? Patentinformationen? Anleitungen für wissenschaftliche Experimente? Elektronenmikroskopische Aufnahmen von Viren? Informationen über Medikamente und ihre Nebenwirkungen?
Wo ist die Information, die ich suche? Wenn der Anwender eine Informationssuche im Internet durchführen will, muss er überlegen, wo und wie die Information untergebracht sein könnte. ! Im Internet ! In einer Datenbank In einer Datenbank werden Informationen und Fakten gesammelt und zusammengestellt, die aus der Sicht des Datenbankherstellers zusammengehören, z.B. personenbezogene Daten in einer Personaldatenbank oder Sequenzdaten in einer Sequenzdatenbank. Es gibt hierarchische, relationale, multidimensionale und objektorientierte Datenbanken. Der Zugang zu einer Datenbank kann, muss aber nicht, über das Internet erfolgen. Für eine Datenbank gibt es Suchmasken, über die die Suchanfrage an die Datenbank gestellt werden muss.
6
1. Die Informationssuche im WWW
Suchmaschinen können bisher nur die Startseiten von Datenbanken finden, nicht aber eine Suche in der Datenbank selbst ersetzen. Neue Entwicklungen zeigen jedoch, dass auch Datenbankinhalte über eine Internet-Suchmaschine erschlossen werden können. Ein Beispiel hierfür ist die Suchmaschine von Google für wissenschaftliche Literatur aus kostenlos zugänglichen Literaturdatenbanken (GoogleScholar). t
Im Deep Web
Das Deep Web (auch Hidden Web oder Invisible Web) bezeichnet den Teil des Internets, der bei einer Internetrecherche nicht über normale Suchmaschinen auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen Webseiten „Visible Web“ (Sichtbares Web) oder „Surface Web“ (Oberflächenweb) genannt. Die Inhalte im Deep Web können grob unterteilt werden in „Inhalte, die nicht frei zugänglich sind“ und „Inhalte, die nicht von Suchmaschinen indexiert werden“. Die Größe des Deep Web kann nur geschätzt werden – es wird davon ausgegangen, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Zum Deep Web gehören die von Suchmaschinen absichtlich vernachlässigten Daten, Webseiten, die indexiert werden könnten, aber auf Grund von Zugangsbeschränkungen des Webmasters nicht indexiert werden (z.B. Seiten des Intranets), Webseiten, die indexiert werden könnten, die jedoch nur nach Anerkennung einer Nutzungsbedingung zugänglich sind (kostenlos oder kostenpflichtig, z.B. webbasierte Fachdatenbanken), und ganz und gar unsichtbare Webseiten wie z.B. dynamisch erstellte Webseiten, Seiten mit Dateiformaten, die nicht erfasst werden können (z.B. Flash), komprimierte Daten, Webseiten mit einer Benutzernavigation, die Grafiken oder Scripte benutzen oder Inhalte auf einem FTP-Server. Recall vs. Precision Zur Vorbereitung der Suchanfrage stehen neben den Überlegungen zum Suchort auch Überlegungen zur Suchgenauigkeit an: Soll die Recherche alles zum Thema hervorbringen (Vollständigkeit) oder die am meisten relevanten Dokumente (Genauigkeit; s. Abb. 1.2)? Ermittlung und Sammlung von Wortmaterial zum Problem Die Schwierigkeit bei der Suche im Internet ist das Fehlen eines kontrollierten Vokabulars. Auch wenn Webseiten zum selben Thema angeboten werden, ist nicht gewährleistet, dass die Webseitenanbieter dieselben Wörter zur Beschreibung einer Problematik verwendet haben. Um eine Suchanfrage so genau wie möglich zu stellen, kann der Anwender mehrere Suchworte zur Thematik logisch miteinander verknüpfen. Hierdurch kann eine Suche sowohl erweitert als auch eingegrenzt werden.
7
1. Die Informationssuche im WWW
c (relevantes)
a
b (recherchiertes)
d (gesamte Info) Abbildung 1.2: Recall vs. Precision. Das cab-d Modell veranschaulicht den Zusammenhang zwischen der Wiederauffindungsrate und der Vollständigkeitsrate (Recall) sowie zwischen der Trefferquote und der Relevanzquote (Precision). In der Menge der gesamten Informationen (d) sollten alle relevanten Einträge gefunden werden. Die Suchanfrage muss so formuliert werden, dass alles Recherchierte auch das Gesuchte (a) darstellt. In der Grafik wären dann die Schnittmengen c und b deckungsgleich.
Formulierung einer Suchanfrage für Informationen zur Bluterkrankheit (Hämophilie) in Königsfamilien. (1) Wortsammlung mit Hilfe von Thesauri und Wörterbüchern (alternative Namen, Synonyme etc.) und Gliederung der Thematik (2) Logische Verknüpfung der Suchworte zu einer Suchwortkette mit Hilfe von Boole’schen Operatoren (AND, OR, NOT; s. u.) Lösungsansatz: Es können zwei Themenkomplexe erarbeitet werden. a) Hämophilie, Bluterkrankheit, Bluter, Haemophilia b) Königsfamilie, Adel, Adelsfamilie, König, Kaiser Die Themen müssen in Klammern organisiert und logisch miteinander verknüpft werden. Folgende Suchanfrage kann jetzt formuliert werden: (Hämophilie OR Bluterkrankheit OR Bluter OR Haemophilia) AND (Königsfamilie OR Adel OR Adelsfamilie OR König OR Kaiser)
Boole’sche Operatoren AND, OR oder NOT Boole’sche Operatoren (genannt nach George Boole; engl. Mathematiker um 1850) dienen der logischen Verknüpfung von Suchbegriffen. Die Operatoren werden immer in Großbuchstaben geschrieben. In vielen Suchmaschinen reicht das Einfügen der algebraischen Zeichen „+“ für „AND“ und „–“ für „NOT“. Das „OR“ wird von einer Suchmaschine entweder in Deutsch („ODER“) oder in Englisch („OR“) akzeptiert (siehe Hilfsdokumentation der Suchmaschinen). Ein
8
1. Die Informationssuche im WWW
weiterer Operator ist „NEAR“ für alle Wörter, die in unmittelbarer Nachbarschaft im Text vorhanden sind. Im Folgenden sind die gebräuchlichsten Boole’schen Operatoren erläutert. AND (+)
OR (ODER)
NOT (–)
Findet Dokumente mit allen angegebenen Wörtern oder Phrasen. Beispiel: +Hämophilie +Königsfamilie findet Dokumente, die sowohl das Wort Hämophilie als auch Königsfamilie enthalten. Findet Dokumente, die mindestens eines der gesuchten Wörter oder Phrasen enthalten. Beispiel: Hämophilie ODER Königsfamilie findet Dokumente, die entweder das Wort Hämophilie oder Königsfamilie enthalten. Die gefundenen Dokumente können auch beide Begriffe enthalten, müssen es aber nicht. Schließt Dokumente aus, die das angegebene Wort oder die Phrase enthalten. Beispiel: Hämophilie –Königsfamilie findet alle Dokumente, die das Wort Hämophilie enthalten, nicht aber den Begriff Königsfamilie.
Die Internetrecherche Suchmaschinen unterscheiden sich nicht nur, wie oben erwähnt, in ihren indexierten Inhalten, sondern auch in der Interpretation der Suchanfrage und der Beurteilung der Treffer. Bei der Benutzung einer Suchmaschine ist es daher wichtig zu wissen, wie die Suchanfrage von der Maschine übersetzt wird, um die gesuchten Informationen zu finden. So wurden in den Anfangszeiten von AltaVista bei einer Suchanfrage mit zwei oder mehr Suchwörtern diese Suchwörter mit ODER verknüpft. Hierdurch wurden bei einer Suche mit AltaVista sehr viel mehr Treffer erzielt, als z.B. mit Google. Erst später wurde den Entwicklern der Suchmaschine bewusst, dass der Anwender bei einer Eingabe von mehreren Wörtern ein AND in die Suchanfrage impliziert. Die Suchmaschine hat sich durch die Änderung der Suchinterpretation zu AND dem allgemeinen Verhalten eines Anwenders angepasst. Der Druck der Anwender auf die Suchmaschinen führt dazu, dass sich die Suchfunktionen immer weiter aneinander angleichen. Viele Suchmaschinen bieten sowohl eine einfache als auch eine erweiterte Suchoberfläche an; oft bleibt es dem Nutzer jedoch verborgen, wie die Suchanfrage an das System gestellt wurde. Hier sollen ein paar Tipps und Beispiele einen Beitrag zu den Vorüberlegungen einer Internetsuche leisten. Die einfache Suchoberfläche (Simple Search/Anfänger-Suche) • Großschreibung/Kleinschreibung: Was wird gesucht, wenn das Suchwort Großbuchstaben enthält bzw. nur in Kleinbuchstaben geschrieben ist? • Umlaute: Wie geht die Suchmaschine mit den deutschen Umlauten um? • Trunkierung: Kennt die Suchmaschine eine Verkürzung des Wortstamms? Wenn ja, welches Zeichen muss dafür benutzt werden?
1. Die Informationssuche im WWW
9
• Singular/Plural: Wird von der Suchmaschine automatisch nach dem Plural gesucht, wenn nur der Singular angegeben ist? (Im Zweifelsfall beide Formen, z.B. „Elefant“ und „Elefanten“ benutzen) • Stoppwörter: Welche Wörter werden von der Suchmaschine ignoriert (oft werden die Artikel, Präpositionen, „http“ und ähnliche Wörter übergangen)? Über das „+“-Zeichen können diese Wörter oft in die Suche mit einbezogen werden. • Suche nach Wortgruppen: Bestimmte Zeichen dienen als Verbindung von Wortgruppen. Hierzu gehören Bindestriche, Schrägstriche, Anführungszeichen, Gleichheitszeichen und das Apostroph, z.B. Der-alte-Mann-und-das-Meer. • Stichwörter: Sollten sorgfältig gewählt werden, möglichst präzise Angaben machen, z.B. „Dackel“ anstelle von „Hund“. Erweiterte Suchoberflächen (Advanced (extended) Search / Experten-Suche) Bei den erweiterten Suchoberflächen werden die Suchwörter logisch miteinander verknüpft, ohne dass eine komplexe Suchanfrage in die Suchmaske eingegeben werden muss. Die Suchmaschine wird die Suchanfrage unter Anwendung von Boole’schen Operatoren in eine logisch verknüpfte Suchwortkette übersetzen. In diesen Oberflächen können oft weitere Eingrenzungen z.B. zum Aktualisierungszeitpunkt der Webseite vorgenommen werden. Eine komplexe Suchanfrage mit einer Suchwortkette, wie sie im Lösungsansatz am Beispiel der Recherche zu Hämophilie in Königsfamilien in diesem Kapitel dargestellt ist, ist oft nicht in den erweiterten Suchoberflächen möglich. Diese Suchanfrage muss in das Suchfeld, einschließlich der gesetzten Klammern, eingegeben werden.
Die Trefferanzeige Suchmaschinen sortieren die Treffer nach unterschiedlichen Gesichtspunkten. Kriterien für die Relevanzberechnung der Treffer sind u.a.: • die Anzahl der gefundenen Suchwörter auf der Webseite • die Position der Wörter auf der Webseite • die Anzahl der Suchwörter bezogen auf die Länge der Webseite • nur die Länge der Webseite • die Häufigkeit des Abrufens von einzelnen Webseiten • die Position der Datei im Verzeichnisbaum des Servers • die Anzahl der Links, die auf eine Seite gesetzt wurden (z.B. bei Google) Der zuerst aufgeführte Treffer einer Suchmaschine ist demnach nicht immer der beste Treffer für den Benutzer, auch wenn er seine Suchanfrage korrekt und vollständig gestellt hat. Für die richtige Interpretation eines Suchergebnisses ist es demnach sehr wichtig zu wissen, wie die jeweils benutzte Suchmaschine die Anfrage verarbeitet bzw. welche Kriterien in das Ranking der Treffer mit einfließen.
10
1. Die Informationssuche im WWW
Trefferbearbeitung Die Treffer einer Suchmaschine können in unterschiedlichen Formaten vorliegen. So können von Google die Dateiformate HTML, PDF und PPT schon sehr effizient indexiert werden. Zusätzlich kann jeder Treffer über folgende Optionen bearbeitet werden: • „Ähnliche Seiten“ – initiiert eine Suche nach ähnlichen Webseiten (Google) • „Archiv-Seiten“ – ruft die Seiten aus dem „Cache“ auf (Google, Yahoo) • „Weitere Seiten dieser Webseite“ – sucht die Seiten in derselben Domäne (Yahoo) • „Diese Seite übersetzen“ – übersetzt die Seite in eine gewünschte Sprache (Google)
Die Beurteilung von Internet-Seiten Wenn das Internet als zuverlässige Informationsquelle verwendet werden soll, muss eine Auswertung vorgenommen werden, die die Suchanfrage kritisch widerspiegelt. In der folgenden Liste sind die wichtigsten Auswertungskriterien zusammengestellt. Autorenschaft Objektivität und Richtigkeit
Aktualität Darstellung
Zweck
Wer ist der Autor? Was sind seine/ihre Referenzen? Ist er/sie einem Institut zugehörig? Hat das Institut ein Renommee? Wird die Seite von einer kommerziellen Einrichtung angeboten? Wer fördert den Internetauftritt? Welches Ziel verfolgt die Einrichtung mit der Seite? Vertritt der Autor die Meinung einer Gruppe/seiner Einrichtung? Gibt es eine politische Perspektive? Gibt es eine kulturelle oder religiöse Perspektive? Gibt es Werbeanzeigen auf der Seite? Ist die Seite gut und fehlerfrei geschrieben? Ist die Seite durch andere überprüft und redigiert (peer reviewed)? Werden Quellen zitiert? Wie wurden Statistiken oder Daten gesammelt und dargestellt? Sind die Informationen aktuell? Wie häufig wird die Seite aktualisiert? Welche Zeitspanne wird dargestellt? Ist die Seite leicht zu navigieren? Ist die Information übersichtlich dargestellt? Sind die Formate und die Geschwindigkeit annehmbar? Gibt es einen Index oder ein Inhaltsverzeichnis? Wer ist das beabsichtigte Publikum (user)? Ist der Zweck zu informieren oder zu überzeugen? Sind die Informationen förderlich? Sind die Informationen urheberrechtlich gesichert?
1. Die Informationssuche im WWW
11
Im Vergleich Sind andere Quellen besser (Bücher, Zeitschriften, usw.)? zu anderen Gibt es Kosten für den Service? Quellen Sind die Informationen für mich nützlich?
Die Zukunft der Internet-Recherche Suchmaschinen werden sich in ihrer Bedienung und bei der Suchanwendung immer ähnlicher (Zusammenlegungen, Druck von Seiten der Nutzer). Trotzdem gibt es noch unberücksichtigte Aspekte, die eine Weiterentwicklung vorantreiben. Zu diesen Entwicklungen gehören Suchmaschinen mit grafischer Darstellung der Ergebnisse (z.B. http://www.kartoo.com), Richtlinien zur Homogenisierung von Webseiten (etwa durch Anwendung des „Dublin Core“, ein Metadaten-Schema zur Beschreibung von Dokumenten und anderen Objekten im Internet; Urheber dieses Schemas ist die „Dublin Core Metadata Initiative“ (DCMI), s. Wikipedia.de), die Spam-Indexierung, die Entwicklung neuer Konzepte, wie z.B. die mobile, regionale oder die semantische Suche, sowie die Erschließung von Nicht-Text-Informationen wie z.B. Gesichter und Fotos.
Webadressen Freie Internet-Browser (Software) • Microsoft Internet Explorer 7 (http://www.microsoft.de/) • Mozilla-Produkte, z.B. Firefox oder SeaMonkey (http://www.mozilla.org/products/) • Netscape 7.1 http://www.netscape.de/ HTML selbst beigebracht • Self-HTML (http://de.selfhtml.org/) Suchmaschinen (Beispiele) • Google (http://www.google.de) • Alta Vista (http://www.altavista.com) • Web.de (http://www.web.de) • Yahoo! (http://www.yahoo.de) • Metager (http://www.metager.de/) • Metacrawler (http://www.metacrawler.de/) • Kartoo (http://www.kartoo.de) Informationen zur Informationssuche • Die Suchfibel: Wie findet man Informationen im Internet? (http://www.suchfibel.de) • Suchmaschinen (http://www.suchfibel.de/3allgem/index.htm)
12
1. Die Informationssuche im WWW
• Tutorial zur Suche im WWW/Internet (2.1) (http://www.inf-wiss.uni-konstanz.de/suche/tutorial/such_tutorial_anfaenger.html) • Methoden und Verfahren von Suchdiensten im WWW/Internet (http://www.inf-wiss.uni-konstanz.de/suche/tutorial/such_tutorial_advanced.html) • Neueste Informationen über Suchmaschinen (search engines) (http://www.searchenginewatch.com)
Übungen (1) Alternative Medizin: Bei welchen Beschwerden hilft Johanniskraut? Wie ist der lateinische Name? In welcher Form soll es wie lange angewendet werden? (2) Sie suchen Informationen zur Vogelgrippe: Auf welchen Webseiten erwarten Sie zuverlässige Informationen? Welche Firma stellt einen Impfstoff her? Wie entscheidet die Bundesregierung über Impfungen für die Bevölkerung? (3) Wer hat im Jahre 1989 den Nobelpreis für Medizin erhalten? Was waren ihre Verdienste für den Nobelpreis? Wo haben sie geforscht? Was machen die Preisträger heute? (4) Wie teuer sind Blutegel für medizinische Zwecke (Preis/Stück)? Wo gibt es günstige Angebote? (5) Sie haben von einer Datenbank für seltene Krankheiten (rare disease) gehört. Diese soll nun auch Informationen auf Deutsch anbieten. Welche Datenbank ist gemeint? Würden Sie die Informationen als seriös einschätzen? • Welche Informationen finden Sie zu Sichelzellanämie? • Wo gibt es eine Selbsthilfegruppe, wer ist der Ansprechpartner? (6) Wo gibt es eine Auflistung von Firmen der Biotech-Branche im deutschsprachigen Raum? (7) Wann (und wo) findet die nächste BIOANALYTICA statt? Wie kommen Sie von Berlin aus mit dem Auto/mit dem Zug dorthin? Wie lange dauert die Fahrt? (8) Sie suchen Informationen zum „Leben auf dem Titan“ (deutsch). Wie beurteilen Sie die gefundenen Informationen? (Autor? Hintergrund? Methoden?) (9) Welche medizinischen Lexika sind im Internet kostenlos zugänglich? (10) Wie viele Institute der Helmholtz-Gemeinschaft (oder auch Max-Planck-Gesellschaft) existieren in Deutschland? Gibt es auch Informationen über die Entwicklungsgeschichte der Gesellschaft? Wie wird der Bereich der Bioinformatik von der Helmholtz-Gemeinschaft unterstützt?
2 Die Einteilung der Lebewesen Um Organismen, Gene und Proteinsequenzen zu recherchieren, braucht man eine einheitliche Sprache, in der die gewünschte Information geschrieben ist. Schon im 18. Jahrhundert führte der schwedische Naturwissenschaftler Carl von Linné (1707–1778) eine systematische Klassifizierung der Pflanzen und Tiere ein, indem er sich einer binominalen Nomenklatur bediente, durch die die biologischen Arten wissenschaftlich eindeutig benannt wurden. So wurde jede biologische Art (wie z.B. Escherichia coli oder Mus musculus) mit einem Namen für die Gattung (Escherichia bzw. Mus) und einem artspezifischen Beiwort (Epitheton; hier coli bzw. musculus) bezeichnet. Diese Eigennamen sind griechischen oder lateinischen Ursprungs und sind heute international gebräuchlich. Die Klassifizierung der Lebewesen erhielt nach Linné allmählich eine hierarchische Systematik, indem zusätzlich zur Gattungs- und Artenbezeichung auch die Bezeichnungen Familie, Ordnung, Klasse, Stamm und Reich eingeführt wurden. Somit existiert ein eindeutiges und einheitliches Vokabular für die Recherche nach Informationen zu einem bestimmten Organismus. Man kann also mit dem wissenschaftlichen Namen (Taxon) eines Organismus eine Suchanfrage für molekularbiologische Daten auf diesen Organismus eingrenzen.
Taxonomie Die Taxonomie beschäftigt sich mit der Einteilung von Organismen nach Kriterien der “abgestuften Ähnlichkeiten”. Von den identifizierten gruppenspezifischen Eigenschaften von Organismen werden die Verwandtschaftsbeziehungen zwischen einzelnen Gruppen abgeleitet. So teilen sich Organismen einer niederen taxonomischen Ebene mehr gemeinsame Merkmale als die einer höheren taxonomischen Ebene. Eine taxonomische Klassifizierung ist eine hierarchische Einteilung, die von der Annahme einer evolutionären Beziehung (Phylogenie) von Lebewesen innerhalb einer Ebene ausgeht, welche bisher jedoch nicht immer wissenschaftlich belegt werden konnte. Die phylogenetische Systematik (Phylogenetik) ist ein aktives Forschungsgebiet mit dem Ziel, die Abstammungsgeschichte aller Organismen zu verstehen. Des Weiteren beschäftigt sich die Phylogenetik mit der Entstehung neuer 13
14
2. Die Einteilung der Lebewesen
Arten sowie mit der Erforschung der molekularen Evolution, wobei sie sich moderner Methoden der Molekularbiologie bedient. Tabelle 2.1: Die Tabelle zeigt die wichtigsten Kategorien (Taxa) des animalischen Systems am Beispiel von Apis mellifera. Arten (und Unterartennamen) nach einer binominalen Nomenklatur werden kursiv gedruckt. Überreich (superkingdom) Reich (kingdom) Stamm (phylum) Überklasse (superclass) Klasse (class) Unterklasse (subclass) Überordnung (superorder) Ordnung (order) Unterordnung (suborder) Überfamilie (superfamily) Familie (family) Unterfamilie (subfamily) Sippe (tribe) Gattung (genus) Art (species) Unterart (subspecies)
Die Taxonomie-Datenbank des National Center for Biotechnology Information (NCBI) Ein Nachschlagewerk taxonomisch klassifizierter Organismen ist die Datenbank „Taxonomy“, die am amerikanischen „National Center for Biotechnology Information“ (NCBI) in Bethesda, Maryland, frei im Internet zur Verfügung steht. Hier findet man die zellulären Organismen der Erde, eingeteilt in die Archaea-Bakterien, (Eu-) Bakterien und die Eukaryoten (siehe Abb. 2.2).
Abbildung 2.1: Die Kopfzeilen der Homepage des NCBI (http://www.ncbi.nlm.nih.gov)
2. Die Einteilung der Lebewesen
15
Abbildung 2.2: Einteilung der zellulären Organismen in der Datenbank „Taxonomy“ im Display-Level von 1. In diesem Anzeigeformat wird jeweils nur die Ebene unter der aktiven Ebene (hier: cellular organism) angezeigt. Ändern Sie den Display-Level auf 2, so werden zu den Taxa Archaea, Bacteria und Eukaryota (superkingdoms) auch die Stämme (phyla) angezeigt. Die Zahl hinter dem Taxon entspricht der Anzahl sequenzierter Genome bzw. vollständiger genomischer Einheiten (z.B. Chromosomen). Diese Anzeige erscheint, weil eine Verknüpfung mit der EntrezDomäne „Genome Sequences“ aufgerufen wurde (siehe Häkchen bei „Genome Sequences“); Stand: Jan. 2007.
Taxonomy-Browser: Die Such- und „Browsing“-Funktionen für die Datenbank Die Datenbank „Taxonomy“ enthält alle Organismen, die mit mindestens einer Nukleotid- oder Proteinsequenz in der Datenbank „GenBank“ eingetragen sind. Dabei handelt es sich sowohl um lebende, als auch um bereits ausgestorbene Organismen. Die Suchoberfläche bietet unterschiedliche Suchmodi. So kann im Suchfeld die allgemeine Benennung wie z.B. „Mouse“ eingegeben werden, die wissenschaftliche Bezeichnung (Mus musculus) mit Hilfe des Pull-down-Menüs als „complete name“, der „phonetic name“ („maus“; man könnte ja meinen, es würde so wie im Deutschen geschrieben), Teile einer Bezeichnung (wild card = Gattungsname z.B. Mus, token set = Epitheton z.B. musculus) oder auch die Taxonomy ID, die Zugriffsnummer des Organismus in der Datenbank. Ist der Eintrag gefunden, wird zuerst eine hierarchische Darstellung gezeigt, von der aus man zu den speziellen Datenbankeinträgen gelangt.
Abbildung 2.3: Die Suchoptionen im Taxonomy-Browser.
16
2. Die Einteilung der Lebewesen
Abbildung 2.4: Die Anzeige für Mus musculus in der Stammbaum-Darstellung. Für die Anzeige höherer Taxa wie z.B. Rodentia (Nagetiere) muss auf das entsprechende Taxon in der aufgeführten Abstammung (Lineage) geklickt werden. In dieser Anzeige werden sowohl die Anzahl der bekannten Nukleotid- als auch die der bekannten Proteinsequenzen angezeigt, da jeweils ein Häkchen bei „Nucleotide“ bzw. „Protein“ gesetzt wurde.
Folgt man dem Link zur Art Mus musculus, gelangt man zu einem „Informationssprungbrett“, dem eigentlichen Datenbankeintrag. Mit nur einem Mausklick können alle Daten in einer anderen Datendomäne wie z.B. der Protein-Domäne aufgerufen werden. Alle bekannten Proteinsequenzen für die Maus sind somit schon gefunden (Abb. 2.5). Wissenschaftliche Namen von Organismen recherchieren Wie oben erläutert, ist der sicherste Weg, nach Daten zum Organismus seiner Wahl zu recherchieren, die Recherche mit dem wissenschaftlichen Namen des Organismus. Doch wie ist der wissenschaftliche Name für den Rhesusaffen, die Kaffeepflanze oder den Malariaerreger? Die Antworten gibt es in Online-Ressourcen des WWW. Die folgenden Webseiten sollen helfen, den wissenschaftlichen Tier- bzw. Pflanzennamen über das Nachschlagen der deutschen Bezeichnungen zu finden. • Tiernamen – Deutsch/Latein: http://www.das-tierlexikon.de/ • Botanische Namen: http://www.iwoe.de/cmarq/pflanzen.html • Bakterien-Nomenklatur: http://www.dsmz.de/bactnom/bactname.htm
2. Die Einteilung der Lebewesen
17
Abbildung 2.5: Der Eintrag in der Taxonomy-Datenbank für Mus musculus hat die Zugriffsnummer (Accession-Nummer, Taxonomy ID) 10090. Des Weiteren werden der gewöhnliche Name (common name), der verwendete genetische Code und die Abstammung angegeben. Die relevanten Informationen in anderen Datenbanken werden unter “Entrez records” und weiter unten (nicht zu sehen) aufgeführt. Die direkten Verknüpfungen (Direct links) betreffen alle Einträge, die unter Mus musculus angegeben werden. Die “Subtree links” betreffen alle Einträge, die unter Mus musculus und allen Unterarten (siehe Abb. 2.4) angegeben werden.
Modell-Organismen Was ist ein Modell-Organismus? Seit dem letzten Jahrhundert haben für die Erforschung und Aufklärung zahlreicher biologischer Prozesse nur eine kleine Anzahl von Organismen eine Rolle gespielt. Der Grund dafür ist, dass viele Aspekte der Biologie in den meisten, wenn nicht sogar in allen Organismen ähnlich sind, aber das Studium dieser Aspekte in dem einen Organismus besser zu praktizieren ist als in einem anderen. Diese häufig untersuchten Organismen haben große Vorteile für die experimentelle Forschung, wie z.B. • eine schnelle Entwicklung mit kurzen Lebenszyklen, • eine kleine Erwachsenengröße • unkomplizierte und kostengünstige Haltung (wenn möglich auf kleinstem Raum) • breite Verwendbarkeit
18
2. Die Einteilung der Lebewesen
Des Weiteren sind die experimentellen Ergebnisse international besser vergleichbar, wenn sie am gleichen Modellorganismus erhoben wurden. Eine große Menge an Informationen kann von diesen Organismen abgeleitet werden. So können wertvolle Daten für die Analyse der normalen menschlichen Entwicklung bereitgestellt werden, wie z.B. Kenntnisse über die Mechanismen der Genregulation, Kenntnisse über genetische Krankheiten und Entwicklungsprozesse sowie pharmakologische Studien u.v.m. Die am besten untersuchten Säugetierarten sind: • Mus musculus (Maus, besonders für genetische Studien) • Rattus norvegicus (Ratte, besonders für physiologische Studien) Die am besten untersuchten Nicht-Säugetierarten sind: • Dictyostelium discoideum (Schleimpilz) • Saccharomyces cerevisiae (Hefe) • Caenorhabditis elegans (Rundwurm) • Arabidopsis thaliana (Ackerschmalwand) • Drosophila melanogaster (Fruchtfliege) • Danio rerio (Zebrafisch)
Webadressen National Center for Biotechnology Information (NCBI) • Taxonomy Browser (http://www.ncbi.nlm.nih.gov/Taxonomy/taxonomyhome. html/) • Entrez-Taxonomy (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=taxonomy) Lexika, Datenbanken & mehr • Tiernamen – Deutsch/Latein (http://www.das-tierlexikon.de/) • Botanische Namen (http://www.iwoe.de/cmarq/pflanzen.html) • Bakterien-Nomenklatur (http://www.dsmz.de/bactnom/bactname.htm) • Nützliche Internetadressen für Naturwissenschaftler in deutscher Sprache (http://www.biotools.info/links/biologie.html)
Übungen (1) Suchen Sie über NCBI’s Taxonomy Browser die heutigen Bakterienstämme (Eubakterien) und Archaea-Stämme. Benutzen Sie dazu den „Display-Level“ von 1. (2) Internet: Suchen Sie im Internet ein Verzeichnis oder ein Lexikon mit Tiernamen in deutscher und lateinischer Sprache. • Wie ist der wissenschaftliche Name für Meerschweinchen? • Gibt es Meerschweinchen-Sequenzen in der Taxonomy-Datenbank?
2. Die Einteilung der Lebewesen
19
(3) Sie möchten alle Proteinsequenzen für HIV finden. Von wie vielen verschiedenen HI-Viren gibt es Sequenzen in der Datenbank? • Was ist der Unterschied zwischen der allgemeinen Kategorie „Human immunodeficiency virus“ und den einzelnen Typen von HI-Viren? • Suchen Sie alle Proteinsequenzen des „human immunodeficiency virus 2“. (siehe Entrez-Verknüpfungen in der Datenbank Taxonomy) (4) Finden Sie alle Nukleotid-Sequenzen vom Mammut (Mammuthus). Wie viele Einträge für Nukleotid-Sequenzen gibt es am NCBI? • Um welche Sequenzen handelt es sich? (5) Würden Sie Studien über Erbkrankheiten beim Menschen in der Tierspezies Galagos durchführen? (6) Substantial data are available for two species of filarial nematodes that are human parasites. Use the Taxonomy Browser to examine the number of nucleotide sequences for the superfamily Filaroidea and determine which species these are. How many nucleotide and protein sequences are there for each of these two species? Display nucleotide records for each of these. What kinds of sequences are most of these? (Quelle: http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html)
3 Moleküle der Erbinformation Desoxyribonukleinsäure (DNS, bzw. engl. DNA für desoxyribonucleic acid) und Proteine unterscheiden sich grundsätzlich von anderen Makromolekülen. Erstens bestehen DNA und Proteine aus klar definierten Untereinheiten, zweitens liegt ihr Informationsgehalt in der Abfolge (Sequenz) dieser Untereinheiten, und drittens ist die Leserichtung einer Sequenz entscheidend darüber, um welches Molekül es sich handelt. So kodieren die Gene immer in 5’-3’ Richtung und Proteinsequenzen definieren sich über die Richtung vom N-terminalen Ende zum C-terminalen Ende. In diesem Kapitel geht es zunächst um die Untereinheiten von DNA- oder Proteinsequenzen (auch Biosequenzen genannt), die Basen und Aminosäuren, aber auch um die Formate und Beschreibungen dieser Moleküle, die zur Norm in biowissenschaftlichen Datenbanken geworden sind. Nur mit diesem Wissen kann eine Suche nach einer Biosequenz erfolgreich sein. Leider ist die Suche nach Biosequenzen nicht so einfach wie die Suche nach Organismen. Ein derart kontrolliertes Vokabular, wie es für die Taxonomie eingeführt wurde, wäre von Vorteil. Dahingehende Bestrebungen werden in der Genontologie (GO) verfolgt. Auch die Einführung offizieller Gensymbole ist ein wichtiger Schritt, um Daten der Molekularbiologie leichter recherchieren zu können. Im Folgenden werden die Besonderheiten der Genome, Gene und Proteine kurz vorgestellt, die für die Informationssuche im Bereich der Molekularbiologie relevant sind.
DNA In einem DNA-Molekül gibt es vier verschiedene Basen, deren Reihenfolge für den Informationsgehalt der DNA ausschlaggebend ist. In einem Nukleotid können entweder die Purinbasen Adenin (A) oder Guanin (G) oder die Pyrimidinbasen Cytosin (C) oder Thymin (T) vorkommen. Die Nukleotide sind über die Zucker- und Phosphatkomponenten miteinander verbunden. Die Zuckerkomponente der DNA, die Desoxyribose, ist eine Pentose, die am fünften C-Atom einen Phosphatrest gebunden hat, und am dritten C-Atom eine Alkoholgruppe trägt. Über diese OH-Gruppe wird die Verbindung zum Phosphatrest des nachfolgenden Nukleotids geknüpft. Die Base ist über eine Kondensationsreaktion am C-Atom Nummer eins des Zuckers 21
22
3. Moleküle der Erbinformation
gebunden. Auf Grund dieser Tatsache spricht man von einem 5’-Ende und einem 3’-Ende der Nukleotidkette. Die Basen „hängen“ demnach an einem Strang bzw. Rückgrat von alternierenden Zucker- und Phosphatresten. Da diese Verknüpfung für alle Nukleotide gleich ist, erfolgt die Namensgebung für die Nukleotidabfolge ausschließlich über die Benennung der basischen Komponente als Ein-BuchstabenKodierung. So entspricht die Sequenz ACTG einer Aneinanderreihung der Nukleotide Adenin, Cytosin, Thymin und Guanin. Des Weiteren bilden die Basen A und T untereinander zwei Wasserstoffbrückenbindungen aus, C und G sogar drei. Diese Bindungen erfolgen zu Basen eines benachbarten gegenläufigen Nukleotidstranges, was zur Ausbildung einer Doppelhelix führt. Eine DNA ist somit ein doppelsträngiges Molekül mit einem Plus-Strang (5’-3’-Richtung) und einem Minus-Strang (3’-5’ Richtung). Würde man jetzt eine Sequenz von 5000 Nukleotiden Länge durchnummerieren, so kann es Gene auf dem Plus-Strang von z.B. Base 150 bis 1200 geben und Gene auf dem Minus-Strang von z.B. Base 4300 bis 3100. Alle kodieren in 5’-3’ Richtung und sind so auch in den Datenbanken hinterlegt, also stets in 5’-3’ Richtung. Der jeweilige andere Strang ist der komplementäre Strang, der die DNA-Sequenz aufgrund der spezifischen Basenpaarung ebenfalls eindeutig wiedergibt. Die Information eines komplementären Stranges ist demnach dieselbe wie die des ursprünglichen Stranges. Die Information einer reversen Sequenz, d.h. einer vom 3’ Ende gelesenen Sequenz, ist jedoch eine völlig andere. Zur Verdeutlichung der DNA-Struktur siehe auch die Grafiken unter http://www.accessexcellence.org/, wie z.B. http://www.accessexcellence.org/RC/VL/GG/dna_molecule.html und http://www.accessexcellence.org/RC/VL/GG/dna2.html. Da es bei der Sequenzierung einer Nukleotidsequenz zu nicht eindeutigen Ergebnissen kommen kann oder in einer untersuchten Sequenz Variationen vorliegen können, müssen auch variable Stellen der Sequenz eindeutig beschrieben werden können, d.h. es bedarf eines Platzhalters in der Ein-Buchstaben-Kodierung. So erfolgt die Beschreibung von mehreren möglichen Basen an derselben Stelle in einer Nukleotidsequenz entsprechend der Festlegung einer internationalen Kommission, der IUPAC (International Union of Pure and Applied Chemistry; s. Tab. 3.1) nach dem Ambiguity Code (ambiguity, engl. Vieldeutigkeit). Tabelle 3.1: Die Angabe von mehreren möglichen Basen in einer Sequenz erfolgt nach den Richtlinien der IUPAC (International Union of Pure and Applied Chemistry), dem Ambiguity Code. N R Y S W M
A, C, G oder T A oder G (Purin-Basen) C oder T (Pyrimidin-Basen) C oder G (starke/„strong“ Interaktion) A oder T (schwache/„weak“ Interaktion) A oder C (Amino-Basen)
K B D H V
G oder T (Keto-Basen) C, G, oder T (nicht A) A, G oder T (nicht C) A, C oder T (nicht G) A, C oder G (nicht T)
3. Moleküle der Erbinformation
23
RNA Ribonukleinsäure (RNS bzw. engl. RNA engl. für ribonucleic acid) wird von der RNA-Polymerase gebildet. Dazu wird das doppelsträngige DNA-Molekül aufgebrochen und ein neuer, zum Matrizenstrang komplementärer, Strang gebildet. Als Matrize dient der 3’-5’ Strang. Der neu synthetisierte RNA-Strang entsteht in der 5’3’ Orientierung. Somit wird die gleiche Sequenz synthetisiert, die vom Gen vorgegeben ist. Dieser Vorgang wird als Transkription bezeichnet, da die genetische Information von der DNA abgeschrieben und in RNA umgeschrieben wird. Im Gegensatz zum Thymin in der DNA wird bei der RNA die Base Uracil (U) eingebaut. Weitere Unterschiede zur DNA liegen in der Verwendung der Zuckerart und ihrer Struktur. So ist in einem RNA-Molekül Ribose anstelle von Desoxyribose eingebaut, ferner ist sie vorrangig einzelsträngig. Intramolekulare Basenpaarungen des Einzelstranges führen zur Ausbildung unterschiedlicher RNA-Strukturen wie Haarnadelschleifen, Helices oder Kleeblattstrukturen. RNA kann über Wasserstoffbrückenbindung an andere Nukleinsäuren spezifisch und reversibel binden. RNA-Moleküle werden entsprechend ihrer Funktionen bezeichnet als: • mRNA (messenger RNA, Boten-RNA) überträgt die Information der DNA für die Herstellung der Aminosäuresequenz vom Zellkern zu den Ribosomen im Zytoplasma. • hnRNA (heterous nuclear RNA, primäres Transkript) ist die Vorstufe der mRNA, rRNA oder tRNA im Zellkern von Eukaryoten und wird weiter prozessiert. • snRNA (small nuclear RNA, kleine Kern-RNA) ist Bestandteil der Spleißosomen (etwa 150 Nukleotide lang) und trägt zur katalytischen Funktion der Spleißosomen bei. • rRNA (ribosomale RNA) ist Bestandteil der Ribosomen und trägt sowohl zur katalytischen Funktion als auch zur Struktur der Ribosomen bei. Die Untergruppen sind 28S rRNA, 18S rRNA und 5,8S rRNA (etwa 5000, 2000 bzw. 16 Nukleotide). • tRNA (transfer-RNA) ist ein kurzes einsträngiges Molekül (ca. 80 Nukleotide) mit einer so genannten Kleeblatt- oder L-Struktur. Sie überbringt die Aminosäuren zum Ort der Proteinbiosynthese, den Ribosomen. • Kleine RNA (small RNA), manchmal auch tnRNA genannt (tiny-noncodingRNA), sind zwischen 21 und 28 Nukleotide lang und erfüllen wichtige Funktionen bei der Regulation von zellulären Prozessen. Sie entstehen bei der Zerkleinerung von doppelsträngigen Vorläufermolekülen durch unterschiedliche RNAsen vom Typ III. Die bekanntesten Molekülarten sind: • miRNA (von micros = griech. klein) sind einzelsträngige RNAs von ca. 22 Nukleotiden Länge, miRNA ist an Prozessen der Translation und dem Abbau einer Ziel-mRNA beteiligt, die aufgrund von komplementären Sequenzen erkannt wird. • siRNA (small interfering RNA) ist einzelsträngige RNA von 21–28 Nukleotiden Länge, die von der RNAse TypIII namens „Dicer“ aus einer endogenen RNA herausgeschnitten werden. Oft wird auch kleine einzelsträngige RNA, die in der Biotechnologie bei der Methode der RNA-Interferenz (RNAi) Anwendung findet, als siRNA bezeichnet.
24
3. Moleküle der Erbinformation
Zur Verdeutlichung der RNA-Struktur sowie dem Vorgang der Transkription siehe auch die Grafiken unter http://www.accessexcellence.org/ wie z.B. http://www.accessexcellence.org/RC/VL/GG/rna2.html und http://www.accessexcellence.org/RC/VL/GG/protein_synthesis.html
Die Organisation der Gene Der Begriff Gen bezeichnet die genetische Information, die ausgehend von einem DNA-Molekül in ein einzelnes RNA-Molekül und schließlich in ein einziges Protein umgeschrieben wird. Ausnahmen bilden die Gene für RNAs, die nicht in Proteine übersetzt werden (zum Beispiel rRNAs oder tRNAs). Den Bereich eines Chromosoms, auf dem sich ein bestimmtes Gen befindet, nennt man den Locus eines Gens. In diploiden Organismen, die homologe Paare von Chromosomen besitzen, bezeichnet man die verschiedenen Ausprägungen eines Gens als Allele. Sowohl Ein- als auch Vielzeller müssen ihre Gene als Antwort auf innere oder äußere Signale an- oder abschalten können. Die Genexpression, d.h. die Bildung von Proteinen, wird in allen Organismen unter anderem durch DNA-bindende Proteine reguliert. Neben der Basensequenz, die für ein Protein codiert, gehören daher noch regulatorische Sequenzen zu jedem Gen. Den Bereich, in dem die RNA-Polymerase und die Transkriptionsfaktoren binden, bezeichnet man als den Promotor. Auch auf dem RNA-Transkript befinden sich regulatorische Einheiten (Sequenzen), die z.B. Signale für die RNA-Prozessierung beinhalten. Weitere Sequenzen wie z.B. für die Kontrolle der Genexpression befinden sich stromaufwärts und/oder -abwärts des Gens sowie in den Intronbereichen von eukaryotischen Genen. Ereignisse nach der Transkription wie die RNA-Prozessierung, Regulation des RNA-Abbaus, die Kontrolle der Translation (z.B. durch Inaktivierung eines Translations-Initiationsfaktors) und letztendlich auch die Veränderung und der Abbau der entstandenen Proteine vervollständigen die zahlreichen Regulationsmöglichkeiten eines eukaryotischen Gens. Eine DNA-Sequenz kodiert eine Aminosäuresequenz über die so genannten Basentripletts. Dabei werden jeweils drei aufeinanderfolgende Basen (Triplett bzw. Codon) in eine Aminosäure übersetzt. Rein rechnerisch ergeben sich aus vier Basen, die zu jeweils einem Triplett kombiniert werden können, 64 mögliche Kombinationen. Nun sind jedoch nur 22 Aminosäuren proteinogen, d.h. nur diese können von einem Organismus in eine Proteinsequenz eingebaut werden, wohingegen alle 64 Tripletts eine Bedeutung haben. So können z.B. bis zu 6 Tripletts für eine einzige Aminosäure (z.B. Leu) kodieren. Drei verschiedene Tripletts kodieren einen Stopp der Translation. Damit ist der sogenannte „genetische Code“ redundant, aber eindeutig. Obwohl die Codons GAA und GAG beide für Glutaminsäure stehen (Redundanz), kodiert keines von ihnen eine andere Aminosäure (Eindeutigkeit). Man spricht auch vom „degenerierten genetischen Code“ (siehe. Abb. 3.1). Die Übersetzung der mRNA-Sequenz in die Proteinsequenz ist von dem Nukleotid abhängig, bei dem mit einer Übersetzung/Translation begonnen wird. Theoretisch gibt es drei Leseraster, die der Übersetzung der Nukleotidsequenz dienen können. Das erste Leseraster beginnt bei der ersten Base, das zweite bei der
3. Moleküle der Erbinformation
25
Abbildung 3.1: Der genetische Code. Ein Basentriplett kodiert für eine Aminosäure. Die Aminosäure ist jeweils hinter dem Triplett in der Ein-Buchstaben-Kodierung und der Abkürzung angegeben (The Genetic Codes: http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi?mode=c).
zweiten Base und das dritte bei der dritten Base. Lange, in einem Stück lesbare Abschnitte ohne ein Stoppkodon bezeichnet man als offenen Leserahmen oder offenes Leseraster (ORF, engl. für open reading frame). Nimmt man jedoch die genomische DNA-Sequenz zur Analyse von offenen Leserastern hinzu, so ergeben sich insgesamt 6 dieser Raster. Die reversen Leseraster erhalten die Nummerierung –1 bis –3. Zusammenfassend sind in Tabelle 3.2 die Unterschiede im Genaufbau und in der Genregulation zwischen Eu- und Prokaryoten aufgeführt. Ein klassisches Beispiel für die Kontrolle der Genexpression ist das Lac-Operon, eine Transkriptionseinheit mit drei Genen für den Laktoseabbau bei Escherichia coli (http://www.accessexcellence.org/RC/VL/GG/induction.html) sowie die koordinative Genexpression über den Glukokortikoidrezeptor in An- und Abwesenheit von Glukokortikoid-Hormonen (http://www.accessexcellence.org/RC/VL/GG/ecb/ gene_expression_protein.html ). Im Allgemeinen werden Gene in jedem Stadium ihrer Funktion, d.h. vom Ruhezustand bis hin zum funktionstüchtigen Protein, reguliert (zur Veranschaulichung http://www.accessexcellence.org/RC/VL/GG/ecb/ gene_expression.html ).
26
3. Moleküle der Erbinformation
Tabelle 3.2: Unterschiede in der Genorganisation und Genexpression bei Pro- und Eukaryoten. Prokaryoten • Das Genom hat eine hohe Gendichte. • Gene sind kontinuierliche Segmente auf der DNA, die kolinear mit der mRNA sind. • Gene sind in Gengruppen (Operons) angeordnet, die Reihenfolge ist meist konserviert. • Gene haben lange offene Leserahmen (ORFs). • In der Nähe dieser „Operons“ liegen gut charakterisierte Regionen, z.B. die PribnowBox oder die -35-Region.
• Gene werden meist auf der Transkriptionsebene reguliert. • Durch die Anordnung in Operons werden die jeweiligen Gene eines Operons auf dieselbe Weise reguliert. • Alle RNA-Typen werden von einer RNA-Polymerase gebildet. • mRNA wird während der Transkription bereits translatiert.
Eukaryoten • Das Genom hat eine niedrige Gendichte. • Die kodierenden Bereiche eines Gens werden im Genom durch nicht-kodierende Regionen (Introns) unterbrochen. • Durch alternatives Spleißen kommt es zu mehreren Genprodukten, die sich alle von einem Gen ableiten. • Gene haben kurze offene Leserahmen (ORFs). • Regulatorische u.a. Elemente in der Nähe von kodierenden Sequenzen sind wenig charakterisiert und nicht einheitlich (viele, aber nicht alle Promoter-Regionen haben eine TATA-Box oder CAAT-Box). • Regulation der Gene erfolgt auf allen Ebenen von der DNA bis zum Protein. • Gene verwandter Funktion sind mit den gleichen Kontrollelementen kombiniert (koordinierte Expressionskontrolle). • Für die Synthese der verschiedenen RNATypen gibt es drei verschiedene RNA-Polymerasen. • hnRNA wird gespleißt und prozessiert, bevor sie im Zytoplasma translatiert wird (Wechsel des Zellkompartiments).
Proteine Proteine sind dreidimensionale dynamische Gebilde, die in einem Molekül stabile und weniger stabile Strukturelemente enthalten können. Sie können reversiblen und irreversiblen Strukturänderungen unterliegen. Es werden vier Strukturebenen unterschieden: • Die Primärstruktur oder -sequenz ist die Aufeinanderfolge der Aminosäuren in der Polypeptidkette. Die Schreibweise der Sequenz erfolgt stets so, dass links mit der Aminosäure begonnen wird, die die freie _-Aminogruppe trägt (N-Terminus) und rechts mit der Aminosäure geendet wird, die die freie _-Carboxylgruppe trägt (C-Terminus). Die Beschreibung einer Proteinsequenz folgt ebenfalls einheitlichen Regeln. So kann zwar zwischen der Ein-Buchstaben-Kodierung und der Drei-Buchstaben-Kodierung gewählt werden, die Platzhalter für die Aminosäuren sind jedoch eindeutig (siehe Tabelle 3.3).
27
3. Moleküle der Erbinformation
• Die Sekundärstruktur beschreibt die in der Sequenz auftretenden charakteristischen Strukturelemente wie z.B. _-Helix, `-Faltblatt (`-sheet) und Haarnadelstrukturen (hair pin, `-turn). • Die Tertiärstruktur beschreibt die gesamte Raumstruktur, die sich durch die Verknüpfung von Polypeptidketten über kovalente Bindungen ergibt. • Die Quartärstruktur beschreibt die Raumstruktur eines funktionstüchtigen Proteins. Dies kann aus nur einer oder aus mehreren, nicht kovalent mit einander verbundenen Polypeptidstrukturen (Untereinheiten) bestehen. Proteine können nach ihrer chemischen Zusammensetzung (z.B. Glykoproteine, Phospho-proteine, Proteolipide, Hämproteine), ihrer Lokalisation (z.B. Kernproteine, zytoplasmatische Proteine, Membranproteine) und ihrer Funktion (Transportproteine, Speicherproteine, Rezeptorproteine, Enzyme etc.) eingeteilt werden. Mehrere dieser Charakteristika können auf ein Molekül zutreffen. Tabelle 3.3: Die 22 proteinogenen Aminosäuren und ihre Abkürzungen. Eine Aminosäuresequenz ist in einer Datenbank immer in der Kurz-Kodierung angegeben. codierte Aminosäure Alanin Arginin Asparagin Asparaginsäure Cystein Glutamin Glutaminsäure Glycin Histidin Isoleucin Leucin Lysin Methionin Phenylalanin Prolin Pyrrolysine Selenocysteine Serin Threonin Tryptophan Tyrosin Valin
IUPAC-IUC-Code Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Pyl Sec Ser Thr Trp Tyr Val
Kurz- Code A R N D C Q E G H I L K M F P
S T W Y V
28
3. Moleküle der Erbinformation
Protein Fingerprints, Familien, Domänen und mehr Die Begriffe Protein-Fingerabdruck (engl. fingerprint), -Motiv, -Domäne, -Pattern und -Profil werden mehr oder weniger als Synonyme gebraucht. Sie unterscheiden sich allerdings bei genauer Betrachtung. So beinhaltet ein Fingerabdruck mehrere Motive, die zusammen eine Proteinfamilie charakterisieren. Eine Proteinfamilie ist eine Gruppe von homologen Proteinen, die eine oder mehrere gemeinsame Domänen aufweisen. Unter Motiv versteht man eine hoch konservierte Region, bei der es sich um eine Domäne, ein Pattern oder ein Profil handelt. Diese wiederum sind im Folgenden kurz erläutert. • Eine Domäne ist eine unabhängige Struktureinheit, die alleine oder zusammen mit anderen Domänen vorkommt. Domänen sind homolog. Auch wenn die Struktur einer Domäne nicht immer bekannt ist, so lassen sich doch oft die Grenzen einer Domäne über die Sequenz bestimmen. • Konservierte Domänen charakterisieren eine Proteinfamilie oder eine Proteinfunktion. • Protein Patterns sind kleine Regionen mit hoher Sequenzähnlichkeit (‚core‘ pattern). Sie werden über Sequenzalignments von einer Proteinfamilie beschrieben und charakterisieren biologisch relevante Sequenzmotive wie z. B. Katalytische Zentren von Enzymen, Bindungsstellen für prosthetische Gruppen (z.B. für Häm, Biotin etc.), Aminosäuren, die für Metallbindung verantwortlich sind, Cysteine, die zu Disulfidbrücken beitragen oder Regionen für Molekülbindung (ADP/ATP, GDP/GTP, calcium, DNA, etc.). • Profile (oder „weight matrices“) werden aus globalen Sequenzausrichtungen (Alignments) von Proteinfamilien oder -domänen entwickelt. Sie sind in Form einer PSSM (Position-specific Scoring Matrices) beschrieben, die unterschiedliche Gewichtungen (weights) für die Aminosäuren an einer ganz bestimmten Position in einem Protein widerspiegelt (mehr zu PSSMs s. Kap. 6). ! Ein Beispiel für eine Datenbank mit Proteinfamilien und -domänen ist PROSITE (zu finden bei ExPASy (http://www.expasy.org/prosite/)). Sie enthält > 1000 Signaturen für Proteinfamilien und Domänen mit biologischer Signifikanz. Die Signatur einer Proteinfamilie oder einer Domäne ist im PROSITE-Format angegeben (siehe Sequenzformate). ! Eine weitere Datenbank für Proteindomänen ist NCBI’s CDD – Conserved Domain Database (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=cdd). Sie enthält Daten der Datenbanken SMART (Simple Modular Architecture Research Tool, EMBL), PFAM (Protein Families, Sanger Inst.) und COG/KOG (Clusters of orthologous Groups – Pro- bzw. Eukaryoten, NCBI).
Stoffwechselwege – Netzwerke des Lebens Alle chemischen Elemente und Verbindungen unseres Körpers, vom Spurenelement bis zum Protein, sind eingebunden in biochemische Reaktionen. Viele dieser Elemente sind an mehreren Reaktionen beteiligt und bilden so ein kompliziertes
3. Moleküle der Erbinformation
29
Netzwerk mit vielfachen Verknüpfungen. Da eine ganzheitliche Betrachtung der Biochemie in unserem Organismus schwierig ist, werden die metabolischen Reaktionswege oft isoliert betrachtet. Die folgende Auflistung beinhaltet nur Beispiele zur Veranschaulichung der Vielzahl an Stoffwechselwegen: (1) Zentralstoffwechsel • Kohlenhydrate (z.B. Zitronensäurezyklus, Glykolyse/Glukoneogenese, Pentosephosphatzyklus) • Aminosäuren (z.B. Harnstoffzyklus, Biosynthese aromatischer Aminosäuren, Proteolyse) • Lipide (Steroide) • Nukleotide (z.B. Purin- und Pyrimidinsynthese und -abbau) (2) Zelluläre Kommunikation und Signaltransduktionswege sowie Regulationsvorgänge (3) Nukleinsäurestoffwechsel und Proteinsynthese (DNA-Replikation/-Reparatur, Transkription, Translation) (4) Abwehrmechanismen, Immunsystem/Komplementsystem, Blutgerinnung/Fibrinolyse (5) Spezielle Reaktionswege von Bakterien und Pflanzen (z.B. Gärung, aerobe/anaerobe Atmung, Photosynthese, oxidative Phosphorylierung) In diesen Stoffwechselwegen stellen die Enzyme die Hauptakteure der chemischen Reaktionen dar. Enzyme enthalten neben einer aktivierenden Nicht-Protein-Komponente (Co-Faktor: Metall bzw. Co-Enzym) ein spezifisches Protein (= Apoenzym). Sie lösen oder knüpfen chemische Bindungen und enden meist auf „-ase“ (Ausnahmen sind Trivialnamen wie z.B. Typsin). Ihr Wirkungsprinzip beruht auf einer Herabsetzung der Aktivierungsenergie und der damit einhergehenden Steigerung der Reaktionsgeschwindigkeit, ohne dass sie dabei selbst eine chemische Veränderung erfahren.
ONLINE Viele Stoffwechselwege (engl. pathway) sind im Internet auf interaktiven Karten dargestellt. Auf den Karten der Ressourcen Kegg oder Biocarta gelangt man über einen Mausklick zu jeweils mehr Informationen über die Moleküle, die in den Wegen eine Rolle spielen. Der Einstieg zu den Informationen erfolgt entweder über eine Browsing-Funktion (Auswahl des Pathways mit weiterem Mausklick zur genspezifischen Information) oder über die Suche über den Gennamen bzw. Proteinnamen. Die bekanntesten Ressourcen für die Recherche in Stoffwechselwegen sind ! BioCarta online maps (http://www.biocarta.com/genes/allPathways.asp) ! KEGG Pathway Database – Kyoto Encyclopedia of Genes and Genomes (http://www.genome.ad.jp/kegg/pathway.html) ! Biochemical Pathways vom Expert Protein Analysis System (ExPASy) – Proteomics Server (http://www.expasy.ch/cgi-bin/search-biochem-index)
30
3. Moleküle der Erbinformation
! Kinase-Reaktionswege (http://kinase.uhnres.utoronto.ca/signallingmap. html) ! Weitere Pathway-Datenbanken sind im Journal Nucleic Acids Research Database Issue unter metabolic & signaling pathways aufgeführt (http://www.oxfordjournals.org/nar/database/c/) Die Datenbank ENZYME (http://www.expasy.org/enzyme/) enthält Enzyminformationen nach den Vorgaben des „Nomenclature Committee of the International Union of Biochemistry and Molecular Biology“ (IUBMB). Die Einträge müssen eine viergeteilte EC (Enzyme Commission)-Nummer aufweisen. Die Nummerierung unterliegt einer Einteilung nach der Enzymfunktion. Im Folgenden sind die 6 Enzymklassen aufgeführt. In jeder Klasse gibt es Untergruppen, die über die zweite und dritte Enzymnummer weiter beschrieben sind. Die Klassen sind beziffert mit 1. -. -.- für Oxidoreductasen, 2. -. -.- für Transferasen, 3. -. -.- für Hydrolasen, für 4. -. -.- Lyasen, 5. -. -.- für Isomerasen und 6. -. -.- für Ligasen.
Abbildung 3.2: Die Suchoptionen für die Datenbank ENZYME.
Programme für die Sequenzanalyse Es gibt zahlreiche Software und Softwarepakete für eine computergestützte Analyse von DNA- und Proteinsequenzen. Im Folgenden werden kurz Programme der Genstrukturanalyse sowie Ressourcensammlungen für die Analyse und Formatierung beider Sequenzarten vorgestellt. Bei der Genstrukturanalyse, d.h. der Erkennung der Exon-Intron-Struktur in einem Gen, müssen von einem Programm viele Eigenschaften eines Gens berücksichtigt werden. Manche Programme greifen einen Aspekt auf, vernachlässigen jedoch andere. So werden im Open Reading Frame Finder (ORF-Finder) „nur“ die Startkodons (ATGs und alternative Startkodons) identifiziert und der hier beginnende offene Leserahmen berechnet. Die Exon-Intron-Grenzen in einem Gen werden jedoch nicht näher ausgewertet. Mit Hilfe der Software SPLIGN können cDNA und genomische Sequenzen aneinander ausgerichtet bzw. aliniert (engl. aligned) werden. Exon-Intron-Übergänge werden berücksichtigt. Die Software GeneMachine versucht, über eine Sequenzanalyse mit unterschiedlicher Software ein aussagekräftiges Ergebnis zu erzielen. Des Weiteren ist es schwierig, kleine Gene und Gene, die auf RNA-Ebene agieren, zu identifizieren.
3. Moleküle der Erbinformation
31
ORF Finder In diesem Programm können DNA-Sequenzen eingeben werden, deren offene Leseraster mit nur einem Mausklick angezeigt werden können. Das Programm akzeptiert Sequenzen im FASTA-Format oder auch eine Zugriffs-/Accession-Nummer, um auf die NCBI-Nukleotid-Datendomäne zuzugreifen (mehr zu Accession-Nummern und der Nukleotid-Datendomäne des NCBI s. Kap. 4). Nach der Eingabe der Nummer bzw. der Sequenz genügt der Mausklick bei „OrfFind“ (siehe Abb. 3.3).
Abbildung 3.3: Erläuterungen im Text
32
3. Moleküle der Erbinformation
Das Programm übersetzt die DNA-Sequenz in alle sechs Leserahmen. In einer Grafik wird die Position für jeden gefundenen ORF angezeigt, der sich mindestens über einen Sequenzabschnitt von 100 bp (Standardeinstellung) erstreckt. Diese Einstellung kann über ein Pull-down-Menü in ORFs von 50 bzw. 300 bp geändert werden. Des Weiteren können die ORFs angeklickt werden, um mehr Informationen über das Protein (AS Reihenfolge, Protein Länge) zu gewinnen. Die Sequenzen der vorausgesagten Proteinprodukte können direkt mit Hilfe des „Basic Local Alignment Search Tools“ (BLAST), einer Sequenzähnlichkeitssuche in einer Proteinsequenzdatenbank, weiter untersucht werden. Verschiedene genetische Kodierungen können für die Übersetzung der DNA- in die Proteinsequenz ausgewählt werden (Standard oder alternative genetische Kodierung für prokaryotische sowie eukaryotische Organismen stehen zur Verfügung). Alternativ können über die Funktion „SixFrames“ alle Start- und Stopkodons in allen sechs Leserastern angezeigt werden (siehe Abb. 3.4).
Abbildung 3.4: Erläuterungen im Text
Analyse der genomischen Sequenz von HBB (Accession no L48217) mit Hilfe des ORF-Finders. Das Ziel der Analyse ist die Identifizierung des kodierenden Gens einschließlich seiner Exon- und Intron-Sequenzen. 1. ORF-Finder (http://www.ncbi.nlm.nih.gov/gorf/gorf.html): Eingabe der Sequenz und „OrfFind“ mit dem genetischen Code „Standard“ 2. Ergebnis
3. Moleküle der Erbinformation
33
Das Ergebnis zeigt einen offenen Leserahmen im ersten Leseraster, drei offene Leserahmen im zweiten Leseraster und zwei offenen Leserahmen im dritten Leseraster sowie einen offenen Leserahmen in der reversen Kodierung. Welche Leserahmen sind sinnvoll und richtig? Welche Proteinsequenzen kodieren hier eventuell? Um diese Fragen zu beantworten, klicken Sie auf die zu untersuchenden Leserahmen und führen eine Sequenzähnlichkeitssuche über BLASTp durch. Sie erhalten für den ersten Leserahmen (217..402) im ersten Leseraster folgendes Ergebnis:
Die längste Übereinstimmung zeigt die Sequenz (Query) mit einer Sequenz des Schimpansen (Pan troglodytes; Sbjct = subject). Die beiden Sequenzen sind bis zur Aminosäure 45 zumindest ähnlich. Absolut identisch ist die Übereinstimmung bis zur Aminosäure 36. Der zweitbeste Treffer ist eine menschliche Sequenz. Hier zeigen die beiden Sequenzen eine 100%ige Übereinstimmung über einen Bereich von 32 Aminosäuren. Da meistens bekannt ist, aus welchem Organismus die Sequenz stammt, können Sie sich die Trefferanalyse erleichtern, indem Sie einen entsprechenen Filter anlegen (mehr zu BLAST-Einstellungen s. Kapitel 6). Die weiteren ORFs werden ebenfalls über eine BLAST-Suche analysiert. Für den langen Leserahmen des zweiten Leserasters (281..682) wird folgendes Ergebnis erzielt:
34
3. Moleküle der Erbinformation
Die beste Sequenzübereinstimmung mit dem Leserahmen ergibt ein Proteinabschnitt mit einer Globin-Region. Die Übereinstimmung betrifft die Aminosäuren 53 des Leserahmens und 31 in der gefundenen Sequenz. Die Länge der Übereinstimmung beträgt 81 Aminosäuren, d.h. bis zur Aminosäure 133 (Query) und 111 (Sbjct), obwohl das untersuchte Leseraster für 134 Aminosäuren kodiert. Der dritte Leserahmen (758..904) zeigt eine Region sehr geringer Komplexität (low complexity region), wie sie z.B. sehr oft in Introns zu finden ist, und kodiert nicht für eine Proteinsequenz.
Ebenso nicht-kodierend ist der vierte (1427..1615) und fünfte (1248..1361) Leserahmen. Der letzte Leserahmen (1482..1640) der positiven Leseraster +1 bis +3 zeigt wieder 100%ige Übereinstimmung zu einem Globin-Gen, der betaUntereinheit von Hämoglobin. Die Übereinstimmung beginnt bei Aminosäure 10 des offenen Leserahmens (Aminosäure 105 vom sbjct) und endet bei Aminosäure 52 (Aminosäure 147 vom sbjct).
3. Moleküle der Erbinformation
35
Über diese BLAST-Analysen sind die richtigen Leserahmen sowie die kodierenden Bereiche des Gens identifiziert worden. Im nächsten Schritt kann die Proteinsequenz der Hämoglobin-Untereinheit zusammengesetzt werden. Die Proteinsequenz setzt sich zusammen aus: MVHLTPEEKSAVTALWGKVNVDEVGGEALGRL des ersten Leserahmens, LVVYPWTQRLFESFGDLFTPDAVMGNPKVKAHGKKVLGAFSDGPAHLDNLKGTFATLSELHCDKL HVDPENFR des zweiten Leserahmens und LLGNVLVCVLAHHFGKEFTPPVQAAYQKVVAGVANALAHKYH des dritten Leserahmens.
Die Exon/Intron-Grenzen der Nukleotidsequenz können im ORF-Finder nach Aktivierung des entsprechenden Leserahmens bestimmt werden. „Take-home message“ für Molekularbiologen • Exonsequenzen können in verschiedenen Leserastern abgelegt sein. Durch den Vorgang des Spleißens wird ein langer offener Leserahmen auf der mRNA erzeugt. • Die offenen Leserahmen fangen hier zwar alle mit einem ATG (Methionin) an (sonst wären sie vom Programm nicht gefunden worden), die Sequenzabschnitte, die für die fertige mRNA benötigt werden, jedoch nicht. Diese Abschnitte sind nur Teilbereiche eines offenen Leserahmens.
SPLIGN Über SPLIGN (http://www.ncbi.nlm.nih.gov/sutils/splign/) können mRNA(cDNA) an genomische Sequenzen angelegt werden. Über einen veränderten NeedlemanWunsch-Algorithmus werden die globalen Sequenzausrichtungen berechnet. Introns und Spleißstellen-Signale werden erkannt. Sequenzierungsfehler werden toleriert. Im Folgenden ist eine Sequenzausrichtung (engl. Alignment) für das Beta-Hämoglobin-Gen erstellt worden. Die Accession-Nummern der Nukleotidsequenzen sind NM_000518 für die mRNA und L48217 für die genomische DNA. Gezeigt werden die translatierte Region (Strich über den Balken), die mRNA mit den zusammengesetzten Exons, die genomische DNA sowie die Sequenzausrichtungen in den entsprechenden Exons (Segmenten). Punktmutationen sowie Insertionen und Deletionen sind in der Übersichtsgrafik (Balken) als Striche im Segment wie auch ausführlich in der Sequenzausrichtung angegeben (Abb. 3.5).
36
Abbildung 3.5: Die Suchoberfläche und das Ergebnis in SPLIGN.
3. Moleküle der Erbinformation
3. Moleküle der Erbinformation
37
NHGRI’s GeneMachine GeneMachine (http://www.genome.gov/10001504) ist über das National Human Genome Research Institute (NHGRI) zugänglich und beabsichtigt, die vergleichenden und bestimmenden Genkennzeichnungs-Techniken in einem einzigen Durchlauf abzuarbeiten. Das Ergebnis gibt es im ASN.1-Format per e-mail (BetrachtungsSoftware: Sequin). Für die Anwendung ist eine Benutzer-Registrierung notwendig. Die integrierten Analyseprogramme sind GRAIL für die Vorhersage von internen kodierenden Exons, MZEF für die Vorhersage von kodierenden Exons, GENSCAN für die Vorhersage von Gen-Strukturen, FGENES für die Vorhersage von Gen-Strukturen, HMMgene für die Vorhersage von Genen in anonymer DNA, RepeatMasker für die Vorhersage von komplexen Regionen und Wiederholungssequenzen, Sputnik für die Vorhersage von Wiederholungssequenzen und BLASTX und BLASTN für die Vorhersage von Sequenz-Homologien. Weitere Software für die Vorhersage von Genen • Gnomon (http://www.ncbi.nlm.nih.gov/genome/guide/gnomon.html). • Von der Webseite der Fachzeitschrift „Nucleic Acids Research“ (http://nar.oxfordjournals.org/) führt ein Link zu NAR Methods online (http:// nar.oxfordjournals.org/collections/index.dtl). Auf dieser Seite sind Methoden der biotechnologischen Forschung nach unterschiedlichen Kategorien wie z.B. Computational Methods oder DNA Characterisation zusammengestellt und suchbar. So führt eine Suche nach „gene prediction“ (als PHRASE in ABSTRACT und TITLE gesucht) in Computational Methods zu sechs Artikeln aus NAR. Sammlungen großer und kleiner Analyse-Tools ! ExPASY – Expert Protein Analysis System Proteomics Server (http://www. expasy.org), einer der wichtigsten Webserver für die Suche und Analyse von Proteinsequenzen (Abb. 3.6). ! Sequence Manipulation Suite (http://bioinformatics.org/sms2/) ! Molecular Biology Gateways & Tools (http://www.biotools.info/tools.html) ! NAR Methods online (http://nar.oxfordjournals.org/collections/index.dtl)
38
3. Moleküle der Erbinformation
Abbildung 3.6: Die beiden wichtigsten Rubriken von ExPASy. ExPASy beherbergt u.a. eine der wichtigsten Datenbanken für Proteininformationen, UniProt Knowledgebase. Unter den Tools & Software packages gibt es eine große Sammlung nützlicher Programme für die Proteinanalyse. Sie sind thematisch nach den hier rechts aufgeführten Kriterien sortiert.
Literaturvorschläge
Die Vorgänge der Transkription und der Prozessierung (Polyadenylierung, Capping am 5’-Ende, Spleißen) des Primärtranskriptes sowie die Vorgänge der Translation und posttranslationaler Modifizierungen sind in folgenden Lehrbüchern ausführlich beschrieben: • Lehrbuch der Genetik von Wilhelm Seyffert, Rudi Balling, Astrid Bunse, HeinzGert de Couet. Spektrum Akademischer Verlag; Auflage: 2 (Oktober 2003). ISBN10: 3827410223 • Lehrbuch der Molekularen Zellbiologie von Bruce Alberts, Dennis Bray, Karen Hopkin. Wiley-VCH; Auflage: 3 (April 2005). ISBN-10: 3527311602
Übungen (1) Welchen genetischen Code würden Sie für die Translation von Moneuplotes crassus-Sequenzen anwenden? Was sind die Besonderheiten in diesem genetischen Code? (2) Charakterisieren Sie die Proteinsequenz SWISS_PROT Accn.no P35523 mit ProtParam, Compute pI/Mw und PeptideMass • Was sind die Parameter der potentiellen extrazellulären Domäne des Proteins (aa 858-988)? • Welche Peptide entstehen bei einem tryptischen Verdau des Proteins? (3) Welche Enzyme benötigen Selen als Co-Faktor?
4 Biowissenschaftliche Datenbanken Der Aufbau biowissenschaftlicher Datenbanken In den frühen 60er Jahren, kurz nach Bekanntwerden der ersten Proteinsequenzen, sammelten Margaret O. Dayhoff (1925–1983; erste Bioinformatikerin) und ihre Mitarbeiter alle zu der Zeit bekannten Proteinsequenzen und erstellten einen Katalog. Dieser wurde1965 als „Atlas of Protein Sequences and Structures“ publiziert und enthielt 65 Sequenzen. Was damals in einem kleinen Buch zusammengetragen wurde, war leicht zu recherchieren. Heute fallen Sequenzdaten von Proteinen und Nukleotiden in großen Mengen an und werden elektronisch gespeichert. Um diese Daten sinnvoll nutzen zu können, sollten sie nicht nur in einen Datenpool eingespeist werden, sondern vor der Ablage in einer einheitlichen Form beschrieben und kategorisiert (indexiert) werden. Nur so lassen sie sich über eine Datenbankabfrage wieder aus dem Datenpool extrahieren. Für die Datenbankabfrage sind verschiedene Abfragesysteme, so genannte „Retrieval“ Systeme, wie z.B. Entrez oder das Sequence Retrieval System (SRS) entwickelt worden. Datenbanken können unterschiedlich aufgebaut sein. Man unterscheidet zwischen hierarchischen, netzwerkartigen, relational strukturierten und objektorientierten Datenbanken. Für die Hinterlegung von Daten aus der experimentellen Forschung im Bereich der Lebenswissenschaften bilden die relationalen Datenbanken die größte und wichtigste Datenbankgruppe. Ein relationales System bietet das höchste Maß an Flexibilität zur Verknüpfung von Daten. Wie der Name schon sagt, stehen die Daten in einer relationalen Datenbank miteinander in Beziehung. Die Daten sind in Tabellen hinterlegt. Der Zugriffsweg zu den gespeicherten Informationen ist nicht festgelegt. Erst wenn eine Information benötigt wird, definiert der Anwender über die Suchabfrage den Weg zur Extraktion der Daten.
Auswahl und Beurteilung einer Datenbank Der erste Schritt bei einer Datenbanksuche ist die Wahl einer geeigneten Datenbank. Dem Wissenschaftler im Bereich der Lebenswissenschaften stehen heute ungefähr 41
42
4. Biowissenschaftliche Datenbanken
1000 Datenbanken zur Verfügung. Um es nicht dem Zufall zu überlassen, ob die Datenbank, die für die zu untersuchende Fragestellung benutzt wird, wirklich die optimale ist, sind daher die folgenden drei Überlegungen entscheidend: • Sind die Informationen, die ich suche, von genereller Art (z.B. alle Informationen zu einem Gen/Protein, zur genomischen Sequenz vom Chromosom „x“) oder spezieller Art (z.B. die 3-D-Struktur von Protein „x“, Genexpressionsdaten im Gewebe „x“ unter der Bedingung „y“)? • Aus der Dokumentation zu einer Datenbank geht hervor, woher die aufgenommenen Daten kommen, mit welchem Ziel die Datenbank erstellt wurde und welche Informationen zur Verfügung stehen. Nachdem Sie sich über die Datenbank informiert haben, sollten Sie abschätzen können, ob die Informationen, die Sie suchen, auch in der Datenbank enthalten sind. In einer guten Datenbank sollten alle Informationen mit den Originaldaten verknüpft bzw. die Quelle der Daten dokumentiert sein, wie z.B. bei Entrez-Gene (Zusammenstellung sämtlicher Informationen zu einem Gen) oder PDB (Protein Database; dreidimensionale Strukturen von Proteinen). • Soll eine Datenbank mit rohen, nicht überarbeiteten Daten, mit bearbeiteten/ bewerteten Daten oder mit ausgewerteten Daten benutzt werden? • Jede Datenbank hat Vor- und Nachteile. Wichtig ist, dass Sie mit den richtigen Daten für ihre Fragestellung weiterarbeiten. So ist es z.B. für das Auffinden von Spleißvarianten sinnvoll, mit rohen/primären Daten zu arbeiten, also eine Datenbank, die alle zur Verfügung stehenden Sequenzen, einschließlich Expressed sequence tag (EST)-Sequenzen, enthält, zu benutzen. Für die Charakterisierung von Proteinfunktionen ist es jedoch besser, Datenbanken mit bearbeiteten Daten zu benutzen, die schon sehr gut charakterisierte Proteine mit ähnlichen Domänen enthalten. Datenbanken werden daher nach ihrem Bearbeitungsstatus eingeteilt: • Primäre Datenbanken sind Archivdatenbanken mit rohen Daten, vielen Duplikaten und nicht kontrollierten und überarbeiteten Einträgen, z.B. GenBank/EMBL/DDBJ. • Sekundäre Datenbanken sind zum einen überarbeitete Datenbanken ohne Duplikate, mit prozessierten, (oftmals) kommentierten Daten wie z.B. bei den Datenbanken Swiss-Prot und RefSeq, zum anderen aber auch Datenbanken mit Datensätzen, die aus einer Auswertung anderer Datensätze hervorgehen wie z.B. bei den Datenbanken UniGene (ESTCluster) oder COG (Clusters of Orthologous Groups). • Wenn die Daten, die ich suche, in der Datenbank „x“ vermutet werden, sind sie dann so hinterlegt, dass genau diese Information auch suchbar ist? • Hinter dieser Überlegung steht die Frage nach der Suchoberfläche. So gibt es in PubMed z.B. viele Artikel, die im Methodenteil die angewendete Methode beschreiben. Leider bietet die Suchoberfläche für die Artikel in PubMed nicht die Möglichkeit, die Suche auf eine bestimmte experimentelle Methode zu fokussieren und die Suche unter diesem Aspekt einzugrenzen. Dies ist in anderen Datenbanken wie z.B. in „Biological Abstracts“, die von OVID angeboten wird, mit anderer Suchoberfläche besser gelöst.
4. Biowissenschaftliche Datenbanken
43
Datenbank-Übersichten In Anbetracht der großen Anzahl von existierenden Datenbanken ist die Frage, wo es Übersichten und zuverlässige Informationen zu den Inhalten und Anwendungsfeldern gibt. Im Folgenden sind die wichtigsten Quellen aufgeführt. Eine der umfassendsten Informationsquellen über Datenbanken für die Lebenswissenschaften ist die Fachzeitschrift „Nucleic Acids Research“ (NAR). Die jeweils erste Ausgabe eines Jahres beinhaltet eine Auflistung von öffentlich zugänglichen molekularbiologischen Datenbanken. Im Januar 2007 gab es hier 968 Einträge. Diese Datenbanken sind in folgende Kategorien eingeteilt: • Nucleotide Sequence Databases, RNA Sequence Databases, Protein Sequence Databases, Structure Databases, Genomics Databases (non-vertebrate), Metabolic and Signaling Pathways, Human and other Vertebrate Genomes, Human Genes and Diseases, Microarray Data and other Gene Expression Databases, Proteomics Resources, Other Molecular Biology Databases, Organelle Databases, Plant Databases, Immunological Databases. Viele dieser Datenbanken sind in einer Publikation beschrieben. Da es sich bei NAR um ein so genanntes „Open Access Journal“ handelt, sind alle Artikel frei über das Internet verfügbar. Der Weg zu der Datenbanksammlung ist wie folgt: • Gehen Sie zur Webseite von “Nucleic Acids Research” (NAR; http://nar.oxfordjournals.org/) • Klicken Sie auf den Link „2007 Database Issue“ (rechts; http://nar.oxfordjournals.org/content/vol35/suppl_1/index.dtl) • Der erste Artikel ist von Michael Y. Galperin und lautet: The Molecular Biology Database Collection: 2007 update. Unter diesem Artikel gibt es den Link zu den Datenbanklisten (Database Summaries; http://nar.oxfordjournals.org/cgi/content/full/35/suppl_1/D3/DC1). Hier kann in der „Category List“, der „Summary Paper List“ oder der „Complete Category/Summary Paper List“ gestöbert werden und/oder unter der Funktion „Search Summary Papers“ nach einem Datenbankartikel gesucht werden. Es lohnt sich, einmal in der „Category List“ zu stöbern. Weitere Datenbank-Übersichten gibt es unter den „Selected Resources“ der Informationsvermittlungsstelle von der Bio-Medizinischen Sektion der Max-Planck-Gesellschaft (http://wwwex.biochem.mpg.de/iv/external.html). Neben den hier behandelten kostenfreien Datenbanken gibt es Datenbanken, in denen die Recherche kostenpflichtig ist, so wie die MEDLINE-Recherchen, die man bis in die 90er Jahre in der Bibliothek über den Datenbankanbieter „Silverplatter“ durchführte. MEDLINE wurde von den Bibliotheken abonniert. An vielen Instituten ist heute der Zugriff auf viele Datenbanken und Zeitschriften über das Web of Knowledge bzw. Web of Science gewährleistet. Auch dieser Service ist kostenpflichtig. Bei anderen Datenbankanbietern wie z.B. dem deutschen Institut für Medizinische Dokumentation und Information (DIMDI) oder STN-International (Scientific & Technical Information Network) können die Datenbankrecherchen online durchgeführt werden. Die Kosten für eine Datenbankrecherche variieren je nach Anbieter und Datenbank. So kann die Verweildauer in einer Datenbank, die
44
4. Biowissenschaftliche Datenbanken
Dokumentenansicht oder beides kostenpflichtig sein. In sehr teuren Datenbanken, wie z.B. den Patentdatenbanken, ist es daher sehr wichtig, die Suchanfrage so präzise wie möglich zu stellen, um in möglichst kurzer Zeit nur die absolut relevanten Dokumente zu erhalten. Professionelle Suchdienste sind darauf spezialisiert, in den kostenpflichtigen Systemen zu recherchieren. Die Datenbanken des National Center for Biotechnology Information (NCBI) Das National Center for Biotechnology Information (NCBI) in Bethesda, Maryland wurde 1988 als zentrales Institut für Datenverarbeitung und Speicherung molekularbiologischer Daten gegründet. Es gehört zu den National Institutes of Health (NIH) der Vereinigten Staaten von Amerika. Auf den Webseiten des NCBI stehen die wichtigsten Nukleotid- und Proteindatenbanken sowie diverse Softwares der Bioinformatik zur Verfügung. Bei den Datenbanken des NCBI handelt es sich streng genommen um Datendomänen, da die Daten selbst aus verschiedenen Datenbanken zusammengetragen sind. Ein paar Beispiele sind: • Entrez-Nucleotides – beinhaltet die Datenbanken GenBank und „Patent sequences“ vom U.S. Patent and Trademark Office (USPTO) und anderen Patentämtern. • Entrez-Proteins – beinhaltet die Datenbanken GenPept, Swiss-Prot, Protein Data Bank (PDB) und andere. • Entrez-Conserved Domains – beinhaltet die Datenbanken Smart, Pfam, COG und andere. Die Recherchemöglichkeiten sind vielfältig. Zum einen können die Datendomänen über die NCBI-interne datenbankübergreifende Suchmaschine Entrez recherchiert werden, zum anderen über domänenspezifische Suchalgorithmen, wie z.B. BLAST (Basic Local Alignment Search Tool) für Nukleotid- und Proteinsequenzen oder VAST (Vector Alignment Search Tool) für ähnliche Proteinstrukturen. Die Datenbanken des European Bioinformatics Institute (EBI) Das EBI ist das europäische Äquivalent zum NCBI in den USA. Auch hier werden Datenbanken hergestellt, aktualisiert und verwaltet. Das EBI bietet einen Zugang zu den Datenbanken über verschiedene Suchoberflächen, wie z.B. das Sequence Retrieval System (SRS; startet mit einem Klick auf SRS Database Queries ganz unten auf der Homepage), durch das mehrere Datenbanken gleichzeitig durchsucht werden können. Ein Überblick über die Datenbanken steht unter dem Link „Databases“ (http://www.ebi.ac.uk/Databases/) zur Verfügung.
GenBank GenBank® (http://www.ncbi.nlm.nih.gov/Genbank/) ist die Sequenzdatenbank
4. Biowissenschaftliche Datenbanken
45
der NIH und eine Sammlung aller öffentlich zur Verfügung stehenden Nukleotidsequenzen. Es handelt sich bei GenBank demnach um eine reine Archivdatenbank, in der alle Sequenzen ohne weitere Beurteilung aufgenommen werden. Das bedeutet, dass sowohl Sequenzen von guter Qualität (Publishing Quality) als auch von schlechter Qualität, z.B. mit angehängten Vektorsequenzen, mit vielen Platzhaltern (N) oder mit fehlerhafter Rechtschreibung, wie z.B. „Phophate“ anstelle von „Phosphate“, in der Datenbank zu finden sind. GenBank ist eine von drei Datenbanken, die der Vereinigung „International Nucleotide Sequence Database Collaboration“ angehören. Die anderen beiden Datenbanken sind die EMBL Nucleotide Database (verwaltet vom European Molecular Biology Laboratory) und DDBJ (DNA Data Base of Japan). Diese drei Datenbanken vervollständigen ihren Datenpool täglich durch den Austausch der Neuzugänge in den jeweils anderen beiden Datenbanken. Somit handelt es sich bei den drei Datenbanken um einen identischen Pool an Daten. Es ist dem Benutzer überlassen, in welcher Datenbank er recherchiert. Alle Sequenzen sind im Sequenzformat GenBank Flat File hinterlegt. Dieses Format ist unter „Sequenzformaten“ in diesem Kapitel im Detail beschrieben.
RefSeq –NCBI’s Datenbank der Referenzsequenzen Die NCBI-Datenbank der Referenzsequenzen (http://www.ncbi.nlm.nih.gov/RefSeq) zielt darauf ab, einen vollständigen Satz an Sequenzen, einschließlich genomischer DNA, mRNA und Proteinprodukten ohne Duplikate zur Verfügung zu stellen. RefSeq unterliegt hohen Standards. Die Daten sind überarbeitet und die Datenbank bietet zuverlässige Informationen für die medizinische und biologische Grundlagenforschung. Die Haupteigenschaften der RefSeq Datenbank sind: • Nichtredundanz: Keine Duplikate. EIN Dokument für jedes Gen oder jede Spleißvariante von nur einem Organismus. • Nukleotid- und Proteinsequenzen sind explizit miteinander verbunden. • Jedes Dokument repräsentiert die aktuellen Erkenntnisse eines Gens oder Proteins. • Es erfolgt eine fortwährende Datenprüfung durch Mitarbeiter des NCBI. Informationen von Fachleuten werden hinzugefügt. • RefSeq ist über BLAST, Entrez und über NCBI-FTP zugänglich. Informationen sind auch in Entrez-Genome und Entrez-Gene vorhanden, sowie im NCBI’s MapViewer. RefSeq Accession-Nummern Das wichtigste Merkmal einer RefSeq Accession-Nummer ist der Unterstrich (_). Auch die beiden Kürzel am Anfang haben ihre Bedeutung. Die Informationen über die Accession-Nummern sind in der folgenden Tabelle zusammengestellt:
46
4. Biowissenschaftliche Datenbanken
Tabelle 4.1: RefSeq Accession-Nummern. Anmerkungen zur Spalte „Methode“: „Curation“: Diese Einträge unterlagen einer automatischen Verarbeitung sowie einer nachfolgenden Beurteilung durch einen Sachverständigen (vom NCBI Personal oder andere Experten). „Automated“: Diese Einträge durchliefen eine automatische Verarbeitung. Es erfolgte keine Bearbeitung und Beurteilung durch NCBI-Mitarbeiter oder andere Personen Accession-Nr. AC_123456
Molekül Methode Genomisch Mixed
AP_123456
Protein
NC_123456
Genomisch Curation
NG_123456 NM_123456 NM_123456789 NP_123456
Genomisch mRNA mRNA Protein
Curation Curation Curation Curation
NP_123456789 NR_123456
Protein RNA
Curation Curation
NT_123456
Genomisch Automated
NW_123456
Genomisch Automated
Mixed
NZ_ Genomisch Automated ABCD12345678 XM_123456
mRNA
Automated
XP_123456
Protein
Automated
XR_123456
RNA
Automated
YP_123456 ZP_12345678
Protein Protein
Automated Automated
Bemerkung Genomische DNA, vollständig sequenziert. Es handelt sich um eine alternative Zusammenstellung oder Beschreibung des Genoms (hauptsächlich für Einträge von Viren oder Prokaryoten). Protein, alternatives Proteinprodukt. Es handelt sich um eine alternative Zusammenstellung oder Beschreibung eines Proteins. Genomische DNA, vollständig sequenzierte Moleküle wie Chromosomen, Organellen oder Plasmide. Genomische Regionen/ Contigs. mRNA, Protein-kodierende Transkripte. Erweiterung von Accession-Nummern (geplant). Proteinprodukte; vorwiegend das vollständig translatierte Protein, aber auch partielle Proteine und fertige Peptide. Erweiterung von Accession-Nummern (geplant). Nicht-kodierende RNA-Transkripte, einschließlich Struktur-RNAs, transkribierte Pseudogene u.a. Genom-Zusammensetzung aus BAC SequenzDaten (evt. Zwischenstufen des Assembly). Genom-Zusammensetzung aus „Whole genome shotgun“ Sequenz-Daten (evt. Zwischenstufen des Assembly). „Whole genome shotgun “ Sequenz-Daten für ein spezielles Genom-Projekt. Die ersten vier Buchstaben sind der Projekt-Code. Modell-mRNAs, die bei der automatischen Genom-Annotierung gefunden werden. Die Sequenz ist die eines genomischen Contigs. Modell-Proteine, die bei der automatischen Genom-Annotierung gefunden werden. Die Sequenz ist die eines genomischen Contigs. Modelle von Nicht-translatierter RNA, die bei der automatischen Genom-Annotierung gefunden werden. Die Sequenz ist die eines genomischen Contigs. Bakterielle Proteine (Vorhersagen). Proteine, die in Sequenzen der NZ_ Accession-Nummern gefunden wurden (oft Computer-generiert).
4. Biowissenschaftliche Datenbanken
47
Status der RefSeq-Einträge Im jeweiligen Kommentarfeld „COMMENT“ der RefSeq-Einträge ist angegeben, in welchem Stadium der Prozessierung (provisorisch, vollständig überarbeitet etc.) sich das Dokument befindet. Hier befindet sich auch die GenBank-Accession-Nummer der Sequenz, die der Referenzsequenz zugrunde liegt. STATUS GENOME ANNOTATION
INFERRED
MODEL
PREDICTED
PROVISIONAL REVIEWED
VALIDATED
WGS
Definition Diese RefSeq-Sequenz kommt aus dem „NCBI Genome Annotation process“. Der Eintrag wurde automatisch erstellt und nicht weiter überarbeitet. mRNA und Protein korrespondieren meistens mit den Accession-Nummern der Modelltranskripte und Modellproteine aus RefSeq. „abgeleitet“, „gefolgert“. Diese RefSeq-Sequenz wurde aus genomischer Sequenzanalyse abgeleitet. Es gibt keine experimentellen Beweise für die vollständige Sequenz, sondern höchstens Homologien zu anderen Organismen. Diese RefSeq-Sequenz ist aus genomischer Sequenzanalyse abgeleitet und vorhergesagt worden. Es gibt erste Hinweise auf die Existenz, eventuell gezeigt anhand von Transkripten oder Homologien. Diese RefSeq-Sequenz ist eine Vorhersage für eine Sequenz, die aber noch nicht weiter beurteilt und bearbeitet wurde. Hinweise auf ein Transkript kommen von existierenden cDNA-Klonen, ESTs oder Homologien. Proteine sind in jedem Fall vorhergesagt. Diese RefSeq-Sequenz wurde noch nicht vollständig überarbeitet. Es gibt starke experimentelle Beweise für die Existenz des Transkriptes oder Proteins. Diese RefSeq-Sequenz wurde von NCBI-Mitarbeitern oder externen Mitarbeitern vollständig überarbeitet. Der Prozess der Überarbeitung beinhaltet oft auch die Durchsicht der für die Sequenz relevanten Literatur und anderer Informationsquellen. Für diese RefSeq-Sequenz hat der Überarbeitungsprozess begonnen. Die Sequenz ist meistens überarbeitet, die Hinweise auf Gen/Proteinfunktion aus der Literatur fehlen eventuell noch. Dieser RefSeq-Eintrag repräsentiert eine Sammlung aus „Whole Genome Shotgun“ (WGS) Sequenzen. Der Status WGS wird an genomische Sequenzen vergeben.
48
4. Biowissenschaftliche Datenbanken
ONLINE-Übung zu den Datenbanken GenBank und RefSeq Vergleichen Sie die Einträge aus GenBank und RefSeq für das CFTR-Gen des Menschen. Suchanfrage auf der NCBI-Homepage: NM_000492 OR M28668 • Was haben sie gemeinsam, worin unterscheiden sich die Einträge?
UniProt – Universal Protein Resource
Die Datenbank UniProt wurde im Jahre 2002 vom UniProt Konsortium ins Leben gerufen. Das Konsortium setzt sich aus Mitgliedern des European Bioinformatics Institute, Hinxton UK (EBI, http://www.ebi.ac.uk/), dem Swiss Institute of Bioinformatics, Genf CH (SIB, http://www.isb-sib.ch/) und dem PIR (Protein Information Resource Washington DC, USA, http://pir.georgetown.edu/pirwww/pirhome3. shtml) zusammen. Ihr Ziel war es, eine öffentliche Datenbank mit Informationen von hoher Qualität und mit Daten von minimaler Redundanz herzustellen. Noch heute sind alle Mitglieder des Konsortiums an den Aktualisierungen und an der Weiterentwicklung der Datenbank beteiligt. Streng genommen ist UniProt eher eine Datendomäne als eine Datenbank, da sie sich aus drei großen Datenbanken zusammensetzt, der UniProt Knowledgebase (SwissProt und TrEMBL), UniRef und UniPark. UniProt Knowledgebase (UniProt KB) UniProtKB ist die zentrale Quelle für Informationen zu Proteinen und Proteinfunktionen. Alle Einträge sind so weit wie möglich mit Beschreibungen (Annotationen) versehen, die aus zuverlässigen Ressourcen stammen und in sich konsistent sind. Die notwendigen Informationen (core data) für einen Eintrag in UniProtKB sind die Proteinsequenz, der Proteinname (oder eine Beschreibung), die taxonomischen Informationen und Literaturangaben. Wenn möglich werden weitere Annotationen wie z.B. Ontologien, Klassifikationen und Querverweise hinzugefügt. Die Daten in UniProtKB werden in zwei Gruppen eingeteilt, die aus Gründen der Wiedererkennung unter den Namen „SwissProt“ und „TrEMBL“ laufen. In der Datenbank-Kategorie „SWISS-PROT“ handelt es sich um manuell ausgewertete und annotierte Daten. Die Einträge können den Status „Standard“ (voll überarbeitete Daten) oder „Preliminary“ (Daten noch nicht vollständig überarbeitet) enthalten (siehe Abb. 4.1). Neben den oben genannten Hauptdaten (Core data) sind u.a. die Proteinfunktion, die posttranslationalen Modifikationen (Phosphorylierung etc.), die Domänen und Motive (z.B. Ca-bindende Regionen, ATP-Bindungsstellen, Zink-Finger, Homeobox, etc.), die Sekundärstruktur und Quartärstruktur (z.B. Homodimer, Heterotrimer), homologe und ähnliche Proteine sowie Mutationen und krankheitsbezogene Angaben aufgeführt. Mit „TrEMBL“ (Translations of EMBL) wird der Datensatz der Datenbank bezeichnet, der aus einer computergestützten Auswertung von den Proteinsequen-
4. Biowissenschaftliche Datenbanken
49
Abbildung 4.1: In der UniProt-Kategorie SwissProt sind Daten aus unterschiedlichsten Ressourcen zusammengetragen und miteinander verknüpft.
zen aus EMBL hervorgeht. Die Einträge sind noch nicht voll manuell bearbeitet und daher noch nicht in SWISS-PROT aufgenommen. UniRef – UniProt Non-redundant Reference Databases UniRef setzt sich aus drei Datenbanken mit unterschiedlichem „Cut-off“ zusammen: • UniRef100 – In UniRef100 sind identische Sequenzen und Fragmente derselben Spezies unter derselben Accession-Nummer (ID) zusammengefasst. Die Verknüpfungen zu den korrespondierenden UniProt- und UniParc-Einträgen sind vorhanden. • UniRef90 und UniRef50 – Diese Datenbanken umfassen die Cluster aus UniRef100 mit 11 oder mehr ähnlichen Sequenzen, plus den Sequenzen, die mindestens 90% (bzw. 50%) Identität aufweisen (aus mehreren Organismen). Dies sind Datenbanken mit ca. 40% (bzw. 65%) weniger Einträgen. Dadurch wird eine sehr viel schnellere Sequenzähnlichkeitssuche ermöglicht.
50
4. Biowissenschaftliche Datenbanken
Für die Erstellung von UniRef-Clustern ist eine Rangordnung für die Sequenzauswahl vorgegeben. Die Kriterien einer Referenzsequenz sind (in dieser Reihenfolge): ihre Qualität (Swiss-Prot Einträge sind bevorzugt), ihr Name (es sollte möglichst kein „hypothetical“, „probable“ oder ähnliches vorkommen), der Organismus (Modell-Organismen sind bevorzugt) und die Sequenzlänge (sie sollte möglichst lang sein). UniParc – UniProt Archive UniParc ist das Archiv für Proteinsequenzen. Das Hauptmerkmal dieser Datenbank jedoch ist ihre geringe Redundanz der Daten. Jede Sequenz ist nur einmal in UniParc vorhanden, obwohl sie in vielen Datenbanken (und dort eventuell auch mehrfach) existiert. In UniParc wird eine ID/Sequenz vergeben (mit Änderungsstatus) und in diesem Eintrag auf die Ursprungsdatenbanken verwiesen. Die Proteinsequenzen in UniParc kommen von den Datenbanken UniProtKB, EnsEMBL database of animal genomes, International Protein Index (IPI), Protein Data Bank (PDB), NCBI‘s Reference Sequence Collection (RefSeq), Datenbanken von Modell-Organismen wie z.B. FlyBase und WormBase und den europäischen, amerikanischen und japanischen Patentämtern. Die Recherche in UniProtKB
Abbildung 4.2: Die Suchoptionen für UniProtKB.
Sequenzformate Sequenzformate geben die Art und Weise vor, wie die DNA- oder Aminosäuresequenz in einer Datei hinterlegt wird. Sequenzen sind in den Datenbanken einheitlich formatiert wie z.B. im GenBank Flat File Format oder im EMBL-Format. Über Umwandlung der Formate ist es möglich, die Sequenzen in einer anderen Formatierung anzusehen und abzuspeichern. Dies ist notwendig, um Sequenzen z.B. mit Hilfe von Sequenz-Analyse-Programmen zu untersuchen oder charakterisieren zu können. Diese Programme verlangen nach einer bestimmten Formatierung für die
4. Biowissenschaftliche Datenbanken
51
Sequenz (z.B. FASTA Format). Damit ist gewährleistet, dass die Software die Eingabe erkennt und bearbeitet. Häufige Sequenzformate sind (alphabetisch geordnet): ALN/ClustalW beschreibt alinierte Sequenzen. Es gibt Zeilen mit je 60 Buchstaben, angegeben jeweils mit (w = with) oder ohne (wo = without) Angabe der Nummerierung. Jeder Block zeigt die Sequenznamen am Anfang der Zeilen. In der letzten Zeile wird die Konsensussequenz mit Hilfe von folgenden Sonderzeichen angegeben: „*“ identische Base bzw. AS, „:“ conserved substitutions, „.“ semi-conserved substitutions. GCG/MSF-Format beinhaltet im ersten Abschnitt Informationen über die Sequenz und im zweiten Abschnitt die Sequenz selbst. Beide Abschnitte sind durch zwei Punkte (..) voneinander getrennt. GenBank Flat File beinhaltet ebenfalls einen Abschnitt mit Informationen über die Sequenz und einen Abschnitt mit der Sequenz und beschriebenen Charakteristika. Alle Informationen sind indexiert (Details über die Indexierung s. unten). FASTA (Pearson) beinhaltet die rohe Sequenz und eine Überschriftszeile. Die erste Zeile beginnt mit „>“, gefolgt von max. 80 Zeichen, dann folgt ein Zeilenumbruch mit der rohen Sequenz in der 2. Zeile; wichtiges Format für viele Sequenzanalyse-Programme. Die Sequenzen, die am NCBI im GenBank-FlatFile-Format abgerufen werden, können über das Display Pull-down-Menü mit nur einem Mausklick in das FASTA-Format umgewandelt werden (Einstellung wechseln zu „FASTA“ anstelle von „Summary“)! PROSITE-Format beschreibt Protein-Muster in einer Kodierungssprache (Details über die Kodierung s. unten). Raw beinhaltet die rohe Sequenz ohne Zahlen und Zwischenräume. UniProt-Format beinhaltet indexierte Informationen über die Sequenz und die beschriebenen Charakteristika. Die Informationen sind mit den Quellen, aus denen sie kommen, verknüpft (Details über die Darstellung einer Sequenz im UniProt-Format s. unten). Weitere Sequenzformate sind AMPS Block file format, Codata, EMBL, GDE, NBRF/ PIR, PDB format, Pfam/Stockholm format, Phylip, RSF und UniProtKB/SwissProt. Für mehr Informationen zu diesen Sequenzformaten siehe http://www.ebi.ac.uk/ clustalw/index.html. Das Sequenzformat „GenBank Flat File“ Aufgrund der Indexierung der Daten können die Informationen aus den einzelnen Datenfeldern gezielt abgefragt werden. Eine Recherche ist für jedes Feld der Datenbank möglich. Die Kürzel der Datenbankfelder sind unten mit aufgeführt. Ihre Anwendungen werden unter Entrez (Kap. 5) genau beschrieben. Ein Beispiel eines GenBank-Eintrages steht am NCBI unter dem Link GenBank Sample Record (http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html) und im Folgenden zur Verfügung.
52
4. Biowissenschaftliche Datenbanken
LOCUS
SCU49845
DEFINITION
Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p
5028 bp
DNA
PLN
21-JUN-1999
(AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION
A (Basen-Austausch von Guanin an Position 1162 gegen Adenin) oder 409-410insC (Insertion von C zwischen den Nukleotiden 409 und 410). Bei 6232-6236del oder 6232-6236delATAAG gibt es eine Deletion von fünf Nukleotiden, der Startpunkt ist bei der Nukleotidposition 6232. Veränderungen innerhalb von Introns werden mit der Intronnummer oder einer Basennummerierung der cDNA (Nummerierung der Exonsequenzen) angegeben, wie z.B. bei 621+1G>T oder IVS4+1G>T. Hier wurde G gegen T an der ersten Base vom Intron 4 (IVS4) ausgetauscht. Exon 4 endet hier mit der Base 621; das G folgt danach mit +1. Genomische bzw. cDNA kann mit den Kleinbuchstaben g. und c. angegeben werden.
Online Mendelian Inheritance in Man (Entrez-OMIM) OMIM ist eine bibliografische Volltext-Datenbank (Fulltext Knowledgebase) menschlicher Gene und Erbkrankheiten. Eine Aktualisierung und Bearbeitung erfolgt von Dr. Victor McKusick (Initiator, Johns Hopkins University) und Mitarbeitern. Der Katalog Mendelian Inheritance in Man wurde erstmals 1960 publiziert und 1995 über das NCBI online zugänglich gemacht. Die Einträge enthalten Informationen sehr unterschiedlicher Art, wie z.B. eine Beschreibung des Gens und/ oder der genetischen Krankheit, biochemische und molekularbiologische Daten, zytogenetische Information und Information zur Kartierung, Informationen zu Populationsgenetik und allelischer Varianz, Diagnose und Therapie der genetischen Krankheit, Tiermodelle der Krankheit. Die Datenbank-Kategorie “Allelic Variants” enthält ausgesuchte Mutationen. Hierbei stehen die krankheitsbezogenen Mutationen im Vordergrund und nur wenig neutrale Polymorphismen sind aufgeführt. Die Zuordnung der Mutation erfolgt mit Hilfe einer 10-stelligen OMIM-Nummer (z.B. 141900.0003). Die erste 6-stellige OMIM-Nummer ist die Zugriffsnummer der Datenbank, die 4-stellige Nummer nach dem Punkt ist die Zugriffsnummer für eine spezifische Mutation. Jede OMIM-Nummer hat ein kleines vorangestelltes Zeichen. Dieses Zeichen steht für die Art der beschriebenen Mutation. So handelt es sich bei Einträgen mit einem * um Gene mit bekannter Sequenz, bei einem + um Gene mit bekannter Sequenz und bekanntem Phänotyp, bei # um phänotypische Beschreibungen mit einem Zusammenhang zu molekularen Erkenntnissen (z.B. gewonnen über Familienanamnesen), bei % um beschriebene Phänotypen, die einem Erbgang nach Mendel folgen, bei keinem vorangestellten Zeichen um phänotypische Beschreibungen, bei denen eine Vererbung nach den Mendelschen Gesetzen vermutet wird, aber nicht bewiesen ist. Die Recherche in Entrez-OMIM Die Limit-Optionen unter Entrez-OMIM sind in Abbildung 8.1 dargestellt. Eine Suchanfrage nach einer Mutation kann über mehrere Wege angesteuert werden. Zum einen kann in OMIM nach einem Gen oder einer genetischen Krankheit gesucht werden. Die Informationen zu allelischen Variationen wären in so einem Eintrag enthalten, soweit genetische Veränderungen bekannt sind. Zum anderen kann unter der Verwendung von “Limits” die Suche auf Einträge mit einer beschriebenen Mutation (“Only Records with: Allelic Variants“) oder auf Einträge im Datenbankfeld “Allelic Variants” eingeschränkt werden. Mit dieser Sucheinstellung werden nur Treffer angezeigt, die Einträge in dem Datenbankfeld „Allelic Variants“ aufweisen, bzw. bei denen mit der Suchanfrage Ergebnisse in dem Feld „Allelic Variants“ gefunden wurden.
Abbildung 8.1. OMIM ist eine Entrez-Datenbank und gewährt eine Suche nach Entrez-Kriterien.
Übungen für die Recherche in OMIM (1) Gesucht werden Informationen für das Gen ATP7A. • Welche Krankheit wird durch Mutationen in diesem Gen hervorgerufen? Lösungsansatz: Für die Beantwortung der Frage genügt eine einfache Suche in EntrezOMIM nach atp7a (12 Treffer, Stand: Jan. 2007). Der erste Treffer ist relevant. Eine Mutation in diesem Gen kann zu den Krankheiten „Menkes Disease“ oder „Cutis Laxa“ (Occipital horn syndrome) führen. • Wie viele Mutationen sind in OMIM beschrieben? Lösungsansatz: OMIM ist eine bibliografische Datenbank. Die Einträge haben ein Inhaltsverzeichnis im blau unterlegten Bereich auf der linken Seite. Wenn es sich um einen Eintrag mit * handelt, gibt es in diesem Bereich einen Link zu „View List“. Dieser Link führt zu einer Liste der Mutationen (Allelic Variants), in der die Mutationen in Kurzform beschrieben sind.
Abbildung 8.2: Die Liste der Mutationen im ATP7A-Gen. Erläuterungen im Text.
Wie oben erwähnt, handelt es sich bei der Auflistung in OMIM um ausgewählte Mutationen. Alle beschriebenen Mutationen in diesem Gen können in der Datenbank dbSNPs recherchiert werden. (2) Gesucht werden folgende Genvariationen in OMIM: • PAX3: eine Deletion in Exon 4 des Gens PAX3 • Eine Inversion im Gen F8C • Eine Insertion von LINE Sequenzen im Gen F8C Lösungsansatz: • PAX3-Suchanfrage: pax3 AND (DEL[var] AND EX4[var]) • Inversion im Gen F8C. Suchanfrage: f8c AND (inv[var]) • Insertion von LINE Sequenzen im Gen F8C. Suchanfrage: F8C AND (line[var] AND ins[var])
dbSNP, die Datenbank für “Single Nucleotide Polymorphisms” Die Datenbank dbSNP wurde im September 1998 eingeführt und enthält z.Z. mehr als 12,7 Mill. SNP Cluster für das menschliche Genom (Stand: Jan 2007). Diese SNPs können sowohl SNPs mit klinischer Relevanz als auch neutrale SNPs sein. Die Datenbank ist nicht spezies-spezifisch, der Fokus liegt jedoch auf den Genomen der allgemeinen Modellorganismen. Die dbSNP beinhaltet nicht nur SNPs, sondern auch
STRs (short tandem repeats) und kurze DIPs (Deletions-Insertions-Polymorphismen). In der Datenbank sind die Daten in zwei Kategorien eingeteilt. Zum einen handelt es sich um „submitted data“ (eingereichte Daten), zum anderen um „computed data“ (berechnete Daten). Die eingereichten Daten sind die ursprünglichen Daten der Wissenschaftler. Die Accession-Nummern dieser Daten fangen mit ss an (Submitted SNPs, z.B. ss 5586300). Aus diesen Daten werden die Referenz-SNP-Cluster erstellt, die einer regelmäßigen Aktualisierung unterliegen. Nichtredundante SNPs erhalten ebenfalls eine einmalige RefSNP-Accession-Nummer. Die Accession-Nummer für Reference-SNP-Cluster beginnt mit „rs“ (z.B. rs2266788). Wenn die Datenbank aufgrund vieler neuer Daten vollständig überarbeitet wird, dann wird eine neue Version, ein „build“, veröffentlicht. Die aktuelle Version ist z. Z. BUILD 126, d.h. die Datenbank wurde schon 126-mal vollständig überarbeitet (Stand: Jan 2007). Die Datenbank dbSNP ist eine nicht-redundante Sammlung an SNPs, redundante Einträge werden dem zugehörigen RefSNP Cluster zugeordnet. Darüber hinaus werden die Daten validiert. Die Methoden für eine Bewertung der SNPs (echt/unecht) erfolgen entweder über die Häufigkeit (Validated by multiple, independent submissions to the refSNP cluster; Validated by frequency or genotype data: minor alleles observed in at least two chromosomes; All alleles have been observed in at least two chromosomes apiece) oder über die Aussagen der Wissenschaftler und andere Projekten der Genotypisierung (Validated by submitter confirmation bzw. Genotyped by HapMap project). Die Recherche in dbSNP Die Suche in der Datenbank kann über verschiedene Wege erfolgen. Zum einen gibt es auf der SNP-Homepage (http://www.ncbi.nlm.nih.gov/projects/SNP/) die Möglichkeit, über die Accession-Nummern, über die Autoren oder nach SNPs zwischen zwei Markern zu suchen, zum anderen unterliegt dbSNP den Suchfunktionen von Entrez. In Entrez-SNP stehen dem Anwender unter „Limits“ viele Möglichkeiten für eine fokussierte Suchanfrage zur Verfügung. Zur Auswahl stehen Sucheinschränkungen über die SPN-Klasse (Function class – coding non-synonymous, intron, etc. sowie SNP class – in del, microsat., etc.), über die Chromosomen-Nummer (W und Z für “non-mammals”), über den Organismus, über Angaben zum Allel (Observed Alleles), über die Angabe zur Häufigkeit (Map Weight – wie oft im Genom), über die Angaben zur Validierung des SNPs (Type of validation und Success Rate (Wahrscheinlichkeit für die „Echtheit“ eines SNPs), zur Heterozygotie (% Heterozygosity) sowie über Angaben zur Methode, mit der der SNP gefunden wurde (Method class). Alternativ zu einer Anwendung von Limits können komplexe Suchanfragen über Suchfeldqualifizierungen aufgebaut werden. Die Suchfeld-Kürzel sind im Detail auf der Homepage von Entrez-SNP beschrieben (http://www.ncbi.nlm.nih.gov/entrez/ query.fcgi?db=Snp) (siehe Abb. 8.3). Weitere Möglichkeiten für eine Recherche in der dbSNP bestehen über eine Sequenzähnlichkeitssuche, BLAST SNP (siehe BLAST-Homepage unter „special“) sowie über den MapViewer. Die aus dbSNP erstellte Chromosomenkarte heißt „Variation map“ und kann unter der „Maps & Options“-Funktion des MapViewers aufgerufen werden.
Abbildung 8.4 (linke Seite und oben): Die Datenbank dbSNP steht sowohl für Text-Suchanfragen (über Entrez) als auch für Sequenzähnlichkeitssuchen und Genom-Browsing zur Verfügung. In der Abbildung ist die Suchoberfläche für eine BLAST-Suche gegen dbSNP gezeigt.
Die Ergebnisanzeige in dbSNP Die Informationen für ein SNP-Cluster sind in die allgemeinen Angaben zum Cluster wie z.B. Organismus, Molekülart und Autorenangaben (Submitter records for this RefSNP Cluster) und in die Kategorien für die detaillierten Sequenzinformationen wie z.B. „FASTA Sequence“, „ Gene View“, „Map View“, „Population Diversity“ und „Validation Summary“ unterteilt. Die flankierende Sequenz des Basenaustausches ist jeweils die längste Sequenz, die für den SNP an dieser Stelle beschrieben wurde. Der Basenaustausch ist mit der flankierenden Sequenz in der IUPAC-Kodierung dargestellt (z.B. ACTAGTATTT Y TATGAAA, siehe Kap. 3). Beispiele für Polymorphismen sind z.B. A/– (A oder Deletion der Base an dieser Stelle), –/(Alu) (mögliche Insertion eines Repeat-Elementes; das Repeat-Element ist mit Namen genannt), (AT) 8/9/10/11/12/13 (mögliches Vorkommen einer Dinukleotidsequenz mit 6 Allelen; das Motiv ist nicht in allen Individuen konserviert) oder (heterozygous) (die Methode konnte nur das Vorkommen einer Heterozygotie zeigen).
Abbildung 8.5: Die Ergebnisanzeige für die Suchanfrage CFTR AND human[orgn] AND „snp omim“[Filter] AND („in del“[SNP Class] OR „snp“[SNP Class]). Die Suche ergab zwei Treffer in der Datenbank. Die Erklärung zur Grafik (Graphic Summary) kann unter dem Menüpunkt „Legende“ durch einen Maus-Klick aufgerufen werden. Die gesuchten SNPs sollten für das menschliche Gen CFTR beschrieben sein, einen Eintrag in OMIM haben und entweder eine Insertion oder Deletion oder einen echten Single nucleotide polymorphism aufweisen.
Die Ergebnisse können in unterschiedlichen Formaten angezeigt werden. Die Display-Optionen sind in Abbildung 8.6 dargestellt. Die Standardeinstellung ist die Anzeige der Übersichtsgrafik (Graphic Summary). Über dieses Pull-down-Menü können auch „Hardlinks“ zu anderen Entrez-Datendomänen aufgerufen werden. Ebenso wie in anderen Entrez-Domänen können die Treffer zusätzlich noch nach verschiedenen Gesichtspunkten sortiert werden (siehe Abb. 8.6).
Abbildung 8.6: Die „Display“- und Sortierungs-Funktionen in dbSNP. Erläuterungen im Text.
Methoden zur Identifizierung und Validierung von Polymorphismen Die Methoden zur Identifizierung und Charakterisierung von SNPs sind vielfältig. In der Datenbank dbSNP kann die Recherche über eine Methode der Wahl fokussiert werden (siehe Abb. 8.7). Einige Methoden wie die denaturierende (D)HPLC können nur das Vorhandensein einer Veränderung erkennen, nicht die genaue Sequenzveränderung für die Identifizierung von Polymorphismen. Die resultierenden Daten werden dann mit einem empirischen Maß an Heterozygotie beschrieben (geschätzte Heterozygotie).
Abbildung 8.7: Suchmaske zur Recherche von SNPs über dieselbe Methode, die zur Auffindung des Polymorphismus angewandt wurde (siehe Entrez-SNP – „Limits“).
Webadressen NCBI-Datenbanken für DNA-Polymorphismen • Entrez-OMIM (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM) • SNP-Homepage (http://www.ncbi.nlm.nih.gov/projects/SNP/) • Entrez-SNP (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Snp) • Entrez-PopSet – die Datenbank der Populations-Studien (http://www.ncbi.nlm. nih.gov/entrez/query.fcgi?db=PopSet) Für weitere Datenbanken s. „Nucleic Acids Research – Database Issue“ (s. Kap. 4) Nomenklatur für Mutationen • den Dunnen JT, Antonarakis SE. Nomenclature for the description of human sequence variations. Hum Genet. 2001 Jul;109(1):121-4. (PMID: 11479744) • den Dunnen JT; description of sequence variants – HGVS mutation nomenclature (http://www.hgvs.org/mutnomen/)
Übungen (1) Suchen Sie nach Referenz-SNPs für menschliche Polymorphismen von Mikrosatelliten-DNA (kurzen Wiederholungssequenzen). Wie können Sie schnell sehen, welche Submitted-SNPs (ss#) im Cluster vorkommen? • Welche SNPs haben ein Allel für A oder C (M) bzw. A, C oder T (H)? (2) Wie viele SNPs befinden sich auf dem X-Chromosom zwischen den STS-Markern DXS1501 und WI-21664? Sortieren Sie die SNPs nach der Reihenfolge ihres Vorkommens. (3) Mutationen im BRCA1-Gen werden für die Erkrankung an Brustkrebs in jungen Jahren verantwortlich gemacht. Suchen Sie nach allen nicht synonymen SNPs für BRCA1. Wie viele SNP-Cluster können Sie finden? Zeigen Sie die Einträge auch auf einer Chromosomenkarte.
Anhang 1 Tabellen Tabelle 1. Limits Available by Database (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=helpentrez.table.EntrezHelp.T6) Databases Limits Search Fields Exclude ESTs Exclude STSs Exclude GSSs Exclude Working Draft Exclude Patents Molecule Type Gene Location Segmented Sequences Database Source Modification Date
Nucleotide Yes
Core Nucleotide Yes
Yes
EST GSS Yes
Yes
Yes
Yes
Yes
Pop Set Yes
No
No
No
No
No
No
No
Yes
Yes
No
No
No
No
No
No
Yes
No
No
No
No
No
No
No
Yes
Yes
No
No
No
No
No
No
Yes
Yes
No
No
Yes
No
No
No
Yes
Yes
Yes
Yes
No
No
No
No
Yes
Yes
No
No
Yes
No
No
No
Yes
Yes
no
no
Yes
No
No
No
Yes
Yes
Yes
Yes
Yes
No
No
No
Yes
Yes
Yes
Yes
Yes
No
No
No
145
Protein Genome
Structure
146
Anhang
Tabelle 2. Search Fields Available by Database (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=helpentrez.table.EntrezHelp.T7)
Search Field Descriptions and Qualifiers Accession All Fields Author Name EC/RN Number Feature Key Filter Gene Name Issue Journal Name Keyword Modification Date Molecular Weight Organism Page Number Primary Accession Properties Protein Name Publication Date SeqID String Sequence Length Substance Name Text Word Title Word Uid Volume
Databases Protein Genome Structure PopSet Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No Yes No Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes Yes Yes Yes No No No Yes Yes Yes Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes No Yes Yes Yes No Yes Yes Yes Yes Yes Yes Yes No Yes Yes Yes No No Yes No Yes No Yes Yes Yes Yes Yes Yes No No No No No No Yes Yes Yes Yes
147
Tabellen
Tabelle 3. Search Field Descriptions and Qualifiers Corenucleotide Database (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=helpentrez.table.EntrezHelp.T8) Index Search Field Definition Accession Contains the unique accession number of the sequence or record, assigned to the nucleotide, protein, structure, genome record, or PopSet by a sequence database builder. The Structure database accession index contains the PDB IDs but not the MMDB IDs. Example : AF123456[accn] All Fields Contains all terms from all searchable database fields in the database. Author Contains all authors from all references in the database records. The format is last name space first initial(s), without punctuation (e.g., marley jf). EC/RN Number Number assigned by the Enzyme Commission or Chemical Abstract Service (CAS) to designate a particular enzyme or chemical, respectively. Feature Key Contains the biological features assigned or annotated to the nucleotide sequences and defined in the DDBJ/EMBL/GenBank Feature Table (http://www. ncbi.nlm.nih.gov/projects/collab/FT/index.html). Not available for the Protein or Structure databases. Filter Contains predetermined or filtered subsets of the various databases. These subsets or filters are created by grouping records that are commonly linked to other Entrez databases or within the same database. For example, the PopSet database Filter index includes PopSet all, PopSet medline, PopSet nucleotide, and PopSet protein. The PopSet medline filter includes all PopSet records with links to PubMed; the PopSet nucleotide filter includes all PopSet records with links to the nucleotide database; and, the PopSet protein filter includes all PopSet records with links to the protein database. The PopSet all filter includes all PopSet records. Gene Name Contains the standard and common names of genes found in the database records. This field is not available in Structure database. Issue Contains the issue number of the journal in which the data were published.
Qualifier [ACCN] or [ACCESSION]
[ALL] or [ALL FIELDS] [AUTH] or [AUTHOR] [ECNO]
[FKEY]
[FILT] or [SB]
[GENE]
[ISS] or [ISSUE]
148
Anhang
Tabelle 3 (fortgesetzt). Search Field Descriptions and Qualifiers Corenucleotide Database Index Search Field Definition Keyword Contains special index terms from the controlled vocabularies associated with the GenBank, EMBL, DDBJ, SWISS-Prot, PIR, PRF, or PDB databases. Browse the Keyword indexes of the individual databases to become familiar with these vocabularies. A Keyword index is not available in the Structure database. Journal Name Contains the name of the journal in which the data were published. Journal names are indexed in the database in abbreviated form (e.g., J Biol Chem). Journals are also indexed by their by ISSNs. Browse the index if you do not know the ISSN or are not sure how a particular journal name is abbreviated. Modification Date Contains the date that the most recent modification to that record is indexed in Entrez, in the format YYYY/MM/DD (e.g., 1999/08/05). A year alone (e.g., 1999) will retrieve all records modified for that year; a year and month (e.g., 1999/03) retrieves all records modified for that month that are indexed in Entrez. Organism Contains the scientific and common names for the organisms associated with protein and nucleotide sequences. Page Number Contains the number of the first journal page of the article in which the data were published. Primary Accession Contains the primary accession number of the sequence or record, assigned to the nucleotide, protein, structure, genome record, or PopSet by a sequence database builder. A Primary Accession index is not available in the Structure database. Properties Contains properties of the nucleotide or protein sequence. For example, the Nucleotide database‘s Properties index includes molecule types, publication status, molecule locations, and GenBank divisions. A Properties index is not available in the Structure database. Protein Name Contains the standard names of proteins found in database records. Common names may not be indexed in this field so it is best to also consider All Fields or Text Words. A Protein Name index is not available in the Structure database.
Qualifier [KYWD] or [KEYWORD]
[JOUR] or [JOURNAL]
[MDAT]
[ORGN] or [ORGANISM] [PAGE] [PACC]
[PROP]
[PROT]
149
Tabellen
Tabelle 3 (fortgesetzt). Search Field Descriptions and Qualifiers Corenucleotide Database Index Search Field Definition Publication Date Contains the date that records are released into Entrez, in the format YYYY/MM/DD (e.g., 1999/08/05). It is the date the entry first appeared in GenBank explicitly indexed in Entrez. A year alone, (e.g., 1999) will retrieve all records for that year; a year and month (e.g., 1999/03) will retrieve all records released into GenBank for that month. SeqID String Contains the special string identifier, similar to a FASTA identifier, for a given sequence. A SeqID String index is not available in the Structure database. Sequence Length Contains the total length of the sequence. Sequence Length indexes are not available in the Structure or PopSet databases. Substance Name Contains the names of any chemicals associated with this record from the CAS registry and the MEDLINE Name of Substance field. Substance Name indexes are not available in the Genome or PopSet databases. Text Word Contains all of the „free text“ associated with a record. Title Includes only those words found in the definition line of a record. The definition line summarizes the biology of the sequence and is carefully constructed by database staff. A standard definition line will include the organism, product name, gene symbol, molecule type and whether it is a partial or complete cds. Title Word indexes are not available in the Structure or PopSet databases. Volume Contains the volume number of the journal in which the data were published.
Qualifier [PDAT]
[SQID]
[SLEN]
[SUBS]
[WORD] [TITL]
[VOL]
150
Anhang
Tabelle 4. Search Field Descriptions and Qualifiers Protein Database (http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=helpentrez.table.EntrezHelp.T9) Index Search Field Accession
All Fields Author
EC/RN Number
Filter
Gene Name
Issue Keyword
Definition Contains the unique accession number of the sequence or record, assigned to the nucleotide, protein, structure, genome record, or PopSet by a sequence database builder. The Structure database accession index contains the PDB IDs but not the MMDB IDs. Contains all terms from all searchable database fields in the database. Contains all authors from all references in the database records. The format is last name space first initial(s), without punctuation (e.g., marley jf). Number assigned by the Enzyme Commission or Chemical Abstract Service (CAS) to designate a particular enzyme or chemical, respectively. Contains predetermined or filtered subsets of the various databases. These subsets or filters are created by grouping records that are commonly linked to other Entrez databases or within the same database. For example, the PopSet database Filter index includes PopSet all, PopSet medline, PopSet nucleotide, and PopSet protein. The PopSet medline filter includes all PopSet records with links to PubMed; the PopSet nucleotide filter includes all PopSet records with links to the nucleotide database; and, the PopSet protein filter includes all PopSet records with links to the protein database. The PopSet all filter includes all PopSet records. Contains the standard and common names of genes found in the database records. This field is not available in Structure database. Contains the issue number of the journal in which the data were published. Contains special index terms from the controlled vocabularies associated with the GenBank, EMBL, DDBJ, SWISS-Prot, PIR, PRF, or PDB databases. Browse the Keyword indexes of the individual databases to become familiar with these vocabularies. A Keyword index is not available in the Structure database.
Qualifier [ACCESSION] or [ACCN]
[ALL] or [ALL FIELDS] [AUTH] or [AUTHOR] [ECNO]
[FILT] or [SB] or [FILTER]
[GENE]
[ISS] or [ISSUE] [KYWD] or [KEYWORD]
151
Tabellen
Tabelle 4 (fortgesetzt). Search Field Descriptions and Qualifiers Protein Database Index Search Field Journal
Modification Date
Molecular Weight
Organism Page Number Primary Accession
Properties
Protein Name
Definition Contains the name of the journal in which the data were published. Journal names are indexed in the database in abbreviated form (e.g., J Biol Chem). Journals are also indexed by their by ISSNs. Browse the index if you do not know the ISSN or are not sure how a particular journal name is abbreviated. Contains the date that the most recent modification to that record is indexed in Entrez, in the format YYYY/ MM/DD (e.g., 1999/08/05). A year alone, (e.g., 1999) will retrieve all records modified for that year; a year and month (e.g., 1999/03) retrieves all records modified for that month that are indexed in Entrez. Molecular weight of a protein, in Daltons (Da), calculated by the method described in the Searching by Molecular Weight section of the Entrez help document. Note that molecular weight must be entered as a fixed 6 digit field, filled with leading zeros (not letter O), e.g., 002002 [MOLWT] Contains the scientific and common names for the organisms associated with protein and nucleotide sequences. Contains the number of the first journal page of the article in which the data were published. Contains the primary accession number of the sequence or record, assigned to the nucleotide, protein, structure, genome record, or PopSet by a sequence database builder. A Primary Accession index is not available in the Structure database. Contains properties of the nucleotide or protein sequence. For example, the Nucleotide database‘s Properties index includes molecule types, publication status, molecule locations, and GenBank divisions. A Properties index is not available in the Structure database. Contains the standard names of proteins found in database records. Common names may not be indexed in this field so it is best to also consider All Fields or Text Words. A Protein Name index is not available in the Structure database.
Qualifier [JOUR] or [JOURNAL]
[MDAT]
[MOLWT]
[ORGN] or [ORGANISM] [PAGE] [PACC]
[PROP] or [PROPERTIES]
[PROT] or [PROTEIN NAME]
152
Anhang
Tabelle 4 (fortgesetzt). Search Field Descriptions and Qualifiers Protein Database Index Search Field Publication Date
SeqID String
Sequence Length
Substance Name
Text Word Title
Volume
Definition Contains the date that records are released into Entrez, in the format YYYY/MM/DD (e.g., 1999/08/05). It is the date the entry first appeared in GenBank explicitly indexed in Entrez. A year alone, (e.g., 1999) will retrieve all records for that year; a year and month (e.g., 1999/03) will retrieve all records released into GenBank for that month. Contains the special string identifier, similar to a FASTA identifier, for a given sequence. A SeqID String index is not available in the Structure database. Contains the total length of the sequence. Sequence Length indexes are not available in the Structure or PopSet databases. Contains the names of any chemicals associated with this record from the CAS registry and the MEDLINE Name of Substance field. Substance Name indexes are not available in the Genome or PopSet databases. Contains all of the „free text“ associated with a record.
Qualifier [PDAT] or [PUBLICATION DATE]
[SQID] or [SEQUID STRING] [SLEN] or [SEQUENCE LENGTH] [SUBS] or [Substance Name] [WORD] or [Text Word] [VOL] or [VOLUME]
Includes only those words found in the definition line of a record. The definition line summarizes the biology of the sequence and is carefully constructed by database staff. A standard definition line will include the organism, product name, gene symbol, molecule type and whether it is a partial or complete cds. Title Word indexes are not available in the Structure or PopSet databases. Contains the volume number of the journal in which the [VOL] or [VOLUME] data were published.
Anhang 2 Lösungsansätze und Anmerkungen zu den Übungen Die im Buch aufgeführten Übungen behandeln Fragen, mit denen Sie in Ihrem Laboralltag in ähnlicher Form konfrontiert werden könnten. Ich hoffe, dass Sie mit den hier beschriebenen Lösungsansätzen in der Lage sein werden, auch ähnliche Probleme zu lösen. In diesem Anhang werden nicht alle im Buch aufgeführten Übungsaufgaben erläutert. Insbesondere die Übungen für die Internetrecherchen werden beim Leser wahrscheinlich zu anderen Ergebnissen führen, als sie im Buch beschrieben wurden. Dies läßt sich nicht vermeiden, da die ständige Aktualisierung der Internetseiten sich dem Informationszuwachs anpassen muss. Bei vielen Übungsaufgaben möchte ich mich auf nur einen der möglichen Lösungsansätze beschränken. Andere Übungsaufgaben sollen zum Nachdenken anregen und sind erfahrungsgemäß mit den theoretischen Inhalten der Buchkapitel zu beantworten. Mit wieder anderen Übungsaufgaben möchte ich auf molekularbiologische Besonderheiten hinweisen, die Sie dann jeweils unter den „Anmerkungen“ finden. Insgesamt ist dies also ein buntes Gemisch an Fragen, die Ihnen Erfahrung und Erfolg bei Ihren Recherchen und im Laboralltag vermitteln sollen.
Zu Kapitel 2 (1) Suchen Sie über den NCBI Taxonomy Browser die heutigen Bakterienstämme (Eubakterien) und Archaea-Stämme. Benutzen Sie dazu den „Display-Level“ von 2 bzw. 1. Anmerkung Bakterien werden derzeit in zwei Gruppen eingeteilt, die Eubakterien und die Archaebakterien. Archaebakterien leben unter extremen Bedingungen, wie z.B. Halobakterien in Salzstöcken oder thermophile Bakterien in heißen Quellen bei Temperaturen von 50–85 °C. Sie unterscheiden sich von den Eubakterien unter anderem im Aufbau der Zellmembran, ihrer DNA, der Anzahl der RNAPolymerasen. Die Klassifizierung der Eubakterien erfolgte lange nach Morphologie, Vorkommen und Ernährung. So werden die Eubakterien in etwas älteren 153
154
Anhang
Lehrbüchern in fünf monophyletische Großgruppen, (Proteobakterien, Chlamydien, Spirochäten, gram-positive Bakterien und Cyanobakterien) eingeteilt.
Über den Taxonomie-Browser können Sie erkennen, dass sehr viel mehr Gruppen als früher unter den Bakterien aufgeführt sind. Dies beruht teilweise darauf, dass viele prokaryotische Genome bereits vollständig sequenziert wurden und jetzt eine genauere Einteilung und Abstufung vorgenommen werden konnte. (2) Suchen Sie ein Verzeichnis oder Lexikon mit Tiernamen in deutscher und lateinischer Sprache im Internet. • Wie ist der wissenschaftliche Name für Meerschweinchen? • Gibt es Meerschweinchen-Sequenzen in der Taxonomy Datenbank? Anmerkung Ein Online-Lexikon ist z.B. http://www.das-tierlexikon.de. Das Meerschweinchen heißt Cavia aperea porcellus, und „Ja“, es gibt ca. 748.000 Nukleotidsequenzen. (3) Sie möchten alle Proteineinträge für HIV finden. Von wie viel verschiedenen HI-Viren gibt es Sequenzen in der Datenbank? • Was ist der Unterschied zwischen der allgemeinen Kategorie „Human immunodeficiency virus“ und den einzelnen Typen von HI-Viren? • Suchen Sie alle Proteinsequenzen des „human immunodeficiency virus 2“. (siehe Entrez-Verknüpfungen in der Datenbank Taxonomy).
Lösungsansätze und Anmerkungen zu den Übungen
155
Lösungsansatz Suchen Sie nach hiv in der Taxonomie-Datenbank (Search for „hiv“). Sie können zwischen • Human immunodeficiency virus 1 [acronym: HIV] • Human immunodeficiency virus 2 [acronym: HIV] • Human immunodeficiency virus [acronym: HIV] • Human immunodeficiency virus 3 [acronym: HIV] • Simian-Human immunodeficiency virus [acronym: HIV] wählen. Wenn Sie den Eintrag für HIV (ohne Zahl) anklicken, erhalten Sie ca. 2000 Nukleotidsequenzen. Betrachten Sie aber den Eintrag für HIV 1, erhalten Sie ca. 177.000 Einträge (Stand: Jan. 2007). Anmerkung Sie erhalten 2000 Nukleotidsequenzen für HIV. Diese Zahl sollte Sie stutzig machen! Allein für HIV1 gibt es ca. 177.000 Einträge für Nukleotidsequenzen. In dem allgemeinen Eintrag (HIV ohne Zahl) ist zu lesen: „Entries at this node come from sequence and structure records that are identified only with the name ,Human immunodeficiency virus‘. All of them are probably ,Human immunodeficiency virus type 1‘“. Die Erklärung ist, dass alle Sequenzen aus GenBank mit dem Taxonomie-Browser verknüpft werden. GenBank ist eine Archiv-Datenbank, und alles, was nicht genau beschrieben ist, ist auch keiner genauen Bezeichnung zugeordnet. „HIV“ ist nicht der Oberbegriff für sämtliche HIV-Einträge, sondern spiegelt alle Indexierungen aus GenBank wider. (4) Finden Sie alle Nukleotidsequenzen vom Mammut. Wie viele Einträge für Nukleotidsequenzen gibt es am NCBI? • Um welche Sequenzen handelt es sich? Lösungsansatz Suchen Sie nach „Mammuthus“ oder gehen Sie zu den Taxonomy-Seiten für ausgestorbene Organismen (extinct organisms). Hier ist das Mammut aufgeführt. Folgen Sie der Verknüpfung zu Entrez-Nucleotide. Anmerkung Bei den Sequenzen handelt es sich hauptsächlich um mitochondriale DNA. Mitochondrien-DNA ist recht stabil und lässt sich noch am besten aus sehr altem organischem Material isolieren und sequenzieren. (5) Würden Sie Studien über Erbkrankheiten beim Menschen in der Tierspezies Galagos durchführen? Lösungsansatz Recherchieren Sie im Taxonomy-Browser nach Galagos, um sich ein Bild von der Abstammung zu machen. Mehr Informationen zur Tierart gibt es auch im Internet.
156
Anhang
Anmerkung Für derartige Studien wäre es gut, an einem Modellorganismus zu arbeiten, um vergleichbare Ergebnisse und schnelle Erfolge zu erzielen. Galagos erfüllen nicht die Bedingungen für Modellorganismen. (6) Substantial data are available for two species of filarial nematodes that are human parasites. Use the Taxonomy Browser to examine the number of nucleotide sequences for the superfamily Filaroidea and determine which species these are. How many nucleotide and protein sequences are there for each of these two species? Display nucleotide records for each of these. What kinds of sequences are most of these? (Quelle: http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html) Lösungsansatz Filaroidea hat einen Rechtschreibfehler. Suchen Sie daher im Taxonomy Browser über „phonetic name“ (Pull-down-Menü für die Suchbox). Sie erhalten die Auswahl zwischen Filarioidea und Onchocercidae [synonym: Filariidae]. Wählen Sie Filarioidea. Zwei Einträge (Brugia malayi und Wuchereria bancrofti) sind mit „lymphatic filariasis“ beschrieben, eine Infektion der lymphatischen Organe. Anmerkung Wenn Sie diese Beschreibungen nicht sehen würden, müssten Sie nach anderen Indizien für die Auswahl der Organismen suchen. Lassen Sie sich zu den Organismen alle Nukleotid- oder Proteinsequenzen anzeigen. Die pathogenen Organismen haben die meisten bekannten Sequenzen. Das ist oft der Fall, da die Forschung in erster Linie auf pathogene Organismen fokussiert ist, da sie für uns Menschen von starkem Interesse sind. In den Datenbankeinträgen von Brugia malayi und Wuchereria bancrofti gibt es einen weiteren Hinweis auf die Pathogenität der Organismen. Hier führt eine Verknüpfung zu den relevanten Webseiten des „National Center for Infectious Diseases“.
Zu Kapitel 3 (1) Welchen genetischen Code würden Sie für die Translation von Moneuplotes crassus-Sequenzen anwenden? Was sind die Besonderheiten in diesem genetischen Code? Lösungsansatz Suchen Sie im Taxonomy-Browser nach dem Organismus. In dem Datenbankeintrag ist der genetische Code (Translation table 10) angegeben, verknüpft mit Erklärungen über die Besonderheiten in dieser Kodierung.
Lösungsansätze und Anmerkungen zu den Übungen
157
Anmerkung Nicht alle Translationen in Eukaryoten folgen der Standardkodierung. Stöbern Sie einmal in den genetischen Kodierungen (http://www.ncbi.nlm.nih. gov/Taxonomy/Utils/wprintgc.cgi?mode=c), um sich mit den Besonderheiten in der ein oder anderen Translations-Tabelle vertraut zu machen und sie zu verstehen. (2) Charakterisieren Sie die Proteinsequenz SWISS_PROT Accn.no P35523 mit ProtParam, Compute pI/Mw und PeptideMass. • Was sind die Parameter der potentiellen extrazellulären Domäne des Proteins (aa 858-988)? • Welche Peptide entstehen bei einem tryptischen Verdau des Proteins? Lösungsansatz Die Programme finden Sie auf http://www.expasy.org/, dem ExPASy Proteomics server, hier rechts unter „Tools and software packages“ unter den Seiten der „Proteomics and Sequence Analysis Tools“. Unter dem ersten Unterpunkt: „Identification and characterization“ kann man die einzelnen Charakteristika nach Eingabe der Accession-Nummer mit nur einem Maus-Klick erhalten. (3) Welche Enzyme benötigen Selen als Co-Faktor? Lösungsansatz Bei der Datenbank ENZYME (ExPASy; http://www.expasy.org/enzyme/) gibt es unter „Access to ENZYME“ die Suchfunktion „Search by cofactor“. Suchen (und klicken) Sie dort das Element „Selenium“. Sie finden 4 Enzyme (z.B. Glutathione peroxidase), die Selen als Cofaktor benötigen.
Zu Kapitel 4 (1) Welche Gene liegen auf dem Mitochondrium-Genom der Maus (NC_ 006914)? • Wie können sie schnell das Gen „cytochrome c oxidase“ finden? • Erläutern Sie die Indexierung des GenBank Flat Files. Was für eine Art Referenzsequenz ist hier hinterlegt und in welchem Status der Überarbeitung ist es? Lösungsansatz Suchen Sie in Entrez-Nucleotide (NCBI Homepage) mit der angegebenen Accession-Nummer. Klicken Sie im Ergebnis (nur 1 Hit, da RefSeq-Acc. Nr. eingegeben wurde) auf die Accession-Nummer. Die Sequenz wird Ihnen im GenBank Flat File Format angezeigt. Es handelt sich um ein sehr langes Dokument (DNA-Sequenz von 16300 bp). Im CDS-Bereich von 5328..6872 bp findet man dann das Product=“cytochrome c oxidase subunit I“.
158
Anhang
Für eine schnellere Suche nach cytochrome c oxidase in dem Dokument eignet sich daher die allgemeine Suchfunktion für lange Texte, die durch die Tastenkombination ctrl + f aufgerufen werden kann. Suchen Sie nach dem Enzym und tragen Sie den Namen ins Suchfeld ein. Im nächsten Schritt suchen Sie über die gleiche Funktion nach dem Wort product (mehrmals Weitersuchen anklicken). Unter dieser Indexierung sind die Genprodukt-Namen des Genoms aufgeführt. Sie sehen, dass auf dem Genom u. a. viele Enzyme der Atmungskette sowie viele tRNAs kodieren.
Zu Kapitel 5 (1) Gehen Sie zu den verschiedenen Datendomänen am NCBI und machen Sie sich mit den „Limits“-Funktionen insbesondere von Entrez-Nucleotide, Entrez-SNPs und auch der Literaturdatenbanken Entrez-PubMed und Entrez-OMIM vertraut. Auch bei PubMed wird Entrez zur Suchanfrage genutzt! Die Handhabung der Suchmaschine sollte Ihnen soweit vertraut werden, dass Sie alle Recherchen am NCBI zumindest über die „Limits“-Einstellungen fokussieren können. PubMed hat darüber hinaus noch viele weitere Besonderheiten aufzuweisen, wie z.B. eine Suche über ein kontrolliertes Vokabular, den MeSH-Terms (Medical Subject Headings). Lösungsansatz Folgen Sie den Anweisungen des Workflows in Kap. 5 (ONLINE-Demo zu Entrez). (2) Suchen Sie eine repräsentative Nukleotidsequenz von „presenilin 1“ des Menschen. Sie wissen nicht, ob die Suchanfrage mit oder ohne Leerzeichen bzw. mit Bindestrich geschrieben wird und was besser ist. Wie gehen Sie vor? Was können Sie tun, um die Suchanfrage zu fokussieren? Lösungsansatz Presenilin 1 ist ein gut charakterisiertes Gen. Gehen Sie zu Entrez CoreNucleotide. Zwei Recherchen, einmal nach presenilin 1 (632 Treffer) und einmal nach presenilin1 (5 Treffer) zeigen den Unterschied für den Gebrauch von einer Suche mit bzw. ohne Leerzeichen. In den angegebenen Referenzsequenzen wird die gebräuchliche Schreibweise deutlich. Hier erscheint das Suchwort zum Teil auch im Titel. Ein Bindestrich ist für Entrez-Datenbanken nicht gebräuchlich. Anmerkung Um eine Recherche im Vorfeld zu testen, können die Suchworte im Preview/ Index aufgestöbert werden. Eine geringe und dennoch signifikante Treffermenge erhalten Sie, wenn Sie das Suchwort auf das Suchfeld Titel (d.h. Definition line) einschränken. Vergleichen Sie hierzu auch eine Suche für presenilin 1 in [All Fields] (632) und presenilin 1 im Titelfeld [titl] (86) über die Preview/ Index Funktion.
Lösungsansätze und Anmerkungen zu den Übungen
159
Search for: presenilin 1 [titl] AND human [orgn], 1 RefSeq. Ergebnis: NM_000021 ist die Ref.seq. vom Homo sapiens presenilin 1 (Alzheimer disease 3) (PSEN1), mRNA (3) Suchen Sie nach „glyceraldehyde-3-phosphate dehydrogenase“-Sequenzen unter Berücksichtigung von Rechtschreibfehlern in den GenBank-Einträgen. Lösungsansatz
Die Abbildungen zeigen den aufgeschlagenen Index für „All Fields“ mit den Einträgen für glyceraldehyde-3-phosphate dehydrogenase. Die Phrasen zeigen, dass es in GenBank viele Einträge mit Rechtschreibfehlern gibt. Wollte man eine vollständige Recherche nach diesen Sequenzen durchführen, so muss man alle Schreibweisen auswählen und im Suchfeld mit OR verknüpfen. (4) Suchen Sie nach Kinasesequenzen mit einer Promotorregion der Maus. Lösungsansatz Eine Suchanfrage nach diesen Sequenzen lautet: promoter[Feature key] AND mouse[organism] AND kinase (42 Treffer in EntrezNucleotide, darunter 5 RefSeq; Stand: Jan. 2007) (5) Suchen Sie in Entrez-Nucleotide alle „reviewed RefSeq human mRNAs“. Lösungsansatz Eine Suchanfrage nach diesen Sequenzen lautet: „srcdb refseq reviewed“[Properties] AND human[orgn] (Ergebnis:: 11352; Stand: Jan. 2007)
160
Anhang
(6) Welche Gene wurden für Brustkrebs bei jungen Frauen (Early Onset Breast Cancer) identifiziert? Gehen Sie über Entrez CoreNucleotide. Lösungsansatz Versuchen Sie eine Suche mit dem genauen Wortlaut “early onset breast cancer”. Kontrollieren Sie Ihr Ergebnis mit der Details-Funktion. Ohne PhrasenAnführungszeichen ist die Query Translation folgende: Early[All Fields] AND Onset[All Fields] AND „Breast Cancer“[Journal]. Hierfür werden keine Treffer gefunden. Was würden Sie ändern? Editieren Sie die Suche unter “Details” und klicken Sie auf Search. Ihre Suchanfrage sollte jetzt lauten: „early onset“[All Fields] AND „Breast Cancer“[All Fields] (die 90 Treffer sind ein überschaubares Ergebnis). (7) Welche Gene kodieren für Proteine zum Kupferionentransport (copper ion transport)? Lösungsansatz „copper ion transport“ deutet auf eine Gen-Ontologie zur Beschreibung einer molekularen Funktion hin. Versuchen Sie eine Recherche bei geneontology.org. Als Ergebnis kommen Sie über AmiGO zu einer Liste von Genen, die mit der Funktion Copper Ion Transport SPCC1672.04c mitochondrial copper ion transport protein (Klick darauf) beschrieben werden. (8) Vergleichen Sie für die Suchanfrage Homo sapiens [orgn] die Ergebnisse in Entrez-Nucleotide und Entrez-Genome. Wie viele Treffer gibt es in der jeweiligen Domäne? Warum? Anmerkung In Entrez-Genome sind die vollständig sequenzierten Chromosomen aufgeführt. Es gibt 51 Einträge für das menschliche Genom. Dies sind die 24 Chromosomen (22 + x + y) und das Mitochondrium-Genom des Referenz-Assemblys (NCBI), sowie die des alternativen Genom-Assemblys von Celera-Genomics und ein weiterer Eintrag für das Chromosom7. In Entrez-Nucleotide finden Sie alle eingetragenen menschlichen Sequenzen. (9) Sie wollen im Genom von Escherichia coli das Riboflavin-B-Gen (ribb) lokalisieren. Wie gehen Sie vor? Lösungsansatz Mit der Suchanfrage Escherichia coli[orgn] in Entrez-Genome erhalten Sie viele Plasmidsequenzen, die Sie eliminieren sollten. Wie können Sie die Suche einengen? Versuchen Sie die Suchanfrage: Escherichia coli[orgn] NOT plasmid[titl]. Wie viele Treffer erhalten Sie? Gehen Sie zur Accession-Nummer NC_000913 für E. coli K12. • Interpretieren Sie das grafisch dargestellte Genom.
Lösungsansätze und Anmerkungen zu den Übungen
161
• Das Genom ist zirkulär dargestellt. Die nach außen zeigenden Striche (Speichen) repräsentieren die auf dem Plus-Strang kodierenden Gene, die nach links zeigenden Speichen die auf dem Minus-Strang kodierenden Gene. Die Farben folgen der Farbgebung der COGs Datenbank (s. COGs functional categories: http://www.ncbi.nlm.nih.gov/genomes/static/c.gif). Ein Ausschnitt des Genoms wird links von der Grafik dargestellt. • Suchen Sie das Gen ribB. Das Gen finden Sie entweder in der Proteinliste unter Protein coding (in der Tabelle, 2. Spalte) oder es wird Ihnen nach einer Suche unter der Funktion Search gene, GeneID or locus_tag: ribb in der Grafik angezeigt. Von beiden Einträgen gelangen Sie zu mehr Informationen für ribb. • Welche Analyse-Möglichkeiten haben Sie ausgehend von Entrez-Genome? Gemeint sind die vielen Analyse-Möglichkeiten, die in der Tabelle unter den Spalten Genome Info, Features, BLAST homologs, Links und Review Info aufgeführt sind. Die jeweiligen Verknüpfungen zeigen die mit der Suchanfrage zu diesem Genom vorprogrammierten Anwendungen bzw. deren Ergebnisse. (10) Der folgende Artikel beschreibt die Klonierung und Charakterisierung von Heparinsulfat-2-O-Sulfatase aus Flavobacterium heparinum. Obwohl die Datenbanken PubMed und Entrez-Nucleotide miteinander verknüpft sind (Hardlinks), und aufgrund des Titels auf jeden Fall Sequenzen in Entrez-Nucleotide zu finden sein müssten, können Sie keine Verbindung zwischen dem Artikel und Entrez-Nucleotide finden. Welche Sequenzen sind mit hoher Wahrscheinlichkeit in diesem Artikel beschrieben? Suchen Sie die Sequenzen in EntrezNucleotide. • Myette JR, Shriver Z, Claycamp C, McLean MW, Venkataraman G, Sasisekharan R The heparin/heparan sulfate 2-O-sulfatase from Flavobacterium heparinum. Molecular cloning, recombinant expression, and biochemical characterization. J Biol Chem. 2003 Apr 4;278(14):12157-66. Epub 2003 Jan 7. Lösungsansatz Suchen Sie nach den Autoren des Artikels in Entrez-Nucleotide. Limitieren Sie die Suche auf den Organismus und geben Sie „sulfatase“ als zusätzliches Suchwort ein. Die Suchanfrage lautet Sasisekharan R AND Flavobacterium heparinum [orgn] AND sulfatase. Bei den 6 angezeigten Sequenzen handelt es sich um patentierte Sequenzen. Beachten Sie: Wenn man alle Autoren im Suchfeld eingeben würde, würde man keinen Treffer erhalten! Die Suche über den Letzt- bzw. Erstautor ist erfolgversprechend, theoretisch müßte man nach jedem einzelnen Autor die Suche vornehmen, wenn mit allen Autoren kein Ergebnis gefunden wird.
162
Anhang
Anmerkung Der Name des Bakteriums ist Pedobacter heparinus. Suchen Sie nach Flavobacterium heparinum im Taxonomy-Browser und bestätigen Sie die Synonyme für den Organismus.
Zu Kapitel 6 (1) Sie haben einen PCR-Primer mit der Sequenz 5’-CAGGCATCCAGCGGT CAAGTCGAG-3’. Führen Sie eine BLASTN-Suche durch. Um welche Sequenz(en) handelt es sich? • Ist der Primer spezifisch? • Können damit auch ähnliche Sequenzen aus anderen Organismen amplifiziert werden? Lösungsansatz Für diese BLASTN-Suche sind die Standardeinstellungen unzureichend (NCBI BLAST anklicken, Primerseq. in Searchfield eingeben, now BLAST!-Button anklicken, warten, bis sich die nächste Seite öffnet, dann auf den Format!-Button klicken; hier gäbe es keine Hits, weil die Wortlänge zu hoch und die E-Werte zu niedrig sind). Für eine Primer-Analyse müssen die Parameter auf kurze Sequenzen angepasst werden. Am besten nehmen Sie das BLAST-Programm „Search for short, nearly exact matches“ (Sensitive search suitable for queries shorter than 25 bp). Dann wechseln Sie die Datenbank „Human genomic plus transcript“ in die „nr“ Datenbank, da Sie auch an den Treffern für andere, nicht menschliche Organismen interessiert sind. Gehe zu: Choose database: hier: Others (nr etc.) markieren. Die Treffer zeigen nur eine Sequenzähnlichkeit für Aquaporin 1 (Maus), die sich über die volle Primer-Länge (Identities 24/24=100%) erstreckt. Der Primer ist sehr spezifisch. Alle Sequenzen, die keine vollständige Sequenzidentität bis zum 3’ Ende zeigen, können mit diesem Primer nicht amplifiziert werden. (2) As the database grows, so does the number of chance occurrences of amino acid motifs that spell out words or people‘s names in single-letter amino acid codes. One such name motif is ELVIS. Find the number of occurrences of ELVIS in the protein nr. To get any hits at all, you will have to adjust several of the advanced BLAST parameters including the Expect value, Word size, and Score Matrix. (http://www.ncbi.nlm.nih.gov/Class/FieldGuide/problem_set.html) Anmerkung „NCBI Protein Blastp: ELVIS“ im Searchfeld eingeben, da hier keine Treffer gefunden werden, danach mit „Search for short, nearly exact matches“ versuchen. Auch hier findet man keine Hits, wenn man nicht im Options-Feld den E-value (Expect auf 25000) heraufsetzt. Die Ergebnisse dieser Frage verdeutlichen den Zusammenhang von Score und E-Value. Mit einer kurzen Sequenz können keine hohen Scores erzielt werden.
Lösungsansätze und Anmerkungen zu den Übungen
163
Demnach kann auch ein E-Wert nicht annähernd Null werden. Hinzu kommt, dass die Datenbank immens groß ist und die Größe der Datenbank ein Multiplikator in der Berechnungsformel für den E-Wert ist. Versuchen Sie eine Suche über BLASTP für kurze Sequenzen. Der E-Wert muss selbst auf dieser Seite heraufgesetzt werden (z.B. auf 25 000), um mit einer Suche überhaupt Treffer zu erzielen. (3) Wählen Sie eine der angegebenen Accession-Nummern für DNA-Sequenzen zur Beantwortung der unten aufgeführten Fragen (Accn.: AF008124 oder AF014960 oder U92650 oder Y11250). • Wie finden Sie die korrespondierende Proteinsequenz? • Wie können Sie sich nur die Arabidopsis Sequenzen der BLink Ergebnisse anzeigen lassen? • Wie viele ähnliche Sequenzen gibt es beim Menschen? • Haben die Proteine charakteristische Domänen? • Gibt es eine 3-D-Struktur von den Proteinen? • Wie können Sie die Sequenzen im FASTA-Format speichern? Lösungsansatz Zur Beantwortung der Frage brauchen Sie BLink, den BLAST-Link. Sie suchen eine der angegebenen Accession-Nummern (Entrez-Nucleotide) und gehen von dort über die „Hardlinks“ (auf Links ganz rechts klicken) im Pull-down-Menü auf Protein und bekommen über Entrez-Protein die Protein-Accession-Nummer angezeigt. Den BLAST-Link BLink (ganz rechts) gibt es nur für Entrez-Protein. Alle weiteren Fragen können mit BLink beantwortet werden. Die unter „3D structures“ aufgeführten Sequenzen haben eine charakterisierte 3-D-Struktur in der NCBI-Datenbank MMDB (Molecular Modeling Database) und können in der Betrachtungssoftware für 3-D-Strukturen, Cn3D, angesehen werden. Die Software muss vorher auf dem Rechner installiert werden. Ein freier Download befindet sich auf den Seiten von Entrez-Structure (http://www.ncbi.nlm.nih. gov/Structure/; gehe zu Cn3D). Für das Speichern der Sequenzen im FASTAFormat müssen Sie über den Link „GI-List“ zu Entrez-Protein. Von hier können die Formate unter dem Menü „Display“ z.B. in das FASTA-Format verändert werden. (4) Sie möchten die Evolution eines Hitzeschockproteins (Chaperone protein dnaK (Heat shock protein 70) aus Streptomyceten studieren (Accession-Nummer: Q826F6). Dafür wäre der beste BLAST-Treffer in Eukaryoten interessant für Sie. Wie finden Sie ihn? Lösungsansatz Gehen Sie von der Accession-Nummer in Entrez-Protein zu BLink. Klicken Sie auf „Best hits“. Hier werden alle Organismen aufgeführt, von denen es Ergebnisse für die BLAST-Suche gibt. Die jeweils besten Treffer sind dargestellt. Zusätzlich können von diesen besten Treffern alle weiteren des jeweiligen Organismus erreicht werden. Suchen Sie nach dem ersten eukaryotischen Orga-
164
Anhang
nismus in der Liste unter „Best hits“ (durch Klick auf „12 Other Eucaryota“, dann steht Chlamydomonas reinhardtii an erster Stelle). Es handelt sich um ein Protein in Chlamydomonas reinhardtii. (5) Ihr Protein (epidermal growth factor receptor – Accession-Nummer 1007208A) hat eine Tyrosine-Kinase-Domäne. Hat das Protein noch andere Domänen? • Sind diese anderen Domänen in weiteren Proteinen bekannt? Lösungsansatz Von dieser Accession-Nummer in Entrez-Protein gehen Sie zu BLink. Von dort klicken Sie auf die Verknüpfung zur „Conserved Domain Database“ (CDDSearch). Hier zeigt sich, dass das Protein mehrere Domänen hat. Informationen zu den Domänen gibt es dann mit einem Maus-Klick auf die jeweilige Domäne. Für eine ausgewählte Domäne erhält man auf der Folgeseite weitere Informationen über: Links, Statistics, Structure und Hierarchy (steht linksseitig). Unter Links findet man einen Unterpunkt „Protein“, hierunter steht „architectures“. Beim Klick darauf kommt man zu CDART, dem „Conserved Domain Architecture Retrieval Tool“. CDART sucht die Proteine, die diese und weitere/andere Domänen enthalten. (6) Bei einer BLAST-Suche für Ihre Nukleotidsequenz (entnommen von der Internetseite: www.biotools.info/compo1.html , Sequenz A) gibt es ähnliche Sequenzen für zwei unabhängige Regionen. Welche der beiden Regionen ist für die Genfunktion bedeutungsvoller? • Kopieren Sie die Sequenz von der Webseite in die Standard BLASTN-Suchoberfläche und starten Sie das Programm. Was zeigt das Ergebnis? • Nehmen Sie die gleiche Sequenz zur Durchführung von VecScreen. Lösungsansatz VecScreen ist auf der NCBI Homepage unter „Hot Spots“ (Auflistung rechts) sowie auf der BLAST-Programm Seite unter „Special“ (unten links: Screen for vector contamination) aufgeführt. Gibt man in das Search-Feld von VecScreen die Sequenz A (composition 1) ein, so findet das Programm eine 160 bp lange Verunreinigung am 3’-Ende, die vom VektorpBluescript II KS(+) vector DNA stammt. (7) Suchen Sie über Entrez-Protein (NCBI) nach dem Eintrag für das CFTR-Protein (cystic fibrosis) aus der Datenbank SWISS-PROT. Welches ist die häufigste Mutation unter der weißen Bevölkerung und was bewirkt sie beim Menschen? • Welche Rolle spielen ähnliche Proteine in dem Organismus Fundulus heteroclitus? • Um welchen Organismus handelt es sich? • CFTR besitzt konservierte Domänen, die zu Bakterienproteinen homolog sind. Diese erscheinen nicht unter BLink (warum nicht?). • Wie können Sie die Bakterien-Sequenzen recherchieren? Wie viele sind es?
Lösungsansätze und Anmerkungen zu den Übungen
165
Lösungsansatz Suchen Sie in Entrez-Protein nach dem CFTR-Protein und limitieren Sie die Suche auf die Datenbank „Swiss-Prot“ (unter „Limits“; rechts: „only from“ (Pull-down-Menü: SwissProt.)) Die gesuchte Accession-Nummer ist P13569 (erster Hit). Klicken Sie auf die Nummer. Suchen Sie mit „Find“ (ctrl F) nach „most common mutation“. Hier finden Sie die häufigste Mutation in der weißen Bevölkerung. • Zur weiteren Recherche benutzen Sie „BLink“ um ähnliche Proteine zu finden. Suchen Sie mit der Funktion „ Best Hits“ nach Fundulus heteroclitus (dann auf AAC41271 klicken und über Link im Pull-down-Menü „Taxonomy“ auswählen). Der Organismus ist mit der Taxonomie-Datenbank verknüpft. Hier bekommen Sie Auskunft zur Spezies. Es ist der „(killifish), species, bony fishes“. Gehen Sie zu den PubMed-Einträgen dieses Dokumentes (rechts über Links im Pull-down-Menü „PubMed via GenBank“ auswählen, 50 Items, Stand: Jan. 2007), um herauszufinden, welche Rolle das Protein in diesen Tieren übernimmt. • Gehen Sie zu den „Related sequences“ des SWISS_PROT-Eintrags (Entrez Protein: P13569 eintragen, Limits: SwissProt; rechts über Links im Pulldown-Menü „related Sequences“ auswählen). Hier finden Sie auch ähnliche bakterielle Sequenzen (100644 Hits!). Sie erschienen nicht unter BLink, da nur maximal 200 Treffer in BLink aufgeführt sind und die Ähnlichkeiten nicht so groß sind, um unter den ersten 200 Treffern über BLAST gefunden zu werden.
Zu Kapitel 7 (1) Suchen Sie mit Hilfe des NCBI MapViewers nach Genen, die für die Erbkrankheit zystische Fibrose (cystic fibrosis) verantwortlich sind. Wie viele Genorte werden angegeben? • Sind diese Genorte in Gen-Clustern zusammengefasst oder über das Genom verteilt? • Welches Gen liegt auf Chromosom 7? • Suchen Sie STS-Marker im Gen, um die genetische Disposition von Individuen untersuchen zu können. a. Wie lautet die STS-ID in UniSTS-Datenbank? b. Welche PCR-Primer eignen sich, um die STSs zu amplifizieren? c. Wie lang wäre das PCR-Fragment, das amplifiziert werden würde? Lösungsansatz Wenn Sie im MapViewer vom menschlichen Genom nach cystic fibrosis suchen (NCBI Homepage; rechts: HotSpots: Map Viewer: Vertebrates: Mammals: Blast Homo sapiens (human) Build 36) im Search-Feld „cystic fibrosis“ eintragen (177 Hits), dann rechts „Quick Filter: Gene“ anklicken, so erhalten Sie 6 Hits an drei Genorten, auf Chr 1, 7 und 19 (Stand Jan. 2007). Danach klicken Sie auf CFTR (gene-RefSeq auf Chr 7), dann öffnet sich der Map Viewer mit
166
Anhang
seinen Map elements. Für die Suche nach genetischen Markern legen Sie sich die STS-Karte als Mastermap (öffnen von Maps Options, links STS-Karte add, als letzte Karte verschieben, dann Mastercard) neben die Genes_seq Karte und recherchieren Sie die STS-Informationen. Gehen Sie z.B. im Map Viewer unter „Marker“ auf ECD 12874, dann öffnet sich UniSTS:293906 mit Angabe der Sequenzen eines Primerpaars für diesen Marker. Das PCR-Produkt wäre 533 bp lang. Primer-Paare werden direkt in der Datenbank der STS-Marker, UniSTS, aufgeführt. (2) Nennen Sie mindestens vier Gene eines „best RefSeq“ Gen-Modells im Bereich 11q13.1. Kann man die Gene auch in Tabellenformat ansehen? Lösungsansatz Sie gehen vom MapViewer zum Genome-View des menschlichen Genoms (Build 36). Hier klicken Sie auf Chromosom 11. Auf der linken Seite können Sie die gewünschte Region (von 11q13.1 bis 11q13.1) eingeben. Im Fenster wird diese Region eingestellt (angezeigte Region entspricht: 63,100-67,100K bp). Zur Beantwortung der Frage muss die Genes_seq-Karte die Masterkarte sein, d. h. ganz rechts auf dem Bildschirm angezeigt werden. Das Tabellenformat erhalten Sie über eine Verknüpfung bei den Beschreibungen der Karten, die unten im Fenster erscheinen. Ergebnis: 4 Beispiele von bestRef Seq Genen auf 11q13.1: BCL2-antagonist of cell death CDC42 binding protein kinase gamma (DMPK-like) glycoprotein hormone alpha 2 AYP1 protein (3) Suchen Sie das Gen ACTN3. Benutzen Sie den „Sequence View“ um den Transkriptionsstartpunkt zu lokalisieren. Wo ist das erste Exon? Welche sind die ersten 5 Aminosäuren? Wie lang ist das erste Intron? Lösungsansatz Zur Beantwortung der Frage suchen Sie das Gen ACTN3 im MapViewer und gehen über den sv-Link zum Sequence-Viewer. Für diese Verknüpfung muss die Genes_seq-Karte die Masterkarte sein. Map Viewer, Build 36, hier Eingabe im Search-Feld: ACTN3; Ergebnis: 22 Hits auf 2 Chromosomen (1 und 11), RefSeq des Gens liegt auf Chr. 11 (Quick Filter: Gene); auf die rosa markierte Zeile unter Links zum „sv“ (Sequence view) gehen. Erste Exon beginnt an der 11620186. Base. Die ersten 5 AS sind: MMMVM. (4) Speichern Sie die Sequenz zwischen den Markern RH120891 und SHGC86179 in einer Datei auf Ihrem Computer.
Lösungsansätze und Anmerkungen zu den Übungen
167
Lösungsansatz Suchen Sie im MapViewer auf den Seiten des menschlichen Genoms die Marker mit der Suchanfrage RH120891 OR SHGC-86179. Die beiden Treffer (4 Hits auf Chr 18, 2 Hits unter dem Assembly: reference) werden im GenomeView angezeigt. Hier klicken Sie auf all matches für das Assembly „reference“. Die Marker liegen ungefähr bei den Basen 29 920 000 und 31 750 000 auf Chromosom 18. Klicken Sie zwischen den Markern auf die ChromosomenKarte, um den Ausschnitt genauer zu untersuchen (Zoom in 4x). Klicken Sie jetzt auf die Marker, um genauere Informationen zu erhalten. Sie gelangen so in die Datenbank UniSTS. Der Marker RH120891 fängt mit bp 29 922 056 an, der Marker SHGC-86179 hört mit dem bp 31 746 057 auf (s. jeweils unter „Mapping Information“ RH120891 Sequence Map: Chr 18; nicht vom CeleraAssembly). Sie wollen also die Sequenz von bp 29 922 056 bis bp 31 746 057 speichern. Dafür klicken Sie auf den Link „Download/View Sequence/Evidence“ (oben rechts im Bild). Es öffnet sich ein Fenster, in dem Sie die gewünschte Region eingeben. Die Sequenz selbst wird von einer Contig-Sequenz mit der Accession-Nummer NT_010966.13 bezogen, die der Nummerierung des Contigs und nicht der Nummerierung des Chromosoms entspricht. Klicken Sie auf „Save to disk“, um die Sequenz zu speichern (siehe Abb.).
(5) Sie untersuchen Glyceraldehyd-3-Phosphat-Dehydrogenase (GAPDH) und haben zuverlässige Informationen aus der Datenbank RefSeq und Entrez-Gene zusammengetragen (RefSeq Accession-Nummer: NM_002046). Die Sequenz befindet sich auf Chromosom 12. Über eine BLAST-Analyse gegen das menschliche Genom finden Sie viele sehr ähnliche Sequenzen, die über das ganze Genom verteilt sind. Gehen Sie von den BLAST-Ergebnissen über den Link „Genome View“ zum MapViewer, um die Ergebnisse dort zu betrachten. Um welche Sequenzen handelt es sich bei diesen Treffern? Lösungsansatz Beginnen Sie mit einer BLAST-Suche gegen das menschliche Genom und gehen Sie von den Ergebnissen über den „Genome View“ zum MapViewer.
168
Anhang
Klicken Sie auf ein beliebiges Chromosom. Die Sequenzähnlichkeiten werden Ihnen angegeben. Sie liegen alle bei ca. 85% Ähnlichkeit plus/minus 10%. Solche Ähnlichkeiten findet man für Pseudogene. Da es sich bei GAPDH um ein sogenanntes Haushaltsgen handelt (housekeeping gene) und Pseudogene für viele Haushaltsgene zu finden sind, liegt die Vermutung nahe, dass Sie mit dieser Suche diese Pseudogene gefunden haben. Versuchen Sie über die angegebenen Verknüpfungen zu den Informationen der Pseudogene in Entrez-Gene zu gelangen. Auch Pseudogene sind in Entrez-Gene aufgeführt.
Zu Kapitel 8 (1) Suchen Sie nach Referenz-SNPs für menschliche Polymorphismen von Mikrosatelliten-DNA (kurze Wiederholungssequenzen). Wie können Sie schnell sehen, welche Submitted-SNPs (ss#) im Cluster vorkommen? • Welche SNPs haben ein Allel für A oder C (M) bzw. A, C oder T (H)? Lösungsansatz Benutzen Sie Entrez-SNP und die „Limits“-Funktion, um die Suche auf die Polymorphismen für Mikrosatelliten-DNA und auf den menschlichen Organismus einzugrenzen. Sie benötigen kein Suchwort im Suchfeld, um die Suche zu starten. Die Trefferliste wird in der Darstellung „Graphic Summary“ angezeigt. Wechseln Sie zur Beantwortung der Fragen unter der Display-Funktion zu den Einstellungen „RS Cluster Report“ bzw. „FASTA“. (2) Wie viele SNPs befinden sich auf dem X-Chromosom zwischen den STS-Markern DXS1501 und WI-21664? Sortieren Sie die SNPs nach der Reihenfolge ihres Vorkommens. Lösungsansatz Suchen Sie auf der NCBI Homepage unter Hot Spots: dbSNP. Auf der SNPSeite findet man fast ganz unten „Between Markers“ nach den SNPs zwischen den angegebenen Markern. Die SNPs werden in Entrez-SNP gezeigt (2890 Hits). Wechseln Sie zur Beantwortung der Frage die Sortierung („Sort by“) zu der Option „Chromosome Base Position“, um die SNPs in der Reihenfolge ihres Vorkommens angezeigt zu bekommen. (3) Mutationen im BRCA1-Gen werden für die Erkrankung an Brustkrebs in jungen Jahren verantwortlich gemacht. Suchen Sie nach allen nicht-synonymen SNPs für BRCA1. Wie viele SNP-Cluster können Sie finden? Zeigen Sie die Einträge auch auf einer Chromosomenkarte. Lösungsansatz Benutzen Sie Entrez-OMIM und die „Limits“-Funktion. Die Suchanfrage lautet: BRCA1 Limits: coding nonsynon, homo sapiens. Von jedem Treffer führt eine Verknüpfung zum MapViewer.
Glossar für Bioinformatik Accession number Alphanumerische Zugriffsnummer. Einmalig vergebenes Identifizierungsmerkmal für einen Datenbankeintrag, z.B. für eine Sequenz. Adenin
Eine Purinbase in den Nukleotiden von DNA oder RNA.
Algorithmus Ein Verfahren für die Lösung eines mathematischen Problems in einer begrenzten Anzahl von sich wiederholenden Schritten. Es gibt eine Vielzahl an Algorithmen und Bewertungs-Parametern, um Protein- oder DNA Sequenzähnlichkeiten zu recherchieren. Im Allgemeinen hängt die Wahl für den „besten“ Algorithmus von dem zu lösenden Problem ab. Algorithmen, die einen lokalen Vergleich errechnen, finden die Bereiche mit der stärksten Ähnlichkeit unter zwei Sequenzen und ignorieren die Unterschiede außerhalb der ähnlichsten Region. Sie sind am besten geeignet für die Recherche in Protein- und DNADatenbanken. Globale Vergleichs-Algorithmen sollten bevorzugt werden, wenn SequenzHomologien untersucht werden und ein phylogenetischer Baum berechnet werden soll. Alignment Sequenzausrichtung (-anordnung) von zwei oder mehreren Sequenzen (paarweises bzw. multiples Alignment). Ähnliche bzw. identische Nukleotide oder Aminosäuren sind so ausgerichtet, dass sie direkt untereinander geschrieben werden. Allel Verschiedene Zustandsformen eines Gens, die am gleichen Genort eines Chromosoms vorliegen. Sie sind für eine unterschiedliche polymorphe Ausprägung eines genetischen Merkmals verantwortlich. Jede Person besitzt an einem polymorphen Genort zwei Allele (auf jedem Chromosom eins), die identisch (homozygot) oder verschieden (heterozygot) sein können. Alternatives Spleißen Mechanismus in höheren Organismen zum Hervorbringen von unterschiedlichen mRNAs aus einer Vorläufer-(Prä-)RNA. Aufgrund der Nutzung unterschiedlicher Spleißstellen kommt es zu verschieden zusammengesetzten mRNAs, die für verschiedene Proteine kodieren. Eine mögliche mRNA wird als „Spleißvariante“ oder Spleißform bezeichnet. Alu-Sequenzen (Alu repeats) DNA-Abschnitte von ca. 300 bp Länge, die nur im menschlichen Genom vorkommen und sich oft wiederholen (500.000 x und öfter). Sie sind somit hochrepetitiv und machen etwa 3-6 % der Gesamt-DNA aus. Alu-Sequenzen gehören zur Klasse der SINE-Elemente (Short INterspersed Elements). Sie haben eine mittig gelegene Schnittstelle für das Restriktionsenzym Alu I. Aminosäure Kleinste Einheit der Proteine. Für die Synthese einer Aminosäuresequenz reagiert die am alpha-C-Atom gelegene Carboxylgruppe der einen AS mit der ebenfalls am 169
170
Glossar für Bioinformatik
alpha-C-Atom befindlichen Aminogruppe der zweiten AS unter Abspaltung von Wasser (Kondensation) zur Ausbildung einer Peptidbindung. Die entstandene Proteinsequenz hat somit ein N-terminales Ende (Anfang einer Proteinsequenz) und ein C-terminales Ende (Ende einer Proteinsequenz). Aminosäuren können aufgrund ihrer Eigenschaften in unipolare, polare und geladene Aminosäuren eingeteilt werden. Analogie Übereinstimmende Strukturen oder Merkmale zur Ausübung der gleichen Funktion in unterschiedlichen Organismen, die jedoch keinen Verwandtschaftsgrad auf molekularer Ebene aufweisen. So haben z.B. die Flügel von Vögeln und Insekten die gleiche Funktion (das Tier kann fliegen), die Struktur geht jedoch nicht auf einen Vorläuferflügel zurück. Beide Strukturen haben sich unabhängig voneinander entwickelt. Auch Proteine, die die gleiche Funktion ausüben, müssen nicht die gleiche Struktur oder eine Sequenzverwandtschaft aufweisen. Die Identifizierung von analogen Strukturen im Vergleich zu homologen Strukturen ist eine der wichtigen Aufgaben der Bioinformatik. Annotation Beschreibung einer Sequenz (DNA od. Protein) durch Verweise, Referenzen, Kommentare, experimentelle Daten, kontrolliertes Vokabular u. ä., um der Sequenz eine Bedeutung zu geben. In den Datenbanken wie z.B. Entrez-Gene und UniProt werden die Annotationen, d.h. die Informationen zu einem Gen oder Protein zusammengetragen. Anticodon Basentriplett im RNA-bindenden Bereich von tRNA-Molekülen, welches an die komplementäre Sequenz (Codon) auf einem mRNA-Molekül bindet. ARPANET Erstes Datennetz, welches durch die ARPA (Advanced Research Projects Agency, USA) gefördert wurde. Das verwendete Protokoll NCP (Network Control Protocol) war das erste Host-to-Host Protokoll. Ursprünglich (1970) waren vier dezentrale Rechner über das ARPANET verbunden. Applet Kleines Computerprogramm, meist in der Programmiersprache „JAVA“ geschrieben, welches nur lokal von dem Computer abgespielt wird, von dem es heruntergeladen wurde. ASCII American Standard Code for Information Interchange. Kodierung von Information durch 128 akzentfreie Zeichen (a-z, A-Z, 0-9 u. Sonder- und Steuerzeichen). Alternativ werden ASCII-Dateien auch als Plain-Text oder Flat-File bezeichnet. ASN.1 Format Abstract Syntax Notation One. Sprache zur Definition von Standards ohne Berücksichtigung der Implementierung (hardwareunabhängig sowie unabhängig von Programmiersprachen und Kodierungen). Assay Methode, um biologische Aktivität zu messen. Dabei kann es sich um Enzymaktivität, Bindungsaffinität oder Protein-Halbwertszeiten handeln. Die zu messenden Parameter müssen über Farbe, Fluoreszenz oder Radioaktivität sichtbar gemacht werden und mit der biologischen Aktivität korrelieren. Assembly (Sequenz-Assembly) Bildung einer langen Einheit (z.B. einer DNA-Sequenz) durch die Aneinanderreihung von überlappenden Einheiten (Sequenzen). Assemblies werden benötigt, um die Sequenzen aus „Shotgun“-Sequenzierungsprojekten zusammenzusetzen. Ein Beispiel einer Datenbank aus zusammengesetzten EST-Sequenzen (Expressed Sequence Tags) ist UniGene. UniGene Cluster eignen sich zur Analyse von Spleißvarianten (s. alternatives Spleißen) und zur Auffindung neuer Gene.
Glossar für Bioinformatik
171
Autosomen Chromosomenpaare, die in beiden Geschlechtern einer Art gleich sind (im Gegensatz zu den Geschlechtschromosomen x und y, den Heterosomen). Back-up Die Kopie von Daten auf andere (externe) Speichersysteme, um im Fall eines Computer-Absturzes schnell auf die letzten Arbeiten zugreifen zu können (Sicherungskopie). BAC Bacterial Artifical Chromosome. Künstliches Bakterienchromoson und Klonierungsvektor mit einer DNA-Aufnahmekapazität von ca. 300 kb. BankIt Tool zur Übermittlung von einer oder wenigen Sequenzen an das NCBI über das Internet (s. Sequin). Basen Kleinste Einheit der DNA und RNA. Die Abfolge (Sequenz) der Nukleotidbasen beinhaltet die genetische Information. Basenpaar Die in der DNA sich gegenüberliegenden Nukleotidstränge werden aufgrund der Baseneigenschaften zusammengehalten. Die Purinbase Adenin paart in der DNA mit der Pyrimidinbase Thymin, in der RNA mit Uracil; die Purinbase Guanin paart mit der Pyrimidinbase Cytosin. Jeweils 2 (A-T) bzw. 3 (G-C) Wasserstoffbrückenbindungen halten das Basenpaar zusammen. Binärdatei dateien.
Datei, die keinen lesbaren Text enthält, z.B. Programme, Bild- und Ton-
Biochip – siehe DNA-Microarray Bioinformatik (engl. bioinformatics oder computational biology) Das Feld der Bioinformatik umfasst sowohl die Entwicklung als auch die Anwendung logischer sowie mathematischer Konzepte (Datenbanken, Algorithmen und Programme) für die Bearbeitung und die Analyse von großen Mengen an biologischen Daten über den Computer. Biologie Lehre vom Lebendigen. Die Inhalte in der Biologie gliedern sich in die Protistenkunde, die Botanik (Pflanzenkunde), die Zoologie (Tierkunde) und die Anthropologie (Menschenkunde). Ziel ist es, die Lebewesen in Beziehung zu sich und ihrer Umwelt zu setzen. Dabei bedient man sich der Einzelwissenschaften wie z. B. der Anatomie, der Biochemie, der Entwicklungsbiologie, der Molekulargenetik, der Morphologie, der Ökologie und der Systematik. Biotechnologie Die Nutzung biochemischer und molekularbiologischer Techniken in der angewandten Forschung, der Produktentwicklung und der Produktion. BIT Score Normalisierte Bewertung eines Ergebnisses aus einer Sequenzähnlichkeitssuche (siehe BLAST). BLAST Basic Local Alignment Search Tool. Programm, dem ein modifizierter Smith/ Waterman-Algorithmus für eine Sequenzähnlichkeitssuche in Sequenzdatenbanken zugrunde liegt. Die Methode ist ziemlich sensitiv und sehr schnell. NCBI-BLAST ist ein Suchprogramm für eine Sequenz gegen alle zur Verfügung stehenden Sequenzdatenbanken in allen Suchkombinationen (BLASTN, BLASTP, BLASTX, TBLASTN, TBLASTX).
172
Glossar für Bioinformatik
BLink BLAST-Link. Erweiterung/Verknüpfung von Einträgen der Protein-Datendomäne am NCBI zu einer vorgefertigten BLAST-Suche. Die maximal 200 Ergebnisse in der BLinkListe sind über Standardsuchparameter gefundene Treffer aus der nr(non-redundant)Datenbank. BLOSUM BLOCKS Substitution Matrix. Die der Matrix zugrunde liegenden Daten entstammen der Datenbank BLOCKS, einem Datensatz mit lückenlosen Sequenzausrichtungen von Proteinfamilien. Die Matrizen sind entwickelt worden, um konservierte Proteindomänen zu finden. Auswahl an BLOSUM-Matrizen am NCBI: BLOSUM62, BLOSUM45 und BLOSUM80. Blunt end DNA-Ende ohne überhängende Nukleotidbasen, das aus einem Restriktionsverdau mit bestimmten Restriktionsenzymen hervorgeht (im Gegensatz zu „sticky end“). Boole’scher Operator/Boole’sche Logik AND (UND), OR (ODER), NOT (NICHT), NEAR (in der Nähe von) sind Bool‘sche Operatoren. Sie dienen der Verknüpfung von Suchwörtern in einer Suchanfrage (im Internet oder in einer Datenbank). Die Boole’sche Suche bedient sich einer Kommandosprache mit einer möglichen Suchfeldqualifizierung. Die Suchanfrage muss logisch gestaltet sein. Die Interpretation der Suchanfrage erfolgt von links nach rechts und kann durch die Benutzung von Klammern verdeutlicht werden, z.B. (Hämophilie OR Bluterkrankheit) AND Königsfamilie bzw. Königsfamilie AND (Hämophilie OR Bluterkrankheit). Die Suchsyntax für eine qualifizierte Suchanfrage lautet: Suchwort [Suchfeld] Boole’scher Operator Suchwort [Suchfeld] Boole’scher Operator Suchwort [Suchfeld] Boole’scher Operator u.s.w. Boot
Neustart des Computers nach einem Absturz (Crash).
Browser Computerprogramm zur Benutzung des WWWs (z.B. Internet Explorer, Mozilla Firefox, Opera, Netscape etc.). Bug Fehler in einem Computerprogramm, welches zu Fehlverhalten der Anwendung oder zum Absturz des Computers führt. Cap-Struktur Bezeichnung für den über eine 5‘-5‘-Triphosphat-Bindung an das 5‘-Ende von eukaryotischen mRNAs angehängten 7-Methylguanosin-Rest. Die Cap-Struktur ist charakteristisch für die durch RNA-Polymerase II transkribierten Gene (Klasse II-Gene). Die auch als Capping bezeichnete Modifikation der mRNAs erfolgt an der so genannten Cap-Site am 5‘-Ende der RNA. CAS Chemical Abstract Service. Abteilung der American Chemical Society, vergibt die CAS-Registrierungsnummern für Chemische Verbindungen. CCDS Consensus CoDing Sequence Database. Inhalt dieser NCBI-Datenbank sind humane proteinkodierende Regionen, die bisher einheitlich beschrieben wurden und deren Annotationen in hoher Qualität gewährleistet sind. Langfristig sollten die Daten mit dem humanen Referenzgenom übereinstimmen. CDART Conserved Domain Architecture Retrieval Tool. Über CDART können Proteine mit ähnlichen funktionellen Domänen, wie sie in der Suchsequenz enthalten sind, gefunden
Glossar für Bioinformatik
173
werden. Die Domänenstrukturen der gefundenen Proteinfamilien werden grafisch dargestellt. CDD Conserved Domain Database. Datenbank am NCBI, in der konservierte Proteindomänen hinterlegt sind, die durch eine PSSM beschrieben sind. Die Datenbank kann über RPS-BLAST recherchiert werden. cDNA (complementary DNA) DNA, die mit Hilfe des viralen Enzyms Reverse-Transkriptase von einer mRNA als Matrize hergestellt wird. Eine cDNA hat, wie die RNA, keine Introns. cDNA-Array
siehe DNA-Mikroarray.
cDNA-Bank
Genbank, bei der die Vektoren/Plasmide cDNA enthalten.
CDS Coding Sequence. DNA-Sequenz, die nach der Transkription in die Proteinsequenz translatiert wird. CERN European Organization for Nuclear Research (frz.: Organisation Européenne pour la Recherche Nucléaire vormals Conseil Européen pour la Recherche Nucléaire). CGAP Cancer Genome Annotation Project. Initiative des National Cancer Institute (NCI). Hier stehen viele Ressourcen für die Analyse von Genexpressionsdaten, RNAi und Mutationsanalysen in Bezug auf Krebs zur Verfügung. Chromat Populäres Datenausgabeformat nach einer automatischen DNA-Sequenzierung. Chromat-Dateien beinhalten die Informationen über die Stärke der Fluoreszens aus einer Sequenzierungsreaktion und erlauben eine Kontrolle über Messfehler an jeder Position in der Sequenz. CIB Center for Information Biology. Japanisches Bioinformatikinstitut, an dem u.a. die Nukleotiddatenbank DDBJ aufgelegt wird. Client Computerprogramme, die mit einem Server in Verbindung treten, wie z.B. WebBrowser, die auf Web-Server zugreifen. Clone siehe Klon/klonieren Cluster Gruppe von ähnlichen oder einander zugeordneten Objekten. Die Übereinstimmung der Objekte kann sich auf eine Ähnlichkeit in der Sequenz (Sequenzübereinstimmungen und Sequenzüberlappungen), aber auch auf ähnliche Expressionsmuster etc. beziehen. Im Prozess des Clustering werden die Objekte (Lebewesen, Sequenzen etc.) gruppiert und klassifiziert. Die Gruppen ähnlicher Objekte bezeichnet man als Cluster. In der Bioinformatik bedient man sich des Clustering, um neue Eigenschaften aus der Gruppe abzuleiten oder um zu abstrahieren. Clusterings von Genexpressionsdaten z.B. lassen Aussagen über co-regulierte Gene zu. Codon Grundeinheit des genetischen Codes. Eine aus drei Nukleotiden bestehende RNA-Sequenz (Basentriplett), die eine bestimmte Aminosäure oder ein Terminationssignal
174
Glossar für Bioinformatik
codiert. Für eine bestimmte Aminosäure können bis zu vier verschiedene Codons zur Verfügung stehen. Man spricht dabei vom degenerierten genetischen Code. Codon Usage Spezifische Verwendung der verschiedenen Codons für eine Aminosäure bei der Übersetzung der RNA-Sequenz in die Proteinsequenz. COG(s) Clusters of Orthologous Groups Database (NCBI). Datenbank zur Klassifizierung orthologer Proteine. Conformation Konformation. Die genaue dreidimensionale Anordnung von Atomen und Atombindungen in einem Molekül. Über die Konformation wird die Geometrie und somit die molekulare Funktion des Moleküls beschrieben. Consensus sequence Konsensus-Sequenz. Eine einzige Sequenz, die aus einer Sequenzausrichtung (Alignment) von mehreren Sequenzen die „beste“ repräsentiert. Oft werden in der Konsensus-Sequenz nur die identischen Aminosäuren (Nukleotide) angegeben. Allerdings gibt es für die Ermittlung von Konsensus-Sequenzen verschiedene Verfahren, um auch die Aminosäuren (Nukleotide) in den nichtidentischen Sequenzbereichen zu bestimmen (z.B. „Best-Fit“-Verfahren). Contig Zusammenhängendes (contiguous) genomisches Segment, das aus der Zusammenstellung von kleineren überlappenden Sequenzabschnitten zusammengesetzt wurde (meist durch bioinformatische Anwendungen). Convergence Der Endpunkt einer Analyse von Daten, die mit Hilfe von Algorithmen erfolgte (z.B. PSI-BLAST – Position Specific Interated BLAST). CpG-Inseln/CpG islands Dinukleotide 5’-CpG-3’, die in lokaler Anhäufungen in eukaryotischen DNAs vorkommen. Mit einem Auftreten von ca. 30000 dieser CpG-Inseln im haploiden Genom des Menschen sind diese Cluster relativ selten (statistisch ca. alle 100 kb). Sie dienen als Markierungspunkte innerhalb sehr langer DNA-Bereiche. Biologisch relevant ist der Cytosin-Rest innerhalb des Dinukleotids, da es oft als Substrat für zellspezifische DNA-Methylasen dient. CPU
Central Processing Unit. Hauptrecheneinheit (Prozessor) des Computers.
Cytosin
Eine Pyrimidinbase in den Nukleotiden von DNA und RNA.
Data Cleaning Datenbereinigung. Vorgang, bei dem experimentell erstellte Daten über Algorithmen von falschen Daten, einschließlich „Hintergrundgeräuschen“ und anderen Artefakten, gereinigt werden. Dieser Prozess wird durchgeführt, um Daten von hoher Qualität zu erstellen und zu speichern, um sie für weitere Analysen zu benutzen. Dies ist insbesondere für Daten aus Hochdurchsatzsequenzierungsverfahren notwendig, bei denen es in hohem Maße zur Kompression der Sequenzen und damit zu fehlerhaften Sequenzen kommt. Data Mining Recherche und Verknüpfung von Suchergebnissen in großen Datenbanken, um eine Hypothese zu unterstützen („top-down“ data mining); oder die Recherche und die Informationsbeschaffung aus Datenbanken, um neue Arbeitshypothesen aus gefundenen statistischen Korrelationen zu erstellen („bottom-up“ data mining).
Glossar für Bioinformatik
175
Data Processing Systematische Prozessierung/Bearbeitung von Daten (Strukturieren, Sortieren, Zusammenfügen, Bearbeiten). Data Warehouses Große Sammlung von heterogenen (biologischen) Daten, die an einem Ort gespeichert sind und die über verschiedene Abfrageoberflächen und Manipulationsmethoden zugänglich sind. Datenbank (Abkürzung: db, wie z.B. in dbEST) Database. Elektronisches Speichersystem von Daten, in denen die Daten nach einem einheitlichen System logisch abgelegt und über Suchanfragen an die Datenbank wieder abrufbar sind. Man unterscheidet hierarchische, relationale, multidimensionale und objektorientierte Datenbanken. In den Lebenswissenschaften ist die relationale Datenbank die am meisten verwendete, da sie die größte Flexibilität zur Speicherung und Verknüpfung der Daten bietet. Datenbanken werden über ein Datenbankverwaltungssystem (DBMS) verwaltet. Der Zugang zu einer Datenbank kann, muss aber nicht über das Internet erfolgen. Deep Web Hidden Web oder Invisible Web. Teil des Internets, der bei einer Internetrecherche nicht über normale Suchmaschinen erfasst wird. Im Deep Web gibt es Inhalte, die nicht zugänglich sind (z.B. kennwortgeschützte Inhalte, komprimierte Daten, dynamisch erstellte Webseiten) und Inhalte, die nicht von Suchmaschinen indexiert werden. DDBJ DNA Data Bank of Japan. Teil der „International Nucleotide Sequence Database“, wie auch die Datenbanken EMBL Nucleotide Sequence Database und GenBank. Dendrogram Ein grafisches Verfahren für die Darstellung der Ergebnisse in einer hierarchischen Gruppierung. Die Ergebnisse stammen aus Clusterungs-Analysen. Ein Dendrogramm wird ausschließlich als binärer Baum mit einer eindeutigen Wurzel definiert, bei dem alle Datenelemente als Baum-Endpunkte (Blätter) aufgeführt werden. Alle Blätter werden auf dem gleichen Niveau der Zeichnung gezeigt. Die Anordnung der Blätter ist willkürlich, ebenso ihre horizontale Position. Die Höhen der internen Knotenpunkte können willkürlich sein oder können mit den metrischen Informationen zusammenhängen, die verwendet werden, um die Cluster zu bilden. Dimer Zusammengesetztes Molekül, das aus der Bindung zweier Moleküle untereinander hervorgeht. Die Moleküle können gleich (Homodimer) oder unterschiedlich sein (Heterodimer). Disulfid-Bindung Kovalente Bindung zwischen zwei Schwefelatomen von zwei verschiedenen Cysteinen in einem Protein. Über diese Bindung wird die Proteinfaltung, aber auch die Protein-Komplexbildung aufrechterhalten. DNA/DNS Desoxyribonukleinsäure. Genetischer Informationsspeicher der Zellen. DNA setzt sich aus den stickstoffhaltigen Basen Adenin, Guanin, Cytosin und Thymin zusammen, die über eine N-glycosidische Bindung an die Desoxyribose-Phosphate gebunden sind. Zwei komplementäre DNA-Stränge, in denen alle Gs mit Cs und alle As mit Ts über Wasserstoffbrückenbindungen paaren, bilden ein doppelsträngiges, spiralförmiges Molekül (DNA-Doppelhelix). DNA-Fingerprinting Molekularbiologische Technik, um menschliche Individuen zu identifizieren. Die Charakterisierung eines Individuums erfolgt über eine Restriktionsverdau-Ana-
176
Glossar für Bioinformatik
lyse von Tandem-Repeats (Wiederholungssequenzen), die im Genom überall verstreut sind, aber in jedem Individuum an unterschiedlichen Orten vorkommen. Die Restriktionsmuster der Individuen sind daher einem bestimmten Individuum eindeutig zuzuordnen. DNA-Microarray Auch als Biochip, Genchip oder nur als Microarray bezeichnet. Die Array-Technologie erlaubt die parallele Analyse von mehreren tausend Einzelnachweisen in einer geringen Menge an biologischem Probenmaterial. Es handelt sich um eine Nukleinsäurehybridisierung in miniaturisierter Form. Als Trägermaterial der Oligonukleotide oder cDNAs dient ein Glasobjektträger oder eine silikonbeschichtete Oberfläche. Anwendung findet sie im Bereich der Analyse von Genexpessionsmustern, DNA-Polymorphismen, der Diagnostik von Krankheiten und der Genotypisierung. DNA-Polymerase Enzym, das die Synthese von DNA durch das Kopieren eines DNAStranges katalysiert. DNA-Sequenz Abfolge/Reihenfolge der Basenpaare in einem DNA-Fragment, Gen oder Chromosom. Docking Computersimulation zur Einpassung eines Liganden in eine Proteindomäne (Bindungsstelle). Domain (protein) Domäne. Eine Region in einer Proteinsequenz von besonderer biologischer Bedeutung. Oft auch Bezeichnung für einen Proteinbereich mit einer eigenen Faltung (3D-Struktur). Domänen können verschieden kombiniert werden und sind für die Gesamtfunktion eines Proteins verantwortlich. Konservierte Domänen charakterisieren eine Proteinfamilie oder eine Proteinfunktion. Domain (comp.) Domäne. Logischer Teilbereich eines Computer-Netzwerkes. 1. Full qualified domain name z.B. ncbi.nlm.nih.gov; 2. Top-level domain, z.B. .gov, .com, .de Dominant Phenotypische Ausprägung eines Gens, von dem nur ein Allel in einer Zellpopulation anwesend sein muss, um in Erscheinung zu treten. Download Kopieren/Herunterladen einer Datei von einem externen Server auf einen lokalen Computer. Protokolle können sein: FTP, HTTP. DSL Digital Subscriber Line. Digitale Technologie zur Übertragung von Daten (oft über Kupferleitung, ca. 100 x schneller als ISDN). Dynamisches Verfahren Aufteilung eines Problems in Teilprobleme. Die Lösungen der ersten Teilprobleme werden im nächsten Schritt zur Lösung des folgenden Teilproblems verwendet. Die Lösungen werden in einer Tabelle gespeichert und daraus weitere Lösungen abgeleitet (z.B. Smith-Waterman Algorithmus). Ein solches Verfahren ist sehr genau, aber evt. auch sehr langsam. EBI European Bioinformatics Institute. Die europäische Einrichtung für bioinformatische Forschung und Entwicklung ist in Hinxton bei Cambridge (GB) angesiedelt. EC-Number Enzyme Classification Nummer. Identifizierungsnummer für Enzymklassen nach der Enzym-Nomenklatur des NC-IUBMB (Nomenclature Committee of the International Union of Biochemistry and Molecular Biology).
Glossar für Bioinformatik
177
Electronic Northern (Blot)/virtual Northern (Blot) „Northern Blot“ unter Anwendung von Daten einer Datenbank. Mit Hilfe von Datenbanken können die relativen Genexpressionslevel aus verschiedenen Geweben und Zellen miteinander verglichen werden, z.B. können Unterschiede im Genexpressionsniveau von karzinogenem gegenüber gesundem Gewebe ermittelt werden (Subtrahieren der Daten in den Datenbanken), ohne dass ein Northern Blot experimentell durchgeführt werden muss. Die Webseite des CGAP bietet hierfür eine sehr anwenderfreundliche Eingabemaske. Electrophorese (Gel-Elektrophorese) Trennverfahren für Moleküle, um sie entsprechend ihrer Größe durch das Anlegen eines elektrischen Feldes zu separieren. EMBL European Molecular Biology Laboratory. Gegründet 1974 mit Hauptsitz in Heidelberg. Von 16 Staaten (inkl. Israel) gefördert. Verwalter der EMBL Nucleotide Sequence Database. Enhancer DNA-Sequenz, die die Transkriptionsrate eines Gens erhöht. Ein Enhancer kann weit oberhalb oder unterhalb der Promotor-Sequenz, die er stimuliert, lokalisiert sein. Ensembl Kooperation zwischen dem EMBL-EBI und dem Wellcome Trust Sanger Institute (WTSI) zur Entwicklung eines Software-Systems für die automatische Annotation ausgewählter eukaryotischer Genome. ENTREZ Datenbankübergreifende Suchmaschine für die Datenbanken des NCBI wie z.B. PubMed, GenBank u.a. Zugänglich von der NCBI-Webseite (http://www.ncbi.nlm.nih. gov) über den Link All Databases. Enzym Protein, das in der Lage ist, die Aktivierungsenergie für eine chemische Reaktion herabzusetzen und diese zu beschleunigen. Enzyme gehen unverändert aus der Reaktion hervor. Epigenomik Forschungsgebiet über komplexe Expressions-Netzwerke mit Fokus auf räumliche (innerhalb eines Körpers) oder zeitliche (zu unterschiedlichen Entwicklungsstadien) Mechanismen der Genexpression. Untersucht wird u.a. der Einfluss der Chromatinstruktur auf die Genexpression. EST Expressed Sequence Tag. Eine kurze, 400-700 bp lange Sequenz eines exprimierten Gens. ESTs sind z.B. in der Datenbank dbEST (NCBI) hinterlegt. Sie werden generiert, indem cDNAs einer cDNA-Bank einmal ansequenziert werden. Oft gibt diese kurze Sequenz schon Auskunft über das Gen, obwohl sie oft fehlerhaft ist. Eukaryote auch als Eucyte bezeichnet (aus dem griechischen eu für „echt“ und karyon für „Kern“). Zelltyp, bei dem Zellkern und Organellen von spezifischen Membranen umschlossen sind. E-Wert Expect-Value. Statistisches Maß für die Signifikanz eines Treffers bei einer Datenbanksuche. Je kleiner der Wert, desto höher ist die Wahrscheinlichkeit, dass dieser Treffer nicht zufällig auftrat. Exon Region genomischer DNA, die für ein Peptid oder eine Proteindomäne kodiert. Ein eukaryotisches Gen besteht aus mehreren Exons, die durch nicht-kodierende Introns vonein-
178
Glossar für Bioinformatik
ander getrennt sind, welche im Prozess der RNA-Reifung zusammengefügt werden und so für eine lange Proteinsequenz kodieren. ExPaSY Expert Protein Analysis System. WWW-Server des Swiss Institute of Bioinformatics (SIB) mit Zugriffsmöglichkeit auf Proteindatenbanken (u.a. UniProt, PROSITE, ENZYME) und Proteinanalyseprogrammen zur Analyse und Charakterisierung von Proteinsequenzen. Expression (Gen oder Protein) Vorhandensein von einem oder mehreren Genprodukten in einer bestimmten Zelle oder in einem Gewebe zu einem bestimmten Zeitpunkt. Expressionsstudien werden gewöhnlich an mRNA oder am Protein durchgeführt. Expression Profiling Genexpressionsstudien für ein oder mehrere Gene eines bestimmten Zelltyps oder Gewebes mit Hilfe von Hochdurchsatzmethoden wie z.B. DNA-MicroarrayAnalysen oder SAGE (Serial Analysis of Gene Expression). Expressions-Vektor Klonierungsvektor, der für die Proteinexpression von cDNA in einem gewünschten Zelltyp oder in vitro hergestellt wurde. FASTA Heuristischer Algorithmus zur Sequenzähnlichkeitssuche in Datenbanken. Bei dieser Methode werden Nachschlagetabellen erstellt, die zum Vergleich von Sequenzsegmenten herangezogen werden. Die Wortlänge für die Tabelle bestimmt die Empfindlichkeit und die Schnelligkeit des Verfahrens. Die Methode ist sehr sensitiv und schnell. FASTA-Format Sequenzformat, welches häufig als Eingabeformat für Sequenzanalyseprogramme verwendet wird. In einer „Überschriftszeile“ (Kopfzeile) können nach einem „>“-Zeichen weitere 80 Zeichen zur Beschreibung der Sequenz folgen. In der nächsten Zeile wird die Sequenz ohne weitere Zeilenumbrüche angefügt. Filtering Herausnahme (Filtern) von Sequenzbereichen aus einer Datenbankrecherche durch Maskierung dieser Bereiche (z.B. bei BLAST-Analysen). Firewall Schutzkonfiguration für den Computer, um Angriffe aus dem Internet zu unterbinden. Eine Firewall kann unterschiedlich streng konfiguriert sein. Fingerprint (engl.) Fingerabdruck. Eine Anzahl an konservierten Proteinmotiven, die eine Proteinfamilie charakterisieren. Sie sind in den anderen Familienmitgliedern entweder in der gleichen oder in veränderter Reihenfolge vorhanden. Mitglieder einer Proteinfamilie enthalten alle Elemente des Fingerabdruckes, Mitglieder von Proteinunterfamilien nur Teile des „Fingerprints“. FLAT-File Viele biologische Datenbanken sind in so genannten Flat-Files hinterlegt. In diesen Dateien haben die Daten keinen strukturellen Bezug zueinander (z.B. GenBank FlatFile-Format zur Hinterlegung einer Sequenz in GenBank). Frameshift Verschiebung des Leserahmens. Eine Verschiebung des Leserahmens ergibt sich aus der Deletion oder Insertion von einer oder zwei Basen in der DNA-Sequenz. Hierdurch kodieren die Codons für andere Aminosäuren als ursprünglich vorgesehen. Es kommt zu einer Veränderung in der Proteinsequenz.
Glossar für Bioinformatik
179
FTP File Transfer Protocol. Protokoll zur Datenübertragung zwischen verschiedenen Computern. Gap Lücke in einer Sequenzausrichtung von zwei oder mehreren Sequenzen, um eine biologisch sinnvolle Sequenzausrichtung zu erzielen. Gap penalties/Gap costs Zur Berechnung eines Alignment-Scores müssen die Lücken in einer Sequenzausrichtung bewertet werden. Die dafür verwandten Strafpunkte können sich sowohl auf die Existenz einer Lücke (Gap-opening-penalty) als auch auf die Länge einer Lücke (Gap-extension-penalty) beziehen. Strafpunkte für Lücken sind immer negativ und verringern den Score der Sequenzausrichtung. Gen Segment auf einem Chromosom. Zu einem Gen gehören sowohl die proteinkodierenden Regionen als auch alle regulatorischen Sequenzen, die die Genexpression kontrollieren (Promoter, Enhancer etc.). GenBank Datenbank der National Institutes of Health (NIH) für alle öffentlich zur Verfügung stehenden Nukelotid-Sequenzen. Die Daten werden täglich mit den Kollaborationspartnern am EMBL (EMBL Nucleotide Sequence Database) und CIB (DDBJ) ausgetauscht. Genbibliothek Genbank oder cDNA Bank. Sammlung von DNA-Fragmenten aus einem Organismus oder einer Zellpopulation, die in einem Klonierungsvektor vorliegen. Gen Index Eine Liste von Zahlen, Beschreibungen und Sequenzen für alle identifizierten Gene eines spezifischen Genoms. Diese Zusammenstellung von Genen für einen Organismus sind nicht-redundant und beinhalten oft Sequenzcluster (z.B. überlappende ESTs, ORFs, SNPs, und Beschreibungen anderer Eigenschaften). Gen-Chips siehe DNA-Microarray. Genetischer Code Regel zur Übersetzung der DNA-Sequenz in eine Proteinsequenz. Drei Nukleotidbasen (Basentriplett) kodieren hierbei für eine Aminosäure und Stopcodons. In manchen Fällen gibt es mehrere Tripletts für eine Aminosäure (degenerierter Code). Der genetische Code variiert in Mitochondrien, manchen Einzellern und Prokaryoten. Genetischer Marker Eindeutige Sequenz oder phenotypischer Effekt mit Korrelation zu einem gesuchten Merkmal. Über einen genetischen Marker kann eine Zelle, ein Chromosom oder ein bestimmtes Gen eindeutig identifiziert werden. Genexpression Die Übersetzung der genetischen Information in RNA und Protein. Auch Gene, die auf RNA-Ebene wirken, werden exprimiert (s. auch Expression). Genfamilie Eine Gruppe homologer DNA-Sequenzen, die oft für die gleiche Genfunktion verantwortlich sind. Genom Vollständige Erbinformation in einem Organismus. Das Genom ist auf einen organismusspezifischen Satz von Chromosomen verteilt. Genomics Forschungsgebiet mit dem Ziel, alle Informationen eines Genoms zu entschlüsseln.
180
Glossar für Bioinformatik
Genotyp Die gesamte Erbinformation eines Individuums. Oft bezieht sich die Beschreibung zum Genotyp nur auf einen Genort und die dort gefundenen Allele. GEO Gene Expression Omnibus. Datenbank des NCBI mit Genexpressionsdaten aus Microarray und SAGE-Experimenten. Globales Alignment Sequenzausrichtung zweier oder mehrerer Sequenzen, die sich über die gesamten zu vergleichenden Sequenzlängen erstreckt. Glycosylierung Eine Modifizierung von Proteinen oder anderen organischen Molekülen, bei der Zuckerreste angehängt werden. GO GeneOntology. Siehe Ontologie Gonnet Modifizierte PAM-Matrix. Standardmatrix für ClustalW (Gonnet250), ein Programm, um multiple Sequenzalignments zu erstellen. GSS Genome Survey Sequences. Die Herstellung der GSS-Sequenzen erfolgt über die einmalige Sequenzierung von Klonen einer genomischen DNA-Bibliothek. Guanin (G)
Eine Purinbase in den Nukleotiden von DNA oder RNA.
GUI Graphical User Interface. Grafische Darstellung auf einem Computerbildschirm, die zur Bedienung des Computers dient (z.B. Windows). Haploid Zelle oder Organismus mit nur einem Satz an Chromosomen (im Gegensatz zu einem doppelten Satz an Chromosomen (diploid) oder mehreren Chromosomensätzen (polyploid)). Heterodimer Protein, bestehend aus 2 verschiedenen Ketten (chains) oder Untereinheiten (siehe Dimer). Heteroduplex Hybride Nukleinsäurestruktur, die sich aus zwei DNA-Molekülen oder aus einem RNA- und einem DNA-Molekül ergibt, wenn die beiden Stränge genügend Komplementarität aufweisen, um Wasserstoffbrückenbindungen auszubilden. Heterozygotie/Heterozygosity Wahrscheinlichkeit, dass ein diploides Individuum zwei unterschiedliche Allele an einem Genlocus hat. Dieses Individuum ist heterozygot (im Gegensatz zu homozygot; s. Allel). Heuristisches Verfahren Entdeckungsverfahren. Methode der Bioinformatik, um sich einer Lösung zu nähern, indem eine Theorie getestet und das Verfahren aufgrund der Lösungen angepasst wird. Diese Methoden sind schnell, finden jedoch nicht alle möglichen Lösungen. HGNC
Human Gene Nomenclature Committee.
HMM Hidden Markov Model (nach Andrei Andrejewitsch Markov). Ein stochastisches Modell, das sich durch zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow-Kette, die durch Zustände und Übergangswahrscheinlichkeiten
Glossar für Bioinformatik
181
gekennzeichnet ist. Die Zustände der Kette sind von außen jedoch nicht direkt sichtbar (sie sind verborgen). Stattdessen erzeugt ein zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsabhängigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht häufig darin, aus der Sequenz der Ausgabesymbole auf die Sequenz der verborgenen Zustände zu schließen (Wikipedia). High-throughput-Verfahren Hochdurchsatzverfahren. Methode, bei der große Mengen an Untersuchungsmaterialien gleichzeitig analysiert werden. Im Allgemeinen generieren diese Methoden große Mengen an Daten, die in Datenbanken eingespeist werden und einer weiteren Auswertung bedürfen. HomoloGene Datenbank am NCBI zur Recherche nach orthologen Genen und Proteinen in verschiedenen Spezies. Erstellt wird die Datenbank u.a. über BLAST-Analysen. Angenommene orthologe Gene und Proteine leiten sich dabei aus jeweils reziproken besten BLASTTreffern ab. Homologe Sequenzen/Proteine Zwei biologische Arten/Sequenzen/Merkmale sind homolog, wenn sie einen gemeinsamen Ursprung aufweisen. Bei Sequenzähnlichkeitssuchen wird eine Homologie unter ähnlichen Sequenzen angenommen, deren gemeinsame Abstammung jedoch über die Sequenzähnlichkeit allein nicht bewiesen ist. Housekeeping genes Haushaltsgene. Gene, die theoretisch immer (konstitutiv) exprimiert sind, da sie für die Zellfunktionen essentiell sind. HSP High-scoring Segment Pair. Die gefundenen Teilstücke in ähnlichen Sequenzen, die eine höhere (oder gleiche) Bewertung gegenüber einem gesetzten Grenzwert erzielen. Diese Teilstücke werden bei heuristischen Algorithmen wie z.B. BLAST weiter verlängert, um längere ähnliche Sequenzen in der Datenbank zu identifizieren. HTGS High Throughput Genomic Sequences. Sequenzen, die bei großen Genom-Sequenzierungsprojekten generiert werden. Sie werden in unterschiedlichen Stufen der Fertigstellung veröffentlicht: Unfertig (unfinished) in Phase 0,1 oder 2; fertige genomische Sequenz in Phase 3. HTML Hypertext Markup Language. Kodierungsprache für die Information, die im WWW über eine Webbrowser dargestellt werden soll. HTTP/ HTTPS Hypertext Transport Protocol (Security). Kommunikationsprotokolle für das WWW zur Darstellung von HTML-Dokumenten über einen Webbrowser. Mit „Security“-Protokollen können Informationen verschlüsselt übertragen werden. HUGO
Human Genome Organisation.
Hybridisierung Methode, die auf der Interaktion zweier Nukleinsäure-Moleküle beruht (DNA-DNA bzw. RNA-DNA) und zum Nachweis der Komplementarität dieser Moleküle dient. Hybridisierung ist das Prinzip vieler molekularbiologischer Methoden wie z.B. Southern und Northern Blotting (s.a. DNA-Microarray). Hyperlink Verknüpfung zu Dokumenten im WWW, die durch einen Mausklick ausgeführt wird. Die Dokumente können in HTML, PDF oder anderen Formaten hinterlegt sein.
182
Hypertext
Glossar für Bioinformatik
Ein Text, der Verknüpfungen (Hyperlinks) zu weiteren Dokumenten enthält.
Identity Identität. 100%ige Übereinstimmung zwischen zwei oder mehreren Sequenzen (Nukleotid- oder Proteinsequenzen). Die Identität der Sequenzen in einem Alignment ist in Prozent der ausgerichteten Sequenzlänge angegeben. IMAGE Integrated Molecular Analysis of Genomes and their Expression. Zusammenschluss (Konsortium) von akademischen Arbeitsgruppen, die anderen Arbeitsgruppen biologisches Material wie z.B. cDNA Banken für wissenschaftliche Zwecke zur Verfügung stellen. Indexierung Erschließung und Beschreibung von Inhalten in einer Datenbank. Über die Kategorisierung von Informationen können die Datenbankinhalte durch eine Datenbankrecherche schnell und effizient abgerufen werden. Informatik Die Informatik beschäftigt sich mit Prozessen der Informationsverarbeitung, bei denen der Computer als Hilfsmittel dient. Experimentell oder empirisch erhobene Daten sollen durch Automatisierung geordnet und bearbeitet werden. in silico (Experiment) In Silizium (engl. Silicon; Bezeichnung in Anlehnung an Silizium in PC-Chips). Ein am Computer simuliertes biologisches Experiment. in situ (Hybridisierung) Eine Modifikation einer DNA/RNA-Hybridisierung. Die nachzuweisende, denaturierte DNA liegt in einer Zelle vor und wird mit (oft fluoreszenzmarkierter) DNA/RNA einer anderen Quelle hybridisiert. in vitro (Experiment) (lat.) Im (Reagenz-)Glas. Ein Experiment, welches außerhalb eines lebenden Organismus durchgeführt wird. in vivo (Experiment) (lat.) Im Lebewesen/Körper. Ein Experiment, welches in einem lebenden Organismus durchgeführt wird. Internet Zusammenschluss von individuellen regionalen Netzwerken. Diese Netzwerke befinden sich bei Universitäten, Firmen oder Online-Diensten und sind auf unterschiedliche Weise miteinander verbunden (z.B. über Standleitungen, Kabel oder Satellit). Man unterscheidet WAN (Wide Area Network), GAN (Global Area Network), MAN (Metropolitan Area Network), LAN (Local Area Network). Daraus ergeben sich folgende Definitionen: Internet: WAN ohne Einschränkung Extranet: WAN für einen eingeschränkten Benutzerkreis Intranet: LAN für einen eingeschränkten Benutzerkreis Die am häufigsten benutzten Dienste des Internet sind das www (World Wide Web; Einsatz von http-Protokollen u.a.), e-mail und FTP (File Transfer Protocol). Internet Service Provider/Host Anbieter für Einzelpersonen oder Betriebe zur Anbindung von Rechnern an das Internet. Intranet siehe Internet Intron Nicht-kodierender Bereich eines eukaryotischen Gens. Dieser Bereich wird transkribiert und bei der RNA-Prozessierung herausgeschnitten (Splicing).
183
Glossar für Bioinformatik
IP Internet Protocol. Grundlegendes Protokoll zur Datenübertragung über das Internet. Lenkt die Daten über verschiedene Schaltstellen und Router zum gewünschten Ziel. Ergänzt die Aufgaben des TCP. Die beiden Protokolle werden oft gemeinsam erwähnt. ISDN
Integrated Services Digital Network.
Isoschizomere Zwei (oder mehr) Restriktionsenzyme, die dieselben Erkennungssequenzen benutzen (z.B. Sma I und Xma I) Iteration Reihe von Schritten in einem Algorithmus, bei der die Verarbeitung von Daten solange wiederholt wird, bis das Resultat eine bestimmte Schwelle übersteigt. Eine praktische Anwendung ist PSI-BLAST (Position-Specific-Interated BLAST). Die Sequenzähnlichkeitssuche wird mit einer sich immer neu bildenden Matrix solange wiederholt, bis keine neuen Treffer in der Datenbank gefunden werden (d.h. Konvergenz erreicht wurde). IUBMB International Union of Biochemistry and Molecular Biology. Organ für die Erstellung von Regeln und Empfehlungen in der Nomenklatur für Stoffe und Anwendungen in der Biochemie und Molekularbiologie. IUPAC International Union of Pure and Applied Chemistry. Organ für die Erstellung von Regeln und Empfehlungen zur Nomenklatur für Stoffe und Anwendungen in der Chemie. JAVA Hardware-unabhängige Programmiersprache. JAVA-Applets laufen, sobald der Computer mit einem Plug-in (JRE-Java run-time environment) ausgestattet ist. Junk DNA Bezeichnung für genomische DNA, der keine Funktion zugeordnet werden kann. Wahrscheinlich haben viele genomische DNAs jedoch regulatorische und andere Funktionen, die noch nicht identifiziert wurden. Klon/Klonierung Ein Klon ist eine Population genetisch identischer Zellen, Organismen oder DNA-Moleküle. Sie gehen auf einen gemeinsamen Ursprung zurück (z.B. ein Bakterienklon oder rekombinante Plasmide etc.). Unter Klonieren versteht man die Produktion von identischem genetischem Material wie z.B. die Vervielfältigung einer bestimmten Zelle, eines Organismus oder eines DNA-Moleküls. Kompilierung
Aufbau einer Datenbank aus mehreren Einzeldatenbanken.
Konsensussequenz DNA- oder Proteinsequenz, die die am häufigsten vorkommenden Bausteine (Nukleotide oder Aminosäuren) für alle Positionen in einer Sequenzausrichtung von mindestens drei Sequenzen widerspiegelt. Konservierte Region/Sequenz Sequenzabschnitt, der in der Evolution erhalten (konserviert) blieb. LAN
Local Area Network (siehe Internet).
Leserahmen/Leseraster Ergibt sich aus den kodierenden Aminosäuren und Stopkodons, die sich aus der Nukleotidsequenz ableiten. Leserahmen fangen an der ersten, zweiten oder dritten Base auf dem Plusstrang oder auf dem Minusstrang an, so dass sechs verschiedene Leserahmen abgeleitet werden können. Ein langer offener Leserahmen kann ein Indiz für
184
Glossar für Bioinformatik
ein kodierendes Protein sein. Hat die DNA im Vergleich zu einer anderen eine veränderte Sequenz (durch Mutation wie z.B. Insertion oder Deletion), kann sich das Leseraster so verschieben, dass die Sequenz für ein anderes Protein kodiert und das Protein evt. eine fehlerhafte Funktion hat. Library/Bibliothek Eine Sammlung von Komponenten (Peptide, cDNAs, Gene), die für eine Durchmusterung auf bestimmte Eigenschaften herangezogen wird. Linkage Ein Verbund an Genen (Genorten) auf einem Chromosom. Gene, die in einem solchen Verbund liegen, tendieren dazu, gemeinsam vererbt zu werden. Linkage map Eine genetische Karte eines Chromosoms, auf der der genetische Ort über eine Abstammungsanalyse identifiziert wurde. Local Alignment
Eine Sequenzausrichtung von begrenzten Sequenzabschnitten.
Locus Genort. Die spezifische Position eines Gens oder DNA-Abschnittes (z.B. eines Markers) auf dem Chromosom. An einem Genort kann eine Eigenschaft durch die verschiedenen Allele, die für diesen Genort austauschbar sind, repräsentiert sein. Low-Complexity-Region Mit der Bezeichnung „low complexity region“ sind oft lokale Sequenzbereiche gemeint, die eine Anwendung (z.B. eine Sequenzähnlichkeitssuche) ungünstig beeinflussen. Obwohl diese Regionen statistische Signifikanz aufweisen, zeigen sie bisher keine biologische Bedeutung. Match/Missmatch
siehe Unitary Matrix
Matrix Mathematisches Wertesystem zur Berechnung von Sequenzähnlichkeiten und Sequenzverwandtschaften. Bewertet werden die Wahrscheinlichkeiten der jeweiligen Aminosäureaustausche in einer Sequenzausrichtung. Die bekanntesten Matrizen sind die Dayhoff, BLOSUM, PAM und Gonnet Matrizen. Sie sind aus globalen (PAM, GONNET) oder lokalen (BLOSUM) Sequenzausrichtungen unterschiedlich nah verwandter Sequenzen bzw. Sequenzabschnitten erstellt worden. Messenger RNA (mRNA) RNA-Moleküle, die über den Mechanismus der Transkription entstehen und als Vorlage für die Proteinbiosynthese (Translation) dienen. Megablast BLAST-Programm, das entwickelt wurde, um lange unbekannte Nukleotidsequenzen mit einer Datenbank abzugleichen. MeSH Medical Subject Headings. Kontrolliertes Vokabular für die Indexierung von Artikeln in MEDLINE/PubMed. MeSH-Terminologie bietet eine einheitliche Beschreibung für Themen und Konzepte, auch wenn die Autoren der Publikationen individuelles Vokabular benutzen. Eine Indexierung für MEDLINE dient somit der genauen und vollständigen Informationsbeschaffung. Metabolom Alle Proteine, die am Stoffwechsel einer Zellpopulation oder eines Organismus beteiligt sind. Microarray
siehe DNA-Microarray
Glossar für Bioinformatik
185
Microsatelliten DNA-Regionen mit kurzen sich wiederholenden Sequenzen von 2–3 bp Länge (z.B. 15× GCG). Die am häufigsten vorkommende Wiederholungssequenz ist CA und die komplementäre Sequenz GT. Der Nachweis dieser Segmente erfolgt über PCR. mmCIF Macromolecular Crystallographic Information File. Darstellungsformat für Informationen Makromolekularer Strukturen, von IUCr (International Union of Crystallography) anerkannt. Modeling In der Bioinformatik bezieht sich das „Modellieren“ auf die Interpretation oder Vorhersage einer 3-D-Struktur eines Moleküls. Mit einer visuellen Darstellung können die Moleküleigenschaften abgeleitet, berechnet und/oder manipuliert werden. Veränderungen durch innere und/oder äußere Einflüsse am Molekül können simuliert werden. Modell-Organismus Organismus mit vielen Vorteilen für die experimentelle biologische Forschung, wie z.B. eine schnelle Entwicklung mit kurzen Lebenszyklen, kleine Erwachsenengröße, unkomplizierte Haltung, breite Verwendbarkeit. Gut untersuchte Modell-Organismen sind Maus, Hefe, Ackerschmalwand, Fruchtfliege und Zebrafisch. Modem Modulator/Demodulator. Gerät zur Umwandlung von Signalen für die Datenübertragung. Molekularbiologie Wissenschaftszweig der Biologie, der sich mit der Erforschung des Lebens auf der Ebene der Moleküle, insbesondere von DNA, RNA und Proteinen beschäftigt. Im Mittelpunkt stehen die Beschreibung der Funktionen dieser Makromoleküle und deren Einfluss auf die Regulation biologischer Vorgänge. Motiv Konservierte Region in einer Sequenz, die oft mit der für das Molekül charakteristischen Funktion korreliert. Motive werden in Muster (Pattern) und Profile unterteilt. Es gibt viele Datenbanken für Proteinmotive (CDD, SMART, PFAM, PROSITE), die für eine Vorhersage von Motiven herangezogen werden können. Morgan (centiMorgan, cM) Einheit einer genetischen Karte. Zwei Loci sind 1 cM entfernt, wenn die Rekombinationswahrscheinlichkeit zwischen diesen Loci 1% pro Meiose beträgt, also im Durchschnitt ein Cross-over in 100 Meiosen auftritt. Je weiter zwei Genloci voneinander entfernt sind, desto höher ist die Wahrscheinlichkeit, dass sie rekombinieren. Umgekehrt ist die Wahrscheinlichkeit gering, dass zwei nahe beieinander liegende Genloci rekombinieren. Sie werden oft „gekoppelt“ vererbt (Kopplungsgruppe). Beim Menschen entspricht ein Abstand von einem centiMorgan (= 0,01 Morgan) in etwa 106 Basenpaaren. Multigenfamilie Eine Gruppe an homologen DNA-Sequenzen (Genen), die aufgrund von unabhängigen Mutationensereignissen zu paralogen Sequenzen wurden und über das ganze Genom verteilt sein können. Multiples (Sequenz) Alignment Sequenzausrichtung mit mindestens drei Sequenzen, um schnell die Sequenzähnlichkeiten unter ihnen erkennen zu können. Mutagen Substanz oder Einflussgröße (chemisch, biologisch, physikalisch etc.), die in einem Organismus die Mutationsrate erhöht.
186
Glossar für Bioinformatik
Mutation/Variation Veränderung in der DNA-Sequenz. Die Ursache einer Mutation ist unterschiedlich (z.B. spontan, ausgelöst durch Mutagene, vererbt). Ebenso können die Mutationen unterschiedlicher Ausprägung sein (z.B. Insertion/Deletion einzelner Nukleotide wie bei einer Punktmutation, bis hin zu Chromosomenaberrationen). NAR Nucleic Acids Research. Fachzeitschrift, in deren erster Ausgabe eines jeden Jahres sämtliche biowissenschaftliche Datenbanken besprochen werden. NCBI
National Center for Biotechnology Information.
Needleman/Wunsch-Algorithmus Dynamischer Algorithmus zur Ableitung eines globalen Alignments für zwei Sequenzen. Die Methode ist sehr rechner- und zeitintensiv und übergeht oft Proteindomänen und Motive. Neighbor (engl.) Nachbar. Bezeichnung für einen ähnlichen Treffer in der gleichen Datendomäne von Entrez-Datenbanken des NCBI. Der Algorithmus zur Auffindung dieser Treffer variiert. So handelt es sich bei den „related articles“ in PubMed um einen „Word Weight Algorithm“, in Entrez-Nucleotide und Entrez-Protein um den BLAST-Algorithmus, in Entrez-Structure um den VAST-Algorithmus. NIC Netzwerk Information Center. Diese Zentren helfen bei der Nutzung des Internets. In Deutschland ist die DeNIC (Deutsches Network Information Center/Domänen-Verwaltungsund Betriebsgesellschaft eG) für die Registrierung von Internetdomänen verantwortlich. NMR Nuclear Magnetic Resonanz (Spectroscopy)/Kernspinnresonanz-Spektroskopie. Methode zur Auflösung der dreidimensionalen Struktur eines (Protein-)Moleküls (in Lösung). Normalisierung Bei einer BLAST-Suche geben die reinen Score-Werte S keine Information über die Qualität des Ergebnisses, da keine Informationen über die Datenbank und den Suchalgorithmus (bzw. K und h einbezogen wurden. Bit-Scores S’ (normalisierte Scores) berechnen sich wie folgt: S’ = (hS – lnK) / ln2 – Aus den Bit-Scores S’ lassen sich E-Werte ableiten, die nur von den Sequenzlängen abhängen. E = mn2 –S’ – Für die Signifikanz-Beurteilung müssen dann nur noch die Sequenzlängen m und n bekannt sein. Nukleosid Organische Verbindung einer stickstoffhaltigen Base mit einem Zuckermolekül Desoxiribose (DNA) bzw. Ribose (RNA). Nukleotid Organische Verbindung einer stickstoffhaltige Base mit einem Zuckermolekül Desoxiribose (DNA) bzw. Ribose (RNA) und einem Phosphatrest. Oligonukleotid Kurzes DNA-Molekül aus ca. 10-60 Nukleotiden. Oligonukleotide finden Verwendung in PCR-Anwendungen als Primer, in Hybridisierungsexperimenten und in der Array-Technologie. OMIM Online Mendelian Inheritance in Man. Katalog/Datenbank für genetische Veränderungen und Krankheiten des Menschen.
Glossar für Bioinformatik
187
Ontologie Die Lehre der Ordnungs- und Wesensbestimmung. Die Gen-Ontologie ist der Versuch, ein kontrolliertes, die Genfunktion beschreibendes Vokabular zu entwickeln, welches für die Recherche nach Genen herangezogen werden kann. Die Begriffe/Gene sind hierarchisch in die drei Konzepte „biologischer Prozess“, „molekulare Funktion“ und „Ort der Funktion“ eingeordnet. Eine große Initiative geht von dem Human-Gene Nomenclature Committee aus (HGNC; http://www.ontology.org). Open reading frame (ORF)/Offener Leserahmen siehe Leserahmen. Ortholog Orthologe Sequenzen (Gene/Proteine) sind die Homologen Gene/Proteine in einem anderen Organismus oder in einer anderen Spezies. Sie üben dort dieselbe Funktion aus. Palindrom Eine DNA-Sequenz, die zu ihrer revers-komplementären Sequenz identisch ist wie z.B. 5‘ GAATTC 3‘ (komplementär zu 3‘ CTTAAG 5‘ auf dem reversen Strang). Kurze palindromische Sequenzen bilden oft die Erkennungssequenz von Restriktionsendonukleasen. PAM Percent Accepted Mutation. Substitutionsmatrix, die aus globalen Sequenzalignments von evolutionär nahe verwandten Sequenzen entstanden ist. Jede PAM hat eine Angabe über den Grad der Ähnlichkeit der Sequenzen, aus der sie entwickelt wurde und für die sie eingesetzt werden kann. PAM-Auswahl bei NCBI-BLAST-Suchen: PAM 30 und PAM 70. Paralog Paraloge Sequenzen (Gene/Proteine) sind homologe Gene/Proteine im selben Organismus. Diese Sequenzen haben einen gemeinsamen Ursprung, üben jedoch nicht mehr dieselbe, sondern nur ähnliche Funktionen in diesem Organismus aus. Pattern Kleine Region mit hoher Sequenzähnlichkeit („core“ pattern). Es handelt sich um biologisch relevante Sequenzmotive wie z.B. katalytische Zentren von Enzymen, Bindungsstellen, Cysteinreste für Disulfidbrücken. Pattern werden oft im PROSITE-Format beschrieben (s.http://au.expasy.org/tools/scanprosite/scanprosite-doc.html#patsyntax). Pathway Stoffwechselweg bzw. molekulares Netzwerk der Zelle und/oder im Organismus. Die Aufklärung von Stoffwechselwegen erfolgt über Studien von Proteininteraktionen, Reaktionsmechanismen und anderen Parametern. Ziel ist es, die Stoffwechselwege, ihre Verknüpfungen und funktionellen Netzwerke zu verstehen. Parameter Benutzerselektierte Werte, die die Grenzen eines Algorithmus oder eines Programms bestimmen. Für den Erfolg eines Suchalgorithmus sind sowohl Eingabeparameter, als auch Gewichtungsparameter (Strafen) für Fehlanpassungen und Lücken wichtige Einstellungen. PCR Polymerase-Chain-Reaction (Polymerase-Ketten-Reaktion). Mit dieser Methode können definierte DNA-Fragmente in vitro vervielfältigt (amplifiziert) werden. Gebräuchlich ist eine DNA-Polymerase, die bei einer Temperatur von 72°C arbeitet (Taq-Polymerase). Die Vervielfältigung erfolgt durch die Wiederholung der folgenden 3 Schritte (= 1 Zyklus): 1. Denaturierung der DNA und der Oligonukleotide (Primer) bei 90–95°C. 2. Anlagerung (Annealing) der Oligonukleotide bei der gewünschten Anlagerungstemperatur (ca. 56– 65°C) und 3. Synthese der neuen DNA-Stränge bei 72°C (Elongation). PCR-Techniken:
188
Glossar für Bioinformatik
Real-Time-PCR (Echtzeit-PCR), RT-PCR (Reverse Transcriptase-PCR), Nested PCR, TaqMan PCR u.a. PDB Protein Data Bank. Datenbank zur Speicherung von Daten aus experimentell abgeleiteten 3-D-Strukturen von Proteinen und anderen Makromolekülen. Peptide Kettenförmige Verbindung von Aminosäuren. Peptide bestehen aus weniger als 100 Aminosäuren, Proteine aus mehr als 100 Aminosäuren. Peptide bond (Peptidbindung) Kovalente Bindung, die durch eine Kondensationreaktion zwischen den Aminogruppen und den Carboxylgruppen zweier Aminosäuren ausgebildet wird. Pharmacogenomics Forschungsgebiet, welches den Genotyp eines Individuums mit in die Medikamentengabe und Therapiemöglichkeiten von Patienten mit einbezieht. Phänotyp/Phenotype Erscheinungsbild eines Individuums, welches sowohl durch den Genotyp als auch durch äußere Einflüsse (z.B. Umwelteinflüsse) geprägt wird. PHI-BLAST Pattern-Hit-Initiated BLAST. Eine Sequenzähnlichkeitssuche mit Fokus auf ein Proteinmotiv, welches gesondert in einem motivbeschreibenden Format (PROSITE-Format) angegeben werden muss. Phylum (pl. phyla) Stamm. Kategorie der phylogenetischen Einteilung von Organismen. Die Mitglieder eines „Stammes“ weisen gleiche Merkmale in der Organismus-Struktur und Organisation auf, z.B. Chordata (besitzen alle eine Wirbelsäule). Phylogenie Lehre über die Stammesgeschichte der Lebewesen. Oft wird die Entwicklungsgeschichte der Lebewesen in einer Baumstruktur dargestellt (Phylogenetischer Baum). Gehen von einem Knotenpunkt (Ast) in einem Baum mehr als zwei nachfolgende Äste ab, ist die Entwicklung an dieser Stelle noch nicht vollständig aufgeklärt. Methoden zur Erstellung einer Phylogenie sind z.B. Maximum Likelihood, Neighbor-Joining, Parsimony und UPGMA. Phylogramm /Phyletisches Dendogramm Darstellung der verwandtschaftlichen Beziehungen in einem Baum. Das Phylogramm informiert über die geologische Zeit auf der Ordinate (y) und das Ausmaß der Verschiedenheit auf der Abszisse (x), gibt aber keine Auskunft über das Ausmaß in absoluten Werten. Physikalische Karte/Physical map Karte des Genoms oder einer genomischen Region, die aus DNA-Fragmenten zusammengesetzt wurde. Man unterscheidet zwei Arten von physikalischen Karten. Die eine ist aus Restriktionsanalysen genomischer DNA mit seltenen Restriktionsenzymen entstanden, die andere aus überlappenden, geklonten und sequenzierten DNA-Fragmenten (Klondiagramme). Diese „ordered cloned Maps“ haben eine hohe Auflösung. Zusätzlich können die verwendeten Klone (YACs, cosmids, BACs oder auch Plasmide) zu weiteren Studien herangezogen werden. Plasmid Ringförmige extrachromosomale DNA, die in der Zelle unabhängig von der Replikation der Chromosomen vervielfältigt werden kann. Bakterien können Plasmide untereinander austauschen und somit Gene wie z.B. Resistenzgene auf andere Bakterien
Glossar für Bioinformatik
189
übertragen. In der Biotechnologie benutzt man Plasmide als Vektoren, in denen Fremd-DNA kloniert werden kann. Plastid
Pflanzliche Organellen wie. z.B. Chloroplasten, Amyloplasten, Chromoplasten.
PMC PubMed Central. Digitale Archive am NCBI von Voll-Text-Literatur aus Journalen der Lebenswissenschaft. PMC ist über das Internet frei zugänglich. Poly(A)-Schwanz Eine Sequenz von Adenosinen, die einer eukaryotischen mRNA am 3’-Ende angehängt werden, um diese zu stabilisierten. Die Erkennungssequenz auf der mRNA wird als Polydenylierungsstelle (Polyadenylations-Site oder -Signal) bezeichnet. Eine praktische Anwendung findet der Poly(A)-Schwanz in mRNA-Isolierungsmethoden und der RT-PCR. Polymorphismus Vielgestaltigkeit. Eine genetische Veränderung in einer Population im Vergleich zu einer anderen Population. Post-translationale Modifizierung Veränderung an einem Protein nach der abgeschlossenen Translation. Die Modifikation kann für die Funktion des Proteins ausschlaggebend sein. Beispiele für die PTM sind Protein-Phosphorylierungen, Glykosylierungen u.ä. Primärdatenbank Archivdatenbank, in die alle Informationen ohne Filterung und Modifizierung aufgenommen wird, wie z.B. bei GenBank Primer Kurzes Oligonukleotid aus RNA-oder DNA-Nukleotiden von ca. 18–25 bp Länge, welches nach Bindung an einen komplementären DNA-Einzelstrang an seinem 3’-Ende den Ansatzpunkt für die Nukleinsäure-Synthese darstellt. Probe (engl.) Sonde. Markiertes Molekül zur Identifizierung und/oder Isolierung von DNA- oder Proteinmolekülen. Profile Globale Sequenzähnlichkeit zwischen Proteinsequenzen. Ein Profil wird mit einer positionsspezifischen Gewichtungsmatrix (PSSM) beschrieben, die aus multiplen Alignments verwandter Sequenzen abgeleitet wurde (siehe http://www.expasy.org/txt/profile.txt). Prokaryote Organismus ohne echten Zellkern. Die chromosomale DNA ist nicht von einer Membran umgeben. Promoter (site) Eine dem Transkriptionsstartpunkt vorgeschaltete DNA-Sequenz, die für die Regulation des Gens ausschlaggebend ist und als Erkennungs- und Bindungsstelle der RNA-Polymerasen dient. PROSITE Datenbank für Proteinfamilien und Proteindomänen. Bei den Datenbankeinträgen handelt es sich um Pattern oder Profile, die mehrere tausend Proteinfamilien und Domänen repräsentieren (siehe Pattern bzw. Profile). Proteinfamilien Eine Gruppe von homologen Proteinsequenzen, die eine oder mehrere gemeinsame Domänen aufweisen (s. auch Fingerprint). Proteome
Gesamtheit aller Proteine in einem Organismus oder Zelltyp.
190
Glossar für Bioinformatik
Proteomics Forschungsgebiet mit dem Ziel, alle Informationen der Proteome zu entschlüsseln. Methoden der Proteomics sind die 2D-Gelelektrophorese und die Massenspektroskopie. PSI-BLAST Position-Specific-Interated BLAST. BLAST-Programm zur Sequenzähnlichkeitssuche für entfernt verwandte Proteinsequenzen. Nach jeder Iteration (Wiederholung) verwendet das Programm eine der Ausgangssequenz angepasste Matrix, um die Suche im nächsten Schritt weiter auf die isolierten konservierten Bereiche zu fokussieren. PSSM Position specific Scoring Matrix. Eine Matrix, die speziell für die Treffer aus einer initialen BLAST-Suche (z.B. einer BLASTP Suche mit der Matrix BLOSUM62) erstellt wird. Hierdurch kann die Suche nach Mitgliedern einer Proteinfamilie sensibilisiert werden. Pseudogen Gen ohne Funktion. Pseudogene sind entweder aus Genduplikation oder aus Reinsertionsereignissen von cDNA/cRNA hervorgegangen und werden nicht mehr in Protein translatiert. Häufige Pseudogene sind Kopien der Haushaltsgene. Sie weisen oft eine Sequenzähnlichkeit von 80-90 % zum Ursprungsgen auf. PubMed Datenbank mit Zitaten und Zusammenfassungen von Artikeln der biomedizinischen Literatur. Purin Stickstoffhaltiges Molekül mit einer doppelten Ringstruktur, welches die chemische Grundstruktur der Basen Adenin und Guanin bildet. Pyrimidin Stickstoffhaltiges Molekül mit einer sechseckigen Ringstruktur, welches die chemische Grundstruktur der Basen Thymin, Cytosin und Uracil bildet. Query (Sequenz) (engl.) Suche, Abfrage. Eine DNA-, RNA- oder Proteinsequenz, die für die Suchanfrage in einer Sequenzdatenbank verwendet wird, um ähnliche, schon bekannte Sequenzen zu finden. Reading frame siehe ORF Rekombinante DNA (rDNA) DNA-Molekül, welches aus Sequenzen zusammengesetzt wurde, die normalerweise nicht miteinander verbunden sind (z.B. aus unterschiedlichen Organismen). Rekombination Austausch von Allelen, die über Crossing-over oder über andere Prozesse neu kombiniert werden. Relational Database Management Systems (RDBMS) Software zum Aufbau und zur Verwaltung einer Relationalen Datenbank, inklusive Funktionen zur Einflussnahme auf die Datenbankarchitektur, die Suchanfrage und Werkzeuge zum Up- und Download von Daten. Replikation Synthese eines identischen Makromoleküls (insbesondere der genomischen DNA) von einer Vorlage. Restriktionsenzym (Restriktionsendonuklease) Bakterielles Enzym, das an ein DNAMolekül bindet und innerhalb dieser Erkennungssequenzen (Typ II Endonukleasen) oder in dessen Nähe (Typ I und Typ III Endonukleasen) die DNA schneidet.
Glossar für Bioinformatik
191
Reverse Genetik In der reversen Genetik wird nicht von einem Phänomen ausgegangen und dann nach dem entsprechenden Gen geforscht, sondern es wird mittels gezielter Mutagenese ein Genabschnitt verändert. Daraufhin wird untersucht, wie sich dies auf die Funktion einer Zelle oder eines Organismus auswirkt. Aus den Veränderungen wird dann auf die Funktion des Gens geschlossen. Reverse Transcriptase RNA-abhängige DNA-Polymerase. Enzym zur Herstellung eines zu einer RNA komplementären DNA-Stranges (cDNA). Anwendung: RT-PCR. Die RT-Reaktion ist ein der PCR vorgelagerter Schritt, da für die Amplifikation stabilere cDNA anstelle von mRNA eingesetzt wird. Rezessiv Phänotypische Ausprägung eines Gens, von dem zwei gleiche Allele in einer Zellpopulation vorliegen müssen, um in Erscheinung zu treten. RID Request ID. Identifizierungsnummer für eine (BLAST-) Suche am NCBI, über die das Suchergebnis noch 24h vom NCBI-Server abgerufen werden kann. RNA Ribonukleinsäure/Ribonucleic acid. Eine der DNA verwandte Nukleinsäure mit den Basen Thymin, Uracil, Guanin und Adenin sowie dem Zuckermolekül Ribose (nicht Desoxy-Ribose wie in der DNA). Man unterscheidet verschiedene Typen RNA, die alle unterschiedliche Funktionen ausüben, wie z.B. mRNA (messenger RNA – Boten-RNA für die Übersetzung der kodierenden DNA-Information zur Proteinsequenz), tRNA (transfer RNA – für die Bereitstellung von Aminosäuren bei der Proteintranslation), rRNA (ribosomal RNA – RNA der Ribosomen), hnRNA (heterous nuclear RNA oder Primär-Transkript), snRNA (small nuclear RNA, Bestandteil der Spleißosomen), Ribozyme (katalytisch wirksame RNA) und andere. Röntgenstrahlkristallographie/Röntgenstrukturanalyse Methode zur Auflösung der dreidimensionalen Struktur eines (Protein-)Moleküls, für die eine Kristallisation des Moleküls erforderlich ist (s. NMR). RPS-BLAST Reverse Position-Specific BLAST. BLAST Programm für die Suche mit einer Sequenz in einer Datenbank mit PSSMs (Position-specific Scoring Matrices), durch die konservierte Bereiche von Proteinen beschrieben sind. Über dieses Programm können homologe konservierte Regionen in einem Protein schnell gefunden werden. SAGE Serial Analysis of Gene Expression. Methode zur Identifizierung von kurzen, meist 10 Nukleotide langen DNA-Fragmenten, die stellvertretend für mRNA-Moleküle (BotenRNA) oder genomische DNA-Abschnitte sind. Mit SAGE kann das Transkriptom einer Zelle, eines Gewebes oder eines Organs zu einem beliebigen Entwicklungs- oder Krankheitsstadium umfassend analysiert werden. SAGE ermöglicht die Analyse einer sehr großen Menge von Genen. Ferner kann die Anzahl der genspezifischen mRNA-Moleküle relativ gut bestimmt werden; SAGE ist also eine Quantifizierungsmethode. Gegenüber dem Microarray-Verfahren, welches als ‚closed system‘ nur bekannte und gespottete Gene detektieren kann, bietet SAGE als ‚open system‘ den Vorteil, dass auch noch unbekannte Gene, oder Gene, von denen nicht erwartet wurde, sie vorzufinden, detektiert und ausgewertet werden können (Quelle: Wikipedia; Nov. 2006). Scoring Matrix siehe Matrix
192
Glossar für Bioinformatik
Sekundäre Datenbank Datenbank mit überarbeiteten und aus primären Datenbanken abgeleiteten Informationen. Selectivity (engl.) Selektivität. Die Selektivität bioinformatischer Ähnlichkeitssuchalgorithmen leitet sich aus den Grenzwerten der Signifikanzberechnungen ab. In BLAST definiert der E-Wert den oberen Grenzwert aller Treffer, die wahrscheinlich nicht zufällig bei einer Suche mit den gegebenen Parametern auftreten. Sensitivity Empfindlichkeit. Für die Empfindlichkeit bioinformatischer ÄhnlichkeitsSuchalgorithmen sind zwei Überlegungen ausschlaggebend: 1. Wie gut eignet sich die Methode, wenn die gesuchten Sequenzen Mutationen und Sequenzierungsfehler enthalten? 2. Welchen Einfluss nimmt der Algorithmus auf die Wahrscheinlichkeit, dass ähnliche Sequenzen nicht gefunden werden? Der Benutzer kann oft die Geschwindigkeit der Sequenzähnlichkeitssuche herabsetzen, um eine höhere Empfindlichkeit für die Suche zu erzielen (Quelle: Wikipedia). Sequence Assembly Ein Sequenzzusammenschluss aus kurzen, sich überlappenden Sequenzen mit dem Ziel eine lange (Konsensus-)Sequenz zu bilden. Sequin Programm zur Übermittlung und Veröffentlichung von langen oder vielen Sequenzen und anderen Daten wie z.B. kompletten Genomen, Alignments oder phylogenetischen Studien an das NCBI. Server Ein Computer oder ein Computerprogramm, die Informationen über ein Netzwerk an einen angeschlossenen Computer (Client) weitergeben. Signifikanz In der Statistik heißen Unterschiede signifikant, wenn die Wahrscheinlichkeit gering ist, dass sie durch Zufall zustande gekommen sind. Die Überprüfung statistischer Signifikanz geschieht unter Anwendung von Signifikanztesten, die eine Abschätzung der Irrtumswahrscheinlichkeit erlauben. Ein sog. Signifikanzniveau wird vorher festgelegt, z.B. _ oder p= 0,05 für 5% maximal zulässige Irrtumswahrscheinlichkeit. (Quelle: Wikipedia; Mai 2007) Singleton EST-Sequenz, die nicht mit anderen EST-Sequenzen überlappt und somit nicht Teil eines EST-Clusters ist. Smith/Waterman-Algorithmus Erweiterung des Needleman/Wunsch-Algorithmus. Lokaler Vergleich von Sequenzsegmenten unterschiedlicher Länge. Die Methode ist sehr sensitiv, aber rechner- und zeitintensiv. SNP Single Nucleotide Polymorphism. Genetische Variation, für die der Austausch von nur einem Nukleotid verantwortlich ist. Spleißen/ Spleißvarianten Entfernen von Introns aus dem Primärtranskript eines eukaryotischen Gens. Durch alternatives Spleißen kommt es zu unterschiedlich zusammengesetzten Transkripten, die in unterschiedliche Proteine (Spleißvarianten) translatiert werden. SRS Sequence Retrieval System. Datenbankverwaltungs- und Abfrage-Software der Firma LION, die auf vielen Bioinformatik-Servern installiert ist und eine datenbankübergreifende Suchabfrage erlaubt. Am EBI sind über 400 Datenbanken in das SRS eingebunden.
Glossar für Bioinformatik
193
STS Sequence Tagged Site. Kurze DNA-Sequenz (100-500 bp), die im Genom nur einmal vorkommt. Durch diese Eigenschaft eignet sie sich zur physikalischen Kartierung und gezielten Klonierung von genomischen Fragmenten. Substitutionsmatrix siehe Matrix. Suchfeldqualifizierung Angabe zum Suchwort über den Ort der Suche, z.B. Müller[Autor] oder Müller[AU] fokussiert die Suche nach dem Autor „Müller“ nur im Autorenfeld und nicht in allen indexierten Feldern einer Datenbank. Synonymous/Non-synonymous changes Synonymer/Nicht-synonymer Basenaustausch. Veränderung einer Base in einer DNA-Sequenz, die nicht zu einer Veränderung in der kodierenden Aminosäuresequenz führt, bzw. die zu einer Veränderung in der kodierenden Aminosäuresequenz führt. Synthenie Bezeichnung für die Übereinstimmung von langen Chromosomenabschnitten zwischen unterschiedlichen Arten. Dabei sind nicht nur die Gene, sondern auch ihre Reihenfolge und Orientierung konserviert. Systembiologie Innovatives interdisziplinäres Forschungsfeld mit dem Ziel, eine Zelle oder ein Organ in der Gesamtheit ihrer komplexen und dynamischen Abläufe (z. B. Umweltanpassung, Alterung oder Immunabwehr) quantitativ zu verstehen und abzubilden (z. B. Modellierung von Lebensprozessen). Taxonomie Teilbereich der Biologie/Systematik. Die Taxonomie beschäftigt sich mit der Einteilung der Organismen nach Kriterien der „abgestuften Ähnlichkeiten“. Aus den identifizierten gruppenspezifischen Merkmalen werden phylogenetische Verwandtschaftsbeziehungen zwischen den Gruppen abgeleitet und als Grundlage für eine Klassifikation der Organismen in einem hierarchischen System herangezogen. Die Taxa (Kategorien) im animalischen System lauten: Reich (kingdom), Stamm (phylum), Klasse (class), Ordnung (order), Familie (family), Sippe (tribe), Gattung (genus), Art (species). Hinzu kommen Über- und Unter-Taxa wie z.B. Unterart (subspecies). Art- und Unterartnamen werden in der binären (und tenären) Nomenklatur kursiv geschrieben. TCP Transmission Control Protocol. Kommunikationsprotokoll für die Datenübertragung über das Internet. Teilt die Daten in ungefähr gleich große Blöcke auf und übergibt sie IP zur Übertragung. Überprüft auch die Korrektheit der Übertragung über eine Prüfsumme. Wird oft mit IP gemeinsam erwähnt. TIGR The Institute of Genomic Research. Amerikanisches Zentrum für Genomforschung. Thymin
Eine Pyrimidinbase in den Nukleotiden von DNAs (aber nicht von RNAs).
Transkription
Synthese von mRNA (Transkript) durch das Enzym RNA-Polymerase.
Transkriptom sind.
Alle mRNA-Transkripte in einem Organismus, die gleichzeitig vorhanden
Transition Mutation durch Austausch einer Purinbase gegen eine andere Purinbase (A,G) bzw. einer Pyrimidinbase gegen eine Pyrimidinbase (C,T).
194
Glossar für Bioinformatik
Translation
Proteinbiosynthese an den Ribosomen. Die mRNA dient als Matrize.
Transversion Mutation durch Austausch einer Purinbase (A,G) gegen eine Pyrimidinbase (C,T) oder umgekehrt. Unitary Matrix Bewertungsschema für die Sequenzähnlichkeitssuche, bei der es nur zwei Bewertungen gibt. Eine positive Bewertung für eine Sequenzübereinstimmung (z.B. +1) und eine negative Bewertung bei fehlender Sequenzübereinstimmung (z.B. -5). UNIX Ursprünglich UNICS (UNIplexed Information and Computing Service). Mehrbenutzer-Betriebssystem, Anfang der 70er Jahre in den amerikanischen Bell-Laboratories entwickelt. UPGMA Unweighted Pair-Group Method with Arithmetric Mean. Methode, bei der die Astlängen an einem phylogenetischen Baum aus dem Mittelwert der Distanzen gebildet werden. Uracil
Pyrimidinbase in den Nukleotiden von RNA (aber nicht von DNA).
URL Uniform Resource Locator. Adresse für eine Internetseite unter Angabe des Protokolls (http), des Dienstes (www) und der Domäne (biotools.info). Oft kommt noch ein Dateiname hinzu, wie z.B. /index.html. UTR Untranslated Region. Bereiche eines Gens, die transkribiert, aber nicht translatiert werden. Sie liegen im „upstream“ (5‘) und im „downstream“ (3‘) Bereich der kodierenden Region. Variation siehe Mutation VAST Vector Alignment Search Tool. Algorithmus für den Vergleich der strukturellen Ähnlichkeit zwischen Proteinen (nicht für einen Vergleich von Sequenzähnlichkeiten). Vector Agenz, oft autonome DNA, wie z.B. Plasmide, zur Übertragung von genetischem Material von einem Wirt in einen anderen Organismus. Vektoren sind in der Biotechnologie z.B. BACs, YACs, Fosmide und Plasmide. Virtual Northern (Blot) siehe electronic Northern (Blot) VNTRs Variable numbers of tandem repeats. DNA-Sequenzblöcke von 2–60 bp, die sich bis zu über 20-mal wiederholen können. Diese Wiederholungseinheiten sind in jedem Individuum unterschiedlich lang und werden für genomische Kartierungen und zu FingerprintAnalysen herangezogen. WGS Whole Genome Shotgun (Sequencing). Wiederholungssequenzen/Repeats Man unterscheidet STR – Short Tandem Repeats (Mikrosatelliten mit einer Wiederholungseinheit von 1–6 bp; Minisatelliten mit einer Wiederholungseinheit von 10–100 bp) und LTR – Long Tandem Repeats (Mobile Elemente wie z.B. Transposons). Geläufig ist auch die Einteilung der Wiederholungssequenzen in SINE (short interspersed elements) wie z.B. Alu-Sequenzen, und LINE (long interspersed elements).
Glossar für Bioinformatik
195
Wiki Webseite, deren Inhalt öffentlich bzw. von einem begrenzten Benutzerkreis direkt bearbeitet werden kann. Wikipedia Internationales Projekt mit dem Ziel, eine freie Internet-Enzyklopädie zu erstellen (http://www.wikipedia.org). Wildcard (engl.) Platzhalter. Sonderzeichen (oft ein Sternchen (*)) für Datenbankrecherchen, um einen Wortstamm mit unbekannten Buchstaben zu verlängern und diese Wörter mit in die Datenbanksuche einzubeziehen wie z.B. biolog* für biologie, biologe, biologen, biologisch, usw. Wild type (engl.) Ursprungsform. Ursprüngliche, natürliche Form eines Allels. In einer Population ist es das am häufigsten vorkommende Allel und wird zur Grundlage und zum Vergleich für Untersuchungen abweichender (seltener oder mutierter) Allele herangezogen. Wortlänge/Word size Festgelegte Sequenzlänge für den Abgleich einer Sequenz mit den Sequenzen in einer Datenbank. Die Standardeinstellungen für NCBI-BLAST Suchen ist eine Wortlänge von 3 (BLASTP) bzw. 11 (BLASTN). Die Wortlänge sollte für eine Suche nach kurzen Sequenzen herabgesetzt werden. WTSI