Министерство общего и профессионального образования Российской Федерации
Нижегородский государственный университет им. ...
20 downloads
225 Views
312KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Министерство общего и профессионального образования Российской Федерации
Нижегородский государственный университет им. Н.И. Лобачевского
Радиофизический факультет
Филиал кафедры радиотехники в Нижегородском научно-исследовательском приборостроительном институте "Кварц"
Компьютерный спектральный анализ генетических текстов Методическое пособие и описание лабораторной работы (препринт)
Составители: д. т. н. Кирьянов К.Г. аспирант Семенчуков И.В.
Под общей редакцией руководителя филиала д. т. н. Кирьянова К.Г.
Зав. кафедрой, профессор Орлов И.Я.
Нижний Новгород 1998 1
Содержание
1. Введение. 2. Цель работы. 3. Используемые термины и обозначения. 4. Объект исследования. 5. Краткие теоретические сведения о спектральном анализе последовательностей. 6. Методики применения спектрального анализа в исследовании генетических текстов. 7. Описание алгоритма и программы. 8. Контрольные вопросы (для допуска к работе). 9. Ориентировочные направления лабораторных работ. 10. Задание к работе. 11. Содержание отчета. 12. Рекомендуемая литература. 13. Приложения.
2
1. Введение. В работе одного из основоположников квантовой механики Э. Шредингера "Что такое жизнь" высказывалась гипотеза о строении молекулы "наследственного вещества". Как выяснилось впоследствии, это вещество представляет собой нуклеиновые кислоты (ДНК и РНК) – длинные цепочки из сложных химических комплексов четырех типов, называемых нуклеотидами. Это аденин – A, гуанин – G, цитозин – C и тимин – T (урацил – U в РНК). Эти последовательности, названные Шредингером "апериодическими кристаллами" [1], хранятся в хромосомах каждой клетки. ДНК, содержащаяся в наборе хромосом каждого организма, называется геномом. Наследственная информация, хранящаяся в геноме, определяет на этапе белкового синтеза на основе "универсального биологического кода" (УБК) фенотип организма – внешний вид, сходство с родителями и т. п. Сегодня для многих организмов уже установлен нуклеотидный состав их ДНК или ее частей. Одной из важных задач теории и практики на сегодняшний день является проблема расшифровки нуклеотидных последовательностей – генетических текстов, и их "понимания". Под расшифровкой понимается разбиение всего генома – «слитного» текста – на смысловые участки – «предложения», явно не разделенные «знаками препинания». Эта задача особенно важна в отношении генома человека (состоящего из ≅3·109 "букв"), поскольку помогает в решении проблем установления родства, диагностики наследственных заболеваний, определения возраста организма [2–5]. Исследования в рамках данной проблемы проводятся с привлечением различных отраслей науки, способных помочь ее решению. Для изучения генома используется широкий спектр химических, биохимических, физических и биофизических методов исследования. 2. Цель работы. В данной работе для исследования последовательностей ДНК и РНК применяется метод компьютерного спектрального анализа генетических текстов. В основе этого метода лежит дискретное преобразование Фурье, которое применяется к закодированным числами нуклеотидным цепочкам. Целью работы является исследование спектров различных функциональных участков нуклеотидных последовательностей различных организмов. Данное методическое пособие и лабораторная работа соответствуют одному из разделов спецкурса "Математические модели в радиофизике: идентификация, диагностика, прогнозирование" для магистров и студентов IV и V курсов радиофизического факультета ННГУ.
3
3. Используемые термины и обозначения. Аминокислоты – класс органических кислот, у которых одновременно присутствует аминогруппа (–NH2) и карбоксильная группа (–COOH). Только 20 аминокислот участвуют в образовании белков. Пептид – молекула из двух аминокислот, соединенных между собой при помощи пептидной связи –CO–NH–. Дальнейшее присоединение аминокислот к такой молекуле приводит к образованию полипептида. Белки (протеины) представляют собой полипептиды, в молекулу которых входят от 100 до нескольких тысяч аминокислот, с молекулярной массой свыше 10000. Нуклеотид – молекула, состоящая из одного пуринового или пиримидинового основания, пентозы (сахар с 5 атомами углерода) и остатка фосфата (–OP(O)(OH)2). Является «строительным блоком» нуклеиновых кислот. Наиболее распространены пять нуклеотидов: аденин (A), гуанин (G), тимин (T), цитозин (C) и урацил (U). (Примечание: урацил в РНК – эквивалент тимина в ДНК) ДНК (дезоксирибонуклеиновая кислота) – носитель генетической информации. В основном находится в хромосомах клеточного ядра. Состоит в основном из A, G, T и C. РНК (рибонуклеиновая кислота) служит для передачи и реализации генетической информации в большинстве клеточных систем. У многих простейших вирусов ДНК отсутствует; ее функции выполняет РНК. Состоит в основном из A, G, C и U. Геном – ДНК, содержащаяся в одном наборе хромосом. Ген – это элементарная единица наследственности, представляющая собой определенную специфическую последовательность нуклеотидов в ДНК. мРНК (матричная РНК) осуществляет непосредственную передачу кода ДНК (гена) для синтеза клеточных белков. тРНК (транспортная РНК) – РНК, основной функцией которой является транспорт аминокислот на соответствующий участок мРНК в процессе синтеза белков. Кодон – единица генетической информации, закодированной в генах. Представляет собой группу из трех нуклеотидов, иначе называемую триплетом. Всего существует 43=64 различных кодонов. Трансляция – процесс синтеза белка, при котором последовательность нуклеотидов в ДНК переводится в соответствующую последовательность аминокислот. УБК (универсальный биологический код) – это система расположения нуклеотидов в нити ДНК, обусловливающая соответствующую последовательность расположения аминокислот в белке. Каждой аминокислоте в белке соответствует кодон в ДНК. Все синтезируемые в процессе трансляции белки построены из остатков 20 аминокислот. Какой именно кодон ответственен за включение той или иной аминокислоты, можно определить по таблице приложения 1. УБК специфичен: каждый кодон кодирует только одну аминокислоту. УБК называют вырожденным, поскольку 61 кодон кодирует всего 20 аминокислот (остальные 3 кодона является «сигналами» остановки синтеза белка). УБК неперекрывающийся – кодоны транслируются всегда целиком; для кодирования невозможно использование элементов одного из них в сочетании с элементами соседнего. УБК обладает также свойством однонаправленности – кодоны информативны только в том случае, если они считываются только в одном направлении – от первого нуклеотида к последующим. УБК универсален для всех живых существ. Возможны только небольшие видовые изменения, большинство из которых связано с вырожденностью кода. 4
zˆ и ~ z - реальная и мнимая части комплексного числа z = Re z + i ⋅ Im z = zˆ + i ⋅ ~z . N – длина “окна анализа” – участка нуклеотидной последовательности. w – относительная частота. T – период. 4. Объект исследования. Основным объектом исследования в данной работе является ДНК, которая представляет собой цепочку более чем из 108 нуклеотидов. Из курса биологии известно, что ДНК является носителем наследственной информации всех живых организмов, включая человека, и отвечает за развитие (рост и размножение) клеток. «Строительными блоками» нуклеиновых кислот служат нуклеотиды. Известно по меньшей мере десять их видов, но основным материалом служат всего 4 из них: аденин – A, гуанин – G, тимин – T (в РНК урацил – U) и цитозин – C. Связываясь друг с другом, нуклеотиды образуют очень длинные полинуклеотидные цепочки. Последовательность нуклеотидов в нити ДНК называется первичной структурой (пример – …AGTAACTGAC…). Установлено, что молекула ДНК представляет собой совокупность генов, регуляторных участков, районов, участвующих в организации генов в хромосомах, а также последовательностей, функции которых еще не известны. Ген – функциональная единица ДНК, содержащая информацию для синтеза полипептида (белка) и РНК. Средняя длина гена около 1000 пар оснований. Сам ген не принимает непосредственного участия в синтезе, а служит лишь матрицей для построения молекулы мРНК (в которую передается код гена), или предшественников рРНК и тРНК (из них после промежуточных реакций получаются готовые рРНК и тРНК). Существует множество литературы, посвященной строению и свойствам генетического аппарата. Для получения дополнительных сведений об объекте исследования обратитесь к литературе [2-5]. Для того, чтобы проводить исследования ДНК, необходимо знать ее первичную структуру. Процесс определения последовательности нуклеотидов в ДНК называется секвенированием. В настоящее время секвенировано уже очень много ДНК самых разных организмов и проведен их анализ, заключающийся в определении местонахождения генов и других функциональных участков и определении их свойств. Для обеспечения возможности широкого доступа к информации об уже исследованных ДНК были созданы банки данных (БД). В данной работе используется информация из двух таких БД – "GenBank" [6] и "EMBL" (Европейская Молекулярно-Биологическая Лаборатория в Гейдельберге, Германия). Записи в этих банках имеют схожий друг с другом формат. Помимо самой нуклеотидной последовательности, в них содержится подробная информация о ее свойствах и приводятся ссылки на источники данных. Формат базы EMBL приведен в приложении 2. Рассмотрим нуклеотидную последовательность на примере ДНК генома митохондрий человека (файл HUMMTCG.SEQ, БД GenBank, см. приложение 3). Первые два поля представляют краткую информацию о последовательности (размер, принадлежность к организму). Следующее поле определяет ключи поиска данной записи в БД. В четвертом, пятом и шестом полях приводятся ключевые слова и описание организма – источника ДНК (РНК). Следующая группа полей представляет собой ссылки на литературу, содержащую информацию о представленной последовательности. Затем идет поле FEATURES, представляющее наибольший интерес. В нем приводится уже известная информация о структуре ДНК (РНК): тип и расположение участков ДНК, и краткие комментарии (антикодон для тРНК, название гена для мРНК и т.п.). Последним полем является поле ORIGIN, содержащее саму последовательность. Каждая строка содержит порядковый номер первого нуклеотида в строке. Нуклеотидная последовательность в строке размещена шестью группами (по десять нуклеотидов в каждой), разделенными пробелами. 5
5. Краткие теоретические сведения о спектральном анализе последовательностей.
x ( n) Рассмотрим произвольный числовой ряд комплексных чисел x(n) = xˆ (n) + i ⋅ ~ конечной длины N, 0 ≤ n ≤ N − 1 . Число N носит название длины окна анализа. В математике [7] доказано, что его можно разложить в ряд Фурье с коэффициентами
S (k , N ) =
N −1
∑ x(n) ⋅ e
−j
2π kn N
~ = Sˆ ( k , N ) + i ⋅ S ( k , N )
(1), где
n=0
1 1 ,1+ ≤ T ≤ +∞. N N −1 k 1 Здесь w = – относительная частота, T = – период. N w N −1 ⎡ ⎞⎤ ⎛ 2π ⎞ ⎛ 2π Sˆ ( k , N ) = ∑ ⎢ xˆ ( n ) ⋅ cos ⎜ kn ⎟ + ~ x ( n ) ⋅ sin ⎜ kn ⎟ ⎥ (2), ⎠⎦ ⎠ ⎝ N ⎝ N n=0 ⎣ 0 ≤ n ≤ N − 1, 0 ≤ k ≤ N − 1, 0 ≤ w ≤ 1 −
⎞⎤ ⎞ ⎛ 2π ⎛ 2π kn ⎟ + ~ x ( n ) ⋅ cos ⎜ kn ⎟ ⎥ (3). N ⎠⎦ ⎠ ⎝ N n=0 Совокупность коэффициентов Фурье S(k, N) называют спектром ряда x(n). Если ряд x(n) вещественный, то формулы (2)-(3) приобретают вид: N −1 ⎛ 2π ⎞ Sˆ ( k , N ) = ∑ xˆ ( n ) ⋅ cos ⎜ kn ⎟ (2а), ⎝ N ⎠ n =0 N −1 ~ ⎛ 2π ⎞ S ( k , N ) = − ∑ xˆ ( n ) ⋅ sin ⎜ kn ⎟ (3а). ⎝ N ⎠ n=0 В настоящей работе и программной системе используются простейшие способы кодирования нуклеотидов ДНК- и РНК-последовательностей вещественными числами. Из формул (2а)-(3а) видно, что спектр вещественного ряда симметричен относительно N 1 1⎞ ⎛ точки k = N / 2, поэтому можно ограничиться интервалом 0 ≤ k ≤ − 1 ⎜ 0 ≤ w ≤ − ⎟ . 2 2 N⎠ ⎝ Если известен спектр S(k,N) какой-либо последовательности x(n), то вычисление ее элементов производится при помощи обратного преобразования Фурье: ~ S (k , N ) =
1 x(n) = N
N −1
⎡
∑ ⎢⎣ − xˆ ( n ) ⋅ sin ⎜⎝
N −1
∑ S (k , N ) ⋅ e k =0
j
2π kn N
(4).
Более подробную информацию о свойствах спектров смотрите в [7-9]. Приведем пример спектрального анализа периодической последовательности периода 3 длиной N=999: 023023023 144 424K 4023 4 3 (рис.1). 999
Рис.1. Спектр периодической последовательности с периодом 3 длиной 999
6
Из рисунка 1 видно, что спектр имеет пик при w = 0.33 (T = 3), что говорит о наличии в последовательности только периода 3. Как увидим далее (см. Приложение 4), пик на периоде 3, окруженный "шумовым фоном", есть у спектров ДНК-последовательностей. 6. Методики применения спектрального анализа в исследовании генетических текстов. Для возможности вычисления спектра какого-либо участка нуклеотидной последовательности определенной длины (в "окне анализа") необходимо представить этот участок числовым рядом вида x(n) – закодировать последовательность. Каждому нуклеотиду в цепочке ДНК нужно сопоставить его значение, являющееся элементом ряда. Здесь возникает важный вопрос о выборе способа кодирования: разные подходы к кодировке нуклеотидов могут дать совершенно разные картины спектров. При анализе функциональных участков-генов оптимальная кодировка дает сильное отличие при сравнении с другими участками – в картинах спектров генов резко выделяется пик на периоде 3. За примерами графиков спектров генов можно обратиться к приложению 4. Хорошие результаты при анализе спектров генов получаются, например, при следующих способах кодировки: 1) соответствие более высокого кода нуклеотиду с более высокой молекулярной массой (столбец Код 1 табл. 1); 2) обозначение одним и тем же кодом нуклеотидов одинакового класса соединений; A и G – пурины, U и C – пиримидины (столбец Код 2 табл. 1); 3) обозначение одним и тем же кодом комплементарных нуклеотидов (столбец Код 3 табл. 1); Таблица 1. нуклеотидов Нуклеотид U C A G
Способы Код 1 0 1 2 3
кодировки
Код 2 0 0 1 1
Код 3 1 0 1 0
При выборе длины последовательности нужно учитывать следующие факты: 1) средняя длина гена, равна примерно 1000 нуклеотидов; 2) у высших организмов ген в ДНК имеет прерывистую структуру: участки гена, называемые экзонами, прерываются интронами – некодирующими участками, удаляемыми в процессе синтеза мРНК; 3) средняя длина участков ДНК, из которых синтезируется тРНК, равна 100 нуклеотидам; 4) средняя длина участков ДНК, из которых синтезируется рРНК, может варьироваться от 200 до 5000 нуклеотидов. Такой широкий диапазон обусловлен существованием различных видов рРНК – существуют молекулы длиной примерно 120, 950÷1900 и 2000÷4800 нуклеотидов. Полученные спектры могут иметь резко выделяющиеся пики на каких-либо периодах, например, на периоде 3. Для нахождения этого периода необходимо профильтровать полученный спектр узкополосным фильтром так, чтобы в результате фильтрации остался лишь нужный пик, а затем к профильтрованному спектру применить обратное преобразование Фурье.
7
7. Описание алгоритма и программы. В настоящей работе для исследования спектров нуклеотидных последовательностей используется специально разработанная для этого программа analys.exe. Основные возможности программной системы: 1) поддержка файлов форматов EMBL и GenBank – нахождение в файлах и загрузка самой нуклеотидной последовательности; ее длина должна быть не более 20000 нуклеотидов; при загрузке из файла произвольного формата должно быть выполнено требование – начало последовательности должно содержать 10 нуклеотидов подряд без пробелов в одной строке; 2) программа кодирует нуклеотиды целыми положительными числами; при запуске программы имеется возможность изменения таблицы кодировки нуклеотидов; для этого после указания имени загружаемого файла с последовательностью в ответ на запрос об изменении кодировки нужно ответить Y и затем ввести код для каждого нуклеотида, завершая ввод клавишей <Enter>; 3) программа позволяет выполнить спектральный анализ подпоследовательности с выбором окна анализа с произвольными началом (но не более, чем длина загруженной последовательности) и длиной (но не более, чем разность между длиной последовательности и координатой начала окна); при нажатии нужно ввести начало окна и нажать <Enter>, затем ввести длину окна и также нажать <Enter>; при смене атрибутов окна нужно сначала нажать , затем и снова выполнить вышеперечисленные действия; 4) просмотр и запись в файл формата .PCX графика спектра с автомасштабированием по оси Y в фиксированном диапазоне относительных частот (0÷0.5, или периоды 2 ÷ + ∞); для записи графика в файл необходимо нажать клавишу , затем указать имя файла в формате имя.pcx, где имя должно удовлетворять стандартному соглашению DOS; 5) возможность плавного движения окна по последовательности вперед и назад с шагом 1 (клавиши и ) и 10 (клавиши и );; возможность плавного увеличения/уменьшения длины окна с шагом 1 (клавиши и ); 6) вычисление обратного преобразования Фурье с фильтрацией спектра фильтром с прямоугольной характеристикой; для этого нужно после вычисления спектра нажать , переместить стрелками вертикальную черту, указав середину фильтруемого участка и нажать <Enter>; после появления числа-координаты черты ввести координаты левого и правого концов фильтра; Приведем пример сеанса работы с программой analys.exe – спектральный анализ нуклеотидной подпоследовательности ДНК генома митохондрий человека (файл hummtcg.seq), начало – 4470 нуклеотид, длиной N=1042 нуклеотида. Нужно запустить программу analys.exe. В ответ на приглашение ввести имя файла последовательности – hummtcg.seq и нажать <Enter>. На предложение изменить кодировку ответить N (нет). После этого Вы увидите экран, соответствующий рис.2.
8
Рис.2. Основной экран программы analys.exe При нажатии клавиши будет выдан запрос о начале окна анализа. Необходимо набрать 4470 и нажать <Enter>. Потом в ответ на запрос о длине окна ввести, например, 1042 и нажать <Enter>. После этого программа сосчитает и выведет в нижней половине экрана спектр, соответствующий рис.3.
Рис.3. Спектр участка ДНК генома митохондрий человека, начало – 4470 нуклеотид, длина 1042 нуклеотида Спектр имеет резкий пик на периоде 3. Полученный результат можно интерпретировать следующим образом: это спектр промодулированного сигнала с частотой несущей, равной 3. 8. Контрольные вопросы (для допуска к работе). 1. Какую литературу, относящуюся к спектральному анализу генетических текстов, Вы читали? 2. Где и как хранится наследственная информация? 3. Что такое геном, ДНК, РНК, ген, кодон, функциональный участок ДНК, экзон, интрон? 4. Что такое аминокислотная последовательность? 5. Какие существуют типы структур ДНК и белков и количественные характеристики их и их частей? 6. Почему "алфавиты" генетических текстов имеют 4 и 20 символов? 7. Что такое "УБК"? каковы его основные свойства? 8. Как получить информацию о генетическом тексте? 9. Какие существуют потоки генетической информации? 10. Как подготовить файл для спектрального анализа с помощью программы?
9. Ориентировочные направления и темы лабораторных работ. 11. Как выбрать длину последовательности? 12. Пронаблюдать, как зависит спектр последовательности от ее посимвольной кодировки целыми числами с q =0, 1, 2, 3, 4, … 9
13. Что может дать другая кодировка последовательностей: отрицательными и положительными целыми числами, вещественными числами; комплексными числами; кодировка двоек, троек (покодонная), четверок и др. 14. Как изменится спектр при кодировке последовательности целыми числами по пуринам (A, G) и пиримидинам (U, C)? 15. Что такое оптимальная кодировка и как ее найти? 16. Как выбрать начало и длину анализируемой последовательности? 17. Что дает обратное преобразование полученного спектра? 18. Что дает обратное преобразование спектра, профильтрованного узкополосным фильтром? 19. Как с помощью спектрального анализа определить функциональные участки генетических текстов? 20. Какие методы компьютерной обработки генетических текстов Вы могли бы порекомендовать? 10. Задание к работе. 1. Перед выполнением работы необходимо ознакомиться с данным руководством и рекомендованной литературой. Ответить на контрольные вопросы, которые являются допуском к работе. 2. Ознакомиться с приемами работы с программой analys.exe на примере файла HUMMTCG.SEQ; 3. Получить у преподавателя файлы с последовательностями и указания к составлению отчета. 4. Обосновать экспериментально выбор границ и размеров участков для спектрального анализа. 5. Провести спектральный анализ выбранных преподавателем участков последовательности. 6. Предложить, обосновать и проверить экспериментально другую кодировку нуклеотидов. 7. Предложить варианты использования спектральной информации для выбора функциональных участков ДНК и РНК. Провести экспериментальное обоснование методов. 8. Оформить отчет по результатам работы в соответствии с разделом 11. 11. Содержание отчета. 1. 2. 3. 4. 5. 6.
Название работы. Согласованную с преподавателем формулировку задания и дату его получения. Выбор и обоснование параметров метода решения задачи. Полученные в ходе исследования результаты и их анализ. Приложение, содержащее необходимые распечатки и доказательства. Выводы.
12. Рекомендуемая литература.
1. 2. 3. 4. 5. 6.
Шредингер Э. Что такое жизнь. М.: Гос. изд-во иностранной литературы, 1947 Ичас. Биологический код. М.: Мир, 1971 Шапвиль Ф., Энни А.-Л. Биосинтез белка. М.: Мир, 1977. Зенгбуш Л. Молекулярная и клеточная биология (в трех томах). М.: Мир, 1982. Льюин Б. Гены. М., Мир, 1987. Кирьянов К.Г., Лебедев О.Л. Почему биологические алфавиты имеют 4 и 20 букв? Биофизика, том 40, вып. 3, 1995, с. 536-538. 10
7. GenBank. National Center for Biotechnology Information. National Library of Medicine, National Institutes of Health. 8600 Rockville Pike, Bethesda, MD 20894. 301-496-2475. Rel. 77.0. June 15, 1993. 8. Марпл - мл., Стэнли Лоренс. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 9. Кривошеев В.И. ДПФ и БПФ. 10. Кирьянов К.Г., Кривошеев В.И. Цифровой спектральный анализ (периодограммный и коррелеграммный методы). Методическое пособие. Нижегородский госуниверситет, 1993. 11. M. S. Gelfand. Global Methods for the Computer Prediction of Protein-Coding Regions in Nucleotide Sequences (A Review). 12. Александров А.А., Александров Н.Н., Бородовский М.Ю. и др. Компьютерный анализ генетических текстов. М.: Наука, 1990. 13. Макеев В.Ю., Франк Г.К., Туманян В.Г. Статистика периодических закономерностей в последовательностях интронов человека М., Наука. Биофизика, том 41, вып. 1., 1996.
11
8. Приложения. Приложение 1. Таблица универсального биологического кода (генетического кода). I 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Классы эквивалентности кодонов в строках таблицы УБК UUU UUC UUA UUG CUU CUC CUA CUG UCU UCC UCA UCG AGU AGC UAU UAC UGU UGC UGG CCU CCC CCA CCG CAU CAC CAA CAG CGU CGC CGA CGG AGA AGG AUU AUC AUA AUG ACU ACC ACA ACG AAU AAC AAA AAG GUU GUC GUA GUG GCU GCC GCA GCG GAU GAC GAA GAG GGU GGC GGA GGG UAA UAG UGA
αi
2 6 6 2 2 1 4 2 2 6 3 1 4 2 2 4 4 2 2 4 3
Кодируемые аминокислоты Phe F Leu L Ser S Tyr Y Cys C Trp W Pro P His H Gln Q Arg R Ile I Met M Thr T Asn N Lys K Val V Ala A Asp D Glu E Gly G Stop
Приложение 2. Описание формата базы данных EMBL. В формате EMBL каждая запись (последовательность и описание) разбита на поля. Поле может состоять из одной или более строк длиной не более 72 символов. Строка всегда начинается с двухсимвольной метки, характеризующей данное поле, после метки идут три пробела. Запись может включать следующие поля: ID AC CR DT DE DR KW OS OD OC HS HD HC
(identifier) идентификатор, краткое описание, тип и длина последовательности; (accession number) регистрационный номер последовательности; (cross reference) ссылки на записи этой или других БД, имеющих отношение к данной последовательности; (date) даты ввода и редактирования записи; (description) описание последовательности; (data reference) ссылка на другие базы данных; (keywords) ключевые слова; (organism species) название организма; (organism description) дополнительная информация об организме, штамме, ткани и т.д.; (organism classification) таксономия организма; (host species) название организма-хозяина вируса, фага, органеллы; (host description) дополнительная информация об организме, штамме, ткани и т.д. для хозяина; (host classification) таксономия организма хозяина; 12
RN (reference number) номер библиографической ссылки; RA (reference authors) авторы работы; RT (reference title) название работы; RL (reference location) библиографическая ссылка; CC (comment) дополнительные комментарии для пользователя; VR (variances) неопределенности, вариации, мутации и т.д.; FH (feature header) заголовок таблицы особенностей; FT (feature table) таблица особенностей; XX пустые строки (вводятся для удобства чтения документа) SQ (sequence statistics) длина и нуклеотидный состав последовательности; (пробелы) сама последовательность; // конец записи.
Приложение 3. Пример записи из базы данных GenBank (сокращенный вариант). LOCUS DEFINITION ACCESSION KEYWORDS
SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL STANDARD REFERENCE AUTHORS TITLE JOURNAL STANDARD REFERENCE AUTHORS TITLE JOURNAL STANDARD REFERENCE
HUMMTCG 16569 bp ds-DNA Circular PRI 19-APR-1991 Human mitochondrion, complete genome. J01415 M12548 M58503 M63932 M63933 12S ribosomal RNA; 16S ribosomal RNA; ATPase; circular; complete genome; cytochrome; cytochrome oxidase; displacement loop; oxidase; ribosomal RNA; transfer RNA; transfer RNA-Ala; transfer RNA-Arg; transfer RNA-Asn; transfer RNA-Asp; transfer RNA-Cys; transfer RNA-Gln; transfer RNA-Glu; transfer RNA-Gly; transfer RNA-His; transfer RNA-Ile; transfer RNA-Leu; transfer RNA-Lys; transfer RNA-Met; transfer RNA-Phe; transfer RNA-Pro; transfer RNA-Ser; transfer RNA-Thr; transfer RNA-Trp; transfer RNA-Tyr; transfer RNA-Val; unidentified reading frame. Human placenta mitochondrial DNA; HeLa cells mtDNA; HeLa cells mt mRNA; KB cells mtDNA (see comment). Mitochondrion Homo sapiens Eukaryota; Animalia; Chordata; Vertebrata; Mammalia; Theria; Eutheria; Primates; Haplorhini; Catarrhini; Hominidae. 1 (bases 105 to 323) Crews,S., Ojala,D., Posakony,J., Nishiguchi,J. and Attardi,G. Nucleotide sequence of a region of human mitochondrial DNA containing the precisely identified origin of replication Nature 277, 192-198 (1979) full automatic 2 (bases 1 to 16569) Anderson,S., Bankier,A.T., Barrell,B.G., de Bruijn,M.H., Coulson,A.R., Drouin,J., Eperon,I.C., Nierlich,D.P., Roe,B.A., Sanger,F., Schreier,P.H., Smith,A.J., Staden,R. and Young,I.G. Sequence and organization of the human mitochondrial genome Nature 290, 457-465 (1981) full automatic 3 (bases 1 to 16569) Montoya,J., Ojala,D. and Attardi,G. Distinctive features of the 5'-terminal sequences of the human mitochondrial mRNAs Nature 290, 465-470 (1981) full automatic 4 (bases 16015 to 16214) 13
AUTHORS TITLE JOURNAL STANDARD REFERENCE AUTHORS TITLE JOURNAL STANDARD REFERENCE AUTHORS TITLE JOURNAL STANDARD REFERENCE AUTHORS TITLE JOURNAL STANDARD REFERENCE AUTHORS TITLE JOURNAL STANDARD REFERENCE AUTHORS TITLE JOURNAL STANDARD COMMENT
Simmons,J.N., Wright,C.T. and Clayton,D.A. Elongation of displacement-loop strands in human and mouse mitochondrial DNA is arrested near specific template sequences Proc. Natl. Acad. Sci. U.S.A. 78, 6116-6120 (1981) full automatic 5 (bases 324 to 743) Bogenhagen,D.F., Applegate,E.F. and Yoza,B.K. Identification of a promoter for transcription of the heavy strand of human mtDNA: in vitro transcription and deletion mutagenesis Cell 36, 1105-1113 (1984) full automatic 6 (bases 15888 to 15954) Mita,S., Monnat,R.J.Jr. and Loeb,L.A. Direct selection of mutations in the human mitochondrial Thr-tRNA gene: Reversion of an 'unclonable' phenotype Mutat. Res. 199, 183-190 (1988) full automatic 7 (bases 1 to 16569) Johns,D.R. and Cornblath,D.R. Molecular insight into the asymmetric distribution of pathogenetic human mitochondrial DNA deletions Biochem. Biophys. Res. Commun. 174, 244-250 (1991) full automatic 8 (sites) Rotig,A., Cormier,V., Koll,F., Mize,C., Saudubray,J.-M.M., Veerman,A., Pearson,H. and Munnich,A. Site-specific deletions of the mitochondrial genome in Pearson's marrow-pancreas syndrome Unpublished (1991) full automatic 9 (sites) Moraes,C.T., Andreetta,F., Bonilla,E., Shanske,S., DiMauro,S. and Schon,E.A. Replication-competent human mitochondrial DNA lacking the heavy-strand promoter region Mol. Cell. Biol. 11, 1631-1637 (1991) full automatic [1] replication initiation site. [4] d-loop signals. [6] mutations found in HeLa cells. L-strand is shown. Numbered RNAs are polyadenylated, presumed messengers. Several termination codons utilize 'a' or 'aa' in poly-A tail [2]. Alternative termination codons are 'aga' and 'agg'. Alternative initiation codons are 'ata' and 'att'. The H-chain D-loop contains a 7S RNA, starting at base 191 leftward, which is approximately 680 bases long [2]. Complete source information:
14
Human placenta mitochondrial DNA [2]; HeLa cells mtDNA [2],[1],[5]; HeLa cells mt mRNA [3]; KB cells mtDNA [4]. FEATURES Location/Qualifiers D-loop complement(join(16104..16569,1..191)) /note="origin H-strand replication (D-loop)" rep_origin 1..191 misc_feature 471..483 repeat_unit 471..478 /note="5' first direct repeat of the deletion junction" repeat_unit 480..483 /note="5' second direct repeat of the deletion junction" misc_signal 531..568 /note="H-strand transcription promoter [5]" mRNA 556..>556 /note="H-strand mRNA [5]" mutation 573..4415 /citation=[9] /note="3843 bp deletion causing external ophthalmoplegia" tRNA 577..647 /anticodon=(pos:611..613,aa:Phe) /note="Phe-tRNA (NAR: 1455)" rRNA 648..1601 /note="12S rRNA" tRNA 1602..1670 /anticodon=(pos:1633..1635,aa:Val) /note="Val-tRNA (NAR: 2053)" rRNA 1671..3229 /note="16S rRNA" tRNA 3230..3304 /anticodon=(pos:3265,aa:Leu) /product="transfer RNA-Leu" /gene="tRNA-Leu" /note="NAR: 1054" mRNA 3305..4262 /note="RNA 13 mRNA" tRNA 4263..4331 /anticodon=(pos:4292..4294,aa:Ile) /note="Ile-tRNA (NAR: 0997)" tRNA complement(4329..4400) /anticodon=(pos:4365..4367,aa:Gln) /note="Gln-tRNA (NAR: 0597)" tRNA 4402..4469 /anticodon=(pos:4432..4434,aa:Met) /note="Met-tRNA-f (NAR: 1297)" mRNA 4470..5511 /note="RNA 12 mRNA" misc_feature 5152..5163 repeat_unit 5152..5159 /note="3' first direct repeat of the deletion junction" repeat_unit 5160..5163 /note="3' second direct repeat of the deletion junction" tRNA 5512..5579 15
tRNA tRNA rep_origin tRNA tRNA mRNA tRNA tRNA mRNA tRNA mRNA mutation
mRNA tRNA mutation
mRNA mutation
tRNA
/anticodon=(pos:5544..5546,aa:Trp) /note="Trp-tRNA (NAR: 1897)" complement(5587..5655) /anticodon=(pos:5623..5625,aa:Ala) /note="Ala-tRNA (NAR: 0097)" complement(5657..5729) /anticodon=(pos:5694..5696,aa:Asn) /note="Asn-tRNA (NAR: 0297)" 5741..5752 /note="(contains) origin L-strand replication" complement(5761..5826) /anticodon=(pos:5796..5798,aa:Cys) /note="Cys-tRNA (NAR: 0497)" complement(5826..5891) /anticodon=(pos:5860..5862,aa:Tyr) /note="Tyr-tRNA (NAR: 1997)" 5901..7517 /note="RNA 9 mRNA" complement(7445..7516) /anticodon=(pos:7482..7484,aa:Ser) /note="Ser-tRNA-ucn (NAR: 1697)" 7518..7585 /anticodon=(pos:7548..7550,aa:Asp) /note="Asp-tRNA (NAR: 0397)" 7586..8294 /note="RNA 16 mRNA" 8295..8364 /anticodon=(pos:8323..8325,aa:Lys) /note="Lys-tRNA (NAR: 1197)" 8365..9206 /note="RNA 14 mRNA" 8470..13446 /citation=[8] /note="Nucleotides deleted in Pearson marrow-pancreas syndrome" 9207..9990 /note="RNA 15 mRNA" 9991..10058 /anticodon=(pos:10021..10023,aa:Gly) /note="Gly-tRNA (NAR: 0797)" 9996..15896 /citation=[8] /note="Nucleotides deleted in Pearson marrow-pancreas syndrome" 10059..>10404 /note="RNA 17 mRNA" 10191..13752 /citation=[8] /note="Nucleotides deleted in Pearson marrow-pancreas syndrome" 10405..10469 /anticodon=(pos:10435..10437,aa:Arg) 16
mRNA mutation
mutation
tRNA tRNA tRNA mRNA tRNA mRNA mutation mutation tRNA mutation mutation mutation mutation mutation mutation mutation mutation mutation
/note="Arg-tRNA (NAR: 0197)" 10470..12137 /note="RNA 7 mRNA" 10666..14855 /citation=[8] /note="Nucleotides deleted in Pearson marrow-pancreas syndrome" 11233..13979 /citation=[8] /note="Nucleotides deleted in Pearson marrow-pancreas syndrome" 12138..12206 /anticodon=(pos:12168..12170,aa:His) /note="His-tRNA (NAR: 0897)" 12207..12265 /anticodon=(pos:12226..12228,aa:Ser) /note="Ser-tRNA-agy (NAR: 1656)" 12266..12336 /anticodon=(pos:12298..12300,aa:Leu) /note="Leu-tRNA-cun (NAR: 1097)" 12337..>14148 /note="RNA 5 mRNA" complement(14674..14742) /anticodon=(pos:14710..14712,aa:Glu) /note="Glu-tRNA (NAR: 0697)" 14747..15887 /note="RNA 11 mRNA" 15855 /note="g in wt; a in some HeLa cells [3]" 15880 /note="g in wt; c in some HeLa cells" 15888..15953 /anticodon=(pos:15919..15921,aa:Thr) /note="Thr-tRNA (NAR: 1797)" 15889 /note="a in wt; g in some HeLa cells" 15919..15922 /note="tata in wt; ta in some HeLa cells" 15920 /note="a in wt; g in some HeLa cells" 15924 /note="t in wt; c in some HeLa cells" 15935..15937 /note="ctt in wt; ct in some HeLa cells" 15936 /note="t in wt; c or g in some HeLa cells" 15937 /note="t in wt; c in some HeLa cells" 15938..15940 /note="tac in wt; tc in some HeLa cells" 15938..15942 /note="tacaa in wt; ta in some HeLa cells" 17
tRNA rep_origin misc_signal CDS
CDS
CDS
CDS
complement(15955..16023) /anticodon=(pos:15990..15992,aa:Pro) /note="Pro-tRNA (NAR: 1597)" 16104..16569 16158..16172 /note="D-loop termination signal" 3307..4262 /transl_except=(pos:4261..4262,aa:other) /note="stop" /product="protein 1" /codon_start=1 /translation="MPMANLLLLIVPILIAMAFLMLTERKILGYMQLRKGPNVVG PYGLLQPFADAMKLFTKEPLKPATSTITLYITAPTLALTIALLLWTPLPMP NPLVNLNLGLLFILATSSLAVYSILWSGWASNSNYALIGALRAVAQTISY EVTLAIILLSTLLMSGSFNLSTLITTQEHLWLLLPSWPLAMMWFISTLAET NRTPFDLAEGESELVSGFNIEYAAGPFALFFMAEYTNIIMMNTLTTTIFLG TTYDALSPELYTTYFVTKTLLLTSLFLWIRTAYPRFRYDQLMHLLWKNF LPLTLALLMWYVSMPITISSIPPQTX" 4470..5511 /transl_except=(pos:5511..5511,aa:other) /note="stop" /product="protein 2" /codon_start=1 /translation="INPLAQPVIYSTIFAGTLITALSSHWFFTWVGLEMNMLAFIP VLTKKMNPRSTEAAIKYFLTQATASMILLMAILFNNMLSGQWTMTNTT NQYSSLMIMMAMAMKLGMAPFHFWVPEVTQGTPLTSGLLLLTWQKLA PISIMYQISPSLNVSLLLTLSILSIMAGSWGGLNQTQLRKILAYSSITHMG WMMAVLPYNPNMTILNLTIYIILTTTAFLLLNLNSSTTTLLLSRTWNKLT WLTPLIPSTLLSLGGLPPLTGFLPKWAIIEEFTKNNSLIIPTIMATITLLNLY FYLRLIYSTSITLLPMSNNVKMKWQFEHTKPTPFLPTLIALTTLLLPISPFM LMILX" 5904..7445 /transl_except=(pos:7443..7445,aa:other) /note="stop" /product="cytochrome oxidase subunit 1" /codon_start=1 /translation="MFADRWLFSTNHKDIGTLYLLFGAWAGVLGTALSLLIRAE LGQPGNLLGNDHIYNVIVTAHAFVMIFFMVMPIMIGGFGNWLVPLMIGA PDMAFPRMNNMSFWLLPPSLLLLLASAMVEAGAGTGWTVYPPLAGNY SHPGASVDLTIFSLHLAGVSSILGAINFITTIINMKPPAMTQYQTPLFVWS VLITAVLLLLSLPVLAAGITMLLTDRNLNTTFFDPAGGGDPILYQHLFWF FGHPEVYILILPGFGMISHIVTYYSGKKEPFGYMGMVWAMMSIGFLGFIV WAHHMFTVGMDVDTRAYFTSATMIIAIPTGVKVFSWLATLHGSNMKW SAAVLWALGFIFLFTVGGLTGIVLANSSLDIVLHDTYYVVAHFHYVLSM GAVFAIMGGFIHWFPLFSGYTLDQTYAKIHFTIMFIGVNLTFFPQHFLGLS GMPRRYSDYPDAYTTWNILSSVGSFISLTAVMLMIFMIWEAFASKRKVL MVEEPSMNLEWLYGCPPPYHTFEEPVYMKSX" 7586..8269 /product="cytochrome oxidase subunit 2" /codon_start=1 /translation="MAHAAQVGLQDATSPIMEELITFHDHALMIIFLICFLVLYAL FLTLTTKLTNTNISDAQEMETVWTILPAIILVLIALPSLRILYMTDEVNDPS 18
CDS
CDS
CDS
CDS
CDS
CDS
LTIKSIGHQWYWTYEYTDYGGLIFNSYMLPPLFLEPGDLRLLDVDNRVV LPIEAPIRMMITSQDVLHSWAVPTLGLKTDAIPGRLNQTTFTATRPGVYY GQCSEICGANHSFMPIVLELIPLKIFEMGPVFTL" 8366..8572 /note="putative" /product="protein A6L" /codon_start=1 /translation="MPQLNTTVWPTMITPMLLTLFLITQLKMLNTNYHLPPSPKP MKMKNYNKPWEPKWTKICSLHSLPPQS" 8527..9209 /transl_except=(pos:9208..9209,aa:other) /note="stop" /product="ATPase 6" /codon_start=1 /translation="MNENLFASFIAPTILGLPAAVLIILFPPLLIPTSKYLINNRLIT TQQWLIKLTSKQMMTMHNTKGRTWSLMLVSLIIFIATTNLLGLLPHSFTP TTQLSMNLAMAIPLWAGTVIMGFRSKIKNALAHFLPQGTPTPLIPMLVIIE TISLLIQPMALAVRLTANITAGHLLMHLIGSATLAMSTINLPSTLIIFTILIL LTILEIAVALIQAYVFTLLVSLYLHDNTLX" 9207..9987 /transl_except=(pos:9987..9987,aa:other) /note="stop" /product="cytochrome oxidase subunit 3" /codon_start=1 /translation="MTHQSHAYHMVKPSPWPLTGALSALLMTSGLAMWFHFHS MTLLMLGLLTNTLTMYQWWRDVTRESTYQGHHTPPVQKGLRYGMILFI TSEVFFFAGFFWAFYHSSLAPTPQLGGHWPRTGITPLNPLEVPLLNTSVL LASGVSITWAHHSLMENNRNQMIQALLITILLGLYFTLLQASEYFESPFTI SDGIYGSTFFVATGFHGLHVIIGSTFLTICFIRQLMFHFTSKHHFGFEAAA WYWHFVDVVWLFLYVSIYWWGX" 10059..10404 /transl_except=(pos:10404..10404,aa:other) /note="stop" /product="protein 3" /codon_start=1 /translation="MNFALILMINTLLALLLMIITFWLPQLNGYMEKSTPYECGF DPMSPARVPFSMKFFLVAITFLLFDLEIALLLPLPWALQTTNLPLMVMSS LLLIIILALSLAYEWLQKGLDWTEX" 10470..10766 /note="putative" /product="protein 4L" /codon_start=1 /translation="MPLIYMNIMLAFTISLLGMLVYRSHLMSSLLCLEGMMLSLF IMATLMTLNTHSLLANIVPIAMLVFAACEAAVGLALLVSISNTYGLDYV HNLNLLQC" 10760..12137 /transl_except=(pos:12137..12137,aa:other) /note="stop" /product="protein 4" /codon_start=1 /translation="MLKLIVPTIMLLPLTWLSKKHMIWINTTTHSLIISIIPLLFFNQ INNNLFSCSPTFSSDPLTTPLLMLTTWLLPLTIMASQRHLSSEPLSRKKLY 19
LSMLISLQISLIMTFTATELIMFYIFFETTLIPTLAIITRWGNQPERLNAGTY FLFYTLVGSLPLLIALIYTHNTLGSLNILLLTLTAQELSNSWANNLMWLA YTMAFMVKMPLYGLHLWLPKAHVEAPIAGSMVLAAVLLKLGGYGMM RLTLILNPLTKHMAYPFLVLSLWGMIMTSSICLRQTDLKSLIAYSSISHMA LVVTAILIQTPWSFTGAVILMIAHGLTSSLLFCLANSNYERTHSRIMILSQ GLQTLLPLMAFWWLLASLANLALPPTINLLGELSVLVTTFSWSNITLLLT GLNMLVTALYSLYMFTTTQWGSLTHHINNMKPSFTRENTLMFMHLSPIL LLSLNPDIITGFSSX" CDS 12337..14148 /note="putative" /product="protein 5" /codon_start=1 /translation="MTMHTTMTTLTLTSLIPPILTTLVNPNKKNSYPHYVKSIVAS TFIISLFPTTMFMCLDQEVIISNWHWATTQTTQLSLSFKLDYFSMMFIPVA LFVTWSIMEFSLWYMNSDPNINQFFKYLLIFLITMLILVTANNLFQLFIGW EGVGIMSFLLISWWYARADANTAAIQAILYNRIGDIGFILALAWFILHSNS WDPQQMALLNANPSLTPLLGLLLAAAGKSAQLGLHPWLPSAMEGPTPV SALLHSSTMVVAGIFLLIRFHPLAENSPLIQTLTLCLGAITTLFAAVCALT QNDIKKIVAFSTSSQLGLMMVTIGINQPHLAFLHICTHAFFKAMLFMCSG SIIHNLNNEQDIRKMGGLLKTMPLTSTSLTIGSLALAGMPFLTGFYSKDHI IETANMSYTNAWALSITLIATSLTSAYSTRMILLTLTGQPRFPTLTNINEN NPTLLNPIKGLAAGSLFAGFLITNNISPASPFQTTIPLYLKLTALAVTFLGL LTALDLNYLTNKLKMKSPLCTFYFSNMLGFYPSITHRTIPYLGLLTSQNL PLLLLDLTWLEKLLPKTISQHQISTSIITSTQKGMIKLYFLSFFFPLILTLLLI T" CDS complement(14148..14673) /transl_except=(pos:14673..14673,aa:other) /note="stop" /product="protein 6" /codon_start=1 /translation="MMYALFLLSVGLVMGFVGFSSKPSPIYGGLVLIVSGVVGCV IILNFGGGYMGLMVFLIYLGGMMVVFGYTTAMAIEEYPEAWGSGVEVL VSVLVGLAMEVGFVLWVKEYDGVVVVVNFNSVGSWMIYEGEGSGFIR EDPIGAGALYDYGRWLVVVTGWPLFVGVYIVIEIARGNRX" CDS 14747..15881 /transl_except=(pos:15881..15881,aa:other) /note="stop" /product="cytochrome b" /codon_start=1 /translation="MTPMRKINPLMKLINHSFIDLPTPSNISAWWNFGSLLGACLI LQITTGLFLAMHYSPDASTAFSSIAHITRDVNYGWIIRYLHANGASMFFIC LFLHIGRGLYYGSFLYSETWNIGIILLLATMATAFMGYVLPWGQMSFWG ATVITNLLSAIPYIGTDLVQWIWGGYSVDSPTLTRFFTFHFILPFIIAALAT LHLLFLHETGSNNPLGITSHSDKITFHPYYTIKDALGLLLFLLSLMTLTLFS PDLLGDPDNYTLANPLNTPPHIKPEWYFLFAYTILRSVPNKLGGVLALLL SILILAMIPILHMSKQQSMMFRPLSQSLYWLLAADLLILTWIGGQPVSYPF TIIGQVASVLYFTTILILMPTISLIENKMLKX" BASE COUNT 5123 a 5175 c 2177 g 4094 t ORIGIN MboI site in D-loop (H-strand replication) region 1 61 121 181
gatcacaggt cgtctggggg gcagtatctg acaggcgaac
ctatcaccct gtatgcacgc tctttgattc atacttacta
attaaccact gatagcattg ctgcctcatc aagtgtgtta 20
cacgggagct cgagacgctg ctattattta attaattaat
ctccatgcat gagccggagc tcgcacctac gcttgtagga
ttggtatttt accctatgtc gttcaatatt cataataata
241 301 361 421 481 581 601 661 721 781 841 901 961 1021 1081 1141 1201 1261 1321 1381 1441 1501 1561 1621 1681 1741 1801 1861 1921 1981 2041 2101 2161 2221 2281 2341 2401 2461 2521 2581 2641 2701 2761 2821 2881 2941 3001 3061 3121 3181 3241 3301 3361 3421 3481 3541 3601 3661 3721 3781 3841 3901 3961 4021
acaattgaat aaccccccct acaaagaacc ttttaacagt ctcatcaata ccccgaacca gcaatacact ctagcctttc tcaccctcta aaaacgctta acgaaagttt ggtcacacga tccccaataa tacgaaagtg taccccacta cactacgagc agcctgttct ccgccatctt acgttaggtc aaaactacga agtagagtgc aagtatactt cgtaacatgg aagcacccaa gccccaaacc agtataggcg aaaaattata ttaactagaa acctaagaac ggtagaggcg ttcaacttta caaagaggaa acacccatag ctacctaaaa accctataga ctgcgtcaga aagtcattat aaagtaaaag atcaccagta aaccgtgcaa acgagggttc ggcataacac cctaacaaac cctcggagca ctactatact gcgcaatcct ggacatcccg gtgatctgag ctgtacgaaa tatcatctca agagcccggt aacaacatac ttcctaatgc gtggtaggcc gagcccctaa ctcaccatcg aacctaggcc tcagggtgag acaatctcat tcctttaacc tgacccttgg gaccttgccg cccttcgccc actacaatct
gtctgcacag cccccgcttc ctaacaccag caccccccaa caacccccgc accaaacccc gaaaatgttt tattagctct aatcaccacg gcctagccac aactaagcta ttaacccaag agctaaaact gctttaacat tgcttagccc cacagcttaa gtaatcgata cagcaaaccc aaggtgtagc tagcccttat ttagttgaac caaaggacat taagtgtact cttacactta cactccacct atagaaattg accaagcata ataactttgc agctaaaaga acaaacctac aatttgccca cagctctttg taggcctaaa aatcccaaac agaactaatg ttaaaacact taccctcact gaactcggca ttagaggcac aggtagcata agctgtctct agcaagacga ccacaggtcc gaacccaacc caattgatcc attctagagt atggtgcagc ttcagaccgg ggacaagaga acttagtatt aatcgcataa ccatggccaa ttaccgaacg cctacgggct aacccgccac ctcttctact tcctatttat catcaaactc atgaagtcac tctccaccct ccataatatg aaggggagtc tattcttcat tcctaggaac
ccactttcca tggccacagc cctaaccaga ctaacacatt ccatcctacc aaagacaccc agacgggctc tagtaagatt atcaaaagga acccccacgg tactaacccc tcaatagaag cacctgagtt atctgaacac taaacctcaa aactcaaagg aaccccgatc tgatgaaggc ccatgaggtg gaaacttaag agggccctga ttaactaaaa ggaaagtgca ggagatttca tactaccaga aaacctggcg atatagcaag aaggagagcc gcacacccgt cgagcctggt cagaaccctc gacactagga agcagccacc atataactga ttagtataag gaactgacaa gtcaacccaa aatcttaccc cgcctgccca atcacttgtt tacttttaac gaagacccta taaactacca tccgagcagt aataacttga ccatatcaac cgctattaaa agtaatccag aataaggcct atacccacac aacttaaaac cctcctactc aaaaattcta actacaaccc atctaccatc atgaaccccc tctagccacc aaactacgcc cctagccatc tatcacaaca atttatctcc cgaactagtc agccgaatac aacatatgac 21
cacagacatc acttaaacac tttcaaattt attttcccct cagcacacac cccacagttt acatcacccc acacatgcaa acaagcatca gaaacagcag agggttggtc ccggcgtaaa gtaaaaaact acaatagcta cagttaaatc acctggcggt aacctcacca tacaaagtaa gcaagaaatg ggtcgaaggt agcgcgtaca cccctacgca cttggacgaa acttaacttg caaccttagc caatagatat gactaacccc aaagctaaga ctatgtagca gatagctggt taaatcccct aaaaaccttg aattaagaaa actcctcaca taacatgaaa ttaacagccc cacaggcatg cgcctgttta gtgacacatg ccttaaatag cagtgaaatt tggagcttta aacctgcatt acatgctaag ccaacggaac aatagggttt ggttcgtttg gtcggtttct acttcacaaa ccacccaaga tttacagtca ctcattgtac ggctatatac ttcgctgacg accctctaca ctccccatac tctagcctag ctgatcggcg attctactat caagaacacc acactagcag tcaggcttca acaaacatta gcactctccc
ataacaaaaa atctctgcca tatcttttgg cccactccca acaccgctgc atgtagctta ataaacaaat gcatccccgt agcacgcagc tgattaacct aatttcgtgc gagtgtttta ccagttgaca agacccaaac aacaaaactg gcttcatatc cctcttgctc gcgcaagtac ggctacattt ggatttagca caccgcccgt tttatataga ccagagtgta accgctctga caaaccattt agtaccgcaa tataccttct cccccgaaac aaatagtggg tgtccaagat tgtaaattta tagagagagt gcgttcaagc cccaattgga acattctcct aatatctaca ctcataagga ccaaaaacat tttaacggcc ggacctgtat gacctgcccg atttattaat aaaaatttcg acttcaccag aagttaccct acgacctcga ttcaacgatt atctaccttc gcgccttccc acagggtttg gaggttcaat ccattctaat aactacgcaa ccataaaact tcaccgcccc ccaaccccct ccgtttactc cactgcgagc caacattact tctgattact agaccaaccg acatcgaata ttataataaa ctgaactcta
atttccacca aaccccaaaa cggtatgcac tactactaat taaccccata cctcctcaaa aggtttggtc tccagtgagt aatgcagctc ttagcaataa cagccaccgc gatcaccccc caaaatagac tgggattaga ctcgccagaa cctctagagg agcctatata ccacgtaaag tctaccccag gtaaactaag caccctcctc ggagacaagt gcttaacaca gctaaaccta acccaaataa gggaaagatg gcataatgaa cagacgagct aagatttata agaatcttag actgttagtc aaaaaattta tcaacaccca ccaatctatc ccgcataagc atcaaccaac aaggttaaaa cacctctagc gcggtaccct gaatggctcc tgaagaggcg gcaaacagta gttggggcga tcaaagcgaa agggataaca tgttggatca aaagtcctac aaattcctcc ccgtaaatga ttaagatggc tcctcttctt cgcaatggca aggccccaac cttcaccaaa gaccttagct ggtcaacctc aatcctctga agtagcccaa aataagtggc cctgccatca aacccccttc cgccgcaggc caccctcacc cacaacatat
4081 4141 4201 4261 4321 4381 4441 4501 4561 4621 4681 4741 4801 4861 4921 4981 5041 5101 5161 5221 5281 5341 5401 5461 5521 5581 5641 5701 5761 5821 5881 5941 6001 6061 6121 6181 6241 6301 6361 6421 6481 6541 6601 6661 6721 6781 6841 6901 6961 7021 7081 7141 7201 7261 7321 7381 7441 7501 7561 7621 7681 7741 7801 7861
tttgtcacca cgattccgct gcattactta taagaaatat ccttatttct acctatcaca aaaatgttgg ctaccatctt taggcctaga gttccacaga taatagctat atcaatactc ttcacttctg tcacatgaca taagccttct accagaccca tagcagttct taactactac ctcgcacctg taggaggcct caaaaaacaa acttctacct taaaaataaa cccttaccac ggttaaatac aacagctaag ttaagctaag aagcacccta aagccccggc ggagctggta gccattttac aagacattgg taagcctcct tctacaacgt tcataatcgg cgtttccccg tcgcatctgc cagggaacta caggtgtctc cccctgccat tcctacttct gcaacctcaa acctattctg taatctccca tggtctgagc ttacagtagg ctatccccac aatgatctgc tgactggcat ttgtagccca tcattcactg atttcactat tatccggaat tatcatctgt gagaagcctt agtgactata ctagacaaaa tccatgactt tataggctaa tacttcccct ccttatctgc tactaacatc cctagtcctc tccctccctt
agaccctact acgaccaact tatgatatgt gtctgataaa aggactatga ccccatccta ttataccctt tgcaggcaca aataaacatg agctgccatc cctcttcaac atcattaata agtcccagag aaaactagcc cctcactctc gctacgcaaa accgtacaac cgcattccta aaacaagcta gcccccgcta tagcctcatc acgcctaatc atgacagttt gctactccta agaccaagag gactgcaaaa cccttactag atcaactggc aggtttgaag aaaagaggcc ctcaccccca aacactatac tattcgagcc tatcgtcaca aggctttggc cataaacaac tatagtggag ctcccaccct ctctatctta aacccaatac cctatctctc caccaccttc atttttcggt tattgtaact tatgatatca aatagacgta cggcgtcaaa tgcagtgctc tgtattagca cttccactat atttccccta catattcatc gccccgacgt aggctcattc cgcttcgaag tggatgcccc aaggaaggaa tttcaaaaag atcctatata atcatagaag ttcctagtcc tcagacgctc atcgccctcc accatcaaat
tctaacctcc catacacctc ctccataccc agagttactt gaatcgaacc aagtaaggtc cccgtactaa ctcatcacag ctagctttta aagtatttcc aatatactct atcataatag gttacccaag cccatctcaa tcaatcttat atcttagcat cctaacataa ctactcaact acatgactaa accggctttt atccccacca tactccacct gaacatacaa cctatctccc ccttcaaagc ccccactctg accaatggga ttcaatctac ctgcttcttc taacccctgt ctgatgttcg ctattattcg gagctgggcc gcccatgcat aactgactag ataagcttct gccggagcag ggagcctccg ggggccatca caaacgcccc ccagtcctag ttcgaccccg caccctgaag tactactccg attggcttcc gacacacgag gtatttagct tgagccctag aactcatcac gtcctatcaa ttctcaggct ggcgtaaatc tactcggact atttctctaa cgaaaagtcc ccaccctacc tcgaaccccc gtattagaaa tcttaatggc agcttatcac tgtatgccct aggaaataga catccctacg caattggcca 22
ctgttcttat ctatgaaaaa attacaatct tgatagagta catccctgag agctaaataa ttaatcccct cgctaagctc ttccagttct tcacgcaagc ccggacaatg ctatagcaat gcacccctct tcatatacca ccatcatagc actcctcaat ccattcttaa taaactccag cacccttaat tgcccaaatg tcatagccac caatcacact aacccacccc cttttatact cctcagtaag catcaactga cttaaaccca ttctcccgcc gaatttgcaa ctttagattt ccgaccgttg gcgcatgagc agccaggcaa ttgtaataat ttcccctaat gactcttacc gaacaggttg tagacctaac atttcatcac tcttcgtctg ctgctggcat ccggaggagg tttatattct gaaaaaaaga tagggtttat catatttcac gactcgccac gattcatctt tagacatcgt taggagctgt acaccctaga taactttctt accccgatgc cagcagtaat taatagtaga acacattcga caaagctggt aaccatttca acatgcagcg ctttcatgat tttcctaaca aaccgtctga catcctttac ccaatggtac
gaattcgaac acttcctacc ccagcattcc aataatagga aatccaaaat gctatcgggc ggcccaaccc gcactgattt aaccaaaaaa aaccgcatcc aaccataacc aaaactagga gacatccggc aatctctccc aggcagttga tacccacata tttaactatt caccacgacc tccatccacc ggccattatc catcaccctc actccccata attcctcccc aataatctta ttgcaatact acgcaaatca caaacactta gccgggaaaa ttcaatatga acagtccaat actattctct tggagtccta ccttctaggt cttcttcata aatcggtgcc tccctctctc aacagtctac catcttctcc aacaattatc atccgtccta cactatacta agaccccatt tatcctacca accatttgga cgtgtgagca ctccgctacc actccacgga tcttttcacc actacacgac atttgccatc ccaaacctac cccacaacac atacaccaca attaataatt agaaccctcc agaacccgta ttcaagccaa taactttgtc caagtaggtc cacgccctca ctcacaacaa actatcctgc ataacagacg tgaacctacg
agcatacccc actcacccta ccctcaaacc gcttaaaccc tctccgtgcc ccataccccg gtcatctact tttacctgag ataaaccctc ataatccttc aatactacca atagccccct ctgcttcttc tcactaaacg ggtggattaa ggatgaataa tatattatcc ctactactat ctcctctccc gaagaattca cttaacctct tctaacaacg acactcatcg tagaaattta taatttctgt gccactttaa gttaacagct aaggcgggag aaatcacctc gcttcactca acaaaccaca ggcacagctc aacgaccaca gtaataccca cccgatatgg ctactcctgc cctcccttag ttacacctag aatataaaac atcacagcag ctaacagacc ctataccaac ggcttcggaa tacataggta caccatatat ataatcatcg agcaatatga gtaggtggcc acgtactacg ataggaggct gccaaaatcc tttctcggcc tgaaacatcc ttcatgattt ataaacctgg tacataaaat ccccatggcc aaagttaaat tacaagacgc taatcatttt aactaactaa ccgccatcat aggtcaacga agtacaccga
7921 7981 8041 8101 8161 8221 8281 8341 8401 8461 8521 8581 8641 8701 8761 8821 8881 8941 9001 9061 9121 9181 9241 9301 9361 9421 9481 9541 9601 9661 9721 9781 9841 9901 9961 10021 10081 10141 10201 10261 10321 10381 10441 10501 10561 10621 10681 10741 10801 10861 10921 10981 11041 11101 11161 11221 11281 11341 11401 11461 11521 11581 11641 11701
ctacggcgga cctgcgactc aataattaca agatgcaatt ctacggtcaa attaattccc ccccctctag agaaccaaca aattaccccc ctaccaccta accaaaatga gccgcagtac aacaaccgac accatacaca attgccacaa tctataaacc tctaagatta cccatactag cgcctaaccg ctagcaatat ctgactatcc agcctctacc aacccagccc ccatgtgatt taaccatata caccacctgt ttttcttcgc taggagggca taaacacatc tagaaaacaa attttaccct tctacggctc caactttcct actttggctt tgtatgtctc tccaattaac taatcaacac acggctacat gcgtcccttt aaattgccct ttatgtcatc aaaaaggatt cattaaatta catttaccat tatgcctaga cccactccct cagcggtggg ataacctaaa gacatgactt tagcatcatc aaccttttcc cctcacaatc ctacctctct actaatcata ccgatgaggc agtaggctcc aaacattcta aatatgacta atgactccct actcttaaaa aaaacacata catctgccta agccctcgta tctcataatc
ctaatcttca cttgacgttg tcacaagacg cccggacgtc tgctctgaaa ctaaaaatct agcccactgt cctctttaca atactcctta cctccctcac acgaaaatct tgatcattct taatcaccac acactaaagg ctaacctcct tagccatggc aaaatgccct ttattatcga ctaacattac caaccattaa tagaaatcgc tgcacgacaa atgaccccta tcacttccac ccaatgatgg ccaaaaaggc aggatttttc ctggccccga cgtattactc ccgaaaccaa cctacaagcc aacatttttt cactatctgc cgaagccgcc catctattga tagttttgac cctcctagcc agaaaaatcc ctccataaaa ccttttaccc cctcttatta agactgaacc tgataatcat ctcacttcta aggaataata cttagccaat cctagcccta cctactccaa tccaaaaaac cctctactat tccgaccccc atggcaagcc atactaatct ttttatatct aaccagccag cttcccctac ctactcactc gcttacacaa aaagcccatg ctaggcggct gcctacccct cgacaaacag gtaacagcca gcccacgggc
actcctacat acaatcgagt tcttgcactc taaaccaaac tctgtggagc ttgaaatagg aaagctaact gtgaaatgcc cactattcct caaagcccat gttcgcttca atttccccct ccaacaatga acgaacctga cggactcctg catcccctta agcccacttc aaccatcagc tgcaggccac ccttccctct tgtcgcctta cacataatga acaggggccc tccataacgc cgcgatgtaa cttcgatacg tgagcctttt acaggcatca gcatcaggag ataattcaag tcagagtact gtagccacag ttcatccgcc gcctgatact tgagggtctt aacattcaaa ttactactaa accccttacg ttcttcttag ctaccatgag atcatcatcc gaattggtat atttaccaaa ggaatactag ctatcgctgt attgtgccta ctagtctcaa tgctaaaact acataatttg tttttaacca taacaacccc aacgccactt ccctacaaat tcttcgaaac aacgcctgaa tcatcgcact tcactgccca tagcttttat tcgaagcccc atggtataat tccttgtact acctaaaatc ttctcatcca ttacatcctc 23
acttccccca agtactcccg atgagctgtc cactttcacc aaaccacagt gcccgtattt tagcattaac ccaactaaat catcacccaa aaaaataaaa ttcattgccc ctattgatcc ctaatcaaac tctcttatac cctcactcat tgagcgggca ttaccacaag ctactcattc ctactcatgc acacttatca atccaagcct cccaccaatc tctcagccct tcctcatact cacgagaaag ggataatcct accactccag ccccgctaaa tatcaatcac cactgcttat tcgagtctcc gcttccacgg aactaatatt ggcattttgt actcttttag aaagagtaat taattattac agtgcggctt tagctattac ccctacaaac tagccctaag atagtttaaa tgcccctcat tatatcgctc tcattatagc ttgccatact tctccaacac aatcgtccca aatcaacaca aatcaacaac cctcctaata atccagtgaa ctccttaatt cacacttatc cgcaggcaca aatttacact agaactatca agtaaagata catcgctggg acgcctcaca atccctatga gctcattgca aaccccctga attactattc
ttattcctag attgaagccc cccacattag gctacacgac ttcatgccca accctatagc cttttaagtt actaccgtat ctaaaaatat aattataaca ccacaatcct ccacctccaa taacctcaaa tagtatcctt ttacaccaac cagtgattat gcacacctac aaccaatagc acctaattgg tcttcacaat acgttttcac acatgcctat cctaatgacc aggcctacta cacataccaa atttattacc cctagcccct tcccctagaa ctgagctcac tacaatttta cttcaccatt acttcacgtc tcactttaca agatgtggtt tataaatagt aaacttcgcc attttgacta cgaccctata cttcttatta aactaacctg tctggcctat caaaacgaat ttacataaat acacctcata tactctcata agtctttgcc atatggccta acaattatat accacccaca aacctattta ctaactacct ccactatcac ataacattca cccaccttgg tacttcctat cacaacaccc aactcctgag cctctttacg tcaatagtac ctcattctca ggcataatta tactcttcaa agcttcaccg tgcctagcaa
aaccaggcga ccattcgtat gcttaaaaac cgggggtata tcgtcctaga accccctcta aaagattaag ggcccaccat taaacacaaa aaccctgaga aggcctaccc atatctcatc acaaatgata aatcattttt cacccaacta aggctttcgc accccttatc cctggccgta aagcgccacc tctaattcta acttctagta catatagtaa tccggcctag accaacacac ggccaccaca tcagaagttt accccccaat gtcccactcc catagtctaa ctgggtctct tccgacggca attattggct tccaaacatc tgactatttc accgttaact ttaattttaa ccacaactca tcccccgccc tttgatctag ccactaatag gagtgactac gatttcgact attatactag tcctccctac accctcaaca gcctgcgaag gactacgtac tactaccact gcctaattat gctgttcccc gactcctacc gaaaaaaact cagccacaga ctatcatcac tctacaccct taggctcact ccaataactt gactccactt ttgccgcagt accccctgac taacaagctc tcagccacat gcgcagtcat actcaaacta
11761 11821 11881 11941 12001 12061 12121 12181 12241 12301 12361 12421 12481 12541 12601 12661 12721 12781 12841 12901 12961 13021 13081 13141 13201 13261 13321 13381 13441 13501 13561 13621 13681 13741 13801 13861 13921 13981 14041 14101 14161 14221 14281 14341 14401 14461 14521 14581 14641 14701 14761 14821 14881 14941 15001 15061 15121 15181 15241 15301 15361 15421 15481 15541
cgaacgcact aatagctttt cctactggga acttacagga acaatggggc caccctcatg taccgggttt cagaggctta catgtctaac gccccaaaaa accctaaccc aaaaactcat ttccccacaa gccacaaccc ttcatccctg aactcagacc ctaatcttag attatatcct attcaagcaa tttatcctac agcctcaccc ctccacccct tcaagcacta aatagcccac gcagtctgcg caactaggac atctgtaccc aaccttaaca acttcaacct ttctactcca ctatctatta ctcaccctaa accctactaa actaacaaca acagccctcg aacaaactta taccctagca cccctactcc caccaaatct ctctctttct agcaatctca tcaacgccca cccctctcct cccatcatac actcaccaag tgtagtatat catataacct tactaaaccc acccacactc caatgatatg caaaattaac caacatctcc caccacagga aatcgcccac tggcgcctca atcatttctc aacagccttc aattacaaac aggaggctac gcccttcatt aaacaacccc aatcaaagac ctcaccagac tccccacatc
cacagtcgca tgatgacttc gaactctctg ctcaacatac tcactcaccc ttcatacacc tcctcttgta cgacccctta aacatggctt ttttggtgca tgacttccct acccccatta caatattcat aaacaaccca tagcattgtt caaacattaa ttaccgctaa tcttgctcat tcctatacaa actccaactc cactactagg gactcccctc tagttgtagc taatccaaac cccttacaca tcataatagt acgccttctt atgaacaaga ccctcaccat aagaccacat ctctcatcgc caggtcaacc accccattaa tttcccccgc ctgtcacttt aaataaaatc tcacacaccg tcctagacct ccacctccat tcttcccact attacaatat taatcataca tcataaatta tctttcaccc acctcaaccc ccaaagacaa cccccaaaat ccataaatag aacagaaaca aaaaaccatc cccctaataa gcatgatgaa ctattcctag atcactcgag atattcttta tactcagaaa ataggctatg ttactatccg tcagtagaca attgcagccc ctaggaatca gccctcggct ctcctaggcg aagcccgaat
tcataatcct tagcaagcct tgctagtaac tagtcacagc accacattaa tatcccccat aatatagttt tttaccgaga tctcaacttt actccaaata aattcccccc tgtaaaatcc gtgcctagac gctctcccta cgttacatgg tcagttcttc caacctattc cagttgatga ccgtatcggc atgagaccca cctcctccta agccatagaa aggaatcttc tctaacacta aaatgacatc tacaatcggc caaagccata tattcgaaaa tggcagccta catcgaaacc tacctccctg tcgcttcccc aggcctggca atcccccttc cctaggactt cccactatgc cacaatcccc aacctgacta catcacctca catcctaacc atacaccaac aagcccccgc ttcagcttcc acaggacgaa ctgaccccca ccatcattcc tcagaataat gagaaggctt aagcatacat gttgtatttc aattaattaa acttcggctc ccatgcacta acgtaaatta tctgcctctt cctgaaacat tcctcccgtg ccatcccata gtcccaccct tagcaacact cctcccattc tacttctctt acccagacaa gatatttcct 24
ctctcaagga cgctaacctc cacgttctcc cctatactcc caacataaaa tctcctccta aaccaaaaca aagctcacaa taaaggataa aaagtaataa atccttacca attgtcgcat caagaagtta agcttcaaac tccatcatag aaatatctac caactgttca tacgcccgag gatatcggtt caacaaatag gcagcagcag ggccccaccc ttactcatcc tgcttaggcg aaaaaaatcg atcaaccaac ctatttatgt ataggaggac gcattagcag gcaaacatat acaagcgcct acccttacta gccggaagcc caaacaacaa ctaacagccc acattttatt tatctaggcc gaaaagctat acccaaaaag ctactcctaa aaacaatggt accaatagga tacactatta tcctacctcc tgcctcagga ccctaaataa aacacacccg agaagaaaac cattattctc aactacaaga ccactcattc actccttggc ctcaccagac tggctgaatc cctacacatc cggcattatc aggccaaata cattgggaca cacacgattc ccacctccta cgataaaatc ccttctctcc ttatacccta attcgcctac
cttcaaactc gccttacccc tgatcaaata ctctacatat ccctcattca tccctcaacc tcagattgtg gaactgctaa cagctatcca ccatgcacac ccctcgttaa ccacctttat ttatctcgaa tagactactt aattctcact tcatcttcct tcggctgaga cagatgccaa tcatcctcgc cccttctaaa gcaaatcagc cagtctcagc gcttccaccc ctatcaccac tagccttctc cacacctagc gctccgggtc tactcaaaac gaataccttt catacacaaa atagcactcg acattaacga tattcgcagg tccccctcta tagacctcaa tctccaacat ttcttacgag tacctaaaac gcataattaa tcacataacc caaccagtaa tcctcccgaa aagtttacca atcgctaacc tactcctcaa attaaaaaaa accacaccgc cccacaaacc gcacggacta acaccaatga atcgacctcc gcctgcctga gcctcaaccg atccgctacc gggcgaggcc ctcctgcttg tcattctgag gacctagttc tttacctttc ttcttgcacg accttccacc ttaatgacat gccaacccct acaattctcc
tactcccact ccactattaa tcactctcct ttaccacaac cacgagaaaa ccgacatcat aatctgacaa ctcatgcccc ttggtcttag tactataacc ccctaacaaa tatcagtctc ctgacactga ctccataata gtgatatata aattaccata gggcgtagga cacagcagcc cttagcatga cgctaatcca ccaattaggt cctactccac cctagcagaa tctgttcgca cacttcaagt attcctgcac catcatccac catacctctc cctcacaggt cgcctgagcc aataattctt aaataacccc atttctcatt cctaaaactc ctacctaacc actcggattc ccaaaacctg aatttcacag actttacttc tattcccccg ctactactaa tgaaccctga caaccaccac ccactaaaac tagccatcgc ctattaaacc taacaatcaa ccattactaa caaccacgac ccccaatacg ccaccccatc tcctccaaat ccttttcatc ttcacgccaa tatattacgg caactatagc gggccacagt aatgaatctg acttcatctt aaacgggatc cttactacac taacactatt taaacacccc gatccgtccc
15601 15661 15721 15781 15841 15901 15961 16021 16081 16141 16201 16261 16321 16381 16441 16501 16561
taacaaacta catcctccat ttgactccta cccttttacc aataccaact aaactaatac gaaaaagtct ctgttctttc accgctatgt acttgaccac caagcaagta cctcacccac catttaccgt tcagataggg actctcctcg ctggttccta atcacgatg
ggaggcgtcc atatccaaac gccgcagacc atcattggac atctccctaa accagtcttg ttaactccac atggggaagc atttcgtaca ctgtagtaca cagcaatcaa taggatacca acatagcaca gtcccttgac ctccgggccc cttcagggtc
ttgccctatt aacaaagcat tcctcattct aagtagcatc ttgaaaacaa taaaccggag cattagcacc agatttgggt ttactgccag taaaaaccca ccctcaacta acaaacctac ttacagtcaa caccatcctc ataacacttg ataaagccta
actatccatc aatatttcgc aacctgaatc cgtactatac aatactcaaa atgaaaacct caaagctaag accacccaag ccaccatgaa atccacatca tcacacatca ccacccttaa atcccttctc cgtgaaatca ggggtagcta aatagcccac
ctcatcctag ccactaagcc ggaggacaac ttcacaacaa tgggcctgtc ttttccaagg attctaattt tattgactca tattgtacgg aaaccccctc actgcaactc cagtacatag gtccccatgg atatcccgca aagtgaactg acgttcccct
caataatccc aatcacttta cagtaagcta tcctaatcct cttgtagtat acaaatcaga aaactattct cccatcaaca taccataaat cccatgctta caaagccacc tacataaagc atgacccccc caagagtgct tatccgacat taaataagac
Приложение 4. Результаты анализа участков-генов из файла HUMMTCG.SEQ Молекула полинуклеотида HUMMTCG.SEQ (длина 16569 нуклеотидов) Местонахождение Длина Функции участка Графики спектра участка участка 1 2 3 4 1. 3305- 4262 958 мРНК, протеин 1
2. 4470- 5511
1042
мРНК, протеин 2
3. 5901- 7517
1617
мРНК, цитохром C оксидаза 1
4. 7586- 8294
709
мРНК, цитохром C оксидаза 2
5. 8365- 9206
841
мРНК, протеин A6L
6. 9207- 9990
784
мРНК, цитохром C оксидаза 3
7. 10059-10404
346
мРНК, протеин 3
8. 10470-12137
1668
мРНК, протеин 4
9. 12337-14148
1812
мРНК, протеин 5
10. 14747-15887
1141
мРНК, цитохром B
25