П. Ю. Малков КОЛИЧЕСТВЕННЫЙ АНАЛИЗ биологических данных
ГАГУ – 2005
Федеральное агентство по образованию Государствен...
10 downloads
263 Views
705KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
П. Ю. Малков КОЛИЧЕСТВЕННЫЙ АНАЛИЗ биологических данных
ГАГУ – 2005
Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования «Горно-Алтайский государственный университет»
П.Ю. МАЛКОВ
КОЛИЧЕСТВЕННЫЙ АНАЛИЗ биологических данных учебное пособие
Горно-Алтайск 2005 1
Печатается по решению редакционно-издательского совета Горно-Алтайского государственного университета
ББК 28с М 18 УДК 57.087.1
Малков П. Ю. Количественный анализ биологических данных: Учебное пособие. Горно-Алтайск: РИО ГАГУ, 2009. 71 с. Ответственный редактор: д.б.н. В. М. Ефимов Рецензенты: д.п.н., профессор А. И. Гурьев д.б.н., профессор, Заслуженный деятель науки РФ Ю. С. Равкин В пособии изложены базовые приемы статистической обработки биологических данных. Указаны возможности практической реализации статистического анализа применительно к задачам морфологии организмов, экологии, биогеографии и т.п. Представленные в книге методы не требуют специальной математической подготовки. Учебное пособие предназначено для студентов биологических специальностей, может быть полезно преподавателям средних школ и детских эколого-биологических центров.
© П.Ю. Малков, 2005 © Горно-Алтайский госуниверситет, 2005
2
ПРЕДИСЛОВИЕ Основное назначение предлагаемого учебного пособия - ознакомить студентов биологических специальностей с количественными методами анализа результатов наблюдений. Не претендуя на исчерпывающую полноту изложения, автор акцентирует внимание на базовых понятиях и методах, усвоение которых позволит студентам осознанно подойти к использованию более сложных статистических приёмов. Для углубленного изучения составлен список дополнительной литературы. Рассматриваемые в пособии методы иллюстрируются конкретными примерами, относящимися, преимущественно, к сфере интересов морфологии и экологии животных. Все примеры основаны на реальных исследованиях, опубликованных в монографиях, журналах и сборниках биологического профиля, а также на материалах, собранных автором и его коллегами по кафедре зоологии, экологии и генетики Горно-Алтайского государственного университета (Г-АГУ). Автор выражает искреннюю признательность рецензентам А. И. Гурьеву и Ю. С. Равкину, за внимательное прочтение рукописи и ценные рекомендации. Благодарю Д. Р. Хайдарова, выполнившего рисунок для обложки, В. М. Муравьеву, Н. П., Ю. П. и А. Н. Малковых за предоставленные научные данные. Неоценимую помощь автору оказал В. М. Ефимов, взявший на себя труд отредактировать рукопись.
3
ГЛАВА I ВВЕДЕНИЕ В БИОМЕТРИЮ 1.1. Значение количественных методов в биологии Выдающийся естествоиспытатель Р. Чэпман еще в 1928 году отметил, что “в ходе истории различных ветвей науки можно видеть переход от относительно неточного чистого описания к относительной точности, связанной с количественными методами и математическими вычислениями”. Как показывает опыт, такое утверждение по праву можно отнести практически ко всем биологическим дисциплинам. Безвозвратно уходят в Лету те времена, когда исследователь-биолог лишь на основании личных впечатлений мог говорить: “данные явления отличаются”. Сейчас, для того чтобы иметь шанс быть услышанным, необходимо иметь в запасе более или менее объективные критерии, опираясь на которые можно пытаться познать причинно-следственные отношения. Как правило, это возможно лишь с применением количественных методов анализа, в первую очередь основанных на аппарате математической статистики. Немаловажно и то, что использование таких методов делает описание какого-либо биологического явления действительно международным, выраженным языком цифр, а потому и более универсальным. Обработка количественных данных о биологических объектах и их оценка являются задачей одного из прикладных разделов математической статистики - биологической или вариационной статистики. Слово “статистика” в прямом смысле означает учение о народонаселении, объединенном в некоторую политическую единицу. Из-за зависимости социальных наук от статистических методов широко распространено в корне неправильное представление, что будто бы математическая статистика является методом экономики. Фактически же она не менее тесно связана с биологическими, медицинскими, техническими исследованиями. В последнее время методы математической статистики стали активно применяться в работах по лингвистике, истории и т.п. К слову, именно биологам (особенно на первых порах) принадлежит наиболее весомый вклад в развитие этой науки. Кроме терминов “биологическая” и “вариационная” статистика в биологии зачастую используется термин “биометрия” (от греч. bios - жизнь и metrei - измерять). Статистический анализ эффективен, если в первую очередь представляют интерес общие свойства какого-либо явления. В таких случаях (а они нередки в биологии) приходится жертвовать уникальностями и оперировать наиболее массовыми его проявлениями. Именно в связи с этим исследователю-биологу нередко приходится отвлекаться от конкретного содержания и пользоваться абстрактными значениями. К счастью в статистике, как и в дру-
4
гих математических науках, одна и та же формула может быть использована для анализа разнообразных материальных объектов, что позволяет в большинстве практических случаев использовать ранее уже разработанные и обоснованные методы [Фишер, 1958]. 1.2. Историческая справка Идея использовать математику для описания и анализа биологических явлений витала в умах людей на протяжении всей истории цивилизации. Известно, что ещё древние пифагорейцы считали материальный мир неполноценным воплощением идеальных чисел и полагали возможным при помощи вычислений познать универсальные законы. Значительно позднее Галилео Галилей в знаменитых “Диалогах” [1637], говоря о размерах животных, рассуждал чисто математически и писал, что “скелет животного возрастает как третья степень увеличивающихся линейных размеров” (цит. по: [Шмидт-Ниельсен, 1987]). В начале XIIX века Реомюр пытался найти математические законы строения пчелиных сот, а за 30 лет до него Борелли делал математические расчёты движения животных [Рокицкий, 1973]. В 1835 году вышла книга бельгийского антрополога Кетле, в которой он показал, что самые различные физические особенности человека и даже его поведение согласуется с теорией вероятностей [Лакин, 1990]. Однако лишь в конце XIX – начале XX века, когда торжествуют идеи сэра Чарльза Дарвина и “вопиют” гениальные прозрения монаха Грегора Менделя, когда разработаны основные положения теории вероятностей складываются подходящие условия для зарождения новой науки – биометрии. Наибольшая заслуга в теоретическом обосновании и практической реализации биометрии, бесспорно, принадлежит английской школе статистиков. Во главе школы стояли Френсис Гальтон и его преемник Карл Пирсон. Гальтону принадлежит первая попытка применить статистические методы к решению проблемы наследственности и изменчивости организмов. Он заложил основы регрессионного анализа. Пирсон развил учение о разных типах кривых распределения, разработал критерий χ2, ввёл в биометрию такие показатели, как стандартное отклонение, коэффициент вариации и др. Надо отметить, что исследования Гальтона и Пирсона поначалу не получили признания у научной общественности и их статьи даже отказывались печатать в ведущих научных изданиях, в частности, в докладах Королевского общества (раздел биология). Поэтому в 1901 году Пирсон был вынужден организовать выпуск собственного журнала “Biometrika”, который существует до сих пор и считается наиболее авторитетным изданием в своей области.
5
Недоверие к первым биометрическим работам было обусловлено несколькими причинами. С одной стороны, взгляды Гальтона и Пирсона не укладывались в систему устоявшихся на тот период мнений концептуального характера – парадигму, основанную на музейно-натуралистических подходах к познанию природы. Другая проблема заключалась в том, что первые биометрики акцентировали своё внимание на относительно многочисленных рядах данных и фактически не интересовались анализом так называемых “малых выборок”. Поэтому, даже приняв методологию Гальтона и Пирсона большинство биологов не смогли бы использовать её на практике. Положение стало меняться только после того, как английский ученый В. С. Госсет в 1908 году под псевдонимом Student опубликовал свою работу “Вероятная ошибка средней”, где он описал разработанный им t-критерий. Парадоксально, но эту статью фактически игнорировал К. Пирсон и его ближайшие ученики. Однако она получила своё дальнейшее развитие в трудах другого блистательного английского статистика Рональда Фишера. Вклад этого учёного в методологию и мировоззрение современной биологии, и биологической статистики в частности, трудно переоценить. Его научные работы по праву можно считать вершиной “классической” вариационной и фундаментом “современной” многомерной статистики. Он основатель дисперсионного и дискриминантного анализа. Совместно с американским экономистом Хотеллингом он предложил известную разновидность факторного анализа – метод главных компонент. Кроме того, занимаясь преподавательской деятельностью в Лондонском и Кембриджском университетах, он имел возможность пропагандировать биометрию среди будущей научной элиты, что, безусловно, способствовало её скорейшему развитию. Последующее развитие биометрии связано, преимущественно, с разработкой методов анализа многомерных систем. Особенно интенсивный рост в этом направлении стал наблюдаться после появления мощных вычислительных средств: стационарных ЭВМ и персональных компьютеров. Отметим, что и в настоящее время биологическая статистика ещё не закончила своё развитие, а наоборот переживает бурный рост и подъём во всём мире. Курс биометрии в России стали читать впервые в МГУ в 1919 году. Лекции читал ученый с мировым именем, один из основоположников популяционной генетики С. С. Четвериков. Ценный вклад в развитие и пропаганду методов вариационной статистики в нашей стране в разное время внесли В. И. Василевич, Л. А. Животовский, А. А. Любищев, Б. М. Миркин, Н. А. Плохинский, Ю. А. Песенко, Н. С. Ростова, П. Ф. Рокицкий, Е. С. Смирнов, П. В. Терентьев, Ю. А. Филипченко, А. В. Яблоков и целый ряд других отечественных учёных.
6
1.3. Фундаментальные понятия биометрии Одно из важнейших понятий биометрии – “генеральная совокупность”, т.е. бесконечное множество однородных, но индивидуально различимых объектов. Предположим, мы поставили цель изучить изменчивость массы тела конкретного вида животных, тогда генеральной совокупностью будут данные о массе всех без исключения особях этого вида. Понятно, что при изучении природных популяций в подавляющем большинстве случаев мы не сможем иметь дело с генеральной совокупностью в её полном объёме, а будем располагать лишь какой-то, как правило, очень небольшой, её частью. Такая отобранная тем или иным способом часть генеральной совокупности получила название выборки. На основании этой выборки исследователь и формирует представление о свойствах генеральной совокупности. Основное требование, предъявляемое к любой выборке, это её представительность или репрезентативность (от лат. represento - представляю). Выборка считается репрезентативной в том случае, если она получена путём случайного отбора, поскольку, если в приведённом примере для анализа мы будем отбирать только самые крупные особи, то они будут характеризовать лишь собранный материал, но никак не генеральную совокупность. Традиционно в биометрии сумму членов генеральной совокупности обозначают буквой N, а число наблюдений, образующих выборку - буквой n. При изучении тех или иных объектов исследователь имеет дело с признаками, проявлением которых один предмет отличается от другого. Примерами признаков могут служить - масса и длина тела, окраска и число яиц в гнезде и т.п. Важным свойством признаков является варьирование величины признака при переходе от одной единицы наблюдения к другой. Отдельные числовые значения варьирующего признака называются вариантами (лат. variatio - изменение) или датами (англ. data - данные). Переменные величины принято обозначать прописными латинскими буквами X, Y, Z, а их варианты – строчными буквами (x1, x2, x3 ... xn). В общем виде значения варианты отмечают символом xi, yi, zi. Все признаки можно разделить на две группы – качественные и количественные. Типичные качественные признаки - окраска, пол, возраст, наличие заболевания и т.п. К примеру, в городской популяции сизых голубей можно выделить особей с типичной “сизой” окраской, черночеканных, альбиносов, меланистов, пегих, красных. В таком случае можно без специальных измерений достаточно определенно судить о наличии или отсутствии того или иного признака у конкретной особи.
7
Количественные признаки, в отличие от качественных, можно анализировать лишь на основании специальных измерений или подсчетов. Их подразделяют на континуальные и дискретные. Континуальные признаки теоретически могут принимать любые возможные значения в пределах между минимальным и максимальным показателем признака. К ним относятся масса, линейные размеры и температура организма, содержание биохимических и неорганических веществ в его тканях и т.п. В качестве примера дискретных признаков можно привести число глазков на клубне картофеля, пятен на надкрыльях жука, яиц в гнезде. Отсюда следует, что непосредственно наблюдаемые значения дискретного признака могут характеризоваться лишь целыми числами, тогда как при континуальном варьировании значения признака могут быть как целыми, так и дробными. Иногда вместо непосредственно измеренных значений количественного признака используют присвоенные им ранги или баллы. В таких случаях количественный признак называется ранжированным.
8
ГЛАВА II СБОР И ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ 2.1. Методы оценки численности популяций Количественные учёты - один из важнейших компонентов экологических исследований, направленных на познание закономерностей пространственного распределения видов, динамики их популяций, функционирования и организации многовидовых сообществ. Сведения о численности отдельных видов, кроме того, имеют практическое значение, особенно в сфере изучения охотничье-промысловых животных, переносчиков заболеваний, вредителей сельского хозяйства, а также редких и исчезающих видов [Кашкаров, 1933 и мн. др.]. Такие данные используются и при изучении фенотипической изменчивости организмов [ТимофеевРесовский и др., 1969]. Методы учёта различных таксономических и экологических групп организмов настолько разнообразны, что нет возможности охватить их в кратком обзоре. Однако вопрос этот чрезвычайно важен, так как универсальных приёмов не существует, а ошибку в проведении учётов значительно труднее исправить, чем ошибку в их последующей обработке. Поэтому, прежде чем приступать к количественным учётам, лучше потратить время на поиск и прочтение специальной литературы [Бей-Биенко, 1932; Методы …, 1952; Любищев, 1958; Организация …, 1963; Василевич, 1969; Свиридов, Водопьянов, 1977; Количественные …, 1987; Равкин, Челинцев, 1990; Пшеницына и др., 1993 и др.]. Здесь мы рассмотрим лишь в первом приближении наиболее известные методики. Для выявления обилия отдельных видов и их соотношений в сообществах нередко пригоден метод учётных площадок. Учётная площадка, в самом общем виде, представляет собой ограниченный тем или иным способом участок земной поверхности, на котором производится подсчёт организмов. Размеры учётных площадок зависят от объекта исследования и могут колебаться в пределах от нескольких см2 (при изучении численности мелких членистоногих или мелких растений) до десятков м2 и более (при лесотипологических работах или учёте крупных млекопитающих). Для получения статистически значимых результатов в пределах каждого местообитания таких площадок закладывается несколько. Метод трансектов (лат. trans - через и sectio - разрезание) применяется для учёта хорошо заметных организмов (сосудистые растения, птицы, дневные бабочки, стрекозы, шмели и т.п.). Он состоит в том, что учётчик движется по маршруту известной протяженности и регистрирует всех представителей исследуемой группы организмов в пределах полосы определенной ширины. По-
9
лученные данные о численности видов в пределах фактически обследованной площади в дальнейшем, для сопоставимости, пересчитываются на определённую единицу площади (число экземпляров /м2, /га или /км2). В геоботанических работах ширина трансекта может быть сведена до одной линии [Быков, 1967]. Для подсчета пресмыкающихся и земноводных обычно используют трансект шириной 3 метра (1.5 метра справа и слева от учётчика) [Динесман, Калецкая, 1952]. В условиях разреженного травянистого покрова этот метод может использоваться и для подсчёта мелких членистоногих - цикадовых, клопов, мелких двукрылых и перепончатокрылых, жуков, клещей, пауков и т. п., но тогда ширина трансекта составляет 0.25 - 1 метр [Второв, 1968; Злотин, 1975 и др.]. Дневных бабочек учитывают обычно на полосе шириной 3 метра [Yamomoto, 1975; Pollard, 1977; Сергеев, Дубатолов, 1988; Дубатолов, Костерин, 1999 и др.]. Однако более эффективно рассчитывать ширину трансекта для каждого вида отдельно по удвоенной средней дальности его обнаружения [Малков, 1994; Малков, Малков, 1999; Бондаренко, 1999, 2003]. Для вычисления обилия в таком случае можно использовать формулу:
xi =
5ni , ki L
(2.1.)
где xi - обилие i вида в пересчете на 1 гектар, ni - число зарегистрированных особей i вида, k i - средняя дальность обнаружения i вида в метрах, L - длина маршрута в километрах. При учёте птиц особи регистрируются как путём визуального наблюдения, так и на слух, поэтому их лучше разделять на три группы по дальности фактического обнаружения: 1) птицы, обнаруженные близко - до 25 м от учётчика; 2) недалеко - в 25 - 100 м от учётчика; 3) далеко - от 100 до 300 м от учётчика. Вычислять обилие проще с помощью формулы:
xi =
40б + 10н + 3д , L
(2.2.)
где xi - обилие i вида в пересчете на 1 км2, б - число особей i вида, замеченных близко, н - недалеко, д - далеко, L - длина маршрута в километрах [Равкин, 1967]. При изучении насекомых, обитателей травяного яруса, нередко применяются различные модификации метода кошения энтомологическим сачком. Наиболее известная его разновидность учёт на время. Для этого в исследуемом местообитании насекомые отлавливаются стандартным сачком (диаметром 40 см) в течение определенного промежутка времени с последующим пересчетом на 1 час [Бей-Биенко, 1932; Сергеев, 1986; Пшеницына и др., 1993].
10
Скрытно живущих и ночных животных обычно приходится отлавливать в разнообразные ловушки. 2.2. Техника измерений и округлений На первом этапе изучения морфологии организмов неизбежно встает вопрос о том, что и как измерять, чтобы наилучшим образом отразить специфику объекта исследования. Совершенно очевидно, что на этот вопрос нет и не может быть универсального ответа, однако по некоторым, наиболее хорошо изученным таксономическим группам животных морфологические промеры стандартизированы. Так, у мелких млекопитающих измеряют длину тела, хвоста, уха, длину ступни задней ноги, а также определенные параметры черепа [Бобринский и др., 1965; Юдин, 1971; Попов, 1977], у птиц - длину крыла, хвоста, клюва и плюсны [Иванов, Штегман, 1964] и т.п. Перечисленные признаки важны для определения, поэтому их наносят на этикетки, которые хранятся вместе с коллекционными экземплярами. Для решения более специальных задач, например, при выяснении возрастной, половой, географической изменчивости таксона имеет смысл делать все возможные измерения и уже в ходе последующего анализа выбирать наиболее информативные признаки. При описании собранного материала в научных статьях, дипломных и курсовых работах всегда необходимо подробно оговаривать, каким образом проводили тот или иной замер, допустим: "ширина крыла - расстояние от кистевого сустава до вершины первого второстепенного махового пера". При изучении морфологии организмов вовсе необязательно делать упор на достижение максимально возможной точности, а нужно исходить лишь из соображений целесообразности. Классики числовой таксономии Дж. Симпсон и Э. Роэ [1939] показали (цит. по: [Майр и др., 1956]), что, если в руках исследователя имеется относительно большая выборка, в качестве единицы измерения следует принимать 1/20 разницы между самым крупным и самым мелким экземпляром в выборке. Например, если значения вариант укладываются в ряд от 10 до 12 мм, измерения следует проводить с точностью до 0.1 мм ((12 – 10) / 20 = 0.1); если от 40 до 50 мм с точностью до 0.5 мм ((50 –40) / 20 = 0.5); если же пределами измерений служат 70 и 90 мм, то измерения следует вести в целых миллиметрах и т.п. В ходе вычисления обобщающих статистических показателей постоянно приходится сталкиваться с необходимостью округлений. Существуют разнообразные способы округления и, в принципе, можно использовать любой из них, важно лишь на протяжении всего хода работ следовать одному и тому же правилу. Обычно поступают следующим образом: если за последней сохраняемой
11
цифрой следуют цифры 120). Соответственно отличие в доле разоренных хищниками гнезд у этих видов несущественно, что, по мнению В. А. Паевского [1985], обусловлено очень сходным расположением гнезд у обоих видов. Вычисление долей (и их статистических ошибок) уничтоженных хищниками яиц и птенцов от общего количества потерь дало следующие результаты: зелёная пересмешка p = 0.789 ± 0.272, зяблик p = 0.578 ± 0.012. Находим фактическую величину t по тому же алгоритму, что и в приведенном выше случае (t = 7.07). Най-
34
денная величина превосходит критическое значение tst = 3.29 (P = 0.999, ν > 120), это означает, что различия долей можно считать в высшей степени достоверными. Отсюда следует, что эти два вида демонстрируют разные стратегии размножения: на одной и той же территории, в одних и тех же условиях размножение одного из них H. icternia – более успешно, несмотря на то, что доля потерь от главного фактора гибели гнезд у него выше [Паевский, 1985]. Процедуру оценки разности долей методом ϕ-преобразования рассмотрим на гипотетическом примере. Предположим, что у самки А от самца X приплод составил 8 детёнышей, из которых лишь 1 самец. У самки В, от того же самца X, родилось 4 детёныша, причём 2 из них самцы. Исходя из этого можно предположить, что самка А менее “предрасположена” к рождению самцов. Выясним, являются ли такие различия статистически достоверными. Вычисляем долю самцов в приплоде у первой самки p1 = 1/8 = 0.125 и второй самки p2 = 2/4 = 0.5. Переводим доли в проценты и вносим поправку Йетса: p1’ = 12.5 % + 100/ (2⋅8) = 18.75 %, p2’ = 50.0 % - 100/ (2⋅4) = 37.5 %. По таблице (приложения табл. 2) находим значения ϕ, соответствующие “поправленным” долям: ϕ1 = 0.897 и ϕ2 = 1.318. Подставляем имеющиеся значения в формулу (4.3.): 0.897 − 1.318 0.421 .
t=
1 1 + 8 4
=
0.375
= 0.69
Фактическая величина t = 0.69 заметно уступает стандартному значению (tst = 2.23 и более, так как ν = 10). Это означает, что имеющихся данных явно недостаточно, для того чтобы статистически доказать отличия самок по степени “предрасположенности” к рождению самцов. 4.2. Анализ сопряженности признаков и согласованности распределений (χ2-критерий) Если совокупность объектов изучается по нескольким качественным признакам, зачастую необходимо выяснить, в какой мере эти признаки являются независимыми друг от друга. Для этой цели обычно используют специальный метод, получивший название χ2 (хи-квадрат) критерий. В первоначальном виде он был разработан в 1900 году Пирсоном и позднее дополнялся многими специалистами (Брандтом, Снедекором, Фишером, Ястремским и др.). Для иллюстрации метода χ2 воспользуемся данными о соотношении окрасочных морф сизого голубя в трех городах на юге Сибири: Новосибирск, Усть-Каменогорск и Горно-Алтайск (табл. 6). В ходе сбора первоначального материала голубей подсчитывали на
35
разовых маршрутах приблизительно сходной протяженности. По окрасу оперения выделены четыре градации. Две из них (сизая и черночеканная) - типичны для данного вида, тогда как наличие непигментированных и красных перьев (пегая и красная окраска соответственно) для диких представителей данного вида в целом несвойственно. В ходе последующего анализа пегие и красные окрасочные морфы в связи с их редкостью объединены в одну категорию “нетипичных фенов”. Определим, являются ли классификации популяций по городам и окрасочным морфам независимыми или, иными словами, можно ли считать проанализированные популяции сизых голубей относящимися к одной генеральной совокупности. Исходя из общей логики рассуждения ясно, что если популяции, обитающие в различных городах, принадлежат единой совокупности, то доли окрасочных морф в каждой из них должны быть относительно постоянными. Отсюда, чем больше отклонение наблюдаемой частоты от такого равномерного (“ожидаемого”) распределения частот, тем больше вероятность того, что рассматриваемые популяции отличаются. На первом этапе анализа необходимо вычислить “ожидаемые” частоты, которые находятся делением произведения двух соответствующих этой клетки сумм, записанных по краям таблицы, на сумму всех наблюдаемых частот. Например, ожидаемое число нетипичных по окраске голубей в г. Горно-Алтайске равно 82 ⋅ 72 / 386 = 15.3 , что заметно больше фактического их числа. После нахождения всех ожидаемых частот (в таблице 6 они приведены в скобках) рассчитывается величина χ2, представляющая собой отношение:
χ2 =∑
(O − E ) 2 , E
(4.4.)
где O - наблюдаемые частоты (англ. observed), E - ожидаемые частоты (англ. expected). Таблица 6 Соотношение окрасочных морф сизого голубя в некоторых городах Сибири Город Сизые Новосибирск УстьКаменогорск Горно-Алтайск
Всего
41 (60.5) 50 (57.5) 54 (27.0) 145
Окрасочные морфы ЧёрночеНетипичные канные 68 52 (66.3) (34.2) 74 29 (63.0) (32.5) 17 1 (29.7) (15.3) 159
36
82
Всего
161 153 72
386
Вычисленную таким образом величину χ2 сравнивают со стандартными значениями. Если она превышает то или иное стандартное значение, исходная гипотеза о независимости признаков отвергается на соответствующем уровне вероятности (приложения табл. 3). Как обычно, при этом необходимо учитывать число степеней свободы. В случае, когда по каждому признаку подразделяют не менее трёх градаций, число степеней свободы находят по формуле: ν = (r - 1) + (c -1), где r - число градаций в первой классификации, c - во второй классификации. Если же одна из классификаций содержит только две градации, то число степеней свободы ν = (c – 1), где с – число градаций в более дробной классификации. В нашем примере:
χ2 =
(41 − 60.5)2 + (68 − 66.3)2 + (52 − 34.2)2 + (50 − 57.5)2 + (74 − 63)2 + 60.5
66.3
34.2
57.5
(29 − 32.5)2 + (54 − 27 )2 + (17 − 29.7 )2 + (1 − 15.3)2 +
63
= 32.5 27 29.7 15.3 = 6.29 + 0.04 + 9.26 + 0.98 + 1.92 + 0.38 + 27.00 + 5.43 + 13.37 = 64.67
Так как здесь ν = (3-1) + (3-1) = 4 фактическая величина χ2 заметно превосходит все представленные в таблице критические значения (18.47 и меньше). Следовательно, рассматриваемые в примере популяции сизого голубя следует считать различными по частотному соотношению окрасочных морф. Нетрудно заметить, что наиболее существенное отклонение проявляется в частоте сизой морфы в г. Горно-Алтайске, наблюдаемая величина которой значительно превышает ожидаемую.
Четырехпольная (2×2) таблица сопряженности Первая Вторая классификация Всего классиА не-А фикация В a b a+b не-В c d c+d Всего
a+c
b+d
Таблица 7
a+b+c+d=n
Вычисление величины χ2 упрощается, если исходные данные сгруппированы в четырехпольную таблицу, где каждая из классификаций имеет лишь по две градации. В таких случаях можно ис-
37
пользовать формулы, не требующие предварительного вычисления ожидаемых частот, например, следующее отношение (4.5.), обозначения к которому понятны из таблицы 7: 2
1 n ad − bc − n 2 . χ2 = (a + b)(c + d )(a + c)(b + d )
(4.5.)
При изучении независимости классификаций с помощью четырехпольных таблиц параметр ν равен единице. В популяционно-генетических работах, где оперируют закономерностями Менделя, Харди-Вайнберга и иными предварительно сформулированными гипотезами, в сущности, как и при изучении независимости классификаций, необходимо сопоставить частоты фактического и ожидаемого распределения. Достаточно эффективной статистической основой для этого также может служить критерий χ2 [Хромов-Борисов, 1996]. Рассмотрим конкретный пример. Л. В. Богданов [1977] опубликовал результаты изучения фоновой окраски яиц тонкоклювых кайр Uria aalge Pontopp., населяющих остров Тюлений (цит. по: [Кайданов, 1996]). Яйца были подразделены на три класса: белые (ScW/ScW), голубые (ScW/ScG) и зеленые (ScG/ScG). Окраска яиц детерминируется генотипом матери. Подсчет 754 яиц в 1973 году дал следующие результаты: белые - 115, голубые – 438, зеленые – 201 экз., их доля составляет 0.1525, 0.5809, 0.2666 соответственно. Отсюда доли аллелей: p(ScW) = 0.1525 + 0.5809/2 ≈ 0.44; q(ScG) = 0.5809/2 + 0.2666 ≈ ≈ 0.56. Как утверждает закон Харди-Вайнберга равновесные панмиктические популяции подчиняются распределению: p2 + 2pq + q2. Подставив имеющиеся значения p(ScW) и q(ScG) в формулу получаем, что по Харди-Вайнбергу ожидаются доли: белые – 0.1936, голубые – 0.4928, зеленые – 0.3136. Исходя из общего числа просмотренных яиц (754 экз.) находим абсолютные частоты: белые – 146, голубые – 372, зеленые – 236 экз. Таким образом, в результате несложных преобразований получен ряд ожидаемых частот, пригодный для сравнения с фактическими частотами методом χ2 (табл. 8). Определение величины χ2 при этом проводится по формуле (4.4.). В данном случае необходимо брать лишь одну степень свободы, поскольку для вычисления ожидаемых частот достаточно знать долю лишь одной из аллелей.
38
Таблица 8 Фактические и ожидаемые частоты яиц тонкоклювой кайр популяции о. Тюленьего в 1973 г. (данные Л. В. Богданова [1977]) Белые Голубые Зелёные Всего Фактическое 115 438 201 754 число Ожидаемое по 146 372 236 754 ХардиВайнбергу Так как χ2 = 23.48, а ν = 1 гипотезу о соответствии наблюдаемого в природе распределения формуле Харди-Вайнберга можно отвергнуть при высоком уровне достоверности. Как полагает Л. В. Богданов, это объясняется тем, что голубая окраска скоррелирована с лучшей выводимостью и выживаемостью птенцов, кроме того, она лучше других обеспечивает маскировку от основных хищников – крупных чаек.
39
ГЛАВА V АНАЛИЗ МНОГОМЕРНЫХ СИСТЕМ 5.1. Общие положения Системой обычно считается множество элементов, находящихся в отношениях и связи друг с другом, образующих определенную целостность, единство [Энциклопедический словарь, 2002]. Система не ограничивается лишь простой суммой элементов, а обладает более общими свойствами, которые выражаются в структурированности и взаимозависимости её частей. Ярким примером системы, обладающей внутренней (имманентной) структурой, является организм. Одним из первых к пониманию этого пришел французский палеонтолог и сравнительный анатом Ж. Кювье, ещё в 1806 году сформулировавший знаменитое правило корреляции. Согласно этому правилу, все органы живого организма составляют единую систему, части которой зависят друг от друга настолько, что изменение одной из них влечет за собой изменение другой (цит. по: [Шмидт, 1985]). Более поздние исследования морфологов позволили существенно расширить эти представления [Шмальгаузен, 1982; Шмидт, 1985; Берг, 1993; Венгеров, 2001; Terentjev, 1931 и др.]. В частности, показано, что отдельные части организма нередко образуют группы, каждая из которых объединяет признаки, более тесно связанные друг с другом, нежели с признаками других групп. Наличие таких групп может быть обусловлено, например, приспособлениями к полёту, функциональной дифференциацией отделов черепа, коэволюционными изменениями у растений и их опылителей и т.п. Биологические корреляции могут и не иметь существенного функционального значения, как правило, это связано с явлением плейотропии – способности генов влиять на развитие более чем одного признака [Майр, 1968; Берг, 1993 и др.]. Сообщества и, особенно, таксоцены (территориальные группировки высших систематических категорий) - менее жёстко взаимосвязанные системы. Вместе с тем, и они характеризуются относительно устойчивой структурой. Дело в том, что помимо внутренних (трофических, топических, форических) взаимоотношений главнейшая роль в структурированности территориальных группировок принадлежит внешним воздействиям, в частности, комплексу абиотических факторов, ценотической продуктивности, антропогенному влиянию и т.п. [Равкин, 1978, 1984; Равкин, Лукьянова, 1976]. 5.2. Первичные матрицы Практически любая система может быть частично отражена в виде прямоугольной таблицы типа “признаки × объекты”. Типичным примером в данном случае могут служить синэкологические
40
таблицы, где указывается обилие (или хотя бы факт присутствия) тех или иных видов в исследованных местообитаниях; таблицы результатов морфологических промеров и т.п. Обозначим матрицу типа “признаки × объекты” как первичную s × m матрицу, где s признаки (строки) и m - объекты (столбцы) анализируемой многомерной совокупности. Обратимся к таблице 9, где представлен массив данных, который формально можно принять за многомерную систему, состоящую из 4 объектов, характеризующихся 8 признаками.
s1 s2 s3 s4 s5 s6 s7 s8
Пример первичной s × m матрицы m1 m2 m3 93 9.3 3 84 8.4 17 68 6.8 25 57 5.7 47 47 4.7 57 25 2.5 68 17 1.7 84 3 0.3 93
Таблица 9 m4
9 27 88 51 75 24 22 38
Из представленной таблицы видно, что объект m1 по всем признакам превосходит объект m2 в десять раз. Эти объекты хотя и не идентичны, но совершенно определённым образом связаны между собой, поскольку степень проявления проанализированных у объекта m2 признаков прямо пропорциональна их проявлению у объекта m1 (рис. 6). Объект m3 имеет связь как с m1, так и с m2, однако здесь прослеживается уже обратная зависимость (рис. 7). Заметим, что в этом случае данные на графике до некоторой степени отклоняются от “воображаемой” прямой линии. Это указывает на менее строгую (стохастическую) зависимость. Наконец, объект m4, по-видимому, вообще не связан с объектом m1 (рис. 8) и, соответственно, с прочими объектами.
41
10
8
m2
6
4
2
0
0
20
40
60
80
100
m1
Рис. 6. Пример строго положительной корреляции переменных. 100
80
m3
60
40
20
0
0
20
40
60
80
100
m1
Рис. 7. Пример отрицательной корреляции переменных.
42
100 90 80 70
m4
60 50 40 30 20 10 0
0
20
40
60
80
100
m1
Рис. 8. Пример отсутствия корреляции между переменными. 5.3. Коэффициент корреляции Рассмотренные выше статистические зависимости называются корреляциями. Корреляция может быть положительной (при увеличении одной переменной увеличивается другая) и отрицательной (увеличение одной переменной сопровождается уменьшением другой). Обычно их труднее обнаружить, чем в приведенном примере, кроме того, для объективности анализа желательно иметь показатель степени “согласованности” переменных. В качестве такой меры чаще всего используется линейный коэффициент корреляции Пирсона (r). Он может принимать любые значения в пределах от –1.00 (строго отрицательная корреляция) до +1.00 (строго положительная корреляция). Коэффициент корреляции определяется формулой:
rxy =
∑ (x − M
∑ (x − M
x
) ⋅ ∑(y − M y ) 2
x
)( y − M y )
.
(5.1.)
2
Вычисление коэффициента корреляции непосредственно по приведенной выше формуле – трудоёмкая процедура. Существует несколько более быстрых способов, использование которых, кроме того, снижает риск сделать случайную ошибку [Бейли, 1962; Плохинский, 1970; Лакин, 1990 и др.]. Алгоритм вычисления коэффициентов корреляции заложен в компьютерных программах (Microsoft Excel, STATISTICA, SPSS и мн. др.). Часть из них стали практически общедоступными. Достоверность коэффициента корреляции проще всего проверить по специальной таблице (приложения табл. 4) [Фишер, 1958; Рокицкий, 1973; Терентьев, Ростова, 1977; Лакин, 1990]. В этой таблице содержатся критические значения rst для уровней достоверности P=0.95 и 0.99 с учё-
43
том числа степеней свободы ν = n - 2. Если вычисленное значение коэффициента превышает стандартное значение, корреляцию, в большинстве случаев, можно считать достоверной. Необходимо отметить, что этот способ является довольно приближенным. В особо ответственных случаях лучше пользоваться более точным zпреобразованием Фишера, описание которого можно найти во многих руководствах по статистике [Лакин, 1990 и др.]. 5.4. Эвристические меры сходства Среди специалистов нет единого мнения относительно преимущества тех или иных мер связи [Песенко, 1982]. Тем не менее, совершенно очевидно, что коэффициенты корреляции и, в том числе, наиболее обоснованный (с позиций теории статистики) коэффициент Пирсона пригодны для использования далеко не во всех типах исследований. В частности, информативность коэффициентов корреляции сомнительна в случае сравнения территориальных группировок организмов [Песенко, 1982]. В таких исследованиях широкое распространение получили эвристические (основанные на общей логике исследования) меры сходства. Легок в вычислении и, пожалуй, наиболее широко распространен коэффициент сходства, впервые использованный в 1901 году геоботаником П. Жаккаром. Данный индекс имеет несколько версий и может быть использован как для сравнения территориальных группировок организмов по видовым спискам, так и с учётом их численности или доли. Индекс Жаккара и его модификации изменяются в переделах от 0 до 1. Для идентичных (по сопоставляемым признакам) объектов он равен 1, для абсолютно несходных – 0. Для сравнения видовых списков формула Жаккара имеет вид:
I1 =
a , b+c−a
(5.2.)
если сравнение проводится с учётом обилия, формула трансформируется в следующее выражение:
I2 =
∑ min(n
j
, nk )
b + c − ∑ min(n j , nk )
=
∑ min(n , n ) , ∑ max(n , n ) j
k
j
k
(5.3.)
наконец, при сравнении с учётом долей видов, входящих в состав группировки:
I3 =
∑ min( p , p ) . ∑ max( p , p ) j
k
j
k
(5.4.)
В приведённых выше формулах использованы следующие обозначения: a – число общих видов в двух сравниваемых территориальных группировках, b - число видов в первой из сравниваемых группировок, c – число видов во второй группировке,
44
b
- суммар-
ное обилие в первой из сравниваемых группировок, c - суммарное обилие во второй группировке, ∑ min n j , nk - сумма меньших по-
(
)
казателей обилия по всем видам, свойственным двум сравниваемым группировкам, max n j , nk - сумма наибольших показателей обилия,
∑ min ( p
j
, pk
) ∑ ( ) и ∑ max( p , p ) j
k
- сумма наименьших и, соот-
ветственно, наибольших долей видов, в двух сравниваемых группировках. Существуют и другие эвристические индексы сходства, обзор и критический анализ которых можно найти в обстоятельной монографии Ю. А. Песенко [1982]. Однако, как показало экспериментальное сопоставление, проведенное на обширном материале по населению птиц южной тайги Западной Сибири, большинство из предложенных коэффициентов дают близкие как с формальной, так и с содержательной точки зрения результаты [Шадрина, 1987]. Отметим, что и коэффициент корреляции, и коэффициент сходства легко могут быть представлены в виде меры различия. Для этого достаточно соответствующим образом трансформировать коэффициенты: r ′ = (1 − r ) или I ′ = (1 − I ) , где r’ – мера различия, основанная на коэффициенте корреляции Пирсона, I’ – мера различия, основанная на коэффициенте сходства. Помимо вышеназванных коэффициентов существует ещё один относительно широко распространенный тип мер связи - это меры расстояния (Л1-норма, евклидово расстояние, расстояние Чебышева и др.). Применение мер расстояния для анализа фаунистических данных (в широком смысле) подробно обсуждается в [Песенко, 1982], там же приводятся формулы для их вычисления. 5.5. Вторичные матрицы и автоматическая классификация Структурный анализ многомерной совокупности (отражением которой является первичная матрица) целесообразно начинать с построения вторичных матриц. Вторичная матрица порядка m × m представляет собой таблицу, в которой содержится m(m − 1) попар-
2
ных оценок степени корреляции или сходства анализируемых объектов. В таблице 10 представлено две вторичных m × m матрицы, вычисленные по данным таблицы 9. Из рассматриваемого примера хорошо видно, что использованные показатели дают существенно различные результаты. Последнее закономерно вытекает из их математических свойств и, во многом, определяет сферу их применения. Коэффициенты корреляции, оценивая сопряженность варьирования объектов, как правило, вполне информативны в случае анализа структурированных систем, в которых превалируют внутренние связи. Коэффициенты сходства, определяя степень пересечения признаков, оценивают
45
абсолютное сходство между объектами и могут быть полезны для анализа низкоорганизованных систем, в которых преобладают внешние ограничения.
Пример вторичных m × m матриц
Таблица 10
m1 m2 m3 m4 m1 1 -0.99 0.03 m2 0.10 -0.99 0.03 m3 0.30 0.08 -0.01 m4 0.51 0.12 0.47 В верхней части таблицы приведены значения коэффициентов корреляции Пирсона, в нижней - коэффициентов сходства Жаккара (I2). Анализ и интерпретация вторичных матриц может занимать много времени, особенно если в сферу анализа задействовано относительно большое число объектов. Современная биометрия располагает набором разнообразных методов, позволяющих заметно упростить анализ вторичных матриц, повысить объективность анализа и получить качественно новую информацию [Василевич, 1969; Андреев, 1980; Шадрина, 1980; Песенко, 1982; Электронный …, 1999; Гайдышев, 2001; Ефимов, 2003 и др.]. Широко распространенным методом упорядочивания вторичных матриц является метод дендрограмм. Дендрограмма представляет собой разветвленную древовидную схему, которая позволяет выделять наиболее сходные из анализируемых множеств, представляя их в виде более или менее изолированных групп или, как их принято называть, кластеров. Существует несколько способов построения дендрограмм, часть из них достаточно подробно описана в соответствующей литературе [Шадрина, 1980; Песенко, 1982; Мандель, 1988; Электронный …, 1999; Гайдышев, 2001]. Имеется разнообразное программное обеспечение (STATISTICA, NTSYSpc, BIODIV и др.), позволяющее обрабатывать данные на компьютере. Рассмотрим наименее сложный способ, получивший образное название - “ближайшего соседа”. Обратимся к той части таблицы 11, где представлены меры различия (1 - r), вычисленные по данным первичной матрицы порядка s × m (табл. 9). Заметим, что в качестве анализируемых объектов здесь выступают строки (но не столбцы) первичной порядка s × m матрицы. Находим наиболее сходные множества, различие между которыми минимально. В данном примере это s6 и s7 (1 – r) = 0.01. Эти множества изображаются на графике соседними точками на одной из осей. Отходящие от точек параллельные
46
линии соединяются перпендикулярным отрезком на данном уровне расстояния, который откладывается на другой оси двумерной координатной сетки. Так, на рисунке 9 на оси ординат положены объекты, а на оси абсцисс приведена линейная шкала значений мер расстояния. Следующая по силе связь прослеживается между множествами s1 и s2 (0.03). Затем идёт связь между s8 и s7 (0.04). Несмотря на то, что множество s7 уже образует группу с s6, по алгоритму “ближайшего соседа” s8 включается в состав этой группы и т.д. Таблица 11
Вторичные s × s матрицы
s1 s2 s3 s4 s5 s6 s7 s8 s1 0.03 0.61 0.55 1.00 1.18 1.32 1.53 s2 0.71 0.44 0.36 0.77 1.05 1.21 1.39 s3 0.40 0.58 0.23 0.22 1.03 1.16 1.09 s4 0.37 0.56 0.66 0.12 0.45 0.59 0.64 s5 0.27 0.43 0.69 0.77 0.44 0.53 0.45 s6 0.20 0.37 0.33 0.54 0.56 0.01 0.07 s7 0.15 0.28 0.27 0.44 0.46 0.80 0.04 s8 0.07 0.21 0.26 0.43 0.45 0.60 0.73 В верхней части таблицы приведены значения мер различия (1 – r), в нижней - значения коэффициентов сходства Жаккара (I2). Рассмотренный метод классификации успешно применен для анализа высокогорной флоры Алтая [Рёвушкин, 1988]. Существенный недостаток алгоритма “ближайшего соседа” (и многих других методов кластерного анализа) - тенденция к образованию последовательных цепочек объектов, что иногда сводит на нет информационную ценность классификации.
47
s1 s2 s3 s4 s5 s6 s7 s8
0.0
0.1
0.2
0.3
0.4
0.5
Рис. 9. Пример дендрограммы, построенной на основе матрицы мер различия (1–r) методом “ближайшего соседа”. Другим средством, позволяющим упорядочить вторичную матрицу, является метод корреляционных плеяд, в первоначальном виде предложенный П. В. Тереньтевым [1959, 1960; Терентьев, Ростова, 1977]. 71 S1
54
56
58
66
80 S7
S6
S4
S2
56
54
73
60 S8
S3
69
S5
45
Рис. 10. Пример неориентированного графа сходства, построенного на основе матрицы коэффициентов Жаккара. Порог сходства равен 45 % (средний уровень сходства во вторичной матрице). Суть данного метода состоит в построении графов, то есть схем, где объекты изображены в виде точек (или других значков), часть из которых соединяется линиями - рёбрами графа. При этом рёбра графа соединяют только те объекты, связь между которыми превосходит заранее определенный порог сходства. Степень соответствия между объектами, как правило, отражается характером взаимного расположения точек, то есть чем больше уровень сходства или корреляции между объектами, тем ближе на графе они расположены друг к другу. Иногда отличия в уровне связи показывают при помощи толщины рёбер графа и т.п. На рисунке 10 в качестве примера представлен граф сходства, построенный на ос-
48
нове вторичной s × s матрицы коэффициентов сходства Жаккара (табл. 11). Более информативным, по сравнению с обычным типом графа, является ориентированный граф. Подобные графы могут быть очень полезны при изучении географической изменчивости организмов. Однако наибольшее распространение они нашли в факторной зоогеографии, развиваемой научной школой Ю. С. Равкина [Равкин, 1978, 1984, 2002; Равкин, Лукьянова, 1976; Вартапетов, 1984; Равкин и др., 2003 и мн. др.]. Ориентированный граф отражает не только характер проявляющихся у анализируемых объектов связей, но и показывает предметно интерпретируемые векторные направления (тренды), а также отклонения от них. Применительно к территориальным группировкам животных в качестве маркеров направленных изменений выступают физиономические, гидротермические и иные свойства населяемых этими группировками биотопов. Если анализируется небольшой объём данных ориентированный граф можно строить непосредственно по исходной матрице коэффициентов сходства (корреляции). Однако, как правило, построению графа предшествует генерализация исходной многомерной системы, выражающаяся в объединении исходного множества в более или менее однородные группы. Для этой и других целей разработан пакет программ Jacobi, включающий ряд специальных и традиционных методов многомерной статистики [Ефимов, 2003]. Он доступен вкладчикам Банка данных лаборатории зоологического мониторинга ИСиЭЖ СО РАН. Пример ориентированного графа, представляющего модель пространственной структуры населения дневных бабочек СевероВосточного Алтая, приводится на рисунке 11. Схема построена по результатам факторной классификации [Куперштох, Трофимов, 1975]. Алгоритм этого метода автоматической классификации устроен таким образом, что объединение множеств в одну группу проводится не по сходству собой, а по степени сходства со всеми остальными множествами рассматриваемой совокупности. Это позволяет с большей степенью достоверности говорить об общности объектов на уровне групп, а также избавляет от привнесения искусственной дискретности [Равкин, 1984 и др.].
49
Абсолютные высоты
Теплообеспеченность
Переувлажнение
Верхнее среднегорье и высокогорье
3
44
18
Застройка
239 22
Болота Brenthis ino 39, Aporia crataegi 22, Aphanthopus hyperantus 13; 46/48
Issoria eugenia 35, Aporia crataegi 20, Clossiana euprosyne 11; 33/39
Хвойные леса (кроме кедрачей) Aporia crataegi 35, Clossiana thore 9, Pieris napi 7; 26/54
Низкогорные поселки
37
433
21
2
1
50
Aporia crataegi 99, Aglais urticae 0,3, Pontia edusa 0,1; 1940/18
Хвойнолиственные и лиственные леса,открытые и мозаичные местообитания от предгорий до нижнего среднегорья включительно (кроме болот и низкогорных поселков) Aporia crataegi 51, Neptis rivularis 5, Aphanthopus hyperantus 5; 55/96
1
2
3
4
5
Население дневных чешуекрылых: 1 - лесов; 2 - мозаичных; 3 - поселков; 4 - высокопродуктивных открытых; 5 - низкопродуктивных открытых местообитаний.
Рис. 11. Пространственная структура населения дневных бабочек Северо-Восточного Алтая. Цифры внутри значков – номера классов, индексы под ними – уровень внутриклассового сходства, цифры у связующих линий – уровень межклассового сходства. Сплошные линии - значимое сходство, штриховые – запороговое. Для каждого класса указано три первых по долевому участию вида, суммарное обилие (особей/га) / число видов. На графе достаточно четко прослеживается связь облика населения дневных бабочек с теплообеспеченностью (классы 1 - 3), что проявляется, в частности, в своеобразии населения хвойных лесов (класс 2). Заслуживает внимания промежуточное положение этого класса, выступающего в качестве переходного между населением высокогорий и подгольцовых среднегорий (класс 3) с одной стороны, а с другой стороны - остальных местообитаний Северо-Восточного Алтая (класс 1). Сообщества дневных бабочек на болотах формируются в условиях постоянной переувлажнённо-
50
сти и потому отклоняются от основного вектора (класс 4). Ещё более специфично население низкогорных поселков (класс 5). Оно состоит почти исключительно из боярышницы Aporia crataegi L., прилетевшей сюда в поисках дополнительного минерального питания. 5.6. Ординация Наряду с классификационными методами для анализа многомерных систем зачастую применяется ординация. Первые исследования с её применением осуществлены русским геоботаником Л. Г. Раменским ещё в первой трети XX века [Шварц, Шефтель, 1990]. Подавляющее же большинство ординационных методов предложены во второй половине прошлого века. Подробное рассмотрение методов ординации (как впрочем, и современных методов классификации) совершенно не возможно без знания основ линейной алгебры. Существует ряд доступных учебников по этому направлению [Баврин, 2002 и др.]. Остановимся лишь вкратце на одном из наиболее известных методов: анализе главных компонент. Последний не изменяет в ходе обработки расстояния между объектами и соответственно не искажает содержательный смысл получаемых результатов [Ефимов, 2003]. Модули расчёта главных компонент имеются в статистических программах (STATISTICA, SPSS, NTSYSpc, Jacobi и др.). Компонентный анализ направлен на решение следующих задач: • снижение размерности признакового пространства путём перехода к новым признакам - главным компонентам; • выявление и изучение статистической связи признаков с главными компонентами; • группировка объектов в многомерном пространстве. Главных компонент столько же, сколько признаков в первичной s × m матрице. Первая главная компонента обладает максимальной дисперсией из всех, которые могут быть получены линейным преобразованием данных, вторая - максимальной дисперсией из ортогональных к первой компоненте и т. д. Обычно первые 2-5 главных компонент с достаточной полнотой (70-90 %) исчерпывают всю дисперсию исходной матрицы. Последующий анализ сводится к их предметному объяснению, что достигается путём изучения вкладов первоначальных признаков. Заметим, однако, что главные компоненты не всегда могут быть содержательно интерпретированы.
51
Матрица собственных векторов (матрица факторных Выборка I – ГК II - ГК Выборка I - ГК Майма_1 0.18 0.14 Онгудай_1 0.19 Майма_2 0.18 0.20 Онгудай_2 0.19 Майма_3 0.19 0.03 Онгудай_3 0.15 Чемал_1 0.18 0.22 Усть_Кокса_1 0.19 Чемал_2 0.17 0.27 Усть_Кокса_2 0.18 Чемал_3 0.17 0.33 Усть_Кокса_3 0.19 Чоя_1 0.19 -0.10 Усть_Кан_1 0.18 Чоя_2 0.19 -0.14 Усть_Кан_2 0.18 Чоя_3 0.19 0.05 Усть_Кан_3 0.18 Турачак_1 0.19 0.001 Улаган_1 0.18 Турачак_2 0.19 -0.02 Улаган_2 0.19 Турачак_3 0.19 0.02 Улаган_3 0.19 Шебалино_1 0.19 -0.09 Кош_Агач_1 0.18 Шебалино_2 0.19 -0.14 Кош_Агач_2 0.18 Шебалино_3 0.19 0.0009 Кош_Агач_3 0.18
Таблица 12 нагрузок) II - ГК -0.15 0.08 0.57 0.13 0.20 0.07 -0.18 -0.17 -0.17 -0.18 -0.09 -0.12 -0.19 -0.19 -0.19
Для иллюстрации метода воспользуемся данными за 2001-03 гг. об уровне заболеваемости глистными инвазиями и лямблиозом “групп риска” в Республике Алтай (сведения предоставлены санитарно-эпидемиологической станцией РА). В качестве объектов в этом случае удобно рассматривать заболевания, а в качестве признаков – сведения по районам и по годам. Расчёт собственных чисел показал, что первая компонента снимает 95.5 % исходной дисперсии матрицы. Учитывая, что все признаки вошли в первую компоненту с положительным вкладом (табл. 12), можно предположить, что она является отражением общей изменчивости в уровне заболеваемости. Заметим также, что энтеробиоз и аскаридоз расположились в области положительных значений первой главной компоненты, а остальные заболевания - в области отрицательных (табл. 13). Это хорошо согласуется с тем, что аскаридоз и особенно энтеробиоз встречаются значительно чаще других инвазий и оба этих заболевания зарегистрированы почти во всех обследованных местностях. Во вторую главную компоненту, которая снимает 3.3 % дисперсии, с устойчивым положительным вкладом входят выборки из Майминского, Чемальского и Усть-Коксинского района, а с отрицательным – Усть-Канского, Улаганского и Кош-Агачского. Вклад выборок из остальных районов изменяется по годам и, как правило, относительно не велик (табл. 12). Сравнение условий проживания в названных районах свидетельствует о связи уровня заболеваемости с природными условиями. В частности, УстьКанский, Улаганский и особенно Кош-Агачский районы характери-
52
зуются холодными и сухими зимами. Здесь складывается исключительно неблагоприятная обстановка для распространения аскарид, на что указывает положение аскаридоза в области положительных значений второй главной компоненты, но в этих районах относительно высокий уровень зараженности прочими глистными инвазиями. Таблица 13 Положение объектов (заболеваний) в пространстве I и II главных компонент Заболевание I – ГК II - ГК Аскаридоз 0.29 0.88 Энтеробиоз 4.96 -0.17 Тениаринхоз -0.79 -0.17 Гименолепидоз -0.79 -0.11 Описторхоз -0.73 -0.13 Трихоцефалез -0.81 -0.18 Тениоз -0.82 -0.18 Эхинококкоз -0.78 -0.14 Лямблиоз -0.53 0.21 5.7. Оценка силы воздействия факторов Методы автоматической классификации и ординации позволяют получить представление о том, какие внутренние и внешние факторы оказывают наиболее значимое воздействие на систему. Однако иерархия факторов (их ранги по уровню воздействия на систему) при этом остаётся до конца не выясненной. Так, например, по результатам анализа главных компонент можно с уверенностью судить лишь об очень ограниченном числе факторов, которые объясняют наибольшую часть изменчивости в системе. По результатам автоматической классификации зачастую удаётся выяснить действие большего числа факторов, но вопрос об их ранжировке при этом либо вообще не ставится, либо её проводят исходя из концептуальных, интуитивных или устоявшихся в той или иной науке положений. Считается, что наиболее обоснованные выводы об иерархии организующих факторов могут быть получены методами множественной регрессии [Электронный …, 1999]. Основное препятствие для широко внедрения названного метода состоит в том, что он требует количественных оценок факторов. Так, например, в случае анализа закономерностей пространственного размещения сообществ для этого необходимы количественные данные о температуре, влажности и иных характеристиках среды во всех обследованных местообитаниях. На практике же биолог, в лучшем
53
случае, располагает сведениями из окрестных метеостанций или мелко- и среднемасштабными картами. Преодолеть указанные затруднения позволяет качественная линейная аппроксимация – метод, преложенный математиками В. Л. Куперштохом и В. А. Трофимовым [Равкин, 1984 и др.]. Расчёты по этому методу ведутся на основе вторичной матрицы коэффициентов сходства (или корреляции) и матрицы значений факторов. Значения факторов задаются экспертно в номинальной шкале. Например, характер увлажненности территории может быть представлен градациями: болота, полузаболоченные или влажные территории и суходолы. Матрица факторов среды строится в 0-1 виде, где каждому объекту присваивается качественное значение фактора. Аппроксимация может проводиться по нескольким факторам одновременно. В качестве меры для оценки силы влияния отдельного фактора на систему принимается изменчивость, которую снимает этот фактор во вторичной матрице коэффициентов. Выражением её является дисперсия или коэффициент регрессии. Программное обеспечение метода реализовано в пакете статистических программ Jacobi [Ефимов, 2003]. В качестве примера использования метода качественной линейной аппроксимации приведём завершающий этап анализа пространственного распределения бабочек Hesperiidae Latr. на Алтае. Первый этап исследования включал в себя сбор количественных данных об обилии этих бабочек в основных ландшафтных урочищах физико-географических провинций. Затем методом автоматической классификации [Куперштох, Трофимов, 1975] проведена иерархическая группировка, в результате которой виды объединялись в сходные по характеру распределения группы. Кроме того, виды классифицировались по ареалам с учётом широтной и долготной составляющих [Сергеев, 1986]. Каждый из выше названных подходов позволил с различных сторон охарактеризовать объект исследования. Однако в итоге осталось неясным, в какой мере стациальное распределение Hesperiidae на Алтае согласуется с их глобальным распределением (ареалом). Для решения этой задачи понадобилось оценить информативность выявленных характеристик. Наиболее информативной, как и следовало ожидать, оказалась классификация по сходству стациального распределения. Даже на уровне типа она снимает около 59 % дисперсии (табл. 14). Отношение к широтным ареалогическим рубежам заметно менее информативная характеристика, что свидетельствует об определенном несоответствии распределения в глобальном и региональном масштабе. Ещё менее четко проявляется совпадение в пространственном распределении на Алтае у видов, сходным образом реагирующих на долготные географические рубежи. Наконец, филогенетическое родство, определяемое как
54
принадлежность к подсемейству Pyrginae Burm. или Hesperiinae Latr., фактически не оказывает сколько-нибудь существенного влияния на распределение видов. Эта характеристика аппроксимируется лишь на уровне “шума”.
Таблица 14 Информативность проанализированных характеристик толстоголовок Алтая Характеристика Снятая дисперсия, % Подтип стациального распределения 65 Тип стациального распределения 59 Широтная ареалогическая группа 23 Долготная ареалогическая группа 13 Филогенетическое родство 5 Сочетание характеристик 85
55
СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ 1. Андреев В. Л. Классификационные построения в экологии и систематике. – М.: Наука, 1980. – 151 с. 2. Бейли Н. Статистические методы в биологии. - М.: Иностр. лит-ра, 1962. - 260 с. 3. Василевич В. И. Статистические методы в геоботанике. – Л.: Наука, 1969. – 232 с. 4. Ефимов В. М. Проблемы многомерного анализа экологических данных. – Автореф. док. дисс. - Томск, 2003. – 39 с. 5. Животовский Л. А. Популяционная биометрия. – М.: Наука, 1991. – 271 с. 6. Зайцев Г. Н. Методика биометрических расчётов: Математическая статистика в экспериментальной ботанике. – Москва: Наука, 1973. – 256 с. 7. Количественные методы в почвенной зоологии. - М.: Наука, 1987. – 288 с. 8. Лакин Г. Ф. Биометрия. - М.: Высш. шк., 1990. - 352 с. 9. Любищев А. А. К методике количественного учёта и районирования насекомых. – Фрунзе: АН КиргССР, 1958. – 167 с. 10. Песенко Ю. А. Принципы и методы количественного анализа в фаунистических исследованиях. - М.: Наука, 1982. – 288 с. 11. Пшеницына Л. Б., Резникова Ж. И., Сергеев М. Г. Количественные методы исследования экологии насекомых. Учебное пособие. - Новосибирск: НГУ, 1993. - 76 с. 12. Равкин Ю. С. Пространственная организация населения птиц лесной зоны (Западная и Средняя Сибирь). - Новосибирск: Наука. Сиб. отд-ние, 1984. - 262 с. 13. Тьюки Дж. Анализ результатов наблюдений. – М.: Мир, 1981. - 693 с. 14. Фишер Р. А. Статистические методы для исследователей. М.: Госстатиздат, 1958. - 268 с.
56
ЛИТЕРАТУРА Андреев В. Л. Классификационные построения в экологии и систематике. – М.: Наука, 1980. – 151 с. Баврин И. И. Высшая математика. – М.: Академия, 2002. – 616 с. Бей-Биенко Г. Я. Руководство по учёту саранчовых. – Л.: УСУ ГОБВ, 1932. – 192 с. Бейли Н. Статистические методы в биологии. - М.: Иностр. литра, 1962. – 260 с. Берг Р. Л. Генетика и эволюция. Избранные труды. – Новосибирск: Наука, 1993. – 284 с. Бобринский Н. А., Кузнецов Б. А., Кузякин А. П. Определитель млекопитающих СССР. – М., 1965. – 382 с. Бондаренко А. В. Зоогеографический анализ булавоусых чешуекрылых (Lepidoptera, Rhopalocera) Юго-Восточного Алтая. – Автореф. канд. дисс. – Новосибирск, 1999. – 22 с. Бондаренко А. В. Булавоусые чешуекрылые Юго-Восточного Алтая (кадастр). – Горно-Алтайск: РИО Г-АГУ, 2003. – 203 с. Быков Б. А. Геоботаническая терминология. – Алма-Ата, 1967. – 168 с. Ванькова И. А. Опыт изучения фенотипической изменчивости саранчовых рода Calliptamus Serv. (Ortoptera, Acrididae) // Биологическое разнообразие животных Сибири. – Томск, 1998. - С. 3536. Вартапетов Л. Г. Птицы таежных междуречий Западной Сибири. Новосибирск: Наука, 1984. - 242 с. Василевич В. И. Статистические методы в геоботанике. – Л.: Наука, 1969. – 232 с. Венгеров П. Д. Экологические закономерности изменчивости и корреляции морфологических структур птиц. – Воронеж: ВГУ, 2001. – 248 с. Второв П. П. Биоэнергетика и биогеография некоторых ландшафтов Терскей Ала-Тоо. - Фрунзе, 1968. - 167 с. Гайдышев И. Анализ и обработка данных. – СПб.: Питер, 2001. – 752 с. Динесман Л. Г., Калецкая М. Л. Методы количественного учёта амфибий и рептилий // Методы учёта численности и географического распределения наземных позвоночных. – М., 1952. – С. 329340. Добринский Л. Н. Динамика морфо-физиологических особенностей птиц. – М.: Наука, 1981. – 124 с. Дубатолов В. В., Костерин О. Э. Дневные чешуекрылые (Lepidoptera, Hesperioidea, Papilionoidea) международного заповедника “Даурия”// Насекомые Даурии и сопредельных территорий. Вып. II. - Новосибирск, 1999. - С. 138-194. Ефимов В. М. Проблемы многомерного анализа экологических данных. – Автореф. док. дисс. - Томск, 2003. – 39 с.
57
Животовский Л. А. Популяционная биометрия. – М.: Наука, 1991. – 271 с. Зайцев Г. Н. Методика биометрических расчётов: Математическая статистика в экспериментальной ботанике. – Москва: Наука, 1973. – 256 с. Злотин Р. И. Жизнь в высокогорьях. - М.: Мысль, 1975. - 240 с. Иванов А. И., Штегман Б. К. Краткий определитель птиц СССР. М. -Л.: Наука, 1964. - 528 с. Кайданов Л. З. Генетика популяций. – М.: Высш. шк., 1996. – 320 с. Кашкаров Д. Н. Среда и сообщество. - М.: Гос. мед. издат., 1933. - 244 с. Количественные методы в почвенной зоологии. - М.: Наука, 1987. – 288 с. Куперштох В. Л., Трофимов В. А. Автоматическое выявление макроструктуры системы // Проблемы анализа дискретной информации. – Новосибирск, 1975. – Ч. 1. – С. 67-83. Лакин Г. Ф. Биометрия. - М.: Высш. шк., 1990. - 352 с. Любищев А. А. К методике количественного учета и районирования насекомых. - Изв. АН Кирг. ССР, Фрунзе, 1958. - 167 с. Майр Э. Зоологический вид и эволюция. – М.: Мир, 1968. – 598 с. Майр Э., Линсли Э., Юзингер Р. Методы и принципы зоологической систематики. - М.: Иностр. лит-ра, 1956. - 352 с. Малков Ю. П. К методике учёта булавоусых чешуекрылых // Животный мир Алтае-Саянской горной страны. - Горно-Алтайск, 1994. - С. 33-36. Малков Ю. П., Малков П. Ю. Некоторые уточнения к методике учета булавоусых чешуекрылых // Природные условия, история и культура Западной Монголии и сопредельных регионов. - Томск, 1999. - С. 68. Мандель И. Д. Кластерный анализ. – М.: Финансы и статистика, 1988. – 176 с. Мацеевский Я., Земба Ю. Генетика и методы разведения животных. – М.: Высш. шк., 1988. – 488 с. Методы учёта численности и географического распределения наземных позвоночных. – М.: АН СССР, 1952. Организация и методы учёта птиц и вредных грызунов. – М.: АН СССР, 1963. Павловский З. Введение в математическую статистику. – М.: Статистика, 1967. – 288 с. Паевский В. А. Демография птиц. – Л.: Наука, 1985. – 285 с. Песенко Ю. А. Принципы и методы количественного анализа в фаунистических исследованиях. - М.: Наука, 1982. - 288 с. Плохинский Н. А. Биометрия. - М.: МГУ, 1970. – 367 с. Плохинский Н. А. Достоверность разности малых долей // Математические методы в биологии. – М.: 1972. – С. 46-52.
58
Попов М. В. Определитель млекопитающих Якутии. – Новосибирск: Наука, 1977. – 424 с. Пшеницына Л. Б., Резникова Ж. И., Сергеев М. Г. Количественные методы исследования экологии насекомых. Учебное пособие. Новосибирск: НГУ, 1993. - 76 с. Равкин Е. С., Челинцев Н. Г. Методические рекомендации по комплексному маршрутному учёту птиц. - М., 1990. - 33 с. Равкин Ю. С. К методике учёта птиц лесных ландшафтов // Природа очагов клещевого энцефалита на Алтае. – Новосибирск: Наука, 1967. – С. 66-75. Равкин Ю. С. Птицы лесной зоны Приобья. - Новосибирск: Наука, 1978. – 288 с. Равкин Ю. С. Пространственная организация населения птиц лесной зоны (Западная и Средняя Сибирь). - Новосибирск: Наука, 1984. - 264 с. Равкин Ю. С. Пространственно-типологическая организация животного населения Западно-Сибирской равнины (на примере птиц, мелких млекопитающих и земноводных) // Зоол. журн., 2002. – Т. 81, №9. – С. 1166-1184. Равкин Ю. С., Лукьянова И. В. География позвоночных южной тайги Западной Сибири. - Новосибирск: Наука, 1976. - 360 с. Равкин Ю. С., Цыбулин С. М., Ливанов С. Г. и др. Особенности биоразнообразия Российского Алтая на примере модельных групп животных // Успехи современной биологии, 2003. – Т. 123, №4. – С. 409-420. Рёвушкин А. С. Высокогорная флора Алтая. – Томск: ТГУ, 1988. – 318 с. Рокицкий П. Ф. Биологическая статистика. – Минск: Вышейшая школа, 1973. – 320 с. Свиридов Н. С., Водопьянов Б. Г. Учёт пушных зверей. Учебное пособие. Часть 2. – Иркутск, 1977. – 70 с. Сергеев М. Г. Закономерности распространения прямокрылых насекомых Сибири. – Новосибирск: Наука, 1986. – 238 с. Сергеев М. Г., Дубатолов В. В. Особенности сообществ булавоусых чешуекрылых (Lepidoptera, Rhopalocera) в условиях города диффузного типа (на примере новосибирского Академгородка) // Ландшафтная экология насекомых. - Новосибирск: Наука, 1988. С. 75-80. Смирнов В. С. Изменчивость биологических явлений и коэффициент вариации // Журн. общ. биол., 1971. – Т. 32, №2. – С. 152162. Снедекор Д. У. Статистические методы в применении к исследованиям в сельском хозяйстве и биологии. – М.: Сельхоз. лит., 1961. – 503 с. Терентьев П. В. Метод корреляционных плеяд // Вестник Ленингр. ун-та. Сер. биол., 1959. - № 9. - С. 137 - 141.
59
Тереньтев П. В. Дальнейшее развитие метода корреляционных плеяд // Применение математических методов в биологии. – Л., 1960. – С. 27-36. Терентьев П. В., Ростова Н. С. Практикум по биометрии. – Л.: ЛГУ. – 1977. – 152 с. Тимофеев-Ресовский Н. В., Воронцов Н. Н., Яблоков А. В. Краткий очерк теории эволюции. – М.: Наука, 1969. - 407 с. Тьюки Дж. Анализ результатов наблюдений. – М.: Мир, 1981. 693 с. Уильямсон М. Анализ биологических популяций. - М.: Мир, 1975. - 272 с. Федоров А. И. Методы математической статистики в биологии и опытном деле. - Алма-Ата: Казгосиздат, 1957. - 150 с. Фенологические наблюдения (организация, проведение, обработка). Унифицированное руководство для добровольной фенологической сети. – Л.: Наука, 1982. – 224 с. Фишер Р. А. Статистические методы для исследователей. - М.: Госстатиздат, 1958. - 268 с. Хромов-Борисов Н. Н. Приложение: Биометрические аспекты популяционной генетики // Кайданов Л. З. Генетика популяций. – М.: Высш. шк., 1996. – С. 251-303. Четвериков С. С. Проблемы общей биологии и генетики (воспоминания, статьи, лекции). – Н.: Наука, 1983. – 273 с. Шадрина В. И. Автоматическая классификация в зоогеографических исследованиях // Проблемы зоогеографии и истории фауны. Новосибирск, 1980. - С. 13-41. Шадрина В. И. Экспериментальное сопоставление индексов сходства, используемых в экологии и зоогеографии // Фауна, таксономия, экология млекопитающих и птиц. – Новосибирск: Наука, 1987. – С. 128-141. Шварц Е. А., Шефтель Б. И. Экологическая ординация в геозоологических исследованиях // Экологическая ординация и сообщества. – М.: Наука, 1990. – С. 3-10. Шмальгаузен И. И. Организм как целое в индивидуальном и историческом развитии. Избранные труды. – М.: Наука, 1982. – 383 с. Шмидт В. М. Развитие представлений о корреляциях и корреляционной структуре биологических объектов // Исследование биологических систем математическими методами. – Л.: ЛГУ, 1985. – С. 5-18. Шмидт-Ниельсен К. Размеры животных: почему они так важны? - М.: Мир, 1987. - 259 с. Электронный учебник по статистике. – Москва, StatSoft Inc., 1999. http://www.statsoft.ru/home/textbook/default.htm Энциклопедический словарь Кирилла и Мефодия. – CD-версия, 2002.
60
Юдин Б. С. Насекомоядные млекопитающие Сибири (определитель). – Новосибирск: Наука, 1971. - 171 с. Яблоков А. В. Изменчивость млекопитающих. – М.: Наука, 1966. – 363 с. Яковлев В. А. Материалы по биологии живородящей ящерицы в Алтайском заповеднике // Животный мир юга Западной Сибири. – Горно-Алтайск: РИО “Универ-Принт”, 2002. – С. 94-112. Hubbs C. L., Perlmutter A. Biometric comparison of several samples, with particular reference to racial investigations // Amer. Nat., 1942. – Vol. 76. – P. 582-592. Pollard E. A metod for assessing changes in the abundance of butterflies // Biol. Coserrv.. 1977 - Vol. 12, № 2. - P. 115-134. Terentjev P. Biometrische Untersuchungen uber die morphologische Merkmale von Rana ridibunda Pall. // Biometrica, 1931. – Vol. 23, №1-2. – S. 23-51. Yamomoto M. Notes on the methods of belt transect census of butterflies // J. Fac. Sci. Hokkaido Univ. Ser. V1. Zool., 1975. - Vol. 20. №1. - P. 93-116.
61
ПРИЛОЖЕНИЯ (СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ)
62
Таблица 1 Критические значения t распределения Стьюдента ν
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
ν
P 0.95
0.99
0.999
12.71 4.30 3.18 2.78 2.57 2.45 2.37 2.31 2.26 2.23 2.20 2.18 2.16 2.14 2.13 2.12 2.11
63.66 9.92 5.84 4.60 4.03 3.71 3.50 3.36 3.25 3.17 3.11 3.05 3.01 2.98 2.95 2.92 2.90
64.60 31.60 12.92 8.61 6.87 5.96 5.41 5.04 4.78 4.59 4.44 4.32 4.22 4.14 4.07 4.02 3.97
18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 >120
63
0.95
P 0.99
2.10 2.09 2.09 2.08 2.07 2.07 2.06 2.06 2.06 2.05 2.05 2.05 2.04 2.02 2.00 1.98 1.96
2.88 2.86 2.85 2.83 2.82 2.81 2.80 2.79 2.78 2.77 2.76 2.76 2.75 2.70 2.66 2.62 2.58
0.99 9 3.92 3.88 3.85 3.82 3.79 3.77 3.75 3.73 3.71 3.69 3.67 3.66 3.65 3.55 3.46 3.37 3.29
Таблица 2 Значения ϕ = 2 arcsin
p
p, % 0 1 2 3 4 5 6 7 8 9 0 0.000 0.020 0.028 0.035 0.040 0.045 0.049 0.053 0.057 0.060 0.1
0.063 0.066 0.069 0.072 0.075 0.077 0.080 0.082 0.085 0.087
0.2
0.089 0.092 0.094 0.096 0.098 0.100 0.102 0.104 0.106 0.108
0.3
0.110 0.111 0.113 0.115 0.117 0.118 0.120 0.122 0.123 0.125
0.4
0.127 0.128 0.130 0.131 0.133 0.134 0.136 0.137 0.139 0.140
0.5
0.142 0.143 0.144 0.146 0.147 0.148 0.150 0.151 0.153 0.154
0.6
0.155 0.156 0.158 0.159 0.160 0.161 0.163 0.164 0.165 0.166
0.7
0.168 0.169 0.170 0.171 0.172 0.173 0.175 0.176 0.177 0.178
0.8
0.179 0.180 0.182 0.183 0.184 0.185 0.186 0.187 0.188 0.189
0.9
0.190 0.191 0.192 0.193 0.194 0.195 0.196 0.197 0.198 0.199
1
0.200 0.210 0.220 0.229 0.237 0.246 0.254 0.262 0.269 0.277
2
0.284 0.291 0.298 0.304 0.311 0.318 0.324 0.330 0.336 0.342
3
0.348 0.354 0.360 0.363 0.371 0.376 0.382 0.387 0.392 0.398
4
0.403 0.408 0.413 0.418 0.423 0.428 0.432 0.437 0.442 0.448
5
0.451 0.456 0.460 0.465 0.469 0.473 0.478 0.482 0.486 0.491
6
0.495 0.499 0.503 0.507 0.512 0.516 0.520 0.524 0.528 0.532
7
0.535 0.539 0.543 0.546 0.551 0.555 0.559 0.562 0.566 0.570
8
0.574 0.577 0.581 0.584 0.588 0.592 0.595 0.599 0.602 0.606
9
0.609 0.613 0.616 0.620 0.623 0.627 0.630 0.633 0.637 0.640
10
0.644 0.647 0.650 0.653 0.657 0.660 0.663 0.666 0.670 0.673
11
0.676 0.679 0.682 0.686 0.689 0.692 0.695 0.698 0.701 0.704
12
0.707 0.711 0.714 0.717 0.720 0.723 0.726 0.729 0.732 0.735
13
0.738 0.741 0.744 0.747 0.750 0.752 0.755 0.758 0.761 0.764
14
0.767 0.770 0.773 0.776 0.778 0.781 0.784 0.787 0.790 0.793
15
0.795 0.798 0.801 0.804 0.807 0.809 0.812 0.815 0.818 0.820
16
0.823 0.826 0.828 0.831 0.834 0.837 0.839 0.842 0.845 0.847
17
0.850 0.853 0.855 0.858 0.861 0.863 0.866 0.868 0.871 0.874
18
0.876 0.879 0.881 0.884 0.887 0.889 0.892 0.894 0.897 0.900
19
0.902 0.905 0.907 0.910 0.912 0.915 0.917 0.920 0.922 0.925
20
0.927 0.930 0.932 0.935 0.937 0.940 0.942 0.945 0.947 0.950
64
Продолжение таблицы 2 p, %
0
1
2
3
4
5
6
7
8
9
21
0.952 0.955 0.957 0.959 0.962 0.964 0.967 0.969 0.972 0.974
22
0.976 0.979 0.981 0.984 0.986 0.988 0.991 0.993 0.996 0.998
23
1.000 0.003 1.005 0.007 0.010 1.012 1.015 1.017 1.019 1.022
24
1.024 0.026 1.029 0.031 0.033 1.036 1.038 1.040 1.043 1.045
25
1.047 0.050 1.052 0.054 0.056 1.059 1.061 1.063 1.066 1.068
26
1.070 0.072 1.075 0.077 0.079 1.082 1.084 1.086 1.088 1.091
27
1.093 0.095 1.097 0.100 0.102 1.104 1.106 1.109 1.111 1.113
28
1.115 0.117 1.120 0.122 0.124 1.126 1.129 1.131 1.133 1.135
29
1.137 0.140 1.142 0.144 0.146 1.148 1.151 1.153 1.155 1.157
30
1.159 0.161 1.164 0.166 0.168 1.170 1.172 1.174 1.177 1.179
31
1.182 0.183 1.185 0.187 0.190 1.192 1.184 1.196 1.198 1.200
32
1.203 0.205 1.207 0.209 0.211 1.213 1.215 1.217 1.220 1.222
33
1.224 0.226 1.228 0.230 1.232 1.234 1.237 1.239 1.241 1.243
34
1.245 0.247 1.249 0.251 1.254 1.256 1.258 1.260 1.262 1.264
35
1.266 0.268 1.270 1.272 1.274 1.277 1.279 1.281 1.283 1.285
36
1.287 0.289 1.291 1.293 1.295 1.297 1.299 1.302 1.304 1.306
37
1.308 0.310 1.312 1.314 1.316 1.318 1.320 1.322 1.324 1.326
38
1.328 0.330 1.333 1.335 1.337 1.339 1.341 1.343 1.345 1.347
39
1.349 0.351 1.353 1.355 1.357 1.359 1.361 1.363 1.365 1.367
40
1.369 0.371 1.374 1.376 1.378 1.380 1.382 1.384 1.386 1.388
41
0.390 0.392 1.394 1.396 1.398 1.400 0.402 1.404 1.406 0.408
42
0.410 0.412 1.414 1.416 1.418 1.420 0.422 1.424 1.426 0.428
43
0.430 0.432 1.434 1.436 1.438 1.440 0.442 1.444 1.446 0.448
44
0.451 0.453 1.455 1.457 0.459 1.461 0.463 1.465 1.467 0.469
45
0.471 0.473 1.475 1.477 0.479 1.481 0.483 1.485 1.487 0.489
46
0.491 0.493 1.495 1.497 0.499 1.501 1.503 1.505 1.507 0.509
47
0.511 1.513 1.515 1.517 0.519 1.521 1.523 1.525 1.527 0.529
48
0.531 1.533 1.535 1.537 0.539 1.541 1.543 1.545 1.547 0.549
49
0.551 1.553 1.555 1.557 0.559 1.561 1.563 1.565 1.567 0.569
50
0.571 1.573 1.575 1.577 0.579 1.581 1.583 1.585 1.587 0.589
51
0.591 1.593 1.595 1.597 0.599 1.601 1.603 1.605 1.607 0.609
65
Продолжение таблицы 2 p, %
0
1
2
3
4
5
6
7
8
9
52
0.611 1.613 1.615 1.617 0.619 1.621 1.623 1.625 1.627 0.629
53
0.631 1.633 1.635 1.637 0.639 1.641 1.643 1.645 1.647 0.649
54
0.651 1.653 1.655 1.657 0.659 1.661 1.663 1.665 1.667 0.669
55
0.671 1.673 1.675 1.677 0.679 1.681 1.683 1.685 1.687 0.689
56
0.691 1.693 1.695 1.697 0.699 1.701 1.703 1.705 1.707 0.709
57
0.711 1.713 1.715 1.717 0.719 1.721 1.723 1.725 1.727 0.729
58
0.731 1.734 1.736 0.738 0.740 1.742 1.744 1.746 1.748 0.750
59
0.752 1.754 1.756 0.758 0.760 1.762 1.764 1.766 1.768 0.770
60
0.772 1.774 1.776 0.778 0.780 1.782 1.784 1.786 1.789 0.791
61
0.793 1.795 1.797 0.799 0.801 1.803 1.805 1.807 1.809 0.811
62
0.813 1.815 1.817 0.819 0.821 1.823 1.826 1.828 1.830 0.832
63
0.834 1.836 1.838 1.840 1.842 1.844 1.846 1.848 1.850 0.853
64
0.855 1.857 1.859 1.861 1.863 1.865 1.867 1.869 1.871 0.873
65
0.875 1.878 1.880 1.882 1.884 1.886 1.888 1.890 1.892 0.894
66
0.897 1.899 1.901 1.903 1.905 1.907 1.909 1.911 1.913 0.916
67
0.918 1.920 1.922 1.924 1.926 1.928 1.930 1.933 1.935 0.937
68
0.939 1.941 1.943 1.946 1.948 1.950 1.952 1.954 1.956 0.958
69
0.961 1.963 1.965 1.967 1.969 1.971 1.974 1.976 1.978 0.980
70
1.982 1.984 1.987 1.989 1.991 1.993 1.995 1.998 2.000 2.002
71
2.004 2.006 2.009 2.011 2.013 2.015 2.018 2.020 2.022 2.024
72
2.026 2.029 2.031 2.033 2.035 2.038 2.040 2.042 2.044 2.047
73
2.049 2.051 2.053 2.056 2.058 2.060 2.062 2.065 2.067 2.069
74
2.071 2.074 2.076 2.078 2.081 2.083 2.085 2.087 2.090 2.092
75
2.094 2.097 2.099 2.101 2.104 2.106 2.108 2.111 2.113 2.115
76
2.118 2.120 2.122 2.125 2.127 2.129 2.132 2.134 2.136 2.139
77
2.141 2.144 2.146 2.148 2.151 2.153 2.156 2.158 2.160 2.163
78
2.165 2.168 2.170 2.172 2.175 2.177 2.180 2.182 2.185 2.187
79
2.190 2.192 2.194 2.197 2.199 2.202 2.204 2.207 2.209 2.212
80
2.214 2.217 2.219 2.222 2.224 2.224 2.227 2.229 2.231 2.237
81
2.240 2.242 2.245 2.247 2.250 2.252 2.255 2.258 2.260 2.263
82
2.265 2.268 2.271 2.273 2.276 2.278 2.281 2.284 2.286 2.289
66
Продолжение таблицы 2 p, %
0
1
2
3
4
5
6
7
8
9
83
2.292 2.294 2.297 2.300 2.302 2.305 2.308 2.310 2.313 2.316
84
2.319 2.321 2.324 2.327 2.330 2.332 2.335 2.338 2.341 2.343
85
2.346 2.349 2.352 2.355 2.357 2.360 2.363 2.366 2.369 2.372
86
2.375 2.377 2.380 2.383 2.386 2.389 2.392 2.395 2.398 2.402
87
2.404 2.407 2.410 2.413 2.416 2.419 2.422 2.425 2.428 2.431
88
2.434 2.437 2.440 2.443 2.447 2.450 2.453 2.456 2.459 2.462
89
2.465 2.469 2.472 2.475 2.478 2.482 2.485 2.488 2.491 2.495
90
2.498 2.501 2.505 2.508 2.512 2.515 2.518 2.522 2.525 2.529
91
2.532 2.536 2.539 2.543 2.546 2.550 2.554 2.557 2.561 2.564
92
2.568 2.572 2.575 2.579 2.583 2.587 2.591 2.594 2.598 2.602
93
2.606 2.610 2.614 2.618 2.622 2.626 2.630 2.634 2.638 2.642
94
2.647 2.651 2.655 2.659 2.664 2.668 2.673 2.677 2.681 2.686
95
2.691 2.695 2.700 2.706 2.709 2.714 2.719 2.724 2.729 2.734
96
2.739 2.744 2.749 2.754 2.760 2.765 2.771 2.776 2.782 2.788
97
2.793 2.799 2.805 2.811 2.818 2.824 2.830 2.837 2.844 2.851
98
2.858 2.865 2.872 2.880 2.888 2.896 2.904 2.913 2.922 2.931
99
2.941 2.942 2.943 2.944 2.945 2.946 2.948 2.949 2.950 2.951
99.1 2.952 2.953 2.954 2.955 2.956 2.957 2.958 2.959 2.960 2.961 99.2 2.963 2.964 2.965 2.966 2.967 2.968 2.969 2.971 2.972 2.973 99.3 2.974 2.975 2.976 2.978 2.979 2.980 2.981 2.983 2.984 2.985 99.4 2.987 2.988 2.989 2.990 2.992 2.993 2.995 2.996 2.997 2.999 99.5 3.000 3.002 3.003 3.004 3.006 3.007 3.009 3.010 3.012 3.013 99.6 3.015 3.017 3.018 3.020 3.022 3.023 3.025 3.027 3.028 3.030 99.7 3.032 3.034 3.036 3.038 3.040 3.04) 3.044 3.046 3.048 3.050 99.8 3.052 3.054 3.057 3.059 3.062 3.064 3.067 3.069 3.072 3.075 99.9 3.078 3.082 3.085 3.089 3.093 3.097 3.101 3.107 3.113 3.122 100
3.142
67
Критические значения χ2 распределения ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0.95 3.841 5.991 7.815 9.488 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00
P 0.99 6.635 9.210 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.72 26.22 27.69 29.14 30.58
ν 0.999 10.83 13.82 16.27 18.47 20.51 22.46 24.32 26.13 27.88 29.59 31.26 32.91 34.53 36.12 37.70
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
68
0.95 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77
P 0.99 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89
Таблица 3 0.999 39.25 40.79 42.31 43.82 45.31 46.80 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.30 59.70
Таблица 4 Критические значения линейного коэффициента корреляции Пирсона r ν 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
ν
P 0.95 0,75 0,71 0,67 0,63 0,60 0,58 0,55 0,53 0,51 0,50 0,48 0,47 0,46 0,44 0,43 0,42 0,41 0,40 0,40 0,39 0,38 0,37
0.99 0,87 0,83 0,80 0,77 0,74 0,71 0,68 0,66 0,64 0,62 0,61 0,59 0,58 0,56 0,55 0,54 0,53 0,52 0,51 0,50 0,49 0,48
27 28 29 30 35 40 45 50 60 70 80 90 100 125 150 200 300 400 500 700 900 1000
69
P 0.95 0,37 0,36 0,36 0,35 0,33 0,30 0,29 0,27 0,25 0,23 0,22 0,21 0,20 0,17 0,16 0,14 0,11 0,10 0,09 0,07 0,06 0,06
0.99 0,47 0,46 0,46 0,45 0,42 0,39 0,37 0,35 0,33 0,30 0,28 0,27 0,25 0,23 0,21 0,18 0,15 0,13 0,12 0,10 0,09 0,09
ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ ГЛАВА I. ВВЕДЕНИЕ В БИОМЕТРИЮ 1.1. Значение количественных методов в биологии 1.2. Историческая справка 1.3. Фундаментальные понятия биометрии
стр. 3 4 4 5 7
ГЛАВА II. СБОР И ПЕРВИЧНАЯ ОБРАБОТКА ДАННЫХ 2.1. Методы оценки численности популяций 2.2. Техника измерений и округлений 2.3. Отношения и индексы 2.4. Вариационные ряды 2.5. Графическое отображение данных
9 9 11 12 13 15
ГЛАВА III. АНАЛИЗ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ 3.1. Средняя величина 3.2. Показатели вариации 3.3. Ошибка выборочной средней 3.4. Сравнение средних величин 3.5. Оценка разности коэффициентов вариации
19 19 20 27 29 30
ГЛАВА IV. АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ 4.1. Доля и её статистическая ошибка 4.2. Анализ сопряженности признаков и согласованности распределений (χ2-критерий) ГЛАВА V. АНАЛИЗ МНОГОМЕРНЫХ СИСТЕМ 5.1. Общие положения 5.2. Первичные матрицы 5.3. Коэффициент корреляции 5.4. Эвристические меры сходства 5.5. Вторичные матрицы и автоматическая классификация 5.6. Ординация 5.7. Оценка силы воздействия факторов СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ ЛИТЕРАТУРА ПРИЛОЖЕНИЯ (СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ)
70
32 32 35 40 40 41 43 44 45 51 53 56 57 62
Учебное пособие
КОЛИЧЕСТВЕННЫЙ АНАЛИЗ БИОЛОГИЧЕСКИХ ДАННЫХ
Малков Петр Юрьевич
Верстка оригинал-макета – П. Ю. Малков. Подписано в печать 29.03.2005. Формат 60 × 84/16. Бумага офсетная. Печать офсетная. Гарнитура Verdana. Уч. изд. л. 4,75. Усл. печ. л. 4,4. Заказ №30. Тираж 200 экз. Типография Горно-Алтайского государственного университета. Республика Алтай, 649000, г. Горно-Алтайск, ул. Ленкина д. 1.
71