ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «ВОРОНЕЖСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»
ОСНОВЫ ХИМИЧЕСКОЙ МЕТРОЛОГИИ И ХЕМОМЕТРИКИ Часть 1 Методические указания к семинарским занятиям Составители: О.В. Бобрешова, А.В. Паршина
Издательско-полиграфический центр Воронежского государственного университета 2007
Утверждено научно-методическим 15 ноября 2007 г., протокол № 2
советом
химического
факультета
Рецензент канд. хим. наук, доц. кафедры физической химии В.Ю. Кондрашин
Методические указания подготовлены на кафедре аналитической химии химического факультета Воронежского государственного университета. Рекомендуются для студентов 1 года обучения в магистратуре.
Для специальности 020100 – Химия (магистратура)
2
СОДЕРЖАНИЕ Введение............................................................................................................... 4 Основные метрологические понятия и их характеристики ............................ 4 Предмет хемометрики. Основная цель методов, развиваемых хемометрикой. Основы планирования эксперимента .............. 5 Случайные величины. Законы распределения случайных величин .............. 7 Нормальный закон распределения случайных величин. Проверка подчинения данных нормальному закону распределения............. 8 Статистика малых выборок. Проверка гипотезы об однородности результатов измерений ..................... 12 Основы дисперсионного анализа. Сравнение дисперсий. Сравнение средних значений двух выборочных совокупностей ................. 13 Литература ......................................................................................................... 15
3
ВВЕДЕНИЕ Целью изучения дисциплины «Основы химической метрологии и хемометрики» является формирование у студента на основе современных научных достижений необходимых знаний по метрологии и хемометрике. Задача настоящего курса состоит в том, чтобы на основании полученных теоретических и практических знаний: 1) осуществлять эффективное извлечение информации из экспериментальных данных для перехода на новый уровень понимания химических процессов и систем; 2) осуществлять хорошо спланированный эксперимент с четко определенной целью и ясно сформулированными вопросами; 3) осуществлять грамотное соответствие постановки эксперимента с адекватной оценкой экспериментальных погрешностей; 4) устранять систематические и оценивать случайные погрешности эксперимента. Студент должен знать и уметь использовать основы: − теории вероятностей и математической статистики; − дисперсионного анализа; − методов планирования эксперимента. Основные метрологические понятия и их характеристики Химия является опытной наукой, поэтому умение наблюдать химические процессы и измерять различные физико-химические величины приобретает для химика особое значение. Измерить величину – это значит сравнить данную величину с другой однородной величиной, принятой за единицу меры. Наука об измерениях, методах и средствах обеспечения их единства и способах достижения требуемой точности называется метрологией. Метрологическая наука использует совокупность физических и математических методов обработки экспериментальных данных для получения из них достоверной информации. Измерения бывают прямыми, когда объект непосредственно сопоставляется с носителем единицы измерения, и косвенными, когда измеряемая величина рассчитывается из других измеренных величин. Химия имеет дело только с косвенными измерениями. Поэтому воспроизведение процедуры обеспечения единства измерений, т. е. независимости результата измерений от времени, места, экспериментатора и т. д., химик может обеспечить только приблизительно. Погрешность измерения – любое отличие результата измерений от истинного значения измеряемой величины. 4
Точность (достоверность) измерения характеризует малость погрешности, т. е. близость измеренной величины к истинной. Правильность (систематическая погрешность) – метрологическая категория, характеризующая малость систематической составляющей погрешности. Воспроизводимость (случайная погрешность или разброс относительно среднего из результатов измерений) характеризует малость случайной составляющей погрешности. В целях устранения систематических погрешностей химических измерений их удобно классифицировать следующим образом: 1) систематические погрешности известной природы, значения которых могут быть рассчитаны apriori и учтены путем введения соответствующих поправок (в качестве примера можно привести необходимость учета зависимостей плотности и удельного объема воды от температуры); 2) систематические погрешности известной природы, значения которых неизвестны, но могут быть оценены в ходе химического эксперимента или при постановке специального эксперимента (инструментальные погрешности, реактивные ошибки, погрешности индикаторов и стандартов, ошибки интерпретации, методические ошибки); 3) систематические погрешности невыясненной природы, значения которых неизвестны (в этом случае в результате тщательного исследования необходимо найти источник погрешности, которая должна быть устранена). Поскольку экспериментатора в большинстве случаев интересует не сама по себе оценка систематической погрешности, а методы ее устранения, можно воспользоваться приемами релятивизации и рандомизации результатов измерения. Релятивизация – проведение измерения относительно некоторого другого объекта, т. е. рассмотрение разности измерений, при которой систематическая ошибка может быть устранена (например, определение аналитического сигнала объекта относительно фона или холостой пробы). Рандомизация – прием, переводящий систематические погрешности в разряд случайных, когда вместо одного явления (прибора, процесса, метода, исполнителя анализа) рассматривается спектр однотипных явлений (серия приборов, процессов, методов, коллективов исследователей). Оценка случайных погрешностей основана на принципах теории вероятностей и математической статистики. Предмет хемометрики. Основная цель методов, развиваемых хемометрикой. Основы планирования эксперимента Хемометрика – научная дисциплина, зародившаяся на стыке прикладной математики и экспериментальной химии. 5
Предметом этой научной дисциплины является информация, заложенная в физико-химических измерениях. Основная цель методов, развиваемых хемометрикой, а также приложения этих методов – это повышение эффективности извлечения информации об объектах исследования из экспериментальных данных для перехода на новый уровень понимания химических процессов и систем. В ходе физико-химического эксперимента происходит одновременно вскрытие информации об исследуемой системе и её свойствах. Для того чтобы этот процесс был наиболее эффективным, следует привлекать модели и методы теории информации, теории распознавания образов, теории планирования и оптимизации экспериментов, но в первую очередь основы математической статистики. Эксперимент – это процесс, посредством которого информация приобретается при наблюдении за реакцией объекта на определенные воздействия. Основными элементами любого эксперимента являются экспериментатор, предмет (объект наблюдения), воздействия и информация, которую дает эксперимент. Воздействия в терминах теории планирования эксперимента – это факторы, которые создаются и контролируются экспериментатором и в которых наблюдается экспериментальная система. Факторы разделяются на две категории: экспериментальные – те, которые полностью контролируются наблюдателем, и классификационные – те, которые являются характеристикой экспериментальных систем. Информация, полученная из эксперимента, может либо увеличивать, либо корректировать состояние нашего знания о данной системе. От результатов экспериментов ожидают адекватных ответов на те вопросы, которые ставятся экспериментатором. Хорошо спланированный эксперимент – это такой, который отвечает на все вопросы с наименьшими экспериментальными усилиями. План эксперимента включает выбор предметов, решение вопроса о том, что есть факторы и каковы их уровни (значения), а также выбор порядка работы. Это, в основном, и называется планированием эксперимента. Успех эксперимента определяется несколькими предпосылками. Эксперимент должен иметь четко определенную цель. Вопросы, которые экспериментатор старается выяснить, должны быть заранее ясно сформулированы. Это помогает ему в выборе соответствующего оборудования, материалов, уровня факторов, включенных в эксперимент. Эксперимент должен быть соотнесен с обязательной оценкой экспериментальных погрешностей. Воздействия любого экспериментального фактора не должны быть перекрыты неконтролируемыми переменными или другими экспериментальными факторами. Истинное воздействие каждого экспериментального фактора должно быть оценено в присутствии других факторов рандомизацией или факторным планированием. Эксперимент должен обладать достаточной точностью, чтобы удовлетворять главной 6
цели. Объем эксперимента должен быть выбран таким образом, чтобы увеличивать экспериментальную точность. Эксперимент должен быть беспристрастным, поскольку статистически правильные результаты, экспериментальные ошибки и доверительные интервалы не могут быть вычисленными в результате пристрастного опыта. Случайные величины. Законы распределения случайных величин Любой результат химического анализа есть случайная величина. Случайная величина – переменная, принимающая различные значения в зависимости от случая. Случайная величина – это не число, это функция случая. Чтобы охарактеризовать случайную величину, необходимо, вопервых, задать набор ее допустимых значений; во-вторых, задать вероятность отдельных значений, т. е. закон распределения случайной величины. Дискретная случайная величина может принимать только некоторые изолированные значения из конечного или бесконечного промежутка значений. Непрерывная случайная величина принимает все значения из данного конечного или бесконечного промежутка. Все возможные значения случайной величины образуют генеральную совокупность. Конечное число n значений из генеральной совокупности – выборочная совокупность, n – объем выборки. Очевидно, что любой набор результатов химического анализа есть выборочная совокупность. Генеральную совокупность результатов химического анализа можно представить как все мыслимые результаты, которые могли бы быть получены при анализе данного объекта разными аналитиками разными методами на разных приборах и т. д. Для задания соответствия между возможными значениями случайной величины и их вероятностями используют функции распределения. Интегральная функция распределения F(x) есть вероятность того, что случайная величина x принимает любые значения, меньшие некоторой заданной величины a: Р(x ≤ a) = F(x) . (1) Дифференциальная функция распределения φ(x) – функция плотности вероятности – есть производная интегральной функции. Результаты химического анализа принято характеризовать с помощью двух статистических критериев: ширины доверительного интервала, которому они принадлежат, и доверительной вероятности того, что они принадлежат данному интервалу. Вероятность попадания случайной величины x в доверительный интервал [а;b] равна площади, ограниченной функцией φ(x) и осями x = а, x = b (рис. 1). Аналитически доверительная вероятность определяется интегралом: 7
b
Р ( а ≤ x ≤ b ) = ∫ ϕ( x ) dx .
(2)
a
Важнейшими параметрами любой функции распределения являются математическое ожидание и дисперсия случайной величины. Математическое ожидание μ есть генеральное среднее и определяется интегралом +∞
∫ xϕ( x)dx.
μ=
(3)
−∞
2
Дисперсией σ случайной величины x называют математическое ожидание случайной величины (x – μ)2, где μ – математическое ожидание случайной величины x: +∞
σ = 2
∫ ( x − μ) ϕ( x)dx . 2
(4)
−∞
Дисперсия характеризует степень рассеяния случайной величины относительно ее математического ожидания. Аналитик всегда имеет конечную выборку результатов анализа, поэтому для оценки рассчитываются выборочные параметры, которые являются приближением к генеральным. Очевидно, что приближение тем лучше, чем больше объем выборки. Среднее значение x и дисперсия S2 выборочной совокупности объемом n определяются уравнениями (5), (6) соответственно. n
x=
∑x i =1
i
n
n
S2 =
,
∑ ( x − x) i =1
(5) 2
i
n −1
.
(6)
Нормальный закон распределения случайных величин. Проверка подчинения данных нормальному закону распределения Характеризуя результаты химического анализа как случайную величину, следует отметить неравномерность распределения вероятностей отдельных значений. Очевидно, что большая часть результатов группируется около среднего значения и чем больше абсолютное отклонение от среднего, тем менее оно вероятно. Такое распределение, характерное для большинства природных явлений случайного характера, можно описать единой куполообразной кривой, представленной на рис. 1. Аналитически функция плотности вероятности определяется уравнением (7). 8
Рис. 1. Функция плотности вероятности нормально распределенной случайной величины
⎛ −( x − μ) 2 ⎞ 1 exp ⎜ (7) ⎟. 2 σ 2π ⎝ 2σ ⎠ Распределения, удовлетворяющие соотношению (7), называют нормальными, а закон распределения – нормальным законом распределения случайных величин Гаусса. Основные принципы закона нормального распределения: 1) φ(x) ≥ 0; 2) площадь, ограниченная функцией φ(x) и осью x, всегда равна единице, т. е. то, что случайная величина примет любое значение из интервала своего существования, является достоверным событием: ϕ( x) =
+∞
∫ ϕ( x)dx = 1;
(8)
−∞
3) φ(x) симметрична относительно оси x = μ, т. е. случайные погрешности, равные по величине и обратные по знаку, равновероятны: μ+а
∫
μ
ϕ( x ) dx =
∫
ϕ( x ) dx;
(9)
μ−а
μ
4) φ(x) имеет максимум при x = μ, т. е. наиболее вероятным является среднее значение, а вероятность случайных ошибок тем меньше, чем больше их абсолютные значения:
dϕ = 0 при x = μ; dx
(10)
5) φ(x) имеет две точки перегиба:
d 2ϕ = 0 dx2
при x = μ ± σ;
(11)
6) изменение параметра μ (математического ожидания) при постоянной σ определяет смещение кривой по оси x (рис. 2); 9
Рис. 2. Функции плотности вероятности нормального распределения при постоянной σ, μ1< μ2< μ3
7) значение параметра σ (среднеквадратического отклонения) определяет степень «размытости» кривой (рис. 3), т. е. степень рассеяния случайной величины относительно ее математического ожидания.
Рис. 3. Функции плотности вероятности нормального распределения при постоянной μ, σ1< σ2< σ3.
Применение закона нормального распределения Гаусса для оценки результатов химического анализа не является удобным, т. к. табулирование функции φ(x) предполагает создание отдельных таблиц для каждой пары значений μ и σ. Для решения данной проблемы вводится коэффициент Лапласа u:
u=
x −μ . σ
(12)
Случайная величина u есть мера рассеяния случайной величины x относительно μ в единицах измерения σ. Очевидно, что μu = 0, σu = 1, следовательно, функция плотности вероятности нормированного стандартного распределения будет иметь вид
⎛ −u 2 ⎞ 1 exp ⎜ ϕ(u ) = ⎟. 2 2π ⎝ ⎠
(13)
Табулированными являются доверительные вероятности положительных значений u – функции Лапласа. 10
Успешное применение функций вероятности Гаусса – Лапласа для оценки результатов химического анализа ограничено необходимостью предварительно проверить нормальность распределения полученных результатов. Существует несколько способов оценки характера распределения. 1. Оценка асимметрии и эксцесса выборочной совокупности результатов анализа. Асимметрию А, эксцесс Е и дисперсии этих величин рассчитывают по формулам (14–17) соответственно. 1 А = nS
n
3
∑
i = 1
( xi − x )
3
,
(14)
E=
1 nS 4
n
∑ (x i =1
i
− x) 4 − 3 ,
(15)
6( n − 1) 24(n − 2)(n − 3) S E2 = , (16) . (17) (n + 1)( n − 3) (n + 1) 2 (n + 3)(n + 5) Распределение полученных результатов можно считать нормальным, если выполняются следующие неравенства: S A2 =
A ≤ 3S A ,
(18) Оценка применима для выборок с n > 20.
E ≤ 5S E .
(19)
2. Построение гистограмм. По результатам анализа строится гистограмма (рис. 4). Нормальность распределения оценивается по виду сглаживающей кривой, а также по приблизительным расчетам выборочных параметров.
Рис. 4. Гистограмма результатов химического анализа: n – объем выборки; mi – частота попадания результата в i-й интервал; mi /n – относительная частота попадания результата в i-й интервал.
3. Оценка χ2-критерия Пирсона. Данные для построения гистограмм могут быть использованы для расчета χ2-критерия Пирсона:
(mi − npi ) 2 χ =∑ , npi i =1 2
k
(20)
где n – объем выборки; k – число интервалов разбиения вариационного ряда; mi – частота попадания результата в i-й интервал; pi – вероятность попадания результата в i-й интервал, рассчитанная в соответствии с предполагаемым законом распределения. 11
Исследуемое распределение совпадает с предполагаемым, если рассчитанный по формуле (20) χ2-критерий не превышает табличный χ кр2 теоретически предполагаемого распределения для принятой доверительной вероятности и числа степеней свободы f = k – 3. Достоинством критерия Пирсона является возможность его использования для распределений разных типов. Оценка применима, если npi > 5. 4. Правило 3σ. Если абсолютное отклонение случайной величины от математического ожидания не превышает утроенного среднеквадратического отклонения, то можно считать, что исследуемая величина распределена нормально. Правило применимо только для представительных выборок с n > 50, когда выборочные параметры приближаются к генеральным. Статистика малых выборок. Проверка гипотезы об однородности результатов измерений В практике химического анализа наиболее частыми являются малые выборки результатов 2 ≤ n < 20 . Если полученные результаты заведомо подчиняются нормальному закону, то для их статистической обработки используют t-распределение Стьюдента. Коэффициент нормировки Стьюдента t для выборочной совокупности с дисперсией S2 имеет вид
t=
x −μ . S ( x)
(21)
Случайная величина t есть мера рассеяния случайной величины x относительно μ в единицах измерения S. Однако при анализе результатов эксперимента, как правило, необходима доверительная оценка не единичного, а среднего результата
x , которая с учетом S ( x) = S μ=x±
t p, f S n
.
n имеет вид: (22)
Табулированными являются коэффициенты Стьюдента tp,f при заданных значениях доверительной вероятности p и числе степеней свободы f = n – 1. Следует отметить, что распределение Стьюдента не совпадает с распределением Лапласа, т. к. S ≠ σ , но t → u при n → ∞ . Очевидно (рис. 5), что при одинаковой ширине интервала доверительная вероятность по Стьюденту всегда меньше доверительной вероятности распределения Гаусса – Лапласа. При этом, чем менее представительна выборка, тем больше отклонение от нормального закона.
12
Рис. 5. Функции плотности вероятности t-распределения Стьюдента: f1 < f2 < f3 , f 3 → ∞
Кроме того, t-критерий Стьюдента используют для проверки однородности результатов измерения. Минимальное и максимальное значения xкр являются грубыми промахами, если параметр τ , рассчитанный по формуле (23), превышает табличный τ кр для принятой доверительной вероятности p и числе степени свободы f = n – 1. xкр − x τ= . (23) S Основы дисперсионного анализа. Сравнение дисперсий. Сравнение средних значений двух выборочных совокупностей В практике химического анализа часто возникает необходимость сравнения результатов исследования некого объекта, полученных в разных лабораториях разными аналитиками на разных приборах и т. д. Такая необходимость обусловлена оценкой воспроизводимости и однородности результатов анализа. Если различие дисперсий и средних для выборочных совокупностей полученных результатов носит случайный характер, то результаты можно считать равноточными и использовать для совместной статистической обработки. То есть такие выборки можно считать принадлежащими одной генеральной совокупности. Существует несколько критериев сравнения выборочных дисперсий. 1. F-критерий Фишера применяют для сравнения двух независимых нормально распределенных выборочных совокупностей. Выборочные дисперсии S12 , S 22 различаются значимо, если частное S12 / S 22 превышает табличный Fкр критерий Фишера для принятой доверительной вероятности p и чисел степеней свободы f1 = n1 – 1, f2 = n2 – 1. 2. Критерий Бартлета применяют для сравнения k независимых нормально распределенных выборочных совокупностей объемом ni ≥ 6 с дисперсиями S i2 и числом степеней свободы fi = ni – 1. Выборочные дисперсии различаются значимо, если частное B/C, рассчитанное по формулам (24)–(25), пре13
вышает табличный χ2-критерий для принятой доверительной вероятности p и числа степеней свободы f = k – 1. k ⎛ k 1 ⎛ ⎞ 1 1 ⎞ B = 2,3 ⎜ f n ,k lg Sn2,k − ∑ fi lg Si2 ⎟ , (24) C = 1 + ⋅⎜∑ − ⎟⎟ , (25) ⎜ 3( 1) f k f − i =1 n ,k ⎠ ⎝ ⎠ ⎝ i =1 i k
где f n ,k = ∑ fi – число степеней свободы объединенной выборки, i =1
k
Sn2,k =
∑fS i =1
i
2 i
– средневзвешенная дисперсия. f n ,k 3. Критерий Кохрана применяют для сравнения k независимых нормально распределенных выборочных совокупностей равных объемов ni = const с дисперсиями S i2 . Выборочные дисперсии различаются значимо, если критерий Кохрана G, рассчитанный по формуле (26), превышает табличный Gкр для принятой доверительной вероятности p и числа степеней свободы f = k – 1. 2 Smax G= k (26) 2 ∑ Si i =1
Если выборочные дисперсии различаются в пределах случайного разброса, то следующим шагом является сравнение выборочных средних. Выборочные средние x1 , x2 различаются значимо, если t-критерий Стьюдента, рассчитанный по формуле (27), превышает табличный tp,f для принятой доверительной вероятности p и числа степеней свободы объединенной выборки f = n1 + n2 – 2. x −x n1n2 t= 1 2 , (27) S1, 2 n1 + n2 2 1, 2
где S
(n1 − 1) S12 + (n2 − 1) S22 = – средневзвешенная дисперсия. n1 + n2 − 2
14
ЛИТЕРАТУРА Основная 1. Шараф М.А. Хемометрика / М.А. Шараф, Д.Л. Илмэн, Б.Р. Ковальски. – Л. : Химия, 1989. 2. Систематические и случайные погрешности химического анализа / под ред. М.М. Черновьянц. – М. : Академкнига, 2004. 3. Вершинин В.И. Планирование и математическая обработка результатов химического эксперимента / В.И. Вершинин. – Омск : ОмГУ, 2005. 4. Аналитическая химия. Проблемы и подходы : в 2 кн. / под ред. Р. Кельнера. – М. : Мир, 2004. 5. Дёрфель К. Статистика в аналитической химии / К. Дерфель. – М. : Мир, 1994. 6. Чарыков А.К. Математическая обработка результатов химического анализа / А.К. Чарыков. – Л. : Химия, 1984. 7. Регрессионный анализ : учеб.-метод. пособие / составители: И.В. Аристов, О.В. Бобрешова. – Воронеж : ВГУ, 1997. 8. Математическое планирование факторных экспериментов : учеб.метод. пособие / составители: И.В. Аристов, О.В. Бобрешова. – Воронеж : ВГУ, 1995. 9. Математическая обработка физико-химического эксперимента : программа курса по специальности 011000 – Химия. ЕН.Р.01 / составители: О.В. Бобрешова, И.В. Аристов. – Воронеж : ЛОП ВГУ, 2003. Дополнительная 10. Гмурман В.Е. Теория вероятностей и математическая статистика / В.Е. Гмурман. – М. : Высш. шк., 1998. 11. Вентцель Е.С. Теория вероятностей / Е.С. Вентцель. – М. : Высш. шк., 1998. 12. Основы аналитической химии : в 2 кн. / Ю.А. Золотов [и др.]. – М., 1999. – Кн. 1 : Общие вопросы. – С. 21–57. 13. Ахназарова С.Л. Методы оптимизации эксперимента в химической технологии / С.Л. Ахназарова, В.В. Кафаров. – М. : Высш. шк., 1985.
15
Учебное издание
ОСНОВЫ ХИМИЧЕСКОЙ МЕТРОЛОГИИ И ХЕМОМЕТРИКИ Часть 1 Методические указания к семинарским занятиям Составители: Бобрешова Ольга Владимировна, Паршина Анна Валерьевна Редактор А.Ю. Котлярова
Подписано в печать 18.12.2007. Формат 60×84/16. Усл. печ. л. 0,9. Тираж 150 экз. Заказ 2561. Издательско-полиграфический центр Воронежского государственного университета. 394000, г. Воронеж, пл. им. Ленина, 10. Тел. 208-298, 598-026 (факс) http://www.ppc.vsu.ru; e-mail:
[email protected] Отпечатано в типографии Издательско-полиграфического центра Воронежского государственного университета. 394000, г. Воронеж, ул. Пушкинская, 3. Тел. 204-133. 16
17