Министерство образования Российской Федерации РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ НЕФТИ И ГАЗА им. И.М. ГУБКИИНА ____...
27 downloads
241 Views
509KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Министерство образования Российской Федерации РОССИЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ НЕФТИ И ГАЗА им. И.М. ГУБКИИНА ___________________________________ Кафедра физики
С.Н. Бозиев
СТАТИСТИЧЕСКИЙ АНАЛИЗ РАСПРЕДЕЛЕНИЯ КОЭФФИЦИЕНТА ПРОНИЦАЕМОСТИ ОБРАЗЦОВ ГОРНЫХ ПОРОД С ПОМОЩЬЮ СИСТЕМЫ MATLAB
Москва 2001
УДК 519.2 + 622.276.031:53(075.8) Бозиев С.Н. Статистический анализ распределения коэффициента проницаемости образцов горных пород с помощью системы MATLAB: РГУ нефти и газа им. И.М. Губкина, 2001 – 75 с. С использованием основных статистических методов проведен анализ распределения коэффициента проницаемости различных образцов горных пород. Рекомендуется студентам, магистрантам, аспирантам и научным работникам высших технических учебных заведений.
Рецензенты: В.Б. Нагаев, профессор, заведующий кафедрой физикиРГУ нефти и газа им. И.М. Губкина Л.Г. Деденко, д.ф.-м.н., профессор кафедры общей физики МГУ им. М.В. Ломоносова
© РГУ нефти и газа им. И.М. Губкина, 2001
Прогресс не случайность, а необходимость. Г. Спенсер
Введение Прогресс в области вычислительной техники способствует внедрению современных методов анализа данных в разные отрасли естествознания и промышленности
на
обусловлено
только
компьютеров,
не но
качественно и
ростом
появлением
новом
уровне.
Такое
внедрение
производительности
персональных
соответствующего
программного
обеспечения в виде многофункциональных систем математических команд. В данной работе рассмотрены некоторые аспекты статистического анализа результатов
измерений
на
конкретном
примере
c
использованием
современной системы математических команд MATLAB, которая находит все большее применение в инженерных и научных расчетах. В качестве объекта обсуждения в данной работе мы выбрали табл. 1. Эта таблица, составленная
по
различным
геофизическим
данным
по
измерению
проницаемостей образцов горных пород, приведена в известном учебнике [1]. Практическая важность обсуждаемой в таблице характеристики горных пород, а также большая совокупность данных, объединенных в ней, делают ее привлекательной, в методическом плане, для подробного статистического анализа.
Мы надеемся, что проделанный здесь
анализ будет полезной
иллюстрацией при обработке данных, аналогичных рассмотренным здесь и, отчасти, послужит своего рода дополнением к статистическим методам, рассмотренным в [1].
С другой стороны хочется также надеяться, что
приведенные здесь примеры применения системы MATLAB будут полезны начинающим пользователям этой системы, несмотря на то, что мы затронули лишь малую часть ее возможностей, и рассматриваемые ниже примеры дают совсем
неполное представление о ней. Тем более что мы использовали
несколько устаревшую ее версию 5.2.1.
1. Проницаемость пород и ее распределение Характер движения нефти или газа к забою добывающей скважины определяется двумя основными факторами: - физико-химическими свойствами этих углеводородов; - структурой порового пространства среды – коллектора, в которой они распространяются. Для описания течения углеводородов с учетом этих факторов, наряду с другими характеристиками, вводится понятие проницаемости горной породы, характеризующей ее способность пропускать жидкости и газы. Для оценки проницаемости пород обычно пользуются законом фильтрации Дарси, согласно которому скорость фильтрации (просачивания) жидкости в среде пропорциональна градиенту давления и обратно пропорциональна ее динамической вязкости μ :
r
ν =−
k
μ
grad ( p ) .
Перепишем эту формулу в скалярной форме для одномерной задачи. Для этого выделим образец породы длиной
L , и предположим, что ее
фильтрационные свойства одинаковы по всей длине. Тогда имеем
v=
Q 1 Δp =k , S μ L
(1.1)
где v - скорость линейной (плоскопараллельной) фильтрации, Q объемный расход жидкости в единицу времени, S - площадь фильтрации,
Δp
- перепад давления на выделенном участке пористой среды.
Коэффициент пропорциональности в (1.1) называется коэффициентом проницаемости:
k=
QμL . Δp ⋅ S
(1.2)
Величина k имеет размерность площади, и в системе СИ измеряется в м 2 : ⎡ м3 ⎤ ⋅ Па ⋅ с ⋅ м ⎥ ⎢ [k ] = ⎢ с ⎥ = м2 . 2 ⎢ Па ⋅ м ⎥ ⎢⎣ ⎥⎦
[ ]
Совокупность результатов, приведенных в [1] для проницаемостей пород, приводятся в табл. 1. Здесь еще раз отметим, что данные, приведенные в этой таблице, выбраны в качестве объекта для анализа из-за важности
рассматриваемой
характеристики.
В
силу
специфики
представления материала, в [1] отсутствует ссылка на первоисточники этой таблицы. Не понятно также, являются ли эти результаты обобщением различных данных, полученных разными авторами, или же они относятся к конкретному месторождению. В последнем случае, общие рассуждения, которые приводятся ниже, могли бы представлять некоторый практический интерес. Перейдем теперь к описанию характеристик, приведенных в табл. 1: i – номера интервалов, на которые разбивается весь наблюдаемый диапазон значений проницаемостей. Число таких интервалов в табл. 1 равно 10. Ni – число пород, проницаемости которых лежат в i - том интервале. 10
Общее число исследованных пород составляет
N 0 = Σ N i = 1000 . i =1
pi – относительное число пород, проницаемости которых попадают в iтый интервал: pi =
Ni , величина pi равна относительной доле образцов с N0
выделенной проницаемостью.
На языке математической статистики p i есть
вероятность того, что проницаемость одной случайно выбранной породы из 2 тысячи, попадет в интервал проницаемостей шириной Δk = 0,2 мкм .
Таблица 1
i
1 2 3 4 5 6 7 8 9 10
Интервал проницаемостей (мкм2) 0 – 0,2 0,2 – 0,4 0,4 – 0,6 0,6 – 0,8 0,8 – 1,0 1,0 – 1,2 1,2 – 1,4 1,4 – 1,6 1,6 – 1,8 1,8 - 2,0
Ni
pi
4 126 230 260 130 120 50 30 30 20
0,004 0,126 0,230 0,260 0,130 0,120 0,050 0,030 0,030 0,020
2. Графическое представление данных и их характеристики Графическое
представление
используется
для
более
наглядной
иллюстрации данных. Чаще всего в качестве графика приводится т.н. гистограмма, в которой заданному интервалу значений на оси абсцисс сопоставляется число на оси ординат. На рис.1 приводится пример гистограммы, которая построена по данным табл. 1. По оси абсцисс отложена величина проницаемости пород, а по ординате число образцов, попадающих в данный интервал проницаемостей. Эта гистограмма построена с помощью команды hist математической системы MATLAB на основе численного массива данных, составленных по данным табл. 1. В этом массиве за абсциссу выбраны середины интервалов проницаемостей. Из рис.1 видно, что подпрограмма hist сопоставляет середину интервала левому краю соответствующего столбца. В
качестве
численных
характеристик
гистограмм
чаще
всего
рассматривают два параметра – среднюю величину и дисперсию, и реже используют такие величины как наиболее вероятная и медиана. Определим два последних понятия. Наиболее вероятная величина распределения определяется как значение переменной, на которую приходится максимум
распределения.
Медианой
называют
такое
значение
переменной,
относительно которой полная площадь под распределением делится на две равные части. В идеальном эксперименте, когда проводится большое число высокоточных измерений, средняя величина совпадает с т.н. математическим ожиданием. Средняя величина характеризует положение центра тяжести гистограммы на оси абсцисс, а дисперсия - ширину распределения вдоль нее. Вычислим эти характеристики по данным табл. 1. По определению, средняя величина проницаемости есть 10
< k >=
∑k N i
i =1
N0
i
10
= ∑ k i ⋅ pi ,
(2.1)
i =1
где 10
∑k N i =1
i
i
= 0,1 ⋅ 4 + 0,3 ⋅ 126 + 0,5 ⋅ 230 + 0,7 ⋅ 260 + 0,9 ⋅ 130 + 1,1 ⋅ 120 + 1,3 ⋅ 50 +
+ 1,5 ⋅ 30 + 1,7 ⋅ 30 + 1,9 ⋅ 20 = 783,2 мкм 2 ;
10
N 0 = ∑ N i = 4 + 126 + 230 + 260 + 130 + 120 + 50 + 30 + 30 + 20 = 1000; i =1
< k >=
783,2 = 0,7832 ≈ 0,783 мкм 2 . 1000
(2.2)
Формула (2.1) применяется для вычисления средней величины в случае, когда исходные данные предварительно распределены по отдельным ячейкам, т.е. в виде табл. 1. В этом случае мы не располагаем данными по отдельно взятым породам. В случае, когда известны проницаемости каждой из тысячи рассмотренных пород, средняя проницаемость вычисляется как средняя арифметическая 1000
< k >=
∑k i =1
N0
i
.
Таким образом, мы вычислили среднюю проницаемость горных пород, хотя и для достаточно большой, но ограниченной выборки пород
(N 0
= 1000 ) . Поэтому, полученная величина < k > является приближенной.
Поясним сказанное. Предположим, что у нас имеется возможность выбора образцов горных пород из неограниченно большого набора пород. Результат (2.2) получен для одной выборки, состоящей из 1000 образцов. Если проделать аналогичную процедуру для другой выборки из 1000 образцов, то получаемый результат может оказаться близким, но не совпадающим с (2.2). Увеличивая, таким образом, число исследуемых образцов в одной выборке можно повысить точность определения величины средней проницаемости. При бесконечно большом числе исследуемых образцов эта величина неограниченно приближается к истинной средней величине m , т.е. к математическому ожиданию. Поскольку величина < k > часто используется в уравнениях
гидродинамики в качестве основного параметра фильтрации
жидкости, то здесь следует оговорить одну возможную особенность ее использования.
В
общем
случае,
средняя
проницаемость
определяемая для большой совокупности образцов пород, может
пород, оказаться
малоинформативной характеристикой грунта. Например, в случае, если в выбранную совокупность пород ввести тонкую перегородку со сравнительно низкой проницаемостью, то величина < k > , рассчитанная по формуле (2.2), может измениться несущественно, тогда, как скорость фильтрации будет определяться, в основном,
проницаемостью этой тонкой перегородки. В
аналогичных случаях бывает полезным использование метода сопряженных уравнений, содержащих наряду со средними величинами и моменты более высоких порядков, каковой является, например, дисперсия распределения. Эта величина характеризует степень «рассеяния» совокупности результатов опытов
относительно
средней
величины.
Конкретное
рассмотрение
дисперсии проделаем на основе результатов табл. 1. Вычислим дисперсию распределения проницаемостей. По определению
10
D=
∑ (k i =1
i
− m)2 ⋅ Ni N0
10
= ∑ (k i − m ) 2 ⋅ pi ,
(2.3)
i =1
где m - математическое ожидание. В формуле (2.3) математическое ожидание m не известно, и поэтому вычислим приближенное значение дисперсии с использованием средней проницаемости (2.2), определенной из опыта. 10
~ D=
∑ ( k − < k >) i =1
i
2
⋅ Ni
N0
10
= ∑ ( k i − < k >) 2 ⋅ p i .
(2.4)
i =1
Применим эту формулу к данным табл. 1. 10
∑ ( k − < k >) i =1
i
2
⋅ N i = (0,1 − 0.783) 2 ⋅ 4 + (0,3 − 0.783) 2 ⋅ 126 + (0,5 − 0.783) 2 ⋅ 230 +
+ (0,7 − 0,783) 2 ⋅ 260 + (0,9 − 0,783) 2 ⋅ 130 + (1,1 − 0,783) 2 ⋅ 120 +
+ (1,3 − 0,783) 2 ⋅ 50 + (1,5 − 0,783) 2 ⋅ 30 + (1,7 − 0,783) 2 ⋅ 30 + + (1,9 − 0,783) 2 ⋅ 20 = 144,422 мкм 4 .
~ 144,442 D= ≈ 0,144 мкм 4 . 1000
(2.5)
Здесь отметим, что формулы (2.3) и (2.4), вообще говоря, являются приближенными. Они справедливы только в случае больших значений N 0 . Для сравнительно малых значений N 0 нужно пользоваться более точной формулой: 10
~ D=
∑ ( k − < k >) i =1
i
N0 −1
2
⋅ Ni
.
(2.6)
Отличие знаменателей правых частей формул (2.6) и (2.4) обусловлено тем, что сумма в числителе должна быть отнесена не к числу образцов N 0 , а к числу подлинно независимых значений N i . Здесь можно предположить, что все 1000 измерений N i в табл. 1 являются независимыми. Но в формуле
~ (2.6) D выражается через среднюю проницаемость < k > , которая вычислена по формуле (1) с использованием тех же данных. Этим мы накладываем одно условие связи на имеющуюся совокупность данных, после чего независимых N i становится N 0 − 1 = 999 . В этом смысле величину N 0 − 1 в (2.6) называют числом степеней свободы. Поскольку величина N 0 − 1 , в рассматриваемом нами случае, достаточно велика, то дисперсия, вычисленная по формуле (2.6) совпадает с (2.5). Как
уже
отмечалось,
дисперсия
является
одной
из
важнейших
характеристик статистического распределения, и характеризует ее ширину. Она обладает следующими важными свойствами (без доказательства). 1. Дисперсия постоянной величины равна нулю: D (C ) = 0 . 2. Постоянный множитель можно выносить за знак дисперсии, возводя 2 его в квадрат: D(C ⋅ X ) = C ⋅ D( X ) .
3. Дисперсия суммы нескольких взаимно независимых случайных величин
равна
сумме
дисперсий
этих
величин:
D( X + Y + Z ) = D( X ) + D(Y ) + D(Z ) . В заключение этого параграфа отметим, что средняя величина (2.1) и дисперсия (2.6) вычисляются в системе MATLAB командами mean и var соответственно. Пример 2.1
Программа, с помощью которой нарисована гистограмма на рис. 1 выглядит следующим образом: for for for for for for for for for for
i=1:4, x(i)=0.1; i=5:130, x(i)=0.3; end i=131:360, x(i)=0.5; end i=361:620, x(i)=0.7; end i=621:750, x(i)=0.9; end i=751:870, x(i)=1.1; end i=871:920, x(i)=1.3; end i=921:950, x(i)=1.5; end i=951:980, x(i)=1.7; end i=981:1000, x(i)=1.9; end
hist(x) xlabel(‘Проницаемость, мкм^2’) ylabel(‘Число образцов’) title(‘Рис.1. Экспериментальная гистограмма’,’FontSize’14) hgt=gtext(‘=0.783 mkm^2’) hgt=gtext('D=0.144 мкм^4')
Примечание: Сначала задается исходный массив данных x(i). Далее по команде hist(x) рисуется гистограмма, и приводятся соответствующие комментарии к рисунку. Пример 2.2
Вычислим среднюю проницаемость образцов горных пород по данным табл. 1. Способ вычисления зависит от того, в каком виде задан исходный массив x(i). Первый способ: for for for for for for for for for for
i=1:4, x(i)=0.1;end i=5:130, x(i)=0.3;end i=131:360, x(i)=0.5;end i=361:620, x(i)=0.7;end i=621:750, x(i)=0.9;end i=751:870, x(i)=1.1;end i=871:920, x(i)=1.3;end i=921:950, x(i)=1.5;end i=951:980, x(i)=1.7;end i=981:1000, x(i)=1.9;end mx=mean(x) Ответ: mx=0,7821. Примечание: Количество значащих чисел после запятой приводится в
ответе не полностью. Можно, при необходимости, привести до 16 значащих чисел. Второй способ: Исходные данные можно задать в виде двух одномерных массивов: x=[0.1 0.3 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9] y=[4 126 230 260 130 120 50 30 30 20] mx=sum(x*y)/sum(y) Ответ: mx=0,7821.
Пример 2.3 Вычисление дисперсии проницаемостей горных пород. Дисперсию можно, как и среднюю величину можно вычислять разными способами в зависимости от способа представления данных (см. пример 2). Здесь рассмотрим способ, аналогичный первому использованному в примере 1. for i=1:4, x(i)=0.1;end for i=5:130, x(i)=0.3;end for i=131:360, x(i)=0.5;end for i=361:620, x(i)=0.7;end for i=621:750, x(i)=0.9;end for i=751:870, x(i)=1.1;end for i=871:920, x(i)=1.3;end for i=921:950, x(i)=1.5;end for i=951:980, x(i)=1.7;end for i=981:1000, x(i)=1.9;end D=var(x) Ответ: D=0,1442.
3. Вычисление погрешности средней проницаемости Величины средней проницаемости и ее дисперсии, вычисленные в предыдущем пункте по формулам (2.1) и (2.6), являются приближенными, т.к. они получены по ограниченному числу измерений. В этом разделе рассмотрим способ вычисления определена
средняя
величины погрешности, с которой
проницаемость
(2.2).
Поскольку
дисперсия
характеризует ширину распределения, или более конкретно, степень отклонения имеющейся совокупности данных от средней величины, то она является мерой абсолютной погрешности δk
в определении средней
проницаемости < k > (величину δk часто называют просто погрешностью). ~ Но отождествление абсолютной величины экспериментальной дисперсии D с погрешностью δk не имеет явного смысла, т.к. они имеют разные размерности
(см.
характеристики
формулы
рассеивания
(2.2)
и
опытных
(2.5).
Поэтому
данных
для
следует
наглядной
пользоваться
величиной, размерность которой совпадает с размерностью < k > . Такой ~ величиной является квадратный корень из дисперсии D :
~
σ = D ≈ 0,380
(3.1)
В соответствующей литературе эту величину называют по-разному среднеквадратичным отклонением, среднеквадратичной погрешностью или стандартом. Стандарт σ характеризует вероятность попадания величины проницаемости
одной
случайно
< k > ±σ = 0,783 ± 0,380 .
выбранной
δk =
Величина
породы
σ
≈ 0,485
в
интервал называется
относительной погрешностью или относительной дисперсией. Но это только частный случай. В общем случае величина σ не совпадает с абсолютной погрешностью δk . В частности, такое утверждение следует из того, что стандарт σ , также, как и < k > , не зависит явно от числа образцов N 0 . Это означает, что
погрешность δk также не зависит от N 0 . Такое
утверждение противоречит простой логике, т. к. с ростом числа образцов N 0 , степень точности с которой вычисляется средняя проницаемость должна расти. Следовательно, погрешность δk должна уменьшаться с ростом N 0 . Получим эту зависимость. В табл. 1 приведены результаты
N 0 сеансов
независимых измерений. Средняя проницаемость вычисляется по формуле (2.1): 10
k =
∑k i =1
i
⋅ Ni
N0
N0
=
∑k i =1
N0
i
.
Вычислим теперь дисперсию средних величин k . Используя свойства дисперсий, приведенные в конце предыдущего пункта получаем ⎛ k1 + k 2 + ... + k N 0 D( k ) = D⎜⎜ N0 ⎝
( )
⎞ D(k1 ) + D(k 2 ) + ... + D k N 0 N0 ⋅ D D ⎟= ≈ = . 2 2 ⎟ N0 N0 N0 ⎠
Следовательно, величина средних проницаемостей равна
относительной погрешности распределения
D( k k
)
=
1 N0
⋅
D , k
т. е., относительная погрешность распределения средних проницаемостей, в N 0 раз меньше относительной погрешности одного отдельного измерения.
Следовательно, с ростом числа испытуемых пород N 0 погрешность δk уменьшается, и для данных, приведенных в табл. 1, получаем
δk =
σ N0
=
~ D 0.144 = ≈ 0,012 . N0 1000
(3.2)
Величину абсолютной погрешности δk , определенную таким образом, часто называют, наряду с (3.1), также среднеквадратичным отклонением. Таким образом, средняя величина проницаемости, определенная по данным табл. 1, равна < k >= 0,783 ± 0,012 ,
(3.3)
т.е. она определена с относительной погрешностью
δk
=
0,012 ⋅ 100% ≈ 1,53% . 0,783
(3.4)
Изложенный способ вычисления погрешности средней проницаемости используется часто, но следует отметить, что он является приближенным и имеет оценочный характер. При более строгом рассмотрении вопроса вычисления погрешности δk вводится понятие доверительного интервала и доверительной вероятности, которая характеризует точность и надежность оценки < k > . По данным табл. 1 мы нашли, что < k >= 0,783 . Зададим некоторую большую вероятность α . Пусть истинная средняя проницаемость
m пород отличается от вычисленной величины < k > на величину ε с вероятностью P( < k > −m < ε ) = α .
(3.5)
Это равенство означает, что с вероятностью α неизвестное значение средней проницаемости попадает в интервал
I α = (< k > −ε ; < k > +ε ) .
(3.6)
Вероятность α называется доверительной вероятностью, а интервал I α доверительным интервалом. Рассмотрим теперь величину
общий случай. До сих пор мы рассматривали
< k > , полученную по данным одной серии измерений
проницаемостей для 1000 образцов пород. Предположим далее, что мы располагаем результатами большого числа таких измерений, каждая из которых характеризуется средней величиной
< k > i , вычисленной по
формуле (2.1). Тогда, согласно центральной предельной теореме теории вероятностей, распределение по числу полученных средних < k > i будет описываться нормальным распределением Φ ( x) =
x
1 2π
∫e
−
t2 2
dt ,
(3.7)
−∞
где t ≡< k > i . Эта функция представляет собой нормальную функцию распределения с параметрами m = 0 и σ = 1 , и характеризует вероятность того, что случайно выбранная величина t имеет значение, меньшее чем x (см. Приложение). Здесь отметим, что 1 2π
+∞
∫e
−
t2 2
dt = 1 ,
(3.8)
−∞
т.е. полная площадь под функцией плотности вероятностей нормального распределения равна единице, или, применяя стандартную терминологию, следует
сказать,
что
эта
функция
нормирована.
Поскольку,
в
рассматриваемом нами примере, проницаемость k является положительной величиной, то величины
m
и
σ
могут принимать произвольные
положительные значения. В этом случае нормальная функция распределения имеет вид x−m
⎛x−m⎞ F ( x ) = Φ⎜ ⎟= ⎝ σ ⎠
1 2π
σ
∫ 0
e
−
t2 2
dt .
(3.9)
Из (3.8) и (3.9) следует, что измеренная в одной серии опытов средняя проницаемость < k > имеет величину, большую, чем некоторая критическая величина x
с вероятностью 1 − F ( x) . Эта вероятность соответствует
затененной части площади под функцией плотности вероятностей на рис.2. Тогда в силу симметрии рассматриваемой функции, величина < k > попадает в интервал m ± x с вероятностью
F ( x) − (1 − F ( x) ) = 2 F ( x) − 1 .
(3.10)
Перепишем (3.10) используя (3.5) и (3.9) ⎛ε ⎞ P ( m − < k > < ε ) = 2Φ ⎜ ⎟ − 1 . ⎝σ ⎠
(3.11)
Приравнивая правые части (2.11) и (3.11) получаем уравнение для границ доверительного интервала ⎛ε ⎞ α = 2Φ⎜ ⎟ − 1 , ⎝σ ⎠ откуда ⎛1+ α ⎞ ⎟ , ⎝ 2 ⎠
ε = σ ⋅ arg Φ⎜
(3.12)
где arg Φ ( x ) - функция, обратная Φ (x) . Как уже отмечалось, истинное значение σ нам не известно, и поэтому в (3.12) подставляют ее приближенное значение δk = опыта. Вычисляя, таким
образом, величину
~ D , определяемое из N0
ε , можно определить
доверительный интервал (3.5). При вычислении ε , как правило, используют ⎛1+ α ⎞ ⎟ в зависимости от α . Величина табличные данные функции t = arg Φ⎜ ⎝ 2 ⎠
t , приведенная в табл. 2, определяет для нормального закона число среднеквадратических отклонений, которое нужно отложить справа и слева от средней величины, чтобы вероятность попадания в полученный участок была равна α :
I α = (< k > −t ⋅ δk ; < k > +t ⋅ δk ) ,
(3.13)
где δk вычисляется по формуле (3.2). Используя результаты, приведенные в табл. 2 можно сказать, что средняя проницаемость горных пород, определяемая по данным табл. 1, с доверительной
α = 95%
вероятностью
попадает
в
интервал
с
доверительными границами k1, 2 =< k > ±1,96 ⋅ δk :
k1 = 0,783 + 1,96 ⋅ 0,012 = 0,807 ,
k 2 = 0,783 − 1,96 ⋅ 0,012 = 0,759 . Из
табл. 2 следует, что чем больше доверительная вероятность α , тем
больше величина t , и тем сильнее отличаются границы доверительного интервала. Таблица 2 α
t
α
t
α
t
α
t
0,8
1,282
0,86
1,475
0,91
1,694
0,97
2,169
0,81
1,310
0,87
1,513
0,92
1,750
0,98
2,325
0,82
1,340
0,88
1,554
0,93
1,810
0,99
2,576
0,83
1,371
0,89
1,597
0,94
1,880
0,997
3,000
0,84
1,404
0,90
1,643
0,95
1,960
0,999
3,290
0,85
1,439
0,96
2,053
Таким образом, мы рассмотрели приближенный метод построения доверительного интервала, не зная при этом истинного закона
f (k )
распределения проницаемостей пород. В том случае, когда этот закон известен, задача построения доверительного интервала решается точно, т.к. при вычислении дисперсии, мы вместо (2.6) можем пользоваться точной формулой 10
D=
∑ (k i =1
i
− m)2 ⋅ Ni
N0 −1
,
(3.14)
где m есть математическое ожидание, вычисляемое как первый момент распределения f (k ) : ∞
m=
∫ k ⋅ f (k )dk 0
.
∞
∫ f (k )dk
(3.15)
0
Например, если бы распределение проницаемостей
k горных пород
описывалось нормальным распределением, то задача построения точного доверительного интервала для средней проницаемости < k > свелась бы к соответствующему анализу распределения Стьюдента. Пример 3.1
Распределение на рис.2 нарисовано с помощью команды normspec: p=normspec([0.805 Inf],0.783,0.012) hgt=gtext('F(x)') hgt=gtext('x') hgt=gtext('1-F(x)') title('Риc.2. Нормальное распределение ','FontSize',14) xlabel('Средняя проницаемость') ylabel('Плотность вероятностей')
4. Распределение Стьюдента В случае если распределение горных пород по проницаемостям описывалось бы нормальным распределением, то оно было бы симметрично относительно наиболее вероятной величины. Но из рис.1 следует, что это не так. Тем не менее, допуская такую неточность, определим доверительный интервал для средней проницаемости < k > с использованием распределения Стьюдента (псевдоним английского математика В. Госсета). Независимой переменной в этом распределении является величина
t= где
< k > −m , δk
(4.1)
m - математическое ожидание (3.15)
отклонение (3.2). Видно, что величина
t
δk
- среднеквадратичное
является безразмерной и
характеризует степень отклонения экспериментальной величины < k > от m в единицах среднеквадратичного отклонения δk . Функция плотности вероятностeй распределения Стьюдента по переменной t имеет вид:
S (t , n) =
⎛n⎞ n Γ⎜ ⎟ − 2 ⎛ t ⎞ 2 ⎝2⎠ ⎜⎜1 + ⎟ , ⎛ n − 1 ⎞ ⎝ n − 1 ⎟⎠ (n − 1)π ⋅ Γ⎜ ⎟ ⎝ 2 ⎠
(4.2)
где +∞
∫ S (t , n )dt = 1 ,
(4.3)
−∞ ∞
Γ( x) = ∫ u x −1e −u du - гамма-функция, n - целое положительное число, которое 0
отождествляют с числом измерений. Величину k = n − 1 - называют числом степеней свободы распределения (4.2). В рассматриваемом нами случае под числом измерений n следует полагать не число N 0 исследованных образцов, а число столбиков, составляющих гистограмму на рис.1, т.е. n = 10 . Число k определяется из следующих соображений. Распределением (4.2) пользуются для определения доверительных пределов для величин, оцениваемых по среднему арифметическому < k > (см.(2.1)). Поэтому, определяя величину t по (4.1) и подставляя ее в (4.2) мы накладываем одно условие связи на исходные
данные.
В
этом
случае
k = 10 − 1 = 9 . Вычислим теперь
вероятность того, что значение < k >= 0,783 попадет в интервал t = ±1 . Для
m = 0,771 . Тогда
этого в (4.1) надо положить
t=
0,783 − 0,771 = 1. 0,012
Вероятность того, что < k > дает значение t , лежащее в интервале (1,+∞) выражается через (4.2): +∞
p1 (n) =
∫ S (t , n)dt . 1
(4.4)
На рис.3 приводится вид функции S (t , n) для двух значений n . Видно, что она,
как
и
вертикальной
нормальное оси,
распределение,
проходящей
через
симметрична
наиболее
относительно
вероятное
значение.
Используя это сходство распределений, можно провести рассуждения, аналогичные тем, которые проделаны для получения формулы (3.10). Таким образом, определяем искомую вероятность попадания случайного параметра, определяемого по формуле (4.1), в интервал t = ±1 :
p(n) = 1 − 2 ⋅ p1 (n) .
(4.5)
Для n = 10 (4.5) дает значение p (10) = 0,657 . Мы решили задачу нахождения доверительной вероятности по заданному доверительному интервалу. Используя приведенные формулы можно также решить
задачу
нахождения
доверительного
интервала
по
заданной
вероятности. Так если p (10) = 0,95 , то для получения такой доверительной вероятности нужно функцию S (t , n) в (4.4) проинтегрировать в пределах
t = ±2,262 и полученное значение p1 подставить в (4.5). Тогда по формуле (4.1) получаем, что m = 0,783 ± 2,262 ⋅ 0,012 = 0,783 ± 0,027 . Отметим, что t входит как параметр в команду tcdf системы MATLAB и значение
t = ±2,262 подбирается «вручную», т. е. методом проб и ошибок, до тех пор, пока не получится нужная вероятность. Пример 4.1. t=(.771-.783)/0.012 prob=tcdf(t,10-1) alfa=1.0-2.0*prob Ответ: prob=0.1717; alfa=0,6565. Пример 4.2.
Здесь приводится программа, с помощью которой проиллюстрировано распределение Стьюдента на рис.3. tmax=7; t=-tmax:tmax/300:tmax; x=0:0.1:200; for i=1:2;
if i==1,n=8; end if i==2,n=3; end % Вычисление гамма-функции y1=(n-1)/2; y2=n/2; G1=gamma(y1) G2=gamma(y2) s1=-n/2; t1=t.^2; t2=1+t1/(n-1); f1=t2.^s1; f2=sqrt((n-1)*pi); if i==1, St1=G2*f1/G1/f2; end if i==2, St2=G2*f1/G1/f2; end end plot(t,St1,t,St2),grid xlabel('t','FontSize',12) ylabel('Плотность вероятностей','FontSize',12) title('Рис.3. Распределение Стьюдента','FontSize',14) hgt=gtext('n=8') hgt=gtext('n=3')
5. Вычисление погрешности дисперсии Процедура вычисления погрешности σ D , т. е. дисперсии распределения проницаемостей пород, определяемой по формуле (6), во многом аналогична задаче вычисления погрешности среднего < k > . Но мы не будем ее выводить по следующим причинам. Во-первых, анализируя эмпирические распределения, исследователи, как правило, интересуются его средней величиной, а дисперсия, в основном, вычисляется для оценки погрешности среднего. Во-вторых, вывод формулы для
σD
требует громоздких
математических выкладок (см., например, [2]), что несколько выходит за рамки настоящей работы. Здесь отметим, что для вычисления σ D нужно сделать предположение о нормальном распределении дисперсии Di , каждая из которых вычисляется по результатам отдельной совокупности опытов. Это утверждение
следует
из
центральной
предельной
теоремы
теории
вероятностей. По существу, мы вычисляем дисперсию распределения по
дисперсии. Такая величина выражается через четвертый центральный момент
μ 4 распределения исследуемой величины, а в нашем случае – результатов табл. 1 (или рис.1): D[Di ] =
μ4
−
N0
N0 − 3 ~ 2 D , N 0 ( N 0 − 1)
(5.1)
где 10
μ4 =
∑ (k − < k >) i =1
i
4
⋅ Ni
N0 −1
,
~ < k >= 0,783 мкм 2 , а дисперсия D = 0,144 мкм 4 и вычисляется по формуле
(2.6).
Вычислим значение μ 4 : 4
10
∑ (k − < k >) N i
i =1
i
= (0,1 − 0,783) 4 ⋅ 4 + (0,3 − 0,783) 4 ⋅ 126 + (0,5 − 0,783) 4 ⋅ 230 +
+ (0,7 − 0,783) 4 ⋅ 260 + (0,9 − 0,783) 4 ⋅ 130 + (1,1 − 0,783) 4 ⋅ 120 + + (1,3 − 0,783) 4 ⋅ 50 + (1,5 − 0,783) 4 ⋅ 30 + (1,7 − 0,783) 4 ⋅ 30 + + (1,9 − 0,783) 4 ⋅ 20 ≈ 196,68 ;
μ4 =
196,68 ≈ 0,198 мкм 8 . 999
Тогда искомая погрешность σ D вычисляется по формуле (5.1): σ D = D[ Di ] ≈ 0,013 мкм 4 .
Мы
получили
оценку
относительной
погрешности
(5.2) дисперсии.
Ее
относительная погрешность равна
σD
~ ⋅ 100% ≈ 9,03% . D
(5.3)
Сравнивая относительные погрешности (2.10) и (5.3) отметим, что для дисперсии она вычисляется с меньшей точностью, чем для средней проницаемости. Это объясняется тем, что «хвосты» распределения по проницаемости на рис.1 дают больший вклад в дисперсию по сравнению со
средней величиной, а они, как следует из табл. 1, статистически менее обеспечены. 6. Вычисление статистических ошибок для отдельных ячеек гистограмм
Гистограмма на рис.1 состоит из десяти колонок, высоты которых соответствуют числу образцов, проницаемости которых попадают в интервал, соответствующий ширине основания колонки по оси абсцисс. Как уже отмечалось, эта гистограмма отражает данные по проницаемостям N 0 = 1000 образцов. Если проделать аналогичные измерения для другой совокупности такого же количества образцов, то для них мы получим гистограмму, которая будет подобна приведенной на рис. 1, но не будет совпадать с ней полностью. Это означает, что число образцов пород, проницаемости которых лежат в интервале, скажем, от 0,2 до 0,4, будет различна для данных по разным совокупностям пород из N 0 = 1000 образцов. Если ширина выбранного интервала существенно уже полного интервала измеряемых проницаемостей (на рис.1, примерно, от 0 до 2мкм 2 ), то вероятность того, что проницаемость одной породы из тысячи, попадет в выделенный узкий интервал, будет мала. В этом случае, флуктуации числа попадающих в узкий интервал Δk проницаемостей пород описывается распределением Пуассона (см. Приложение) Π (N , N ) =
e−N ⋅ N N . N!
(6.1)
Это распределение позволяет вычислить вероятность попадания N образцов пород в интервал Δk при ожидаемом среднем N . В отличие от нормального распределения (6.1) относится к классу так называемых дискретных распределений, т.е. переменная
N
принимает только положительные
целочисленные значения. Важным свойством распределения Пуассона является то, что оно определяется одним параметром N , который по
величине совпадает с дисперсией этого распределения: N = D N . Такое равенство возможно в силу того, что величина N является безразмерной. В том случае, когда среднее число образцов превышает значение N ≈ 10 распределение (6.1) является нормальным со стандартом σ = N
(см.
Приложение). Следовательно, отобрав в процессе измерения проницаемостей
N образцов, можно утверждать, что со стандартной вероятностью 0,68 (см. Приложение) в пределах величина принимают
N
N ± N лежит математическое ожидание. Правда,
неизвестна. Поэтому за стандарт измеряемой величины N:
σ= N Таким
образом,
по
одному
измерению
(6.2) статистической
величины
определяется и экспериментальная средняя величина N и ее стандарт
N.
Как правило, рисуя гистограмму, аналогичную рис.1, многие авторы указывают статистические ошибки для каждой из колонок в виде вертикальной палочки, середина которой совпадает с вершиной колонки N , а ее длина совпадает с интервалом N ± N . Было бы целесообразно привести эти ошибки на рис. 1, но команда hist системы MATLAB 5.2.1 не располагает соответствующей функцией. Данные табл. 1 по распределению пород по их проницаемостям с указанием статистических ошибок приводится на рис.4, которая построена с помощью команды errorbar. По существу здесь мы имеем то же распределение, что и на рис.1. Просто это другой способ иллюстрации данных с помощью кусочно-гладкой кривой, т. е. отрезков, соединяющих середины вершин колонок на рис.1. Первая точка на рис.4 соответствует первой строчке табл. 1. Отсюда видно, в первый интервал ( 0 ≤ k ≤ 0,2 ) попало N1 = 4 образцов горных пород из общего числа N 0 = 1000 . Если мы проведем повторные измерения проницаемостей другой совокупности такого же количества пород, то для
них мы получим значение N1 , с вероятностью 68% попадающий в интервал N1 ± N1 = 4 ± 2 .
Аналогично
определены
стандартные
ошибки
для
остальных девяти точек на рис.4. Рассмотрим теперь другой способ представления данных табл. 1. На рис.4 приводится зависимость абсолютного числа горных пород в зависимости от их проницаемости. Но это не единственная форма представления этих данных. Часто для
графической иллюстрации
называемую нормировку
данных делают так
на общее число испытаний, т.е. значения N i
делятся на N 0 = 1000 . Значения
pi =
Ni , полученные таким образом, N0
приводятся в четвертой колонке табл. 1. Это удобный способ представления данных, т. к. он показывает относительную долю образцов, проницаемости которых лежат в данном интервале проницаемостей. В этом случае требуется определить стандартную ошибку частного pi =
Ni , которая, как видно, есть N0
отношение случайной величины N i к общему числу испытуемых пород N 0 . Проблема вычисления погрешности Δpi этого частного является сложной задачей,
несмотря на кажущуюся ее простоту. Мы рассмотрим два
достаточно условных частных случая: 1. Число N 0 = const , т. е. не является случайной величиной. Тогда оно входит в формулу ⎛ N ⎞ ΔN i Δpi = Δ⎜⎜ i ⎟⎟ = ⎝ N0 ⎠ N0
как постоянный делитель, т.е. pi ± Δpi =
Ni Ni ± , где ΔN i = N0 N0
(6.3) N i . Для
первой строчки табл. 1 имеем
p1 ± Δp1 = 0,004 ± 0,002 .
(6.4)
2. Случайное число N 0 распределено по закону Пуассона, и отбирается из некоторой массы пород. Тогда среднее число пород определяется с погрешностью
N 0 . В этом случае знаменатель (6.4) не является
постоянной и для вычисления
Δpi
пользуются так называемой
теоремой сложения дисперсий, согласно которой, наложение двух случайно распределенных величин X и Y дает третье с распределение случайной величины Z, дисперсия которой есть DZ = D X + DY + 2 K X Y . Величина K XY называется коэффициентом корреляции. Если являются независимыми, то
K XY
(6.5) X и Y
равен нулю. Предположим, что
случайные числа N i и N 0 независимы. Тогда для дисперсии p i имеем D pi = D N i + D N 0 . Аналогичное равенство можно записать и для квадратов
относительных дисперсий:
δ p 2 = δN 2 +δN 2, i
где
⎛ Δp ⎞
δ p = ⎜⎜ i ⎟⎟ , ⎝ pi ⎠ i
ΔN i = N i ,
i
(6.6)
0
⎛ ΔN ⎞
⎛ ΔN ⎞
δ N = ⎜⎜ i ⎟⎟ , δ N = ⎜⎜ 0 ⎟⎟ , ⎝ Ni ⎠ ⎝ N0 ⎠ i
0
ΔN 0 = N 0 ,
pi =
Ni . No
(6.7) (6.8)
Подставляя (6.6) и (6.7) в (6.5) получим формулу для погрешности частного Δpi =
Ni N0
1 1 + . Ni N0
Применяя (6.9) для первой строчки табл. 1 получим:
Δp1 =
4 1 1 1 + ≈ 0,004 ⋅ = 0,002 . 1000 4 1000 2
(6.9)
Мы получили значение Δp1 , приближенно совпадающее с (6.4). Как видно из (6.9), такое совпадение возможно только для значений N i , много меньших чем N 0 . Пример 6.1.
Программа построения рис.4. x=0.1:0.2:1.9 y1=[.004 .126 .23 .26 .13 .12 .05 .03 .03 .02] e=sqrt(1000*y1) errorbar(x,1000*y1,e) xlabel('Проницаемость, мкм^2') ylabel('Число образцов') title('Рис.5. Экспериментальные данные с указанием статистических ошибок','FontSize',14) hgt=gtext('=0.783 мкм^2') hgt=gtext('D=0.144 мкм^4') 7. Аппроксимация данных по распределению коэффициента проницаемостей
горных
пород
логнормальным
распределением
Для совокупности опытных данных, аналогичных приведенным в табл. 1, можно подобрать аппроксимационные функции, которые позволяют описывать полученные данные. В литературе часто наряду с термином аппроксимация (от франц. approximation – аппроксимация, приближение) используются такие его синонимы, как интерполяция и фитирование. Очевидно, что выбор аппроксимационной формулы зависит от формы распределений анализируемых данных. При этом исследователи, как правило, пытаются описывать свои данные стандартными, хорошо изученными в курсах математической статистики, распределениями. В тех случаях, когда это не удается, проводится аппроксимация данных полиномами различных степеней, или другими формулами, которые подбираются из тех или иных соображений. В нашем случае, в качестве аппроксимационной
зависимости,
описывающей
данные,
проиллюстрированные на рис. 1 и рис. 4, авторы работы [1] выбрали
логнормальное
распределение.
Здесь
отметим,
что
выбор
этого
распределения не случаен, и исторически восходит к работе А.Н. Колмогорова [3]. В ней
впервые была указана общая математическая
схема, в рамках которой распределения логарифмов размеров частиц (золотин в золотоносных россыпях, частиц горных пород при их дроблении) подчиняются приближенно
закону Гаусса.
Функция
плотности вероятностей этого распределения задается в системе MATLAB командой lognpdf и имеет вид ⎛ (ln x − m )2 exp⎜⎜ − L( x) = 2σ 2 xσ 2π ⎝ 1
⎞ ⎟, ⎟ ⎠
(7.1)
где x > 0 , а ее математическое ожидание и дисперсия определяются по формулам
⎛σ 2 ⎞ m = exp⎜⎜ + m ⎟⎟ , ⎝ 2 ⎠
D = eσ
и
2
+2m
(7.2)
(e
σ2
)
−1 .
(7.3)
Для функции L( x ) выполняется условие нормировки: ∞
∫ L(x )dx = 1 . 0
Поэтому,
для
сравнения
функции
L (x )
с
экспериментальным
распределением на рис. 4 нужно помножить L (x ) на N 0 . Такое сравнение делается рис. 5. Параметры m и σ распределения (7.1) можно выразить через m и D , решая совместно (7.2) и (7.3): ⎛ m2 ⎞ ⎟, m = ln⎜⎜ ⎟ 2 ⎝ m +D⎠ ⎛ ⎝
σ = ln⎜1 +
D ⎞ ⎟. m2 ⎠
(7.4) (7.5)
Заменим в формулах (7.4) и (7.5) математическое ожидание m
и
2 дисперсию D экспериментальным средним < k >= 0,783 мкм (см. (2.2)) и
~ экспериментальной дисперсией D = 0,144 мкм 4 (см.(2.5)) соответственно, и
подставим полученные значения параметров m и σ в (7.1): ⎛ ⎞ 0,7832 ⎟ ≈ −0,350 , m = ln⎜ ⎜ 0,7832 + 0,144 ⎟ ⎝ ⎠
⎛
0,144 ⎞
⎝
⎠
σ = ln⎜⎜1 + ⎟ ≈ 0,459 . 0,783 2 ⎟
Таким образом, мы получим распределение (7.1), которая имеет те же значения средней проницаемости и дисперсии, которые получаются из распределений опытных данных на рис.1 и рис. 4. Следовательно, мы можем, отождествляя в (7.1) переменную x с проницаемостью k , наложить аппроксимационное распределение (7.1) на один из этих рисунков. К сожалению, команда errorbar системы MATLAB, по которой нарисован рис.4 не допускает построение двух кривых на одном рисунке, а другая команда plot, которая имеет такую возможность, не рисует статистические ошибки на экспериментальных точках. На рис.5 делается сравнение экспериментальной и аппроксимационной распределений по проницаемостям горных пород. Их визуальное сравнение позволяет сделать вывод об их достаточно удовлетворительном согласии. Такой же вывод о справедливости применения логнормального распределения для описания данных табл. 1 делается в монографии [1]. Правда в ней сравниваются не сами исходные распределения, а рассматривается диаграмма квантилей этих распределений. Очевидно, что наш вывод о согласии данных на рис.5, так же как и вывод авторов [1] является качественным, т. к. не понятно, какие количественные характеристики являются критерием степени согласия сравниваемых распределений. Для получения таких характеристик часто пользуются различными критериями согласия, наиболее популярным из которых является критерий Пирсона 2 или критерий χ (хи-квадрат).
Пример 7.1. for i=1:4, x(i)=0.1;end for i=5:130, x(i)=0.3;end for i=131:360, x(i)=0.5;end
for for for for for for for
i=361:620, x(i)=0.7;end i=621:750, x(i)=0.9;end i=751:870, x(i)=1.1;end i=871:920, x(i)=1.3;end i=921:950, x(i)=1.5;end i=951:980, x(i)=1.7;end i=981:1000, x(i)=1.9;end
%Вычисление среднего и дисперсии mx=mean(x) v=var(x) %Построение графика логнормального распределения и опытного распределения проницаемостей. x=0.1:0.2:1.9 y1=[.004 .126 .23 .26 .13 .12 .05 .03 .03 .02] m2=mx^2 m1=log(m2/(m2+v)^.5) s1=sqrt(log((v+m2)/m2)) f=lognpdf(x,m1,s1)*.2*1000. f1000=f/1000. plot(x,f,x,1000*y1),grid xlabel('Проницаемость, мкм^2','FontSize',12) ylabel('Число образцов','FontSize',12) %ylabel('lg (Число образцов'),'FontSize',12) title('Рис.5. Аппроксимация данных логнормальным распределением','FontSize',14) hgt=gtext('Эксперимент') hgt=gtext('Логнормальное распеределение')
8. Сравнение распределения проницаемостей горных пород с 2 логнормальным распределением по критерию χ
При анализе случайных величин, которые описываются нормальным распределением, мы можем соприкоснуться с другими распределениями. В первую очередь это распределение Стьюдента, рассмотренное в п.4, и распределение
χ 2 , которая лежит в основе критерия
χ2.
χ2-
распределение с r степенями свободы определяется распределением квадратов r
независимых случайных величин, каждая из которых
подчинена нормальному закону с математическим ожиданием, равным
нулю, и дисперсией, равной единице. Функция плотности вероятности этого распределения имеет вид Pχ 2 (u , r ) =
∞
1 r 2
⎛r⎞ 2 Γ⎜ ⎟ ⎝2⎠
u
r u −1 − 2 2
e
,
(8.1)
r
−1 ⎛r⎞ −x где u > 0 , Γ⎜ ⎟ = ∫ x 2 e dx - гамма-функция, r = n − 2 . ⎝2⎠ 0
Математическое ожидание и дисперсия этого распределения равны r и 2r соответственно. Для того чтобы сравнить опытное распределение по проницаемостям пород на рис. 5 с логнормальным распределением введем величину U , которая характеризует их относительное отклонение в каждой из десяти точек: 10
(N i − N 0 Li )2
i =1
N 0 Li
U ≡χ =∑ 2
,
(8.2)
где N i - значения ординат экспериментального распределения на рис. 4, приведенные в третьей колонке табл. 3; N 0 = 1000 - общее число исследованных
горных
пород;
Li
-
плотности
вероятностей
логнормального распределения (7.1), отвечающие значениям аргумента x , отождествляемого с проницаемостью пород k . Отметим, что число степеней свободы r в (8.1) определяется, по аналогии с распределением Стьюдента, через число экспериментальных точек n (или колонок, если это гистограмма). –2 в определении r в (8.1) означает, что подставляя в (8.2) экспериментальную среднюю и дисперсию мы уже накладываем на исходные данные два условия связи, и число независимых данных есть r = n − 2 . 2 Из тождественной замены величины U на χ в (8.2) следует, что
правая
часть
(8.2)
является
случайным
распределению (8.1). Очевидно, что величина
числом,
подчиняющимся
N i − N 0 Li в формуле (8.2)
и
является
искомой
мерой
отклонения
экспериментального распределений, но эта
теоретического
и
величина может принимать
как положительные, так и отрицательные значения, которые при суммировании компенсируются отчасти и уже не отражают общую несогласованность сравниваемых распределений. Поэтому эта разность возводится в квадрат. Величина Li умножается на N 0 потому, что она как плотность вероятности, принимает значения 0 ≤ Li ≤ 1 . Следовательно, произведение N 0 Li дает теоретическое значение числа горных пород, проницаемости которых лежат в i - том интервале (см. табл. 1). Величина N 0 Li вводится в знаменатель правой части (8.2) для того, чтобы величина
χ 2 не получалась слишком маленькой или слишком большой, а была нормирована на величину, которая отражала бы реальный масштаб 2 величин, которыми мы оперируем. По существу, χ определяется как
сумма относительных дисперсий во всех точках. В силу громоздкости вычислений мы не будем прослеживать все этапы 2 вычисления χ по формуле (8.2), а приведем конечное выражение лишь
U1
для первой точки: приводятся значения U i =
(4 − 10 =
⋅ 2,109 ⋅ 10 −4 10 3 ⋅ 2,109 ⋅ 10 − 4
(N i − N 0 Li )2 N 0 Li
3
)
2
≈ 68,09 . В табл. 3
для каждой из десяти точек табл. 1.
Таблица 3 i
Ui
1 68,09
2
3
4
5
5,07 4,08
0,59
8,33
6
7
4,61 0,45
Просуммируем эти данные по всем ячейкам:
8 0
9
10
11,51 13,79
10
χ = ∑ U i = 68,09 + 5,071 + 4,077 + 0,594 + 8,333 + 4,607 + 0,451 + 0 + 2
i =1
+ 11,51 + 13,79 ≈ 116 ,51 .
(8.3)
2 Мы получили величину χ = 116,51 , которая характеризует степень
отклонения экспериментального и теоретического распределений, но сама по себе еще ни о чем не говорит. Очевидно, что чем она больше, тем больше
расхождение
между
сравниваемыми
распределениями.
Но
достаточно ли она мала, чтобы принять утверждение о совпадении распределений? Такое утверждение можно сделать на языке вероятностей. 2 Вычислим на основе формулы (8.1) такую критическую величину χ кр ,
вероятность превышения которой составляет всего 0,1%: χ 2 кр
0,001 = 1 −
∫ Pχ (u, r )du ,
(8.4)
2
0
где r = 10 − 2 = 8 . Такое вычисление легко проделать с использованием команды chi2cdf системы MATLAB. Полученное критическое значение составляет
χ 2 кр = 26,124 .
(8.5)
2 Из сравнение (8.3) и (8.5) следует, что величина χ = 116,51 существенно
превышает критическую величину, и мы не можем утверждать, что распределение
числа
образцов
горных
пород
по
проницаемости
описывается логнормальным распределением. Соответствующая величине
χ 2 = 116,51 значение вероятности настолько мала, что команда chi2cdf выдает
нулевую
вероятность.
Отметим,
что
для
χ 2 кр = 80
соответствующая вероятность составляет всего 5 ⋅ 10 −12 % . Если проанализировать вклад каждой из десяти точек на рис. 5 (точки 2 соединения отрезков) в величину χ = 116,51 , то из (8.3) видно, что
существенный вклад в нее вносит
первая точка. На первый взгляд это
достаточно странно, т.к. из рис. 5 следует достаточно удовлетворительное
согласие эксперимента с аппроксимационной функцией в первой точке (самое начало распределений). Здесь следует отметить следующую особенность представления данных на этом рисунке. Они представлены в линейном масштабе и в силу малости их абсолютной разности они кажутся совпадающими: 4 − 0,211 = 3,789 . Если представить те же данные в полулогарифмическом масштабе (см. рис. 6), то мы увидим сравнительно большую относительную разницу данных в первой точке. Это значит, что 2 в критерии χ на степень согласия данных влияют их относительные
отклонения друг от друга, что также следует из формулы (8.2). 2 Говоря об удобстве использования критерия χ , хотелось бы отметить
одну ее особенность. Для вычисления искомых вероятностей она предполагает наличие специальных таблиц, которые с разной степенью полноты приводятся в учебниках или специальных справочниках. Или же, как
в
нашем
случае,
нужно
иметь
ЭВМ
с
соответствующим
математическим обеспечением. В тех случаях, когда мы не обладаем 2 такими возможностями, но знаем значение χ и число степеней свободы
r,
критерием
хорошего
приближенное равенство
согласия
распределений
χ 2 ≈ r . Если же
может
служить
χ 2 > r следует, полином (11.2) не описывает удовлетворительно экспериментальное распределение. Рассмотрим теперь полином более высокого порядка, а именно n = 7 . В этом случае имеем
P7 ( x) = −4,443 ⋅ 10 3 x 7 + 1,098 ⋅ 10 4 x 6 − 3,406 ⋅ 10 4 x 5 + 5,479 ⋅ 10 4 x 4 −
− 4,761 ⋅ 10 4 x 3 + 2,058 ⋅ 10 4 x 2 − 3,276 ⋅ 10 3 x + 168,78 .
(11.3)
На рис. 9 делается сравнение полинома (11.3) с экспериментальным распределением проницаемостей горных пород. Визуальная оценка степени согласия расчетной и экспериментальной кривых на рисунках 8 и 9
показывает,
что
последняя
выглядит
более
предпочтительно.
2 Количественный анализ согласия данных на рис. 9 по критерию χ дает 2 величину χ ≈ 15,8 . Соответствующая вероятность правдоподобности
гипотезы описания экспериментального распределения полиномом (11.3) вычисляется аналогично (10.5): χ2
1 − ∫ Pχ 2 (u , r )du ≈ 0,045 ,
(11.4)
0
где r = 8 - число степеней свободы. Таким образом, мы получили, что гипотеза о совпадении данных таблицы 1 с полиномом (11.3) выполняется с вероятностью ≈ 4,5% . Это достаточно хорошее совпадение, по крайней мере, если сравнивать с
соответствующими оценками для логнормального и гамма-распределений, которые получены в пп. 8 и 10. Мы привели результаты аппроксимации данных полиномами третьей и восьмой степени. Анализ полиномов с другими степенями показывает, что с ростом n , имеется тенденция к лучшему описанию опыта полиномом. Такое утверждение следует из
таблицы 7, где приведены результаты
2 сравнения по критерию χ , полученные для различных показателей n . 2 Однако, из таблицы 7 следует, что величины χ падают не монотонно с 2 ростом n . Например, из сравнения величин χ для n = 2 и n = 3 следует,
что полином меньшей степени как бы лучше согласуется с опытом, хотя из сравнения
χ 2 с числом степеней свободы r = 8 следует, что оба
полинома обладают низкую степень согласия с экспериментальной кривой.
Хотелось
бы
также
указать
на
отрицательное
значение
χ 2 = −127,1 , полученное для n = 5 , чего на самом деле быть не должно, т.к. при этом всякая вероятностная интерпретация данного теста теряет смысл. Как выяснилось, такая ситуация связана с тем, что полином P5 ( x) принимает в одной из десяти фитируемых точек отрицательное значение, малое по абсолютной величине. По-видимому, это связано с тем, что команда polyfit возвращает приближенные результаты, так же, как и любая компьютерная программа. Из таблицы 7 также следует, что в случае n ≥ 9 полиномы практически сливаются с экспериментальным распределением, и их не возможно различить на графике (см. рис. 10). Таблица 7 n
1
2
3
4
5
χ2
455,4
178,9
400,5
21,1
-127,1
n
6
7
8
9
10
χ2
22,3
15,8
20,2
1,87 ⋅ 10 −15
4,47 ⋅ 10 −17
Аппроксимация
данных
полиномами,
или
как
иначе
говорят,
полиномальная интерполяция является глобальной задачей. Это значит, что одна полиномальная функция должна проходить через все заданные точки на графике. Если количество точек сравнительно мало, то такой метод достаточно эффективен, но с увеличением числа точек возникает необходимость введения полиномов более высоких степеней. Из таблицы 7 следует, что начиная примерно с n = 4 и выше, полиномы начинают повторять форму экспериментальной кривой. Причем с ростом n , вплоть до n = 8 ,
степень согласия распределений существенно не меняется.
Вообще говоря, специалисты по численному анализу предостерегают от идеи
использования
интерполянтов
степени
выше
4
или
5.
Альтернативным методом аппроксимации экспериментальных данных является метод так называемых сплайн функций. Пример 11.1
Интерполяция данных полиномом третьей степени. x=0.1:0.2:1.9 y1=1000*[.004 .126 .23 .26 .13 .12 .05 .03 .03 .02] d=polyfit(x,y1,3) f=polyval(d,x) plot(x,f,x,y1) title('Рис.8. Аппроксимация данных полиномом степени n','FontSize',14) xlabel('Проницаемость, мкм^2','FontSize',12) ylabel('Число образцов','FontSize',12) hgt=gtext('Эксперимент') hgt=gtext('Полином степени n=4') 12. Интерполяция кубическим сплайном данных по распределению коэффициента проницаемостей горных пород
Введение сплайнов в методику анализа экспериментальных данных явилось
развитием
так
называемого
метода
кусочно-линейной
интерполяции данных. Название этого метода удачно настолько, что поясняет суть метода: данные интерполируются отрезками, которые соединят между собой исходные точки. Иллюстрацией кусочно-линейной
интерполяции
является,
например,
рис.
4,
на
которой
десять
экспериментальных точек соединены между собой отрезками прямой. В результате получается ломаная линия, производная которой терпит разрыв в точках излома, или, как их иначе называют, в узлах. Следующий шаг в развитии методики кусочно-линейной интерполяции состоит во введении кусочно-кубических интерполянтов, т. е. экспериментальные точки соединяются не отрезками, а полиномами третьей степени. Кубическим сплайном
называется
непрерывными
кусочно-кубический
производными.
Под
интерполянт
термином
сплайн
с в
двумя научной
литературе подразумевается, как правило, кубический сплайн, если это не оговаривается. На практике встречаются сплайны как низких, так и более высоких степеней. Система MATLAB позволяет интерполировать данные, которые задаются в виде численного массива данных кубическим сплайном. Это делается с помощью команды spline. На рис. 11 приводится результат интерполяции данных таблицы 1 по этой команде. Команда сплайн выдает только графическую иллюстрацию и не позволяет получить коэффициенты в аппроксимационной функции, которую можно было бы использовать в дальнейшем. Но система MATLAB располагает такими возможностями. В частности коэффициенты можно получить с помощью вспомогательной функции unmkpp. В рассматриваемом нами случае число интерполируемых точек равно десяти, и они соединяются девятью полиномами третьей степени. Для каждого из них нужно вычислить три коэффициента (без свободного члена). Таким образом, для аналитического описания сплайна на рис. 11 требуется 27 коэффициентов, которые мы не приводим. Пример 11.1 x=[0.1 .3 .5 .7 .9 1.1 1.3 1.5 1.7 1.9] y=[.004 .126 .23 .26 .13 .12 .05 .03 .03 .02] xi=0.1:.001:1.9; f=1000.*spline(x,y,xi); plot(x,1000*y,'o',xi,f,'g'),grid title('Рис.9. Интерполирование данных кубическим
сплайном','FontSize',14) xlabel('Проницаемость, мкм^2','FontSize',12) ylabel('Число образцов','FontSize',12)
Комментарий: Параметр xi задает количество точек, через которые проводится интерполяционная функция. 13. Метод Монте-Карло
Математическая статистика рассматривает обобщенные алгоритмы, позволяющие
количественно
прогнозировать
динамический
исход
различных математических моделей. При этом, как правило, оперируют моментами
соответствующих
статистических
распределений.
Такие
методы являются аналитическими. В отличие от аналитических методов прогнозирования
исходов
различных
процессов,
существует
статистический метод, несколько приближенный к реальности. Он позволяет получать не только моменты соответствующих распределений, но и воспроизводить искомые
распределения. Этот метод называется
методом Монте-Карло и по существу является одним из самых мощных статистических методов исследования флуктуаций случайной величины. В ее
основе
лежит
компьютерная
программа,
которая
называется
генератором случайного числа. При обращении к ней она выдает одно значение случайного числа ξ , распределенного равномерно в интервале
ξ = [0;1] . Для того, чтобы связать это число с исследуемым параметром x нужно знать закон распределения f (x) . Если f (x) задана, то можно записать следующее равенство: x
∫ f ( x)dx
0 ∞
∫ f ( x)dx 0
=ξ
.
(13.1)
Обозначим определенный интеграл в знаменателе
(13.1) через
∞
константу C = ∫ f ( x)dx , которая называется нормировочной константой. 0
Тогда, вводя функцию F ( x) =
f ( x) перепишем (13.1) в виде C
x
∫ F ( x)dx = ξ
.
(13.2)
0
Функция F (x) является нормированной, т. е. для нее выполняется условие нормировки ∞
∫ F ( x)dx = 1 . 0
Из 13.2 следует, что случайное число ξ равна величине площади под нормированным распределением F (x) . Величина x , получаемое из 13.2 и есть искомое случайное значение этого параметра. Описанный способ моделирования лежит в основе метода МонтеКарло. Разумеется, мы описали самый простой вариант розыгрыша случайного числа. В настоящее время существуют разные модификации этого метода. Например, достаточно популярен метод, в котором случайное число ξ
описывается одним из известных непрерывных
статистических распределений, скажем, нормальным распределением. Математическая
система
MATLAB
содержит
комплект
команд,
позволяющих для конкретного распределения получать заданное число случайных величин. Пример 13.1
Формула
(7.1)
описывает
функцию
плотности
вероятностей
логнормального распределения. Параметры m и σ этого распределения, полученные по данным таблицы 1, равны m = −0,350 и σ = 0,459 . Обращение к команде k = lognrnd(-0.35, 0.459)
возвращает значение k=0,763501. При двух последующих обращениях получены значения k = 0,646812 и k = 0,983279. Из их сравнения
со
2 средней проницаемостью < k >= 0,783 мкм (см. (2.2)) следует, что
полученные значения k концентрируются в окрестности наиболее вероятного значения проницаемости. Отметим, что при повторном трехкратном обращении к этой команде мы получим значения k, отличные от приведенных.
ПРИЛОЖЕНИЕ
В этом разделе обсуждаются основные свойства распределения Пуассона и нормального распределения (его часто называют также распределением Гаусса). Эти распределения имеют общее происхождение, хотя применяются для анализа явлений, которые могут отличаться принципиально: -
Распределение Пуассона – для описания распределения дискретных
(целочисленных) величин. Примером дискретной величины является, например, число скважин в одном кусте. Может оказаться, что такое распределение по такому числу скважин для конкретного месторождения будет описываться распределением Пуассона. -
Распределение Гаусса – для
Примером
непрерывной
величины
описания является,
непрерывных величин. например,
коэффициент
проницаемости пористой среды, распределение которой, как следует из анализа данных таблицы 1, не описывается распределением Гаусса. В
основе
этих
двух
распределений
лежит
следующий
закон
распределения результатов опыта. Биномиальное распределение
Пусть производится n независимых испытаний, в каждом из которых событие A может появиться, либо не появиться. Вероятность наступления события во всех испытаниях постоянна и равна
p (следовательно,
вероятность не появления
q = 1 − p ). Рассмотрим в качестве случайной
дискретной величины X число появлений события
A в этих испытаниях.
Найдем закон распределения величины X . В n испытаниях, событие A
n раз.
может либо не появиться, появиться 1 раз, либо 2 раза, …, либо
Вероятности таких исходов вычисляются с помощью т. н. Формулы Бернулли:
P(n, k ) = C nk p k (1 − p ) n − k , k где C n =
(П 1.1)
n! - число сочетаний из n элементов по k элементов. k!(n − k )!
Распределение вероятностей, определяемой формулой Бернулли называют биномиальным ожидания
и
D = np (1 − p ) .
распределением. дисперсии Для
Приведем
биномиального
иллюстрации
на
значения
математического
распределения:
рис.12
приводится
m = np , пример
биномиального распределения для значений p = 0,2 и n = 300 . В данном случае видно, что степень информативности графика сильно подавлена для значений m ≥ 14 . Поэтому целесообразно такие данные представлять в полулогарифмическом масштабе (см. рис.13, логарифм - натуральный). Данные на рис.12, 13 получены с помощью команды binopdf . Пример П.1
Программа построения рис.12. x=0:1:19 y=binopdf([0:19],300,0.02) plot(x,y,'b+'),grid xlabel('Число успешных исходов','FontSize',12) ylabel('Вероятность','FontSize',12) title('Рис. . Биномиальное распределение','FontSize',14) hgt=gtext('p=0,02') hgt=gtext('n=300') Пример П.2
Программа построения рис.13. x=0:1:19
y=binopdf([0:19],300,0.02) plot(x,log(y),'b+'),grid xlabel('Число успешных исходов','FontSize',12) ylabel('Логарифм вероятности','FontSize',12) title('Рис. . Биномиальное распределение','FontSize',14) hgt=gtext('p=0,02') hgt=gtext('n=300')
Распределение Пуассона
Распределение распределения
Пуассона
Бернулли.
является
Покажем
предельным
это.
Пусть
случаем
производится
n
независимых исследований образцов с целью измерения коэффициента проницаемости. Обозначим через m число образцов, проницаемости которых лежат в заданном интервале Δk проницаемостей. Если выбрать этот интервал бесконечно узким, то для отбора конечного числа образцов, нужно исследовать бесконечное число образцов. Вероятность отбора m образцов из n обозначим через p =
m . Далее сделаем предположение, что n
среднее число отборов нужного образца остается неизменным для различных
значений n . Это означает, что произведение n ⋅ p = λ
сохраняет постоянное значение. Воспользуемся формулой Бернулли для вычисления интересующей нас вероятности:
P(n, m ) =
n(n − 1)(n − 2)...(n − (m − 1)) m n −m p (1 − p ) = m!
n(n − 1)(n − 2)...(n − (m − 1)) ⎛ λ ⎞ ⎛ λ ⎞ = ⎜ ⎟ ⎜1 − ⎟ m! ⎝n⎠ ⎝ n⎠ m
n−m
.
Далее вычислим предел n(n − 1)(n − 2 )...(n − (m − 1)) ⎛ λ ⎞ ⎛ λ ⎞ Π (m ) = lim P(n, m ) = ⎜ ⎟ ⎜1 − ⎟ m! ⎝n⎠ ⎝ n⎠ n →∞ m
⎡ ⎛ 1 ⎞⎛ 2 ⎞ ⎛ m − 1 ⎞⎛ λ ⎞ n − m ⎤ = ⋅ ⎟⎜1 − ⎟ ⎥ = ⎢1 ⋅ ⎜1 − ⎟⎜1 − ⎟...⎜1 − m! lim n n n ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎝ n ⎠ ⎥⎦ n →∞ ⎢ ⎣
λm
n−m
=
n
λm
⎛ λ⎞ ⎛ λ⎞ = ⎜1 − ⎟ ⋅ lim ⎜1 − ⎟ lim m! n→∞ ⎝ n ⎠ n→∞ ⎝ n ⎠
−m
=
λm m!
⋅ e −λ ⋅ 1 .
Мы получили распределение Пуассона
Π (λ , m ) =
λm e − λ m!
.
(П.1.2)
Полученная формула позволяет вычислить вероятность получения m образцов
горных пород,
проницаемости которых попадают в узкий
интервал Δk , если среднее число m таких образцов равно λ . В силу сделанных при получении этого распределения предположений, его часто называют законом редких событий. На рис.14 приводится распределение Пуассона для двух значений m , полученное с помощью команды poisspdf. Пример П.3 x=0:20 y1=poisspdf([0:20],2.5) y2=poisspdf([0:20],7.5) plot(x,y1,'b+',x,y2,'b*'),grid xlabel('Число успешных исходов','FontSize',12) ylabel('Вероятность','FontSize',12) title('Рис. . Распределение Пуассона','FontSize',14) hgt=gtext('+ - <m>=2,5') hgt=gtext('* - <m>=7,5') Нормальное распределение
Нормальное распределение является непрерывным распределением и, в частности, получается из распределения Пуассона при больших значениях
m . В этом случае дискретные величины можно рассматривать как непрерывный набор чисел. Для перехода от распределения Пуассона к нормальному распределению
воспользуемся формулой Стирлинга,
позволяющей вычислять факториалы больших чисел:
m!= 2πm ⋅m m e − m (1 +
1 1 1 + + + ...) . 12m 288m 2 51840m 3
( П.1.3)
Для m > 10 можно использовать первый член этой формулы, а вкладом остальных членов пренебречь. Так
в случае m = 10 относительная
погрешность вычислений составляет около 0,8%. Заменим в (П.1.2) m! по формуле Стирлинга (П.1.3): p ( m) ≈
m
⎛ λ ⎞ m −λ ⎜ ⎟ e . 2πm ⎝ m ⎠ 1
(П.1.4)
Из приведенных выше рассуждений относительно формулы Стирлинга следует,
что
распределение
Пуассона
становится
симметричным
примерно при m ≥ 10 . Тогда случайные значения m , которые следуют из этого распределения концентрируются с большей вероятностью в окрестности средней величины λ . С ростом λ относительная ширина области значений m сужается, и при больших λ имеет место соотношение m−λ
λ