ГОСУДАРСТВЕННЫЙ КОМИТЕТ РОССИЙСКОЙ ФЕДЕРАЦИИ ПО ВЫСШЕМУ ОБРАЗОВАНИЮ
САМАРСКИЙ ГОСУДАРСТВЕННЫЙ АЭРОКОСМИЧЕСКИЙ УНИВЕРСИТ...
74 downloads
137 Views
473KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
ГОСУДАРСТВЕННЫЙ КОМИТЕТ РОССИЙСКОЙ ФЕДЕРАЦИИ ПО ВЫСШЕМУ ОБРАЗОВАНИЮ
САМАРСКИЙ ГОСУДАРСТВЕННЫЙ АЭРОКОСМИЧЕСКИЙ УНИВЕРСИТЕТ имени академика С.П.КОРОЛЕВА
А.Ф.ТАРАСКИН
СТАТИСТИЧЕСКИЙ АНАЛИЗ ВРЕМЕННЫХ РЯДОВ АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО УЧЕБНОЕ ПОСОБИЕ
САМАРА 1998 УДК 519.2 (075)
Статистический анализ временных рядов авторегрессии и скользящего среднего: Учебное пособие / А.Ф.Тараскин; Самар. гос. аэрокосм. ун-т. Самара, 1998. 64 с. ISBN 5-230-16 956-7 Кратко излагаются основные факты теории случайных временных рядов авторегрессии и скользящего среднего. Рассматривается статистические задачи для процессов при условии их стационарности. Предназначено для студентов специальности «Прикладная математика» при изучении курса «Случайные процессы» и при выполнению курсовой работы по этому курсу. Подготовлено на кафедре «Техническая кибернетика». Ил.2 Библиогр.: 7 назв. Табл 1.
Печатается по решению редакционно-издательского совета Самарского государственного аэрокосмического университета имени академика С.П.Королева Рецензенты: А.И.Жданов, В.М.Климкин
ISBN 5-230-16 956-7
© Тараскин А.Ф., 1998 © Самарский государственный аэрокосмический университет, 1998
ОГЛАВЛЕНИЕ 1. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ ........................................................ 4 1.1.Основные понятия и терминология ............................................ 4 1.2.Элементы теории стационарных случайных процессов........... 5 2. ПРОЦЕССЫ АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО..... 7 2.1.Значение процессов авторегрессии и скользящего среднего........................................................................ 7 2.2.Случайные последовательности авторегрессии ........................ 7 2.3.Случайные последовательности скользящего среднего......... 13 2.4.Смешанная модель авторегрессии скользящего среднего......................................................................... 16 3. СТАТИСТИЧЕСКИЕ ВЫВОДЫ ПО НАБЛЮДЕНИЯМ СЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ........................................ 20 3.1.Общая характеристика задач статистики и случайных процессов ...................................................................... 20 3.2.Оценка среднего значения и корреляционной модели ........... 21 3.3.Оценивание параметров модели методом моментов .............. 28 3.4.Оценивание параметров модели методом максимального правдоподобия.......................................... 32 Библиографический список ............................................................................... 48 Приложения ..................................................................................................... 49
1. ПРЕДВАРИТЕЛЬНЫЕ СВЕДЕНИЯ 1.1. Основные понятия и терминология При исследовании реальных устройств, функционирующих в условиях случайных возмущений, экспериментатор может наблюдать и фиксировать реализации случайных процессов, связанных с работой устройства. При этом статистические закономерности процессов и параметры исследуемого устройства частично или полностью оказываются априори неизвестными. Поскольку получение точных значений интересующих характеристик и параметров, как правило, бывает невозможным, приходится оценивать из на основе обработки экспериментальных данных с учетом априорной информации, указывающей, например, класс к которому принадлежит исследуемый процесс. Для широкого класса устройств модель функционирования может быть представлена как реакция на входные возмущения и начальное состояние. Модель, описывающую работу устройств как преобразование входных возмущений и начального состояния в выходную реакцию, называют системой. Для математического описания системы удобно использовать принятую терминологию: так, входные возмущения и начальное состояние называют входным сигналом, реакцию системы выходным сигналом. Входные и выходные сигналы в общем случае являются элементами произвольных пространств. Например, для механических устройств входными сигналами могут быть силы и моменты, а выходными - перемещения, скорости и ускорения. Для радиотехнических и электронных систем входными сигналами являются электромагнитные поля, токи и напряжения, а выходными - сигналы той же природы или звуковые сигналы, а возможно и телевизионные изображения. Для организационных систем в качестве входных сигналов можно рассматривать проблемы, а качестве выходных - решения проблем. Обозначая входной сигнал через X, а выходной - через Y, можно схематически изобразить систему (рис.1). Мы будем рассматривать стационарные (установившиеся) режимы функционирования систем, а это означает, что входной и
X
Y Θ Рис. 1.
выходной процессы являются стационарными в широком смысле. Кроме этого, предположим, что X и Y, являются процессами с целочисленным временем: X t , Yt , t = 0,±1,±2,... Такие процессы чаше называются случайными последовательностями (с.п.) или временными рядами. 1.2. Элементы теории стационарных случайных процессов С.п. X t , t = 0,±1,±2,... ., принимающая, вообще говоря, комплексные значения, называется стационарной в широком смысле, если для любого целого t MX t = m = const и корреляционная функция R( t − s) = M( X t − m)( X s − m) = R 1 ( t − s) зависит только от разности моментов времени t и s. Таким образом, корреляционная функция стационарной с.п. является комплекснозначной функцией целочисленного аргумента: R( k ), k = 0,±1,±2,... Она обладает следующими свойствами: а.) R(0) > 0 ; если же X t принимает только вещественные значения, то R(0) = DX t = σ 2X ; б.) R( − k ) = R( k ) ; если X t вещественнозначная с.п., то R( k ) = R( − k ) ; в.) R( k ) неотрицательно определена, т.е. для любого целого n > 0 , любых целых k 1 , k 2 ,..., k n и любого набора комплексных чисел z1 , z 2 ,..., z n выполнятся неравенство
∑ ∑ R( k n
n
r =1 j=1
r
− k j )z k z j ≥ 0
Согласно теореме А.Я.Хинчина для корреляционной функции стационарной с.п. имеет представление
π
R( k ) = ∫ e ikω dF(ω )
(1)
−π
в котором F(ω ) - неубывающая неотрицательная ограниченная
функция на [ − π, π] , называемая, как и в случае процессов с непрерывным временем, спектральной функцией. Если ∞
∑ R( k ) < ∞ функция F(ω )
(2)
k=−∞
будет дифференцируемой, и она может быть то представлена в виде ω
F(ω ) = ∫ f ( u)du
(3)
−π
где f (ω ) = F ' (ω ) ≥ 0. При этом (1) можно заменить формулой π
R( k ) = ∫ e ikω f (ω )dω
(4)
−π
Функция f (ω ) , где ω ∈[ − πбπ] , называется спектральной плотностью случайной последовательности. Из (4) видно, что 1 R( − k ), k = 0,±1,±2,..., являются коэффициентами величины 2π Фурье функции f (ω ) , так что разложение этой функции в ряд Фурье будет иметь вид 1 ∞ −ikω (5) f (ω ) = ∑ e R( k ) 2 π k =−∞ Эту формулу можно рассматривать как дискретный аналог известной формулы обращения для спектральной плотности непрерывного в среднем квадратическом (с.к.) стационарного в широком смысле процесса. Используя теорему Карунена для стационарной последовательности X t , t = 0,±1,±2,... , с MX t = 0 и с корреляционной функцией (1), получаем интегральное представление (теорема Хинчина) π
X t = ∫ e itω dVω ,
(6)
−π
где в правой части имеем стохастический интеграл по процессу Vω , ω ∈[ − π, π ] с ортогональными приращениями и со спектральной функцией F(ω ), ω ∈[ − π , π] , совпадающей со спектральной функцией
в представлении (1) корреляционной функции последовательности Xt .
2. ПРОЦЕССЫ АВТОРЕГРЕССИИ И СКОЛЬЗЯЩЕГО СРЕДНЕГО 2.1. Значение процессов авторегрессии и скользящего среднего Разнообразные данные в физике, космических исследованиях, экономике, медицине и других областях поступают исследователю в виде случайных последовательностей (временных рядов). Совокупность существующих методов изучения таких рядов зависимых наблюдений называется анализом временных рядов. В начале 70-х годов многие зарубежные исследователи стали аппроксимировать изучаемый временной ряд наиболее близкой (например, с точки зрения асимптотической среднеквадратичной теории) последовательностью авторегрессии, скользящего среднего или смешанной последовательностью авторегрессии - скользящего среднего. Это позволило характеризовать целый ряд наблюдений всего несколькими параметрами. Простота структуры последовательностей авторегрессии и скользящего среднего и в то же время возможность использования их для аппроксимации широкого класса с.п. определяют как практический, так и теоретический интерес к ним. Моделирование этих последовательностей позволяет решать самые разнообразные прикладные задачи, связанные с изучением реальных процессов в науке и технике. 2.2 Случайные последовательности авторегрессии Так называемая модель авторегрессии стохастическим разностным уравнением вида
описывается
p
(
)
Yt = ∑ β j Yi − j + X t , β j ≠ 0, j = 1, p , j=1
(7)
где t пробегает целые значения, а X t - последовательность вещественнозначных некоррелированных и одинаково распределенных ( MX t = 0, DX t = σ 2X ) случайных величин (с.в.). Последовательность Yt называется с.п. авторегрессии порядка p, сокращенно АР(p). Большое практическое значение имеют последовательности авторегрессии первого (p=1) и (p=2) порядков (8) Yt = β1Yt −1 + X t , (9) Yt = β1Yt −1 + β 2 Yt −2 + X t . Характеристическим уравнением для стохастического разностного уравнения (7) называют [2] алгебраическое уравнение p
x p = ∑ β j x p− j .
(10)
j=1
Оно имеет p корней, которые мы обозначим z1 ,..., z p . Корни характеристического уравнения (10) определяют важные свойства процесса Yt , удовлетворяющего уравнению (7). Эти свойства можно сформулировать следующими теоремами. Т е о р е м а 1 . Если все корни характеристического уравнения (10) по абсолютной величине меньше 1, то Yt представим бесконечной линейной комбинацией с.в. и, X t , X t −1 ,... , следовательно, Yt не коррелирует со с.в. X t +1 , X t +2 ,... . При этом последовательность Yt будет стационарной (в широком смысле). З а м е ч а н и е . Для стационарности с.п. Yt , определяемой уравнением (7), от последовательности с.в. X t в теореме 1 достаточно требовать лишь стационарности в широком смысле. Т е о р е м а 2 . Если стационарная с.п. Yt удовлетворяет уравнению (7), характеристическое уравнение (10) которого имеет хотя бы один корень, равный единице, то с вероятностью 1 все значения этой последовательности совпадают. Доказательства этих теорем можно найти в работах [2,3]. В дальнейшем мы будем ограничиваться рассмотрением случая, когда все корни характеристического уравнения (10) по абсолютной величине меньше единицы. Получим важное рекуррентное соотношение, связывающее параметры β j , j = 1, p авторегрессии со значениями корреляционной функции выходной
с.п.АР(p). Для этого умножим (7) на Yi − k и перейдем к математическому ожиданию. Учитывая при этом, что MX t − k Yt = 0 при k>0, получаем R Y ( k ) = β1 R Y ( k − 1) + β 2 R Y ( k − 2) + +...+β p R Y ( k − p), k > 0 (11) Уравнение (11) - разностное уравнение относительно R(k). Общее решение этого уравнения задается в виде R Y ( k ) = A 1 z1k + A 2 z 2k +...+ A p z pk , (12) если корни z1 ,..., z p характеристического уравнения (10) различны. Граничными условиями будут p-1 соотношения R Y ( − k ) = R Y ( k ), k = 1,2,..., p − 1 (13) и соотношение σ 2Y = R Y (0) = β1 R Y ( − 1) + β 2 R Y ( − 2) + (14) +...+β p R Y ( − p) + σ 2X которое получается умножением (7) на Yt и переходом к математическому ожиданию в обеих частях полученного неравенства. Для определения коэффициентов A 1 ,..., A p сначала можно решить относительно R Y (0), R Y (1),..., R Y ( p) систему из p уравнений вида (11) при k=1,2,...,p и уравнения (14), а затем относительно A 1 ,..., A p решить систему уравнений вида (12) при k=0,1,...,p-1, подставляя вместо R Y ( r ), r = 0, p − 1 предварительно найденные значения. Вводя нормированную корреляционную функцию 2 rY ( k ) = R Y ( k ) / σ Y из (14), учитывая равенства (13), получаем выражение для дисперсии с.п.АР(p) σ 2X 2 (15) σY = 1 − β1 rY (1)−...β p rY ( p) Поделим все члены уравнения (11) на σ 2Y и подставив в него значения k=1,2,...,p, получим систему линейных уравнений для β1 ,...β 2 со свободными членами rY (1),..., rY ( p)
rY (1) = β1 + β 2 rY (1)+...+β p rY ( p − 1) rY (2) = β1 rY (1) + β 2 ...+β p rY ( p − 2) ........................................ rY ( p) = β1 rY ( p − 1) + β 2 rY ( p − 2)+...+β p Эти уравнения обычно называются уравнениями Юла-Уокера и могут использоваться для получения оценок параметров β k , k = 1, p . Перейдем к рассмотрению спектра с.п.АР(p). Заметим, что входная с.п. X t , t = 0,±1,±2,... имеет корреляционную функцию R X ( k ) = 0 при k ≠ 0 и R X (0) = σ 2X . Этой корреляционной функции соответствует согласно (5) постоянная на [ − π, π] спектральная плотность σ 2X f (ω ) = . (16) 2π В силу теоремы Хинчина для последовательности X t будет справедливо представление (6) с некоторым процессом с ортогональными приращениями Wω , ω ∈[ − π , π] . Выходная с.п.АР(p)
Yt , t = 0,±1,±2,...
будет
иметь
корреляционную
функцию
R Y ( k ), k = 0,±1,±2,... удовлетворяющая рекуррентному соотношению
(11), и сам процесс будет иметь также в силу теоремы Хинчина интегральное представление π
Yt = ∫ e itω dZ ω
(17)
−π
с процессом, с ортогональными приращениями Z ω , ω ∈[ − π, π ] , со структурной
функцией
FY (ω ) ,
являющейся
одновременно
спектральной функцией последовательности Yt . Подставляя в (7) вместо X t его выражение из (6), а вместо Yt - выражение из (17), получаем π π p itω − ijω e e dZ e ijω dVω 1 − β (18) = ω j ∫− π ∑ ∫ j=1 −π Обе части этого неравенства - стохастические интегралы при любом целом t. Умножая (18) на такое же равенство при t-k(k-целое) и беря затем математическое ожидание от обеих частей полученного равенства, находим (с учетом свойств стохастических интегралов)
π
∫e
ikω
−π
2
p
1 − ∑ β je
− ijω
j=1
π
dFY (ω ) = ∫ e ikω f X (ω )dω .
(19)
−π
Из (12) видно, что для стационарной с.п.АР(p) Yt условие (2) выполняется и, следовательно, существует спектральная плотность f Y (ω ) = F ' (ω ) . Тогда из равенства (19) получаем f Y (ω ) =
f X (ω ) p
1 − ∑ β j e −ijω j=1
2
σ 2X
=
p
2
.
(20)
2 π 1 − ∑ β je −ijω j=1
Приведем основные характеристики с.п.АР(p) первого и второго порядков. При p=1 мы имеем дело со с.п.АР(1), определяемой уравнением (8). Ему соответствует характеристическое уравнение x = β1 с очевидным корнем z1 = β1 . Это означает, что для стационарной с.п.АР(1) должно выполнятся условие β1 < 1 . При этом из формулы (12) следует, что R( k ) = A 1β1k
для k ≥ 0 , где A 1 = R Y (0) = σ Y2 . Согласно (15) для дисперсии Yt получаем формулу σ 2X 2 σY = , (21) 1 − β12 а для корреляционной функции σ 2X k R Y (k) = β1 , k ≥ 0 . (22) 1 − β12 Спектральная плотность с.п.АР(1) согласно (20) имеет вид σ 2X σ 2X . (23) f (ω ) = = 2 2 π(1 − 2β1 cos(ω ) + β12 ) 2 π 1 − β 1 e − iω
Теперь рассмотрим с.п.АР(2), определяемую уравнением (3). Характеристическое уравнение будет иметь вид z 2 − β1 z − β 2 = 0 (24) и с.п.АР(2) будет стационарной, если корни уравнения (24) лежат внутри единичного круга z < 1, т.е. z1,2
β1 ± β12 + 4β 2 = < 1. 2
В случае действительных различных корней
(25)
(β
2 1
+ β 2 > 0) имеем
неравенства − 2 < β1 + β12 + 4β 2 < 2 и − 2 < β1 − β12 + 4β 2 < 2 . Это означает, что 2 + β1 > β12 + 4β 2 и
β12 + 4β 2 < 2 − β1 ,
откуда получаем β1 + β 2 < 1, β 2 − β1 < 1 . Итак, область параметров действительные
корни
(26)
(27) β1 , β 2 , обеспечивающих различные z1,2 < 2
уравнения
(24),
задается
неравенством (27) и неравенством β12 + 4β 2 > 0 . Найдем область параметров β1 , β 2 , дающих комплексные (сопряженные) корни z1,2 < 1 . При этом дискриминант β12 + 4β 2 < 0 и, следовательно,
β 2 < 0 . Условие (25) тогда можно представить в виде 2
z1,2 = −β 2 < 1. Следовательно, интересующая нас область параметров
β1 , β 2 ,
определяется неравенствами β + 4β 2 < 0 и − 1 < β 2 < 0 . Результатам проведенного анализа дадим геометрическую иллюстрацию (рис.2) на плоскости (β1 , β 2 ) . 2 1
Корреляционная функция формулой (12) будет иметь вид R Y ( k ) = A 1 z1k + A 2 z 2k
с.п.АР(2)
в
соответствии
с
Записывая уравнения (14) и (11) для p=2 при k=1,2, получаем систему относительно R Y (0), R Y (1), R Y (2)
R Y (0) = β1 R Y (1) + β 2 R Y (2) + σ 2X R Y (1) = β1 R Y (0) + β 2 R Y (1) R Y (2) = β1 R Y (1) + β 2 R Y (0) Решая ее, находим σ = RY 2 Y
(1 − β )σ (0) = 1 − 2β − β (1 + β ) + β 2
1
2 X
2 1
2
2 2
(28)
1 + β12 − β 22 β1 R Y (0) , R Y (2) = R Y (0) . (29) 1 − β2 1 − β2 Полагая, k=0 и k=1, получим систему R Y (1) =
R Y (0) = A 1 + A 2 , R Y (1) = A 1 z1 + A 2 z 2 .
из которой находим z1 (1 − z 22 ) A1 = R (0) , (1 + z1 z 2 )( z1 − z 2 ) Y A1 = −
z 2 (1 − z12 )
(1 + z z )( z 1
2
1
− z2 )
R Y ( 0) .
(30)
Подставляем в эти формулы значения корней z1 и z 2 квадратного
уравнения (24) и R Y (0) из (28), получим по формуле (12) значения корреляционной
функции
R Y ( k ), k > 2 ,
выраженные
через
параметры β1 и β 2 . Для k ≤ 2 значения корреляционной функции определяются формулами (28) и (29). В соответствии с формулой (20) получаем спектральную плотность с.п.АР(2) σ 2X , f (ω ) = 2 π[1 + β12 + β 22 − 2β1 (1 − β 2 ) cos ω − 2β 2 cos 2ω ] ω ∈[ − π , π] .
(31)
2.3. Случайные последовательности скользящего среднего Последовательность с.в. Yt , t = 0,±1,±2,... называют случайной последовательностью скользящего среднего порядка q ≥1 (с.п.СС(q)), если она задается равенством
q
Yt = ∑ α j X i − j
(32)
j= 0
последовательность вещественных Xt в котором некоррелированных и одинаково распределенных с MX t = 0 и
DX t = σ 2X с.в., а α j , j = 0, q (α 0 = 1, α q ≠ 0) - вещественные параметры.
Из определения с.п.СС(q) следует, что MYt = 0 . Вычислим ее корреляционную функцию q q q MYt Ys = M ∑ ∑ α jα r X t − j X s− r = ∑ α jα r MX t − j X s− r . j= 0 r = 0 j,r = 0 Так как MX t X s = 0 при s ≠ t и MX 2t = σ 2X , то в сумме в правой части последнего неравенства ненулевыми будут только слагаемые, индексы которых удовлетворяют равенству t − j = s − r или t − s = j − r . Если t − s > q , то все слагаемые в сумме нулевые. При t−s ≤q MYt Ys = σ 2X
q − t −s
∑α α r
r =0
r + t −s
.
Итак, с.п.СС(q) оказывается стационарной в широком смысле без всяких ограничений на параметры α r , r = 1, q . Обозначая ее корреляционную функцию через R Y ( k ) , получаем формулу 2 q− k α jα j+ k , если k ≤ q , σ R Y (k) = X ∑ j= 0 0 , если k > q. Для с.п.СС(q) отсюда имеем формулу σ = R Y (0) = σ 2 Y
2 X
q
∑α j= 0
2 j
.
(33)
(34)
Условие (2) для корреляционной функции (33), очевидно, выполняется и, следовательно, существует спектральная плотность с.п.СС(q), которую обозначим f Y (ω ) . Спектральная плотность «входной» последовательности X t согласно (16) постоянна на
[ − π , π ] и f (ω ) = σ X
2 X
/ 2 π . С.в. X t имеет интегральное представление
(6). В соответствии с теоремой Хинчина «выходная» последовательность Yt будет иметь представление вида (17). Учитывая эти представления, равенство (32) можно записать в виде
π q itω itω e dZ e = α je −ijω dVω . ω ∫− π ∫− π ∑ j= 0 Умножим это равенство на такое же равенство, в котором вместо t положено t − k , и в обеих частях произведен переход к комплексно-сопряженным величинам. Беря затем математические ожидания от обеих частей полученного равенства, находим π
2
σ 2X dω . α je ∫ e f Y (ω )dω = −∫πe ∑ 2π j= 0 −π Из единственности интегрального представления корреляционной функции отсюда имеем π
ikω
π
ikω
q
− ijω
2
σ2 q f Y (ω )dω = X ∑ α je −ijω , ω ∈[ − π, π ] . (35) 2 π j= 0 Оказывается, что спектральная плотность с.п.СС(q), вообще говоря, неоднозначно определятся параметрами σ 2X , α 1 ,..., α k . Во избежание этого достаточно условится, чтобы корни характеристического уравнения (36) z q + α 1 z q −1 +...+α q = 0 лежали, например, внутри единичного круга. Это условие однозначности иногда в литературе называется условием обратимости с.п.СС(q). Большое практическое применение имеют последовательности скользящего среднего первого и второго порядков. с.п.СС(1) определяются уравнением (37) Yt = X1 + α 1 X t −1 , и ее корреляционная функция имеет вид σ 2X (1 + α 12 ) = σ Y2 , k = 0, , k = 1, (38) σ 2X α 1 R Y (k) = , k ≥ 2. 0 Спектральная плотность с.п.СС(1) имеет вид 2 σ 2X 2 σX − iω 2 f Y (ω ) = = (1 + 2α 1 cos ω + α 1 ) 1 + α 1e . (39) 2π 2π С.п.СС(2) определяется уравнением (40) Yt = X1 + α 1 X t −1 + α 2 X t −2 , а ее корреляционная имеет вид
σ 2X (1 + α 12 + α 22 ) = σ Y2 , k = 0, , k = 1, σ 2X α 1 (1 + α 2 ) (41) R Y (k) = 2 , , = 2 k σ α X 2 , k ≥ 3. 0 Спектральная плотность с.п.СС(2) имеет вид 2 σ 2X f Y (ω ) = 1 + α 1 e − iω + α 2 e − 2 iω = 2π σ2 = X 1 + α 12 + α 22 + 2α 1 (1 + α 2 ) cos ω + 2α 2 cos 2ω .(42) 2π
[
]
2.4. Смешанная модель авторегрессии скользящего среднего В теореме 1 утверждалось, что в условиях стационарности с.п.АР(p) Yt может быть представлена бесконечной линейной комбинацией с.в. X t , X t −1 ,... , т.е. может рассматриваться как с.п.СС(∞) с последовательностью параметров α 1 , α 2 ,... . Известно также, что и с.п.СС(q) может быть (при условии обратимости) представлена в виде с.п.АР(∞) с последовательностью параметров β1 , β 2 ,... . Это ставит вопрос об экономичности (в смысле числа используемых параметров) представления данной с.п. На практике для получения экономичной параметризации иногда бывает необходимо включать в модель как члены, описывающие авторегрессию, так и члены, моделирующие скользящее среднее. Такая с.п. может определена уравнением p
q
j= 0
r =0
Yt = ∑ β j Yt − j + ∑ α r X t − r , где
β j , j = 1, p, α 0 = 1, α r , r = 1, q
X t , t = 0,±1,±2,...
-
(43) -
вещественные
последовательность
параметры,
а
некоррелированных
одинаково распределенных с.в. с MX t = 0, DX t = σ 2X и называется смешанной с.п. авторегрессии-скользящего среднего порядка (p,q). В дальнейшем такую последовательность сокращенно будем обозначать АРСС(p,q). В соответствии с замечанием к теореме 1 члены со скользящим средним в правой части (43) не повлияют на условия стационарности последовательности Yt . Поэтому с.п. АРСС(p,q)
будет стационарной в широком смысле при условии, что все корни характеристического уравнения p
z = ∑ β j z p− j p
(44)
j=1
лежат внутри единичного круга z < 1. Аналогично для обратимости АРСС(p,q) корни характеристического уравнения z q + α 1 z q −1 +...+α q = 0
(45)
должны лежать внутри единичного круга z < 1. Предполагая с.п. АРСС(p,q) стационарной, найдем, как и для с.п. АР(p), рекуррентные соотношения, связывающие параметры β j , j = 1, p и α r , r = 1, q со значениями корреляционной функции. Для этого все члены в (43) умножим на Yt − k и, перейдя к математическим ожиданиям получаем p
q
j=1
r =1
R Y ( k ) = ∑ β j R Y ( k − j) + ∑ α j R YX ( k − r ) , где
R YX ( k ) = MX t Yt − k
-
взаимная
(46)
корреляционная
функция
последовательностей X и Y. Так как Yt − k зависит только от членов входной последовательности X до момента t − k , то, очевидно, что R YX ( k ) = 0 при k > 0 и R YX ( k ) ≠ 0 для k ≤ 0 . Из (46) следует, что p
R Y ( k ) = ∑ β j R Y ( k − j), k ≥ q + 1
(47)
j=1
и для нормированной корреляционной функции p
rY ( k ) = ∑ β j rY ( k − j), k ≥ q + 1
(47’)
j=1
Это означает, что для с.п. АРСС(p,q) существует q значений корреляционной функции R Y (q ), R Y (q − 1),..., R Y (1) , которые связаны зависимостью (46) с q параметрами скользящего среднего α и p параметрами авторегрессии β . Для решения разностных уравнений (47) и (47’) (для больших k) в качестве начальных необходимы p значений, например, R Y (q ), R Y (q − 1),..., R Y (q − p + 1) . Дисперсию с.п. АРСС(p,q) σ 2X = R Y (0) вместе с R Y (1),..., R Y ( p)
получим, решая систему уравнений, получающаяся из (46) при k=0,1,2,...,p. Спектральную плотность можно получить аналогично случаям «чистых» последовательностей АР(p) и СС(q).
q
σ 2X f Y (ω ) = 2π
∑α e
2 − irω
r
r =0
p
1 − ∑ β je −ijω
2
, ω ∈[ − π, π].
(48)
j=1
Рассмотрим подробнее случай АРСС(2,1): (49) Yt = β1Yt −1 + β 2 Yt −2 + X t + α 1 X t −1 . Из (46) имеем R Y (0) = β1 R Y (1) + β 2 R Y (2) + R YX (0) + α 1 R YX ( − 1) (50) R Y (1) = β1 R Y (0) + β 2 R Y (1) + α 1 R YX (0).
(51)
Чтобы найти R YX (0) и R YX ( − 1) , умножим поочередно (49) на X t и
X t −1 и перейдем к математическим ожиданиям. В результате получим R YX (0) = σ 2X и R YX ( − 1) = (α 1 + β1 )σ 2X . Тогда уравнениям (50) и (51) приобретают вид R Y (0) = β1 R Y (1) + β 2 R Y (2) + σ 2X (1 + α 12 + α 1β 2 ), (52) (1 − β 2 )R Y (1) = β1 R Y (0) + α 1σ 2X . При k ≥ 2 ( k ≥ q + 1) уравнения (47) в рассматриваемом случае имеют вид R Y ( k ) = β1 R Y ( k − 1) + β 2 R Y ( k − 2)
(53)
и вместе с уравнениями (52) позволяют определить последовательность R Y ( k ), k = 0,1,... . В частности, из системы уравнений (52) и уравнения (53) при k = 2 получаем формулу для дисперсии 2α 1β1 + (1 + α 12 )(1 − β 2 ) 2 2 σ Y = R Y (0) = σ X . (54) 2 2 1 − β 1 − β − β ( 2) ( 2) 1
[
]
Спектральная плотность с.п. АРСС(2,1) согласно (48) имеет вид 2
1 + α 1e −iω σ 2X f Y (ω ) = = 2 2 π 1 − β j e − iω − β j e − 2 iω =
σ 1 + 2α 1 cos ω + α . 2 2 2 π 1 + β1 + β 2 − 2β1 (1 − β 2 ) cos ω − 2β 2 cos 2ω 2 X
2 1
(55)
Наконец, рассмотрим часто употребляемую в различных прикладных науках с.п. АРСС(1,1). Она определяются разностным уравнением (56) Yt = β1Yt −1 + X t + α 1 X t −1 . В этом случае входящая в с.п. авторегрессия имеет порядок p=1, и корень ее характеристического уравнения равен β1 . Последовательность будет стационарной, если − 1 < β1 < 1 . Уравнения для корреляционной функции получаются из формул (46) и (47) R Y (0) = β1 R Y (1) + R YX (0) + α 1 R YX ( − 1) R Y (1) = β1 R Y (0) + α 1 R YX (0) (57) R Y ( k ) = β1 R Y ( k − 1)_ п ри _ k ≥ 2 Выражения
для
R YX (0)
и
R YX ( − 1)
получаются
аналогично
предыдущему умножением (56) на X t и X t −1 и переходом к математическим ожиданиям. R YX (0) = σ 2X , R YX ( − 1) = (α 1 + β1 )σ 2X .
(58)
Из (57) и (58) получаем выражения корреляционной функции с.п. АРСС(1,1) 2 2 1 + α 1 + 2α 1β 1 R Y (0) = σ X , 1 − β12 R Y (1) = σ 2X
(1 + α β )(α 1
1
1− β
R Y ( k ) = β1 R Y ( k − 1),
1
+ β1 )
2 1
,
(59)
k ≥ 2.
Из (59) следует, что при α 1 = −β1 имеем R Y (1) = 0 . Поэтому R Y ( k ) ≡ 0 при всех значениях k ≠ 0 , т.е. последовательность Yt , t = 0,±1,±2,... является некоррелированной. Спектральная плотность с.п. АРСС(1,1) будет иметь вид σ 2X 1 + 2α 1 cos ω + α 12 f Y (ω ) = . (60) 2 π 1 − 2β1 cos ω + β12
3.СТАТИСТИЧЕСКИЕ ВЫВОДЫ ПО НАБЛЮДЕНИЯМ СЛУЧАЙНЫХ ВЕРОЯТНОСТЕЙ 3.1 Общая характеристика задач статистических случайных процессов При изучении систем, осуществляющих преобразования входных случайных сигналов, приходится решать ряд статистических задач. Прежде всего это задачи определения вероятностных характеристик входных и выходных сигналов, а также задачи проверки гипотез об этих сигналах. Кроме того, часто неизвестной или частично известной является сама преобразующая система. В простых случаях она бывает известной с точностью до конечной совокупности определяющих ее параметров. Задачи статистических выводов в этом случае связаны с этими параметрами и включаются в так называемые методы идентификации, призванные по экспериментальным данным определить тип преобразующей системы. Все упомянутые задачи решаются на основе обработки экспериментального материала и относятся к сравнительно новой ветви математической статистики, называемой статистикой случайных процессов. Применяемые в статистике случайных процессов (и, в частности, случайных последовательностей) методы принципиально не отличаются от обычных методов обработки, используемых в математической статистике (МС), однако имеются некоторые особенности, осложняющие решение задач. Как известно, все оценки и критерии в МС строятся на основе выборки (61) x1 ,..., x n где n - объем выборки, а ее элементы x k являются значениями исследуемой с.в. X при независимых измерениях. Поэтому выборку (16) в МС рассматривают как реализацию случайной последовательности «длины» n независимых с.в. X1 , X 2 ,... с общим распределением, совпадающим с распределением исследуемой с.в.X. В статистике случайных процессов по ряду причин основой не могут служить независимые реализации процесса (или последовательности) Y, и поэтому теряет смысл понятие объема выборки n, входящего явно в известные в МС формулы для
критериев и оценок. Аналогичную объему выборки роль в статистике случайных процессов играет «длина» времени, в течении которого наблюдается реализация процесса. Если Y- случайная Y = {Yt , t = 0,±1,±2,...} , то реализация, последовательность: наблюдаемая в моменты t=1,...T, будет представлять собой совокупность значений (62) y1 , y 2 ,..., y T , которая и служит основой для статистических выводов. Мы здесь имеем возможность рассмотреть только некоторые задачи статистической обработки реализаций с.п. в предположении их стационарности. Предположим известными основные факты МС независимых наблюдений. Некоторые дополнительные сведения содержаться в прил.1 и 2 настоящего пособия. При исследовании входной случайной последовательности X = ( X1 , X 2 ,...) одной из важнейших является задача проверки гипотезы о том, что случайные величины X k , k = 1,2,... независимы и одинаково распределены. Один из критериев проверки такой гипотезы изложен в прил.1. Прил.2. содержит описание одного из возможных критериев проверки гипотезы стационарности. Следующий раздел данного учебного пособия содержит традиционный материал по оцениванию среднего значения и корреляционной функции стационарных последовательностей и не связан прямо с последовательностями авторегрессии и скользящего среднего. Остальной материал раздела посвящен решению статистических задач АР и СС. Следует отметить, что основная статистическая задача оценивания параметров АР и СС может иметь различные интерпретации. Ее можно, в частности, трактовать как оценивание спектра, а также и как задачу идентификации системы, структура которой определена с точностью до неизвестных параметров. 3.2. Оценка среднего значения и корреляционной функции Пусть
y1 ,... y T -
T
последовательных
наблюдений
с.п.
Y = {Yt , t = 0,±1,±2,...} , стационарной в широком смысле со средним
m Y = MYt , t = 0,±1,... ,
значением
R Y ( k ) = M( Yt − m Y )( Yt + k − m Y ) ,
и
корреляционной
t = 0,±1,±2,...,
функцией
k = 0,±1,±2,...,
R Y (k ) = R Y (− k ) .
Рассмотрим сначала оценивание среднего значения mY . Будем искать оценку величины mY в классе линейных оценок, т.е. среди линейных комбинаций наблюдений T
lT = ∑ a t yt .
(63)
t =1
Среднее значение и дисперсия произвольной линейной комбинации (63) соответственно равны T
T
t =1
t =1
ML T = ∑ a t MVt = m Y ∑ a t
(64)
и 2
T T DL T = M ∑ a t (Yt − m Y ) = ∑ a t a s R t ( t − s) = t ,s=1 t =1
=
T −1
∑
r =− ( T −1)
R Y ( r ) ∑ a s+ r a s = s∈S t
π
T
∫ ∑a e
− π t =1
t
itω
f Y (ω )dω ,
(65)
где S r = {1,2,.., T − r} при r ≥ 0 и S r = {1 − r ,2 − r ,.., T} при r ≤ 0. Для того, чтобы с.в. LT была несмещенной оценкой среднего значения
mY , должно выполнятся равенство T
∑a t =1
t
=1
(66)
По обычным правилам отыскания условного экстремума находим вектор a = (a 1 , a 2 ,.., a T ) , обеспечивающий минимальную дисперсию несмещенной оценке T
~Y = a y , m ∑ t t t =1
T
∑a t =1
t
= 1.
(67)
Несложные выкладки показывают, что несмещенная линейная оценка с минимальной дисперсией задается формулой (67) при векторе коэффициентов
[
a 0 = ( R −1 e , e )
]
−1
R −1 e ,
(68)
где R −1 - матрица, обратная к корреляционной матрице наблюдений R = R Y ( t − s) t ,s=1 ; e = (11 , ,....,1) - единичный вектор, а (.,.) - скалярное T
произведение n-мерном евклидовом пространстве. Таким образом, оптимальная линейная несмещенная оценка будет иметь вид
$ = ( a , y ) = ( R −1 e, y ) ( R −1 e, e) . m
(69)
где y = ( y1 ,.., y T ) - вектор наблюдений, а дисперсия этой оценки определяется равенством $ = ( Ra , a ) = ( R e, e) Dm Y
0
0
−1
−1
T = ∑ R ij−1 i , j=1
−1
(70)
где R ij−1 - элементы матрицы R −1 . На практике часто в качестве несмещенной оценки среднего значения стационарной с.п. используется среднее арифметическое наблюдений 1 T y = ∑ yt (71) T t =1 Используя формулу (65) получим дисперсию этой оценки r 1 T 1 T−1 DY = 2 ∑ R t ( t − s) = 1 − R Y ( r ) = ∑ Tt t ,s=1 T r =− ( T−1) T 2
ωT π sin 2 f (ω )dω . = ∫ (72) ω Y − π T sin 2 Асимптотическое (при T → ∞) поведение дисперсии Y среднеарифметической оценки величины m дается следующей теоремой. Т е о р е м а 3 . Если выполняется условие ∞
∑ R (r ) < ∞ ,
r =−∞
(73)
Y
то оценка (71) состоятельна и lim TDY = 2 πf Y (0) .
(74)
T→∞
Доказательство состоятельности оценки Y следует из того, что при условии (73) DY → 0 при T → ∞ . Основанием соотношения (74) является известный из анализа факт. Л е м м а . Если ряд
∞
∑a r =1
∞ T −1 r lim ∑ 1 − a r = ∑ a r . T→∞ T r =1 r =1
r
сходится, то (75)
Соотношение (75) следует из (74), если учесть разложение вида (5) спектральной плотности в ряд Фурье, полагая в нем ω = 0 .
Теперь рассмотрим оценивание корреляционной функции. Если m известно, то обычно используется оценка 1 T− k ~ ~ (76) R Y (k ) = R Y (− k ) = y t − m Y )( y t + k − m Y ) , ( ∑ T − k t =1 где k = 0,±1,±2,..., T − 1 . Если mY неизвестно, то по аналогии можно построить следующую оценку: 1 T− k ~ ~ (77) R Y ( k) = R Y (− k) = ∑ ( y t − y)( y t + k − y) , T − k t =1 где k = 0,±1,±2,..., T − 1 . Возможны еще и другие оценки, в частности 1 T− k R *Y ( k ) = R *Y ( − k ) = ∑ ( y t − y k )( y t + k − y k + ) = T − k t =1 1 T − k y t y t + k − ( T − k ) y k y k + , k = 0,1,..., T − 2 , = ∑ T − k t =1 где 1 T− k yk = ∑ y t , k = 0,±1,±2,..., T − 2 , T − k t =1 1 T− k y k+ = ∑ y t + k , k = 0,±1,±2,..., T − 2 . T − k t =1 Рассмотрим моменты первого и второго порядков оценок величины R Y ( k ) . Непосредственные вычисления дают следующие Y
результаты. В случае известного среднего mY
1 T− k y y ∑ M( Yt − m )( Yt + k − m ) = MR Y ( k ) , (78) T − k t =1 ~ т.е. оценка R Y ( k ) является несмещенной. В случае неизвестного mY ~ для математического ожидания оценки R Y ( k ) после несложных, но ~ MR Y ( k ) =
утомительных вычислений получаем соотношения: T −1 1 r MR$ Y (0) = R Y (0) − R Y (0) + 2 ∑ 1 − R Y ( r ) ; (79) r =1 T T k 1 rk MR$ Y ( k ) = R Y ( k ) − R Y (0) + 2 ∑ 1 − R Y (r) + r =1 T T T k − ( ) T − k −1 T −1 ( T − r ) k rk r−k R r 2 R r + 2 ∑ 1 − − + ( ) ( ) ∑ (80) Y Y r = k +1 r = T − k T( T − k ) T T k T k − − ( )
если 1 ≤ k < T − k − 1 ; k 1 rk MR$ Y ( k ) = R Y ( k ) − R Y (0) + 2 ∑ 1 − R Y (r) + r =1 T T T k − ( ) T −1 ( T − r ) k R Y ( r ) , (81) +2 ∑ r = k +1 T( T − k ) если 1 ≤ k = T − k − 1 ; T − k −1 1 rk MR$ Y ( k ) = R Y ( k ) − R Y (0) + 2 ∑ 1 − R Y (r) + r =1 T T T k − ( ) k T −1 ( T − r ) k r R Y ( r ) , (82) + 2 ∑ R Y (r) + 2 ∑ r =T− k T r = k +1 T( T − k ) если T − k − 1 < k < T − 1 ; T −1 r 1 MR$ Y (T − 1) = R Y (T − 1) − R Y (0) + 2 ∑ R Y ( r ) . (83) r =1 T T $ ( k ) является Формулы (79)-(83) показывают, что оценка R Y
смещенной, порядок смещения равен 1 T . Математическое ожидание оценки
R$ Y ( k ) можно также
выразить с помощью спектральной плотности π T− k T 1 iω ( t − s ) MR$ Y ( k ) = ∫ cos ωk − + e iω ( t −s+ k ) + ∑∑ e −π T(T − k ) t =1 s=1 1 T + 2 ∑ e iω ( t −s) f Y (ω )dω = T s,t =1 1 1 sin ωT sin ω(T − k ) π 1 2 2 cos ωk + = ∫ cos ωk − 2 1 1 −π 2 T sin ω(T − k ) sin ω 2 2 2 1 sin T ω 2 (84) + f Y (ω )dω . 1 T sin ω 2
[
Аналогичные выражения можно математического ожидания оценки R *Y ( k ) .
]
получить
и
для
$ ( k ) можно получить Ждя дисперсии несмещенной оценки R Y следующее выражение:
(T − k )DR~ ( k ) = Y
r 2 1 − [R Y (r) + r =− ( T − k −1) T − k T − k −1
∑
+ R Y ( r + k ) R Y ( r − k ) + χ( k , − r , k − r ) ] = 1 T k sin − − ω ν ( )( ) 2 1 1 + e −i ( ω + ν ) k f Y (ω ) f Y ( ν)dωdν + = ∫ ∫ T − k − π − π sin 1 ω − ν ( ) 2 π π
[
]
T− k
+ ∑ χ( k , s − t , s − t + k ) = t ,s=1
1 (ω − ν)(T − k ) 2 1 π π 2 cos (ω + ν) kf Y (ω ) f Y ( ν)dωdν + = 2∫ ∫ −π −π 2 2 1 (T − k ) sin (ω − ν) 2 sin 2
T− k
+ ∑ χ( k , s − t , s − t + k ) t ,s=1
k = 0,1,..., T − 1 , (85) Y Y Y Y где χ( k , r , s) = M( Yt − m )( Yt + k − m )( Yt + r − m )( Yt + s − m ) − − [ R Y ( k ) R Y ( r − s) + R Y ( r ) R Y ( k − s) + R Y (s) R Y ( k − r )] -
семиинвариант четвертого порядка. Если последовательность Y = {Yt , t = 0,±1,...} гауссовская, то семиинварианты четвертого порядка в выражениях (85) обращаются в нуль. Более трудоемко вычисление выражений для дисперсий $ ( k ) и R * ( k ) ; сами выражения дисперсий смещенных оценок R Y Y более громоздки и мы их не приводим. Отметим некоторые ассимптотические свойства оценок корреляционоой функции. При известном среднем mY оценка R$ Y ( k ) , как уже отмечалось выше, является несмещенной. При
$ ( k ) и R * ( k ) , как показывают, в неизвестном среднем оценки R Y Y частности, формулы (79)-(83), являются смещенными, причем смещение содержит множитель 1 T . Более точно поведение оценок
R$ Y ( k ) и R *Y ( k ) при T → ∞ выражается следующей теоремой.
∞
$ ( k) и R * ( k) Т е о р е м а 4 . Если ∑ R Y ( r ) < ∞ , то оценки R Y Y r =−∞
являются ассимптотическими несмещенными и
[
]
[
]
lim T MR$ Y ( k ) − R Y ( k ) = lim T[ MR *Y ( k ) − R Y ( k )] = − ∑ R Y ( r ). T→∞ T→∞ ∞
r =−∞
Если f Y (ω ) непрерывна при ω = 0 , то
lim T MR$ Y ( k ) − R Y ( k ) = lim T[ MR *Y ( k ) − R Y ( k )] = −2 πf Y (0). T→∞ T→∞
Вернемся к дисперсиям оценок корреляционной функции. Если
для
с.п.
Y = {Yt , t = 0,±1,...} ,
∞
∑ RY (r) < ∞ 2
r =−∞
∞
∑ χ( k ,− r , k − r ) < ∞ , то предельная дисперсия r =−∞ ~ T − k ⋅ R Y ( k ) будет определятся соотношением
и
величины
lim (T − k )DR$ Y ( k ) = ∑ [ R Y2 ( r ) + R Y ( r )R Y ( r + 2 k )] + T→∞ ∞
r =−∞
∞
+ ∑ χ( k , − r , k − r ) = r =−∞
π
∞
−π
r =−∞
= 4 π ∫ cos2 ωkf Y2 (ω )dω + ∑ χ( k ,− r , k − r ) .
(86)
Соотношение (86) вместе с асимптотической несмещенностью $ ( k) . означают состоятельность оценки R Y
Если χ( r , s, t ) = 0 (что имеет место для гауссовских с.п.) и
∞
∑ R Y ( r ) < ∞ , то предельные дисперсии величин
r =−∞
~ T − k ⋅ R Y (k)
∞
стремятся к ∑ R *Y ( r ) , когда k → ∞ . r =−∞
Можно установить, что если моменты с.п. Y = {Yt , t = 0,±1,...} до четвертого стационарности, и ∞
∑ RY (r) < ∞ и
порядка
включительно
∞
соответствуют
∑ χ( r , s, t ) < ∞ , r ,s , t =−∞ r =−∞ ~ $ ( k ) , а также между то разность между ( T − k ) DR Y ( k ) и ( T − k ) DR Y ~ * (T − k )DR Y ( k ) и (T − k )DR Y ( k ) имеет порядок 1 (T − k ) . Это $ ( k ) и R * ( k ) состоятельны, а, воозначает, во-первых, что оценки R Y
Y
~
вторых, что для «больших выборок» величину DR Y ( k ) можно
$ ( k ) и DR * ( k ) . использовать как апроксимацию для DR Y Y 3.3. Оценивание параметров модели методом моментов Одним из общих методов нахождения оценок параметров является метод моментов. Он заключается в приравнивании определенного количества выборочных моментов к соответствующим теоретическим параметрам, которые являются функциями от неизвестных параметров. Рассматривая количество моментов, равное числу оцениваемых параметров, получаем искомые оценки. На практике этод метод приводит к сравнительно простым вычислениям. Мы рассмотрим применение этого метода последовательно к оцениванию параметров последовательности АР(p), СС(q) и АРСС(p,q). Для уравнений с.п.АР(p) метод моментов сводится к решению системы уравнений Юла-Уокера (11) для k = 1,..., p относительно параметров
β1 ,..., β p .
Вместо
теоретических
значений
корреляционной функции R Y ( k ) следует подставить их оценки. В
~ $ (k) и R* (k) качестве таких оценок можно использовать R Y ( k ) , R Y Y
из предыдущего раздела. Поскольку эти оценки состоятельны, то при больших T с вероятностью, близкой к единице, выборочная корреляционная матрица будет невырожденной и уравнения Юла-
(
)
Уокера будут иметь решение β$ = β$ 1 ,..., β$ p , которое будет также
(
)
состоятельной оценкой вектора β = β1 ,..., β p . Однако оценки, найденные с помощью метода моментов, с точки зрения эффективности не являются наилучшими из возможных и даже при больших T они имеют наименьшую возможную дисперсию. В рассматриваемой модели с.п.АР(p) дисперсия «шума» σ 2X тоже может являтся неизвестным параметром и для ее оценки может быть использованно равенство (14), в котором значения R Y ( k ), k = 0, p следует заменить их оценками, как при оценивании β , а сами
β k , k = 1, p в (14) должны быть заменены уже найденными оценками β$ k , k = 1, p . параметры
Приведем два примера оценок, полученных по методу моментов. 1. Последовательность АР(1), определяемая уравнением (8), содержит один неизвестный параметр β1 . Уравнение Юла-Уокера имеет вид R Y (1) = β1 R Y ( 0) . Подставляя в него вместо R Y ( 0) и
R Y (1) оценки R$ Y (0) и R$ Y (1) вида (77), получаем β$ = R$ (1) R$ (0) = 1
=
1
1
[
T T−1 ∑ ( y t − y)( y t +1 − y) T − 1 t =1
]
∑ ( y t − y) . T
2
(87)
t =1
В нашем примере равенство (14) имеет вид R Y (0) = β1 R Y (1) + σ 2X . Отсюда получается оценка дисперсии «шума»
[
(
σ$ 2X = R$ Y (0) − β$ 1 R$ Y (1) = R$ Y2 (0) 1 − R$ Y (1) R$ Y (0)
) ]. 2
2. Последовательность АР(2), определяемая уравнением (9), содержит неизвестные параметр β1 и β 2 . Система уравнений ЮлаУокера имеет вид
R Y (1) = β1 R Y (0) + β 2 R Y (1) R Y (2) = β1 R Y (1) + β 2 R Y 0
и дает оценки
β$ 1 =
[
]
R$ 1 (1) R$ 1 (0) − R$ 1 (2) R$ 1 (0) R$ 1 (2) − R$ Y2 (1) $ . , β2 = R$ Y2 (0) − R$ Y2 (1) R$ Y2 (0) − R$ Y2 (1)
Оценка для дисперсии «шума» σ 2X будет иметь вид
[
]
R$ Y (0) R$ Y2 (0) − 2 R$ Y (1) + R$ Y2 (2) , σ$ = R$ 2 (0) − R$ 2 (1) 2 X
Y
Y
В случае последовательности СС(q) метод моментов приводит к системе нелинейных уравнений относительно параметров α 1 ,..., α q , если в (33) полагать k = 1,..., q . Два метода решения такой нелинейной системы изложены в [3, с.226-229]. Приведем здесь один из них. Это так называемый линейно сходящийся итеративный процесс.
Из выражений (34) и (33) для корреляционной функции процесса СС(q) можно найти оценки параметров σ 2X , α q ,..., α 1 точно в том порядке, как здесь указано, при помощи итераций
R$ Y (0) , σ$ = 1 + α 12 +...+α 2q 2 X
R$ ( k ) α k = Y 2 − (α 1α k +1 +...+α q − k α q ) σ$ X
(88)
с условием, что α 0 = 1 . Параметры α 1 ,..., α q приравниваются к нулю в самом начале итеративной процедуры; значения α k и σ 2X , используемые в любом цикле вычисления - это последние из доступных оценок этих величин. Например, в случае q = 2 уравнения (88) имеют вид
R$ Y (0) , σ$ = 1 + α 12 + α 22 R$ Y (2) , α2 = σ 2X R$ (1) α 1 = Y 2 − α 1α 2 . σX В случае q = 1 уравнения (88) приобретают вид R$ (0) σ$ 2X = Y 2 , 1 + α1 R$ Y (1) . α1 = σ 2X 2 X
После исключения из этих уравнений величины σ 2X приходим к квадратному уравнению относительно α 1 и находим оценку
1 − 1 − 4 r$Y2 (1) , α$ 1 = 2 r$Y (1) 1 , 2 $ (1) R$ (0) . Затем получаем оценку в которой r$Y (1) = R Y Y r$Y (1) ≤
(89)
σ$ 2X =
$ Y (1) 2 r$Y (1) R
1 − 1 − 4 r$Y2 (1)
.
(90)
Наконец, рассмотрим оценку параметров в смешанной модели АРСС(p,q). Для оценки параметров авторегрессии β1 ,..., β p можно использовать p-уравнения вида (47) для k = q + 1,..., q + p , в которых значения корреляционной функции R Y ( r ) заменяются выборочными значениями (оценками). вспомогательный процесс W, полагая p
Wt = Yt − ∑ β jYt − j ,
Затем
t = 0,±1,...
j=1
введем (91)
Тогда уравнению (43) можно придать вид q
Wt = ∑ α j X t − r r =0
и, следовательно, с.п.W можно рассматривать как «чистую» последовательность CC(q). Исходя из равенства (91), можно выразить корреляционную функцию последовательности W через значения корреляционной функции последовательности Y. Можно показать, что
R W ( j) = ∑ β 2i R Y ( j) + ∑ (β 0β i + β1β i +1 +...+β p−iβ p )d j , p
p
i=0
i =1
(92)
где j = 0,1,..., q ; d j = R Y ( j + i) + R Y ( j − i) , β 0 = −1 . Далее, пользуясь уже найдеными оценками для R Y ( r ) и параметров
β1 ,..., β p ,
по
формулам
(92)
будем
иметь
оценки
для
корреляционной функции R W ( r ), j = 0,1,..., q . На заключительном этапе используем описанный выше линейно сходящийся итеративный процесс для оценки неизвестных σ 2X , α 1 ,..., α q либо (в частном случае q = 1 ) воспользуемся готовыми формулами (89) и
$ (0) и R$ (1) должны быть заменены (90), в которых оценки R Y Y $ (0) и R$ (1) . оценками R W W
3.4. Оценивание параметров
методом максимального правдоподобия Использованный в предыдущем разделе метод моментов приводит, при определенных условиях, к состоятельным оценкам. Однако оценки по методу моментов, вообще говоря, неэффективны. К тому же метод моментов неприменим, когда теоретические моменты нужного порядка не существуют. Одним из популярных общих методов получения оценок параметров, обладающих рядом преимуществ по сравнению с методом моментов, является метод максимального правдоподобия (м.м.п.).Напомним суть этого метода. Пусть имеем вектор наблюдений y T = ( y1 ,... y T ) случайной последовательности Y = {Yt , t = 0,±1,...} и f ( y T ; θ) = f ( y1 ,... y T | θ) -
совместная плотность этих наблюдений. Векторный параметр θ = (θ1 ,... θ k ) принадлежит параметрическому множеству Θ ⊂ R k . Функция правдоподобия (при фиксированных определяется как следующая функция параметра θ : L(θ| y T ) = f (θ| y T ) .
наблюдениях) (93)
Принцип максимального правдоподобия (м.п.) предписывает выбор
(
)
в качестве оценки параметра θ такого значения θ$ = θ$ 1 ,... θ$ k , для которого
(
)
L θ$ | y T = sup L(θ| y T ) .
(94)
θ⊂Θ
Верхняя грань может не достигаться, и для таких случаев вводится модифицированная оценка м.п. θ * , определяемая условием
(
)
L θ$ | y T ≥ c sup L(θ| y T ) , θ ⊂Θ
где c - фиксированное число, 0 < c < 1. Может случится, что для некоторых наблюдений θ * и θ не существуют. Однако можно показать, что при условиях регулярности на f (θ| y T ) такими наблюдениями можно пренебречь. Часто удобно работать не с функцией L(θ| y T ) , а с ее логарифмом: l(θ| y T ) = ln L(θ| y T ) . Условие (94) переходит в
(
)
l θ$ | y T = sup l(θ| y T ) .
(95)
θ⊂Θ
Если супремум в (95) достигается во внутренней точке множества Θ
и l(θ| y T ) дифференцируема по θ , то в точке θ * дожны обращатся в
нуль частные производные функции l(θ| y T ) . Следовательно, в этом случае θ$ удовлетворяет уравнениям
∂ l(θ| y T ) = 0 , i = 1,... k . ∂θ i
(96)
Уравнения (96) называются уравнениями м.п., а всякое их решение оценкой м.п. Оценку, определяемую условием (95), называют оценкой метода м.п. Общие свойства оценок м.п. по независимым наблюдениям можно найти, например, в [7]. Нас же будут интересовать оценки м.п. параметров по зависимым наблюдениям, а именно, по с.п. АР(p), СС(q) и АРСС(p,q). Для получения оценок м.п., согластно вышесказанному, нужно прежде всего найти функцию T правдоподобия L(θ| y ) . Однако, удобные для использования
формулы для L(θ| y T ) удается получить только в предположении,
что входная последовательность X = {X t , t = 0,±1,...} - гауссовская. Тогда в силу линейности преобразований, осуществляемые формулами (7), (32) и (43), выходная последовательность Y = {Yt , t = 0,±1,...} тоже будет гауссовской. Если X t ~ N( 0, σ 2X ) и обеспечена стационарность последовательности Y, то вектор Y T = (Y1 ,..., YT ) будет гауссовским с нулевым вектором средних значений и корреляционной матрицей R T = R( k − j)
k , j=1,T
, где
R( k ) = R( − k ) находятся по формулам (33) для последовательности СС(q) и из уравнений (11) и (46) дял последовательностей АР(p) и АРСС(p,q) соответственно. Следовательно, плотность вектора Y T будет иметь вид
f (y
T
)=
1
(2 π)
n 2
det R t
1 2
e
(
1 −1 T T R T y ,y 2
)
,
(97)
где y T = ( y1 ,..., y T ) , R T−1 - матрица, обратная к корреляционной, символ
(⋅,⋅)
обозначает скалярное произведение в эвклидовом
пространстве размерности T. Практическому использованию плотности (9) при больших T препятствуют трудности обращению матрицы R. Однако м.м.п. удается реализовать для конкретных
моделей гауссовских случайных последовательностей, к рассмотрению которых мы и перейдем. М.м.п. для с.п. АР(p). В соответствии с идеей м.м.п. начнем с рассмотрения функции правдоподобия. Предположим, что на вход авторегрессионной модели (7) подается гауссовский «шум» X = {X t , t = 0,±1,...} с MX t = 0 и DX t = σ 2X . Так как модель (7) осуществляет линейное преобразование, то выходной «сигнал» Y = {Yt , t = 0,±1,...} , как известно, тоже будет гауссовским. Если модель (7) стационарна, то с.п. Y стационарна MYt = 0 и корреляционной функцией, определяемой разностным уравнением вида (11). Для гауссовского вектора Y p + T = Y1 ,..., Yp , Yp+1 ,..., Yp+ T
(
)
плотность распределения может быть записана в соответствии с формулой (97)
f ( y p + T ; β, σ X ) =
1 (98) ⋅ exp − ( R −p1+T y p+T , y p+T ) , 2 где β = (β1 ,..., β p ) -вектор параметров модели (7), y p+ T = ( y 1 ,..., y p+ T ) , = (2π)
−( p + T ) 2
R p +T = R Y ( k − j)
det R p + T
k , j=1, p + T
−1 2
- корреляционная матрица вектора Y p + T .
При использовании плотности (98) можно избежать обращения матрицы R p +T . Для этого воспользуемся представлением
f ( y p +T ; β, σ X ) = ( y p ; β, σ X ) ⋅ ( y p +1 ,.., y p + T ; β, σ X | y p ) ,
(99)
где первый множитель правой части - безусловная плотность вектора Y p = Y1 ,..., Yp , получающаяся из (98) при T = 0 , а второй
(
)
- условная плотность вектора
(
(Y
p +1
,..., Yp + T ) при фиксированном
)
значении вектора Y p = y p = y 1 ,..., y p . Эту условную плотность можно получить, используя плотность распределения вектора
(X
p +1
,..., X p + T )
ϕ( x p +1 ,..., x p + T ; σ X ) =
1 p+T (100) ⋅ exp 2 ∑ x 2X , k = p +1 2 σ X Но при фиксированном векторе Y p = y p вектор ( X p +1 ,..., X p + T ) и = ( 2 πσ 2X )
(Y
p +1
−T 2
,..., Yp + T ) связаны преобразованием p
X p+1 = Yp+1 − ∑ β jYp +1− j j=1
..................................... p
X p + T = Yp+ T − ∑ β jYp +T− j j=1
с единичным якобианом. Следовательно,
f ( y p +1 ,..., y p + T ; β, σ X ) =
p p = ϕ y p +1 − ∑ β p +1 y p+1− j ,..., y p+ T − ∑ β p+1 y p+ T− j ; σ X = j=1 j=1 2 p 1 T 2 −T 2 = ( 2 πσ X ) ⋅ exp 2 ∑ y p+ k − ∑ β j y p+ k − j j=1 2σ X k =1
(101)
Кроме того,
f ( y p ; β, σ X ) =
= (2π)
−p 2
det R p
−p 2
1 ⋅ exp − ( R −p1+T y p , y p ) , 2
Учитывая эту формулу и (101), запишем (99) в виде
f ( y p + T ; β, σ X ) =
= (2π)
−( p + T ) 2
σ −XT det R p + T
−1 2
S(β) ⋅ exp − 2 , 2σ X
(102)
В предыдущей формуле
S(β) = σ 2X ( R −p1 y p , y p ) + p + ∑ y p+ k − ∑ β j y p+ k − j k =1 j=1 T
Заметим,
что
2
R p = σ Y2 rp , где
(103)
rp = rY ( k − j)
k , j=1, p
-
матрица,
составленная из значений нормированной корреляционной функции, не зависящих от σ 2X , а величина σ 2Y , согласно формуле (15),
пропорциональна σ 2X . Следовательно det R p = (σ 2Xp c p (β)) det rp и
σ 2X ( R −p1 y p , y p ) = c(β)( rp−1 y p , y p ) , где c(β) - знаменатель правой части (15). Тогда логарифм функции правдоподобия
= ln L(β, σ X | y p+T ) = ln f ( y p+T ; β, σ X ) будет иметь вид
l(β, σ X | y p + T ) =
l(β, σ X | y p + T ) =
S(β) 1 (104) = −( p + T) ln σ X 2 π − ln(det rp c p (β)) − 2 . 2 2σ X Наряду с параметрами β1 ,..., β p будем считать неизвестной также
(
)
дисперсию σ 2X входной последовательности. Тогда уравнения правдоподобия запишутся в виде
p + T S(β) ∂l =− + 3 = 0, ∂σ X σX σX 1 ∂ ∂l ln(det rp c p (β)) − =− 2 ∂β j ∂β j
−
1 ∂ c(β)( rp−1 y p , y p ) + 2 2σ X ∂β j
+
p 1 T y y − ∑ p+ k − j p+ k ∑ β m y p+ k − m = 0 , m =1 σ 2X k =1
(
(105)
)
(
)
j = 1, p .
(106)
Выражая дисперсию «шума» σ 2X из (105) и подставляя ее в систему (106), будем иметь систему относительно неизвестного вектора β = β1 ,..., β p . Однако при решении получающейся системы
(
)
возникают трудности, поскольку в общем случае величины
Mj = −
1 ∂ ln(det rp c p (β)) , j = 1, p 2 ∂β j
- сложные функции β . Продемонстрируем эти трудности на простейших случаях. 1. С.п.АР(1). В этом случае c(β1 ) = 1 − β12 , r1 = rY ( 0) = 1 и из (105) и (106) получаем кубическое уравнение относительно β1
β13
T T T 2 2 T −1 y β − ∑ k ∑ y k y k +1 − 1 T + 1 k =2 T + 1 k =1
2 2 T + 2 T 2 y1 + y T+1 T − β1 ∑y + + ∑ y k y k +1 = 0 , T + 1 k =2 k T + 1 k =1
корни которых в принципе могет быть точно найдены с использованием формул Г.Кардано. Однако если все три корня вещественны, то предстоит еще выяснить, какой из них доставляеи величине l(β 1 , σ X | y T+1 ) наибольшее значение.
[
]
2. С.п.АР(2). Имеем c(β1 ) = (1 − β 2 ) − β12 (1 + β 2 ) (1 − β 2 ) ,
r2 =
2
β1 1 1 − β2 1 − β2 1 − β2 β2
и система (106) получает вид
[(1 − β ) 2
2
]{
T +1
T
T
k =2
k =2
k =1
β1 S(β1 , β 2 ) = 0 , T+2 2 (1 + β 2 ) (1 − β 2 ) − β12 ⋅
{
}
− β1 ⋅ β1 ∑ y 2k + β 2 ∑ y k y k +1 − ∑ y k y k +1 +
[
]
T
T
T
k =3
k =2
k =1
}
⋅ β 2 ∑ y 2k + β1 ∑ y k y k +1 − ∑ y k y k +1 + β12 + 2β 2 (1 − β 2 ) S(β1 , β 2 ) = 0 , T+2 где T +1
S(β1 , β 2 ) = β12 ∑ y 2k + β 22 ∑ y 2k + 2β1β 2 ∑ y k y k +1 + T
T
k =2
k =3
k =2
T
T
T+2
k =1
k =1
k =1
− 2β1 ∑ y k y k +1 − 2β 2 ∑ y k y k +2 + ∑ y 2k . В этом случае точное решение системы относительно неизвестных β1 и β 2 уже не может быть найдено. Итак, для получения оценки вектора β в общем случае нужно либо искать приближенное решение системы (106), либо, отказавшись от ее решения, максимизировать вместо логарифма функции правдоподобия другую, но близкую к нему в каком-то смысле функцию. Ясно, что второй подход приведет к оценкам, которые не будут оценками м.п., но их все-таки естественно называть оценками квазимаксимального правдоподобия.
Оценки квазимаксимального правдоподобия. Примем во внимание, что в логарифме функции правдоподобия (104) слагаемое, содержащее det rp , не зависит от T и мало по сравнению с остальными двумя слагаемыми, растущими с ростом T. Пренебрегая этими слагаемыми, получим функцию
S(β) ~ l (β, σ X | y p + T ) = −( p + T) ln σ X 2 π − 2 . 2σ X
(
)
(107)
Крому того заметим, что величина S(β) , определенная неравенством (103), не только квадратичная форма от наблюдений y p + T , но (как показано в работе [3,с.304]) и от параметров β . Если положить
β ′ = (1, β1 ,..., β p ) , то для некоторой матрицы D размера (p+1)x(p+1)
справедливо равенство S(β) = ( Dβ ′, β ′) ,
(108)
причем
D11 − D12 D= M − D1,p +1
− D12 L − D1,p +1 D 22 L D 2 ,p +1 M M D 2 ,p+1 L D p+1,p+1
(109)
а элементы D i , j определяются как суммы
D i , j = D j,i = y i y j + y i+1 y j+1 +...+ y p+T+1−i y p+ T+1− j
(110)
~
содержащие p + T − ( i − 1) − ( j − 1) слагаемых. Тогда оценки β
параметров β , полученные путем максимизацмм (107), совпадают с оценками наименьших квадратов, полученными минимизацией S(β) . Дифференцируя (108) по β j , j = 1, p и приравнивая к нулю соответствующие производные, получим систему
β1 D 22 + β 2 D 23 +...+β p D 2 ,p +1 β1 D 23 + β 2 D 33 +...+β p D 3,p +1 β1 D 2 ,p +1 + β 2 D 3,p+1 +...+β p D p+1,p+1
= D12 , = D13 , L = D 1 , p +1 ,
которая в очевидных матричныз обозначениях имеет вид D pβ = d , откуда получаем оценку квазиоптимального правдоподобия
(111)
~ β = D −p1d
(112)
Приближенные оценки м.п. параметров β можно получить изменяя сами уравнения правдоподобия (106). Сначала производную ∂l ∂β j запишем в виде
∂l = M j + σ −X2 ( D1, j+1 − β1 D 2 , j+1 −...−β p D p+1, j+1 ) , ∂β j
(113)
j = 1, p . Беря математические ожидания от обеих частей этих равенств и учитывая, что M ∂l ∂β j = 0 , получаем
(
)
M jσ 2X + ( p + T − j) R Y ( j) − β1 ( p + T − j − 1) R Y ( j − 1)−... ...−β p (T − j) R Y ( j − p) = 0.
j = 1, p .
(114)
Теперь вспомним разностное уравнение (11) и, умножим его на p + T , запишем в виде
( p + T)R ( j) − β ( p + T)R ( j − 1)−...−β ( p + T)R ( j − p) = 0 Y
1
Y
p
Y
и вычтем из (114). Получим
M jσ 2X = jR Y ( j) − β1 ( j + 1) R Y ( j − 1)−...
...−β p ( j + p) R Y ( j − p),
j = 1, p .
(115)
Используя в качестве оценок значений корреляционной функции R Y ( j − i) величины D i+1, j+1 ( p + T − j − i) , из (115) получим оценку для M j , а подставляя ее в (113), получим
D 2 , j+1 D D1, j+1 ∂l ≈ ( p + T)σ −X2 − β1 −...−β p p+1, j+1 , p + T − j−1 T− j ∂β j p + T − j что ведет к системе линейных уравнений согластно формуле (111), в которых вместо D i , j стоят величины
D *i , j = ( p + T) D i , j [ p + T − (i − 1) − ( j − 1)] .
В очевидных матричных обозначениях мы будем иметь систему D *pβ = d * , из которых получаем приближенную оценку м.п.
[ ]
β * = D *p
−1
d* .
Продемонстрируем различия рассмотренных оценок параметров β на частных случаях p = 1 и p = 2 .
1. С.п.АР(1). В этом случае оценка квазимаксимального правдоподобия находится по формуле (112), в которой T
D1 = D 22 = ∑ y 2k и k =2
Тогда
T
d = D12 = ∑ y k y k +1 . k =1
T T ~ β1 = D1−1d = ∑ y k y k +1 ∑ y 2k . k =1
k =2
Приближенная оценка м.п. определяется формулой (116), в которой
D1* = D *22 =
T +1 D 22 , T −1
d * = D12* =
T +1 D12 . T
Тогда
β1* = ( D1* ) d * = −1
T T −1 T 2 ∑ y k y k +1 ∑ y k . k =2 T k =1
2. С.п.АР(2). Для получения оценки квазимаксимального правдоподобия вектора β = (β1 , β 2 ) нужно иметь вектор
d = ( D12 , D13 ) и матрицу D D 2 = 22 D 32
D 23 , D 33
причем выражения для величин D12 и D 22 указаны в предыдущем примере, а D13 , D 23 и D 33 имеют следующий вид: T
T
T
k =1
k =2
k =3
D13 = ∑ y k y k + 2 , D 23 = ∑ y k y k +1 , D 33 = ∑ y 2k . Используя (112), находим
~ D D − D13 D 23 β1 = 12 33 2 , D 22 D 33 − ( D 23 ) D D − D12 D 23 ~ β2 = 22 13 2 . D 22 D 33 − ( D 23 )
Приближенная оценка м.п. β * = (β1* , β *2 ) вектора β может быть получена из предыдущих формул, в которых величины D i , j нужно заменить величинами
D *i , j = (T + 2) D i , j [T + 4 − i − j]
i, j = 1,2,3.
Рассмотренные примеры показывают, что для больших выборок различия между оценками, полученными путем разных приближений, малы. То же самое можно сказать об оценках параметров АР(p) и в общем случае.
М.м.п. для с.п. СС(q). Предположим, что на входе модели скользящего среднего (32) имеем гауссовский «шум» X = {X t , t = 0,±1,...} с MX t = 0 и DX t = σ 2X . При этом выходной
Y = {Yt , t = 0,±1,...}
«сигнал»
тоже
будет
гауссовским
и
стационарным с MYt = 0 и корреляционной функцией, определяемой формулой (33). Рассмотрим функцию правдоподобия для с.п.Y соответствующую наблюдениям y T = y q +1 ,... y q + T .
(
Гауссовский вектор Y T = Yq +1 ,... Yq + T
)
(
)
будет иметь плотность
распределения вида
f ( y T ; α, σ X ) =
= (2π) где
−T 2
det R T
α = (α 1 ,..., α q )
R T = R Y ( k − j)
k , j= q , q + T
−1 2
1 ⋅ exp − ( R T−1 y T , y T ) , 2 -
вектор
параметров
(117) модели
(32)
- корреляционная матрица вектора Y T с
элементами, определяемыми по формуле (33). Хотя формула (33) проста, обращение матрицы R T при достаточно больших T сопряжено со значительными вычислительными трудностями. Поэтому рассмотрим удобный способ вычисления квадратичной формы ( R T−1y T , y T ) . Для этого рассмотрим вектор
X q +T = ( X1 ,... X q + T ) , плотность распределения которого имеет вид
( x q +T , x q +T ) (118) ϕ( x ; σ X ) = ( 2 πσ ) ⋅ exp − 2 2 σ X и вектор Z q + T = ( X1 ,..., X q , X q +1 ,..., X q + T ) = ( X q , X T ) , который связан q +T
2 X
−( q + T ) 2
с X q +T линейным преобразованием в соответствии с (32): Yq + T = X q + k + α 1 X q + k −1 +...+ α q X k , k = 1, T . При этом мы можем записать представление X q + T = AX q + BY T , где A - матрица размером ( q + T) × q , а B - матрица размером
( q + T) × T .
Элементы этих матриц представляют собой функции
(
)
параметров α = α 1 ,..., α q . Замечая, что преобразование вектора
X q +T в Z q +T имеет единичный якобиан, можем записать совместную плотность Y T и X q S(α , x q ) T q 2 −( q + T ) 2 f ( y , x ; α , σ X ) = ( 2 πσ X ) ⋅ exp − , 2 2 σ X q q T q T где S(α, x ) = ( Ax + By , Ax + By ) .
(
)
Вектор предварительных значений «шума» x q = x1 ,..., x q на практике обычно не наблюдается, и мы найдем для него линейную xq относительно Y T оценку, минимизирующую S(α, x q ) . Пусть ~ некоторая оценка (функция наблюдения Y T ) вектора x q . Запишем вектор
~ q + By T ) Ax q + By T = A( x q − ~ x q ) + ( Ax
и подставим его в выражение для S(α, x q ) . Получим равенство
S(α, x q ) = (A( x q − ~ x q ), A ( x q − ~ x q )) + ~ q + A ′By T ) + x q , A ′Ax + 2( x q − ~ ~ q + By T , Ax ~ q + By T ), + ( Ax
xq где штрих обозначает транспонирование матрицы. Если выбрать ~ так, что ~ q = − A ′By T (119) A ′Ax то S(α, x q ) будет иметь вид
S(α , x q ) = S(α ) + (A( x q − ~ x q ), A ( x q − ~ x q )) (120) ~ q + By T , Ax ~ q + By T ) - функция только наблюдений где S(α ) = ( Ax y T , но не предварительных значений «шума».
Из (120) видно, что S(α, x q ) достигает минимума при x q = ~ xq ,
x q - оценка наименьших квадратов. При этом совместную т.е ~ плотность Y T и X q можно представить в виде f ( y T , xq ; α, σ X ) =
= ( 2 πσ
2 X
)
−( q + T ) 2
S(α ) + (A ′A( x q − ~ x q ), x q − ~ x q ) ⋅ exp − . 2 2 σ X
С другой стороны, ей можно придать вид
f ( y T , x q ; α , σ X ) = f ( y T ; α , σ X ) ⋅ ϕ( x q | y T ; α , σ X ) , где
ϕ( x q | y T ; α , σ X )
-
условная
(гауссовская)
предварительных значений «шума» T наблюдениях Y . Следовательно
[det(A ′A )] ), x − ~x ) ,
ϕ( x q | y T ; α , σ X ) = ( 2 πσ 2X )
(A ′A( x q − ~ xq ⋅ exp − 2σ 2X
при
f ( y T ; α , σ X ) = ( 2 πσ 2X )
−q 2
q
фиксированных
⋅
q
−T 2
−1 2
плотность
[det(A ′A )]
−1 2
S(α ) ⋅ exp − 2 2 σ X
(121) (122)
Сделаем следующие выводы x q является условным математическим 1. Из (121) видно, что ~ ожиданием вектора X q при заданных при наблюдениях Y T = y T и фиксированном α . Используем обозначение
~ X q = [ X q | y T , α] = [ X q ]
имеем [ X q +T ] = A[ X q ] + BY T и
S(α ) = (A[ x q ] + BY T , A[ x q ] + BY T ) = = ([ x q +T ], [ x q + T ]) = ∑ [ x k ] . k =1 q ~ Хотя x можно получить q +T
2
(123)
непосредственно методом наименьших квадратов, на практике его легче вычислять, используя x q = [ x q ] , и получая [ x q ] по методике тот факт, что ~ «прогнозирования» назад описанной в работе [3,разд.7.1.4 и 7.1.5] Сравнивая (122) и (117), получаем
det(A ′A ) = σ −X2 T det R T
и
S(α ) = σ 2X ( R T−1 y T , y T ) . q +T
Чтобы вычислить S(α ) = ∑ [ x k ] , можно получить величины
[x ] , k
2
k =1
k = 1, q + T , пользуясь оценками предварительных значений
«шума»
[ x ] = ([ x ],..., [ x ]) , q
q
1
полученных методом наименьших квадратов (или по методике «прогнозирования назад»), и, вычислив x q +1 ,..., x q + T -
[ ] [
]
реккурентным путем по формулам, получающимся из (32), применяя к обеим частям равенства операции условного математического ожидания при фиксированных наблюдениях y T
[ x ] = [ y ] − α [ x ]−...−α [ x ] , k = q + 1, q + T , где [ y ] = y . k
k
k
1
k −1
q
k −q
k
Наконец, пользуясь (122) и (123), получаем точное выражение для безусловной функции правдоподобия
L( y T ; α , σ X ) =
= ( 2 πσ 2X )
−T 2
1 q +T 12 2 det A A exp xk ] . ⋅ ′ [ [ ( )] − 2 ∑ 2σ X k =1
(124)
Таким образом, принципиально открыт путь к получению оценок м.п. Если наряду с α неизвестно и σ X , то уравнения правдоподобия будут иметь вид
−
T 1 q +T 2 + 3 ∑ [x k ] = 0 σ X σ X k =1
(125)
−
∂[ x k ] 1 ∂ 1 q +T ln[ det(A ′A )] − 2 ∑ [ x k ] =0 2 ∂α j σ X k =1 ∂α j
(126)
и
где j = 1, q . Следует отметить, что
[x ] k
- всегда нелинейные функции
параметров α 1 ,..., α q . Если оценки параметра α уже найдены, то подставив их в величины [ x k ] , из (125) получаем оценку для σ 2X 2 1 q +T 2 ~ σ X = ∑ [x k ] . T k =1
(127)
Сами же оценки параметров α 1 ,..., α q могут быть найдены как решения системы (126), в которой вместо σ 2X следует подставить выражение, найденное из (125). Однако именно решение сисемы (126) представляет наибольшие трудности в силу ее нелинейности относительно α . В отличие от с.п.АР(p) здесь не представляется
возможным переход к линейной системе «квазимаксимального правдоподобия». Рассмотрим ситуацию с оцениванием α в простейшем случае q = 1 . Модель СС(1) определяется скалярным параметром α 1 = α , который и подлежит оценке. Матрица A в этом случае представляет собой вектор-столбец с элементами 1,−α , α 2 ,..., ( − α ) . Тогда T
A ′A = (A , A ) = [1 − α 2 T+2 ] (1 − α 2 ) и из (125) и (126) получаем
уравнение
2 T +1 2 1 T+1 α (T + 1)α x − − ∑ [ ] k T 1 − α 2 T+ 2 1 − α 2 k =1
− ∑ [ x k ] ⋅ ∂[ x k ] ∂α = 0 T +1
(128)
k =1
Выразим величины [ x k ] , k = 1, T + 1 через α и наблюдения y k ,
k = 2, T + 1 . Оценку предварительного значения «шума» ~ x1 = [ x1 ]
можно найти из равенства (119). Легко убедиться, что в нашем примере матрица B имеет вид
0 1 −α B= 2 α − α3 T −1 (− α)
0 0 1 −α α2 T−2 (− α)
L0 0 L0 0 L0 , 1 L0 − α L0 1
а уравнение (119) можно записать в виде T +1
T
x1 ∑ α 2 k = ∑ γ k y k k =0
k =2
(
где γ k = ( − 1) α k −1 1 + α 2 + α 4 +..., α k
2 ( T − k −1)
) , k = 2, T + 1 .
Тогда
1 − α 2 T+1 ~ [ x1 ] = x1 = 1 − α 2 ( T+1) ⋅ k∑=2 γ k y k . Величины [ x 2 ], [ x 3 ],..., [ x T−1 ] можно
теперь
реккурентных уравнений [ x k ] = y k − α[ x k −1 ] , k = 2, T + 1 . Решение этих уравнений приводит к формулам
определить
из
[x ] = y k
− αy k −1 +...+( − 1) α k −1 [ x1 ] , k = 2, T + 1 . k −1
k
После подстановки этих значений в (128) получим уравнение, содержащее кроме α лишь наблюдения y 2 ,..., y T+1 . Однако точное решение полученного уравнения даже в этом простейшем частном случае мы найти не можем. Поэтому рассмотрим один из подходов к получению приближенных оценок м.п. вектора α = α 1 ,..., α q .
(
)
Линеаризация модели. Рассмотрим в качестве «главной части» логарифма функции правдоподобия величину
S(α ) = ∑ [ x k ] = ([ x q +T ], [ x q + T ]) q +T
2
k =1
и будем ее минимизировать. Представляя [ x k ] по формуле Тейлора в окрестности точки, соответствующей предполагаемому значению параметра α 0 = α 10 ,..., α 0q получим приближенной равенство
( ) [ x ] = [ x ] − ∑ (α − α ) p q
0 ,k
k
0 j
j
j=1
[ ]
где x 0 ,k = [ x k | y T , α 0 ] , p j,k = −
j,k
,
(129)
∂[ x k ] . ∂α j α =α 0
В качестве α можно использовать оценку вектора α , предварительно полученную по методу моментов с помощью линейно сходящегося итеративного процесса (см. разд. 3.3.). Если P матрица с элементами p j,k размера ( q + T) × q , то q + T уравнений 0
(129) можно представить в виде
[ x ] = P( α − α ) + [ x ] , где [ x ] и [ x ] - векторы-столбцы с q + T элементами. Поправка q +T 0
q +T
0
q +T 0
(α − α ) , 0
методом
q +T
минимизирующая S(α ) , находится теперь линейным наименьших
квадратов.
Полагая
= ( ∂S(α ) ∂α 1 ,..., ∂S(α ) ∂α q ) , получаем
∂S(α ) ∂α =
∂S(α ) ∂α = − P ′[ x q0 +T ] + 2 P ′P(α − α 0 ) .
Приравнивая этот вектор к нулевому находим
(130) (α − α ) = ( P ′P) P ′[ x ] . Поскольку [ x ] не является линейной функцией параметров −1
0
q +T 0
k
α , однократная
поправка
не
обеспечит
получение
оценок
наименьших квадратов. Поэтому полученные после первой поправки значения используются как новые предполагаемые значения, и процедура повторяется до получения сходящихся результатов. Сходимость оказывается более быстрой, если используются достаточно удачные начальные приближения. Если начальные приближения неудачны, то процесс вычисления параметров может оказаться расходящимся. М.м.п. для смешанной модели АРСС(p,q). Предположим теперь, что выходной сигнал Y = {Yt , t = 0,±1,...} порождается моделью (43), на входе которой имеем (как и в предыдущих случаях) гауссовский «шум» X = {X t , t = 0,±1,...} с MX t = 0 и DX t = σ 2X .
(
)
Считаем, что параметры авторегрессии β = β1 ,..., β p обеспечивают стационарность выходного сигнала Y. Тогда Y - гауссовская стационарная с.п. с MYt = 0 и корреляционной функцией, определяемой уравнениями (46). Как в случае чистой с.п.СС(q), уравнения м.п. сложны и не поддаются непосредственному решению. Поэтому на практике можно использовать возможность представления с.п.АРСС(p,q) в виде чистой последовательности СС(∞) [2,с.264], которую в свою очередь заменяют конечной с.п.СС(Q): Q
∑ δ jx t− j , j= 0
где Q - невелико, а δ j - параметры, являющиеся функциями
(
)
параметров θ = α 1 ,.., α q , β1 ,.., β p исходной последовательности Y. Для оценки параметра θ в модели (131) теперь можно использовать, например, описанную выше «линеаризацию модели». Иногда для получения оценок, близких к оценкам м.п., можно следовать более прямым путем. Расмотрим пример. Модель АРСС(2,1) описывается разностным уравнением Yt = β1Yt −1 + β 2 Yt −2 + α 1 X t −1 (132) в котором оценке подлежит параметр θ = (α 1 , β1 , β 2 ) . Полагая
x1 = x 2 = 0 из (132) получаем x 3 = y 3 − β1 y1 − β 2 y 2 ,
x 4 = y 4 − β1 y 3 − β 2 y 2 − α 1 x 3 , и т.д. Оценка вектора θ может быть получена по наблюдениям y T = ( y1 ,..., y T` ) путем минимизации величины S(θ) = ∑ x 2t . T
t =3
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 1. Журбенко И.Г. Кожевникова И.А. Стохастическое моделирование процессов. 2. 3. 4. 5. 6. 7.
М.:Изд-во МГУ, 1990 148с. Андерсон Т. Стохастический анализ временных рядов. М.:Мир, 1976 757с. Бокс Дж. Дженникс Г. Анализ временных рядов. Прогноз и управление. М.:Мир, 1974 Вып.1 406с. Дианова Р.С. Моделирование случайных процессов и оценка их параметров. Учеб.пособие. Моск. Авиац. Ин-т. М., 1989 44с. Харин Ю.С. Степанова М.Д. Практикум на ЭВМ по математической статистике. Минск: Изд-во Университетское, 304с. Ивченко Г.И. Медведев Ю.И. Математическая статистика. М.: Высш.шк. 1984, 248с. Бендат Дж. Присон А. Прикладной анализ случайных данных. М.:Мир 1989 541с.
Приложение 1
ПРОВЕРКА ГИПОТЕЗЫ СЛУЧАЙНОСТИ
X = ( X1 , X 2 ,...) часто предролагают «чисто случайной», X k независимыми и одинаково распределенными. Это
Входную с.п. т.е считают с.в.
предположение, как правило, оправдано и вытекает из самого характера задачи, но иногда оно нуждается в проверке. Математически задачу можно сформулировать следующим образом: проверить гипотезу
H 0 : F( x) = F( x1 )... F( x T ), x = ( x1 ,..., x T ) ,
где
F( x)
- некоторая функция
распределения. Такую гипотезу назавают гипотезой случайности. Критерий согласия для проверки этой гипотезы можно построить [6] исходя из следующих соображений (далее предполагается, что вектор
X = ( X1 ,..., X T )
имеет непрерывное распределение). Если гипотеза случайности действительно имеет место, то компоненты вектора X «равноправны» и поэтому данные наблюдения не должны быть ни в каком смысле упорядоченны. Другими словами, ситуацию, соответствующую гипотезе
H0 ,
можно охарактеризовать как «полный хаос» или «полный
беспорядок». При отклонениях от
H0
исходные данные имеют тот или иной
порядок. Следовательно, критерий проверки
H0
можно построить на
основании статистик, измеряющих степень «беспорядка» исходных данных. Одной из таких статистик является число инверсий ввыборке. Эта статистика
x (1) ,..., x ( T )
определяется следующим образом. Построим вариационный ряд выборки
x = ( x1 ,..., x T ) .
инверсию, если
i < j,
но
Говорят, что компоненты
xi
стоит правее
xj
xi
и
xj
образуют
в вариационном ряду т.е.
наблюдению с меньшим номером соответствуют большее значение. Если для i < j положить
1, если x i > x j , h ij = 0, если x i ≤ x j . то число инверсий левее
xi
стоит
равенством
ti
t j,
образованных компонентный
xj
(в вариационном ряду
элементов выборки с большими номерами), определится
T
t j = ∑ h ij , i = 1,..., T − 1. j= i + 1
Тогда общее число инверсий
u T ( x)
для выборки
x = ( x1 ,..., x T )
будет задано
равенство
u T = u T ( x) = t 1 +...+ t T−1 . Статистика u T является естетственной мерой «беспорядка» среди наблюдений и ее можно использовать для проверки гипотезы H 0 . Краиние случаи, когда вариационный ряд имеет вид x 1 < x 2 U T:α } = α , где T
-
общее число наблюдений. Пусть имеется следующая последовательность T = 20 наблюдений некоторой с.в. 1. 5,5 6. 5,7 11. 6,8 16. 5,4 2. 5,1 7. 5,0 12. 6,6 17. 6,8 3. 5,7 8. 6,5 13. 4,9 18. 5,8 4. 5,2 9. 5,4 14. 5,4 19. 6,9 5. 4,8 10. 5,8 15. 5,9 20. 5,5 Гипотеза заключается в том, что эти наблюдения представляют собой независимые исходы (измерения) с.в. X , и ее надо проверить при заданном α = 0,05 . Подсчитаем число инверсий в уровне значимости последовательности
t 11 = 7 t 16 = 0 t 12 = 6 t 17 = 2 t 13 = 0 t 18 = 1 t 14 = 0 t 19 = 1 t 15 = 3 Общее число инверсий u T = 62 . Область принятия имеет вид {u 20:0.975 < u 20 ≤ u 20:0.025 } . Из таблицы при α = 0,05 находим u 20:0.0975 = 64 и u 20:0.0025 = 125 . t1 t2 t3 t4 t5
= 8 t6 = 6 = 3 t7 = 1 = 8 t8 = 8 = 3 t9 = 1 = 0 t 10 = 4
Следовательно, гипотеза должна быть отвергнута с уровнем значимости 5%, т.к.
u 20 = 62
не попадает в промежуток между 64 и 125ю
T применяют простой Для большой «длины» релизации асимптотический вариант этого критерия. Используя производящую функцию Φ T ( z) ,
можно показать, чтохарактеристическая функция нормированной
статистики конечном
t
U *T = ( U T − T(T − 1) 4)( 6 n 3 2 ) к
e−t
2
2
N(0,1)
при
T→∞
и любом
- характеристической функции нориального распределения.
Это означает, что распределение величины закону
сходится при
U *T
слабо сходится к нормальному
T → ∞.
Последний результат дает возможность сформулировать следующее правило проверки значимости
α
H0 ,
когда значение
определяют число
фактически наблюдающимся данным
t = U T ( x)
tα
T
велико: для заданного уровня
из условия
x = ( x1 ,..., x T )
числа инверсий в выборке. Если
Φ( − t α ) = α 2 ;
по
вычисляют значение
t − T(T − 1) 4 6 T 3 2 > t α ,
то
H0
гипотезу
отвергают ка противоречащую исходным данным. В противном
случае признают, что гипотеза независимости и одинаковой распределенности наблюдений согласуется с опытными данными. Вероятность ошибочно отвергнуть при этом истинную гипотезу
H0
T(T − 1) 6 P U t − t | H > T →∞ → 2 Φ( − t α ) = α . α 0 32 4 T Это правило можно использовать уже при T > 10 . Приложение 2 ПРОВЕРКА СТАЦИОНАРНОСТИ Изложенные в основном тексте настоящего пособия методы статистической обработки временных рядов подразумевают стационарность последних. Стацинарность процесса играет важную роль потому, что методы анализа нестационарных процессов существенно более громозки, чем в стационарном случае. Часто стационарность вытекает из физической природы процесса, когда порождающие его факторы не зависят от времени. Однако далеко не всегда имеется априорная информация, позволяющая считать исследуемый процесс стационарным. Даже если временной ряд получается путем статического моделирования на компьютере, то не всегда удается обеспечить его стационарность с самого начала процесса моделирования. В частности, при моделировании с.п.АРСС с негауссовским шумом начальный «отрезок» выходного процесса может быть далек от стационарности, и возникает необходимость выбора для статистической обработки участка реализации, соответствующего установившемуся (стационарному) режиму. В Любом случае когда нужно убедится в стационарности наблюдений, поступивших для обработки, приходится использовать один из статистических критериев для проверки гипотезы стационарности. Стационарность в узком смысле означает, как известно, независимость конечномерных распределений от сдвига по временной оси. Это значит, что функция распределния
Ft + τ ,...,t 1
n +τ
Ft ,...,t ( x1 ,..., x n ) 1
n
( x ,..., x ) = F 1
n
t 1 ,..., t n
процесса
( x ,..., x ), 1
Xt
удовлетворяет условию
n = 1,2,...
n
τ , что и t k + τ, k = 1, n принадлежат допустимому множеству временного параметра t . Очевидно, что в этом случае для любой измеримрй функции g( x 1 ,.., x n ) случайные величины для любых значений аргументов и таких любых
Y = g( X t ,.., X t 1
n
)иY
τ
tk
= g( X t + τ ,.., X t 1
и
n +τ
)
одинаково распределены, а моментные функции, если они существуют, не зависят от сдвига по времени.
Если исследователя интересует не сами конечномерные распределения процесса
X t , а лишь его моментные функции, то целесообразно пользоваться
определениями функций.
стационарности,
основанными
на
свойствах
моментных
Стационарным в широком смысле k-го порядка называют процесс
Xt , у
которого моментные функции до k-го порядка включительно существуют и не зависят от сдвига по времени. При этом чаще всего речь идет о процессах, стационарных в широком смысле 2-го порядка, которые называются просто стационарными в широком смысле. Для них
R( t , s) = M( X t − m)( X s − m) = R 1 ( t − s) .
MX t = m t = const
и
Отметим, что если процесс стационарен в узком смысле и обладает моментными функциями до k-го порядка, то он является стационарным и в широком смысле k-го порядка. В случае гауссовских процессов стационарность в широком смысле 2-го порядка будет означать и стационарность в узком смысле, поскольку все конечномерные распределения гауссовского процесса вполне определяются двумя первыми моментными функциями: средним значением и корреляционной функцией. Перейдем к рассмотрению задачи проверки гипотезы стационарности по существу. Мы используем знакомый из предшествующего раздела критерий инверсий. К сожалению, при построении такого критерия не удается обойтись только одной реализацией. Итак, предположим, что исследуется случайный процесс с дискретным временем, т.е. случайная последовательность
Y = {Yt , t = 0,±1,...} , относительно которой нужно проверить гипотезу H 0 : «с.п. Y стационарна в узком смысле». Рассмотрим T независимых наблюдений последовательности Y , причем k-e наблюдение имеет длину nk, где n- некоторое положительное число. Тогда первое наблюдение представляет собой реализацию с.п. Y длины n
y1,1 ,..., y1,n ; k-ое наблюдение - реализацию длины kn
y k ,1 ,..., y k ,nk ; а последнее наблюдение (с номером
T ) - это реализация длины nT
y T ,1 ,..., y T ,nT . С помощью некоторой измеримой функции n переменных
g( x1 ,.., x n )
T
полученных
построим используя n последниу значения каждой из реализаций, величины:
(
z1 = g( y1,1 ,..., y1,n ),..., z T = g y T ,n ( T−1)+1 ,..., y T ,nT
).
y kr заменить случайными случайными величинами Ykr из последовательности Yk = {Ykt , t = 0,±1,...} , являющейся k-ой (по порядку) «копией» исследуемой с.п. Y , то получим случайные величины
Если в них значения
(
)
Z k = g Yk ,n ( k −1)+1 ,..., Yk ,nk , k = 1, T. Они будут независимы в совокупности, т.к. порождаются независимыми «копиями» с.п. Y . В случае же справедливости гипотезы
H0 ,
т.е. в случае
стационарности в узком смысле с.п. Y , они будут одинаково распределенными. Таким
образом,
гипотеза
H0
будет
подтверждатся
или
отвергатся
одновременно с принятием или отклонением гипотезы случайности для с.в.
Z1 ,..., Z T
при любой генерирующей их функции
g( x1 ,.., x n ) . Для проверки
же гипотезы случайности можно использовать изложенный в прил.1 критерий инверсий. При описанном выше подходе к проверке гипотезы стационарности функцию
g( x1 ,.., x n )
цедесообразно выбирать так, чтобы величины
zk
представляли собой выборочные моменты. Если существует, в частности, моментная функция r-го порядка и гипотеза
g( x1 ,.., x n ) =
H0
верна, то выбирая функцию
1 n r ⋅ ∑ xj, n j=1
z k будет иметь оценку начального момента r-го порядка kn 1 z k = ⋅ ∑ y rj . n j=( k −1) n+1
в качестве
При достаточно слабых ограничениях эта оценка состоятельна:
Zk p→ α r = MYtr , k = 1, T при n → ∞ . Поэтому при истинности гипотезы H 0 величины z k
не должны существенно
зависеть от времени (от индекса k). Если же они сильно колеблются в зависимости от k, то это свидетельствует о том, что наблюдения не согласуются гипотезой стационарности и можно не пренебрегать к использованию критерия инверсий. В случае отсутствия явный колебаний в совокупности
{z ,.., z } 1
T
придется пользоваться критерием инверсий. На
практике
для
проверки
гипотезы
H 0 можно
рекомендовать
построение критерия инверсий на основе совокупности оценок момента второго порядка
zk =
1 kn 2 ∑ y i , k = 1, T. n j=( k −1) n+1