Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования
С...
46 downloads
277 Views
3MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования
Северо-Западный государственный заочный технический университет
ЭКОНОМЕТРИКА Методические указания к выполнению практических работ
Институт экономико-гуманитарный Специальность 080105.65 – финансы и кредит Направление подготовки бакалавра 080100.62 - экономика
Санкт-Петербург 2006
Практическая работа 3 КОРРЕЛЯЦИОННЫЙ АНАЛИЗ 1. Цель работы Выработка практических навыков проведения корреляционного анализа. 2. Основные теоретические положения При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме. Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается матрица парных коэффициентов корреляции, затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x1 , x2 , K, x m для дальнейшего построения уравнения регрессии. 2.1.
Парные (линейные) коэффициенты корреляции
Тесноту связи, например, между переменными x и y по выборке значений
(xi , y i ) , i = 1, n оценивает линейный коэффициент парной корреляции:
(
r = rxy =
)(
1 n ∑ xi − x y i − y n i =1
(
1 n ∑ xi − x n i =1
)
2
(
)
1 n ⋅ ∑ yi − y n i =1
∑ (xi − x )(y i − y ) n
)
2
= i =1
nS x S y
,
(1)
где x и y - средние значения, S x и S y - стандартные отклонения соответствующих выборок. Часто используют следующую модификацию формулы (1): rxy =
xy − x ⋅ y . SxSy
Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y ), отрицательное значение – связь обратная (с ростом x значение y уменьшается). 24
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если r < 0,3 - связь практически отсутствует; 0,3 ≤ r < 0,7 - связь средняя; 0,7 ≤ r < 0,9 - связь сильная; 0,9 ≤ r < 0,99 - связь весьма сильная. Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x1 , x 2 , K x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y , а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид r yx2 K r yxm ⎛1 r yx1 ⎜ ⎜ rx1 y 1 rx1x2 K rx1xm ⎜ ⎜K K K K K ⎜r ⎝ xm y rxm x1 rxm x2 K 1
⎞ ⎟ ⎟ ⎟. ⎟ ⎟ ⎠
Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции rx j xi > 0,7 , то в данной модели множественной регрессии существует мультиколлинеарность. Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов. Значимость парных коэффициентов корреляции проверяют по t–критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0 : ρ = 0 . Затем задаются параметры: уровень значимости α и число степеней свободы ν = n − 2 . Используя эти параметры по таблице критических точек распределения Стьюдента, находят t кр , а по имеющимся данным вычисляют наблюдаемое значение критерия: t набл =
r 1− r 2
n−2,
(2)
где r - парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1 − α , если t набл по модулю будет больше, чем t кр .
25
2.2.
Частные коэффициенты корреляции
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных. Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Если вычисляется, например, ryx1 x2 (частный коэффициент корреляции между y и x1 при фиксированном влиянии x2 ), это означает, что определяется количественная мера линейной зависимости между y и x1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка. Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции ryx x получится меньше, чем соответствующий 1 2
парный коэффициент ryx , значит взаимосвязь признаков y и x1 в некоторой 1 степени обусловлена воздействием на них фиксируемой переменной x2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x1 . Частный коэффициент корреляции между двумя переменными ( y и x 2 ) при исключении влияния одного фактора ( x1 ) можно вычислить по следующей формуле:
ryx2 − ryx1 rx2 x1
ryx2 x1 =
(1 − r )(1 − r ) yx1
2
x1x2
2
.
(3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x 2 r yx1 − r yx2 rx2 x1 r yx x = ; 1 2 2 2 1 − r yx2 1 − rx1x2
(
при фиксированном x3
r yx x = 1 3
)(
)
r yx1 − r yx3 rx3 x1
(1 − ryx )(1 − rx x ) 2
3
2
.
1 3
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным ν = n − l − 2 , где l число фиксируемых факторов. 26
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели. 2.3.
Множественный коэффициент корреляции и коэффициент детерминации
Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других рассматриваемых переменных. Особое значение имеет расчет множественного коэффициента корреляции результативного признака y с факторными x1 , x 2 , K , x m , формула для определения которого в общем случае имеет вид
R y x1x2 Kxm = 1 −
∆r , ∆ 11
(4)
∆ r - определитель корреляционной матрицы; дополнение элемента ryy корреляционной матрицы.
∆ 11 - алгебраическое
где
Если рассматриваются лишь два факторных признака, то для вычисления множественного коэффициента корреляции можно использовать следующую формулу: R y x1x2 =
rx1 y 2 + rx2 y 2 − 2rx1x2 rx1 y rx2 y 1 − rx1x2 2
.
(5)
Построение множественного коэффициента корреляции целесообразно только в том случае, когда частные коэффициенты корреляции оказались значимыми, и связь между результативным признаком и факторами, включенными в модель, действительно существует. Квадрат множественного коэффициента корреляции R 2 y x1x2Kxm ≡ R 2 называется множественным коэффициентом детерминации; он показывает, какая доля дисперсии результативного признака y объясняется влиянием факторных признаков x1 , x 2 , K , x m . Заметим, что формула (13) лабораторной работы 1 для вычисления коэффициента детерминации через соотношение остаточной и общей дисперсии результативного признака даст тот же результат. Множественный коэффициент корреляции и коэффициент детерминации изменяются в пределах от 0 до 1. Чем ближе к 1, тем связь сильнее и соответственно тем точнее уравнение регрессии, построенное в дальнейшем, будет описывать зависимость y от x1 , x 2 , K , x m . Если значение множественного коэффициента корреляции невелико (меньше 0,3), это означает, что выбранный 27
набор факторных признаков в недостаточной мере описывает вариацию результативного признака либо связь между факторными и результативной переменными является нелинейной. Вопрос о проверке значимости коэффициента детерминации рассмотрен выше (см. п. 2.3 лабораторной работы 1). 2.4.
Пошаговая регрессия
Отбор факторов x1 , x 2 , K , x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели. При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы xi и x j признаются коллинеарными, если rx j xi > 0,7 . В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y. На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком. На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной. При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным. 3. Порядок выполнения практической работы Задание 1. Для выборочных данных по 20 коммерческим банкам, приведенных в табл. 8, исследовать зависимость показателя прибыли банка ( y ,
млн д. е.) от размера собственного капитала ( x1 , млн д. е.), объема чистых активов ( x 2 , млн д. е.), а также объема вложений в ценные бумаги ( x3 , млн д. е.): 1) рассчитать парные коэффициенты корреляции, оценить их значимость на уровне α = 0,05 и пояснить их экономический смысл; 2) рассчитать частные коэффициенты корреляции и с их помощью оценить целесообразность включения факторов в уравнение регрессии; 3) найти коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент корреляции и охарактеризовать степень совместного влияния факторов на результативный признак. 28
4) используя пошаговую процедуру отбора факторов, построить подходящую регрессионную модель показателя прибыли банка, исключив при этом мультиколлинеарность. Таблица 8 Номер Балансовая Собственный Чистые активы Вложения в банка прибыль капитал ценные бумаги 754 1369,7 531,2 30,7 1 720,3 1167 50,5 30,3 2 610,5 1253,6 410,1 29,2 3 712,8 1247,5 163,1 28,6 4 411,3 1336 317,4 25,9 5 610,5 1232,7 105,9 21,6 6 603,8 1220,1 193,5 13,1 7 669,5 1299,1 70,2 12,5 8 710,3 1195,6 233,9 12,1 9 510 1086,3 29,1 9,3 10 469,7 1283,3 179,8 8,6 11 510,5 1169,3 802,6 8,2 12 558,4 1056 135,9 7,7 13 547,1 1155,7 124,6 4,1 14 646,1 1051,7 114,2 3,7 15 228,1 1142,7 113,6 3,4 16 605 1034,8 107,4 1,8 17 445,1 929,7 106,1 1,8 18 529,5 1086,9 50,5 1,6 19 18,5 986,4 50,3 1,5 20 Задание 2. В табл. 9 приведены данные по 15 торговым предприятиям о зависимости величины валового дохода ( y , млн руб.) от стоимости основных фондов
( x1 , млн руб.), стоимости оборотных средств ( x 2 , млн руб.), а также величины торговых площадей ( x3 , тыс. м2). Требуется: 1) рассчитать парные коэффициенты корреляции, оценить их значимость на уровне α = 0,05 и пояснить их экономический смысл; 2) рассчитать частные коэффициенты корреляции и с их помощью оценить целесообразность включения факторов в уравнение регрессии; 3) найти коэффициент множественной корреляции, множественный коэффициент детерминации, скорректированный коэффициент корреляции и охарактеризовать степень совместного влияния факторов на результативный признак; 4) используя пошаговую процедуру отбора факторов, построить подходящую регрессионную модель показателя прибыли банка, исключив при этом мультиколлинеарность. 29
Утверждено редакционно-издательским советом университета УДК 519.2.06(07) Эконометрика: Методические указания к выполнению практических работ. –СПб.: Изд-во СЗТУ, 2006. –35 с.
Методические указания разработаны на основании государственных образовательных стандартов высшего профессионального образования по специальности подготовки дипломированных специалистов “Финансы и кредит”. Приведены методические указания к выполнению трех практических работ, охватывающих важнейшие вопросы множественного регрессионного анализа. Комплекс практических работ ориентирован на пакет программ Microsoft Excel. Рассмотрено на заседании кафедры информатики 14.09.2006 г., одобрено мето-дической комиссией факультета информационных технологий и систем управления 16.10.2006 г.
Рецензенты: канд.
кафедра информатики СЗТУ (зав. кафедрой Г. Г. Ткаченко, физ.-мат. наук, доц.) С. И. Никитин, канд. физ.-мат. наук, проф., зав. каф. математики и математических методов в экономике СПбГАСЭ
Составитель
М. Б. Шабаева, канд. физ.-мат. наук, доц.
1
© Северо-Западный государственный заочный технический университет, 2006
ОБЩИЕ УКАЗАНИЯ Целью методических указаний к выполнению практических работ является освоение студентами методики эконометрического моделирования, приобретение ими практических навыков использования инструментов корреляционно-регрес-сионного анализа MS Excel для обработки и анализа экономико-финансовой инфор-мации. В практических работах рассмотрены основные вопросы множественной регрессии: метод наименьших квадратов, отбор факторных переменных модели регрессии на основе корреляционного анализа данных, анализ статистической значимости параметров модели и уравнения, в целом, коэффициенты мно-жественной и частной корреляции и детерминации, доверительные интервалы, обнаружение автокорреляции и мультиколлинеарности, нелинейные связи, производственные функции. В каждой практической работе излагаются необходимые для ее выполнения теоретические сведения и порядок выполнения работы, приводится решение типовой задачи и варианты индивидуальных заданий для самостоятельной работы. Нумерация рисунков и таблиц сквозная, а формулы нумеруются в каждой работе автономно. Студенты выполняют две практические работы по указанию преподавателя. К выполнению работ допускаются студенты, изучившие основные теоретические положения и ознакомившиеся с порядком выполнения работ. Отчет по практической работе должен содержать: - наименование работы; - текст индивидуального задания, записанный без сокращений; - краткое изложение теоретического материала; - результаты расчетов с необходимыми пояснениями; - выводы. БИБЛИОГРАФИЧЕСКИЙ СПИСОК Основной: 1. Кремер, Н. Ш. Эконометрика / Н. Ш. Кремер, Б. А. Путко. - М.: ЮНИТИ-ДАНА, 2005. Дополнительный: 2. Доугерти, К. Введение в эконометрику / К. Доугерти; пер. с англ. – М.: ИНФРА-М, 2004. 2
3. Эконометрика / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2005. 4. Практикум по эконометрике / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2005.
3
Утверждено редакционно-издательским советом университета УДК 519.2.06(07) Эконометрика: Методические указания к выполнению практических работ. – СПб.: Изд-во СЗТУ, 2006. –35 с.
Методические указания разработаны на основании государственных образовательных стандартов высшего профессионального образования по специальности подготовки дипломированных специалистов “Финансы и кредит”. Приведены методические указания к выполнению трех практических работ, охватывающих важнейшие вопросы множественного регрессионного анализа. Комплекс практических работ ориентирован на пакет программ Microsoft Excel. Рассмотрено на заседании кафедры информатики 14.09.2006 г., одобрено методической комиссией факультета информационных технологий и систем управления 16.10.2006 г.
Рецензенты: кафедра информатики СЗТУ (зав. кафедрой Г. Г. Ткаченко, канд. физ.-мат. наук, доц.) С. И. Никитин, канд. физ.-мат. наук, проф., зав. каф. математики и математических методов в экономике СПбГАСЭ Составитель
М. Б. Шабаева, канд. физ.-мат. наук, доц.
© Северо-Западный государственный заочный технический университет, 2006
ОБЩИЕ УКАЗАНИЯ Целью методических указаний к выполнению практических работ является освоение студентами методики эконометрического моделирования, приобретение ими практических навыков использования инструментов корреляционно-регрессионного анализа MS Excel для обработки и анализа экономико-финансовой информации. В практических работах рассмотрены основные вопросы множественной регрессии: метод наименьших квадратов, отбор факторных переменных модели регрессии на основе корреляционного анализа данных, анализ статистической значимости параметров модели и уравнения, в целом, коэффициенты множественной и частной корреляции и детерминации, доверительные интервалы, обнаружение автокорреляции и мультиколлинеарности, нелинейные связи, производственные функции. В каждой практической работе излагаются необходимые для ее выполнения теоретические сведения и порядок выполнения работы, приводится решение типовой задачи и варианты индивидуальных заданий для самостоятельной работы. Нумерация рисунков и таблиц сквозная, а формулы нумеруются в каждой работе автономно. Студенты выполняют две практические работы по указанию преподавателя. К выполнению работ допускаются студенты, изучившие основные теоретические положения и ознакомившиеся с порядком выполнения работ. Отчет по практической работе должен содержать: - наименование работы; - текст индивидуального задания, записанный без сокращений; - краткое изложение теоретического материала; - результаты расчетов с необходимыми пояснениями; - выводы. БИБЛИОГРАФИЧЕСКИЙ СПИСОК Основной: 1. Кремер, Н. Ш. Эконометрика / Н. Ш. Кремер, Б. А. Путко. - М.: ЮНИТИДАНА, 2005. Дополнительный: 2. Доугерти, К. Введение в эконометрику / К. Доугерти; пер. с англ. – М.: ИНФРА-М, 2004. 3. Эконометрика / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2005. 4. Практикум по эконометрике / Под ред. И. И. Елисеевой. – М.: Финансы и статистика, 2005.
3
Практическая работа 1 МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ 1. Цель работы Освоение методики эконометрического моделирования с использованием инструментов регрессионного анализа MS Excel. 2. Основные теоретические положения 2.1. Линейная модель множественной регрессии Значения экономических показателей определяются, как правило, влиянием нескольких факторов. В этом случае возникает задача исследования зависимости одной зависимой переменной (результативного признака) y от нескольких независимых переменных (объясняющих факторов) x1 , x 2 , …, xm , т. е. задача множественной регрессии. Наиболее простой и самой употребляемой является модель множественной линейной регрессии:
y = a 0 + a1 x1 + a 2 x 2 + K + a m x m + u ,
(1)
или для конкретных наблюдений i, i = 1, n ,
y i = a 0 + a1 x i1 + a 2 x i 2 + K + a m x im + u i , где ( xi1 , xi 2 ,..., xim , y i ) - выборка объема n , a 0 , a1 , K a m - неизвестные параметры модели, подлежащие оцениванию, u - случайная ошибка (отклонение). Предполагается, что ошибки в отдельных наблюдениях u i являются независимыми, нормально распределенными случайными величинами с нулевым матема-
(
)
тическим ожиданием и постоянной дисперсией: u i ~ N 0, σ 2 . Поскольку истинные значения параметров по выборке получить невозможно, то задача состоит в нахождении оценок (приближенных значений) b0 , b1 , ..., bm неизвестных параметров модели a 0 , a1 , ..., a m по исходным данным
( xi1 , xi 2 ,..., xim , y i ) , i = 1, n . Это означает построение уравнения ) y = b0 + b1 x1 + b2 x 2 + K + bm x m ,
(2)
которое называется уравнением линейной регрессии. При подстановке в это уравнение значений факторных переменных i-го наблюдения получим величину yˆ i : ) yi = b0 + b1 xi1 + b2 xi 2 + K + bm xim , (3) которая не будет совпадать с наблюдаемым значением y i . Разность между наблюдаемым значением yi и значением, рассчитанным по уравнению регрессии, называется остатком в наблюдении i и обозначается ei :
ei = y i − yˆ i . 4
(4)
Используя соотношение (4), наблюдаемые значения yi можно представить как y i = yˆ i + ei = b0 + b1 x i1 + b2 x i 2 + K + bm x im + ei .
(5)
Представим выборочные данные в виде матрицы-столбца Y значений зависимой переменной и матрицы X значений объясняющих переменных (первый столбец является единичным, так как в уравнении регрессии параметр b0 умножается на 1), коэффициенты уравнения регрессии - в виде матрицы-столбца B , а остатки наблюдений – в виде матрицы-столбца E: ⎡ y1 ⎤ ⎢y ⎥ Y = ⎢ 2⎥, ⎢K ⎥ ⎢ ⎥ ⎣ yn ⎦
⎡1 x11 x12 K x1m ⎤ ⎢1 x x K x ⎥ 2m ⎥ X = ⎢ 21 22 , ⎢K K K K ⎥ ⎢ ⎥ ⎣1 x n1 x n 2 K x nm ⎦
⎡b0 ⎤ ⎢b ⎥ B = ⎢ 2 ⎥, ⎢K ⎥ ⎢ ⎥ ⎣bm ⎦
⎡e1 ⎤ ⎢e ⎥ E = ⎢ 2⎥. ⎢K ⎥ ⎢ ⎥ ⎣e n ⎦
Используя введенные обозначения, соотношение (5) можно записать в матричном виде: Y = XB + E . (6) Для определения коэффициентов регрессии b0 , b1, ..., bm используется метод наименьших квадратов (МНК). В соответствии с МНК минимизируется сумма квадратов остатков: 2
m ⎛ ⎛ ⎞⎞ Q = ∑ ei = ∑ ( y i − yˆ i ) = ∑ ⎜ y i − ⎜⎜ b0 + ∑ b j x ij ⎟⎟ ⎟ . (7) ⎜ ⎟ i =1 i =1 i =1 ⎝ j = 1 ⎝ ⎠⎠ Необходимым условием минимума функции Q является равенство нулю всех ее частных производных по b0 , b1 , ..., bm . Приравняв частные производные к нулю, получим систему нормальных уравнений, матричная запись которой имеет вид n
2
2
n
n
X т XB = X тY .
(8)
Решением уравнения (8) является вектор МНК-оценок коэффициентов регрессии
(
B = X тX
)
−1
X тY .
(9)
Несмещенная оценка S 2 дисперсии σ 2 случайного члена u (или остаточная дисперсия) определяется по формуле n
S2 =
∑ ei
2
i =1
n − m −1
.
(10)
Выборочные дисперсии коэффициентов регрессии вычисляют по формуле
(
S b2j = S 2 X т X 5
)
−1 jj .
(11)
(
Здесь X т X
)
S = S2
−1 jj
(
- диагональный элемент матрицы X т X
)
−1
.
называется стандартным отклонением регрессии, S b j = S b2j
называется средним квадратическим отклонением (стандартной ошибкой) коэффициента регрессии b j . 2.2.
Оценка значимости коэффициентов регрессии
Поскольку уравнение регрессии определяется на основе выборочных данных, то коэффициенты этого уравнения являются точечными оценками (случайными величинами), значения которых изменяются от выборки к выборке. А значит, необходима проверка значимости этих коэффициентов. Для оценки статистической значимости коэффициентов регрессии рассчитывают доверительные интервалы и t – критерии. 2.2.1.
Проверка гипотез о параметрах регрессии
Анализ статистической значимости коэффициента регрессии b j осуществляется по схеме статистической проверки гипотез. Проверяют гипотезу H 0 : a j = 0 (j-я независимая переменная не влияет на результат) при альтернативной гипотезе H 1 : a j ≠ 0 (j-я независимая переменная влияет на результат). Для проверки гипотезы используется t-статистика t=
bj Sb j
,
которая при справедливости H 0 имеет распределение Стьюдента с числом степеней свободы ν = n − m − 1 . При требуемом уровне значимости α наблюдаемое значение t -статистики сравнивается с критической точкой t кр = tα ,n − m −1 распределения Стьюдента. Если t набл > t кр , то коэффициент b j считается статистически значимым, т. е. гипотеза H 0 : a j = 0 отклоняется. В противном случае ( t набл ≤ t кр ) коэффициент b j считается статистически незначимым (статистически близким к нулю). Это означает, что фактор x j линейно не связан с зависимой переменной y . Поэтому после установления того факта, что коэффициент b j статистически незначим, рекомендуется исключить из уравнения регрессии переменную x j .
6
2.2.2. Интервальные оценки параметров регрессии
После определения точечных оценок b j коэффициентов a j теоретического уравнения регрессии могут быть рассчитаны интервальные оценки коэффиbj − a j циентов. Если a j ≠ 0 , то статистика t = имеет распределение Стьюдента Sb j с ν = n − m − 1 степенью свободы. По таблице критических точек распределения Стьюдента по требуемому уровню значимости α и числу степеней свободы ν можно найти критическую точку t кр = tα ,n − m −1 , удовлетворяющую условию
(
) (
)
P t < t кр = P − t кр < t < t кр = β = 1 − α . Подставив в это соотношение вместо t статистику t =
bj − a j Sb j
, после преобразова-
ний получим
(
)
P b j − t кр S b j < a j < b j + t кр S b j = 1 − α . Таким образом, доверительный интервал, накрывающий с доверительной вероятностью β = 1 − α неизвестное значение параметра a j , определяется неравенством b j − t кр S b j < a j < b j + t кр S b j . (12) Если в границы доверительного интервала попадает ноль, т. е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый коэффициент принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения. 2.3.
Проверка общего качества уравнения регрессии
Наиболее часто в практических расчетах для оценки качества всего уравнения, в целом, применяется коэффициент детерминации R 2 , который рассчитывается по формуле ei2 ∑ 2 , (13) R =1− 2 ∑ yi − y
(
)
1 n где y = ∑ yi . Коэффициент детерминации характеризует долю общего n i =1 разброса значений зависимой переменной y , объясненного уравнением регрессии. Считается, что, чем больше эта доля, тем лучше уравнение регрессии описывает исследуемую зависимость. В общем случае 0 ≤ R 2 ≤ 1. 7
Коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Это значит, что при добавлении новых объясняющих переменных значение коэффициента детерминации будет расти, хотя это и не обязательно означает улучшение качества регрессионной модели. Поэтому предпочти2
тельнее использовать скорректированный коэффициент детерминации R , определяемый по формуле ei2 /( n − m − 1) 2 ∑ R =1− . (14) 2 ∑ y i − y /(n − 1) Соотношение (14) может быть представлено в следующем виде: 2 n −1 R =1− 1− R2 . (15) n − m −1
(
(
)
)
2
2
Обычно приводятся данные как по R 2 , так и по R . Доказано, что R увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t – статистика для этой переменной по модулю больше единицы. Оценка значимости уравнения множественной регрессии осуществляется путем проверки гипотезы о статистической значимости коэффициента детерминации: H0 : R2 = 0,
H1 : R 2 > 0 . Для проверки гипотезы используется следующая F – статистика: n − m −1 R2 . (16) F= ⋅ m 1− R2 Проверка данной гипотезы равносильна проверке гипотезы о статистической незначимости уравнения регрессии:
H 0 : a1 = a 2 = K = a m = 0 (все коэффициенты линейной регрессии, за исключением свободного члена, равны нулю). Ведь если коэффициенты равны нулю для генеральной совокупности, то уравнение регрессии должно иметь вид yˆ = y , а коэффициент детерминации R 2 и F- статистика Фишера также равны нулю. При этом их оценки для случайной выборки, конечно, отличаются от нуля. Величина F при выполнении предпосылок МНК и при справедливости H 0 имеет распределение Фишера. При заданном уровне значимости α по таблицам критических точек распределения Фишера находится критическое значение Fкр = Fα ; m; n − m −1 . Если Fнабл > Fкр , то основную гипотезу отвергают и принимают альтернативную гипотезу о статистической значимости уравнения регрессии. Если Fнабл < Fкр , то основную гипотезу о незначимости уравнения регрессии не отвергают (уравнение модели признается незначимым). 8
2.4.
Обнаружение автокорреляции
Статистическая значимость коэффициентов регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения регрессии. Нарушение необходимых предпосылок МНК делает неточным анализ значимости оценок. Одной из предпосылок регрессионного анализа является независимость случайного члена в любом наблюдении от его значений во всех других наблюдениях. Если данное условие не выполняется, то говорят, что случайный член подвержен автокорреляции. Заметим, что необходимым условием независимости является некоррелированность случайных членов для каждых двух соседних значений, т. е. cov u i u j = 0 (i ≠ j ) . Поскольку значения случайных членов u i неизвестны, то проверяется статистическая некоррелированность остатков ei и ei −1 . Оценкой коэффициента корреляции ρ является коэффициент автокорреляции остатков первого порядка, который при достаточно большом числе наблюдений имеет вид ∑ ei ei −1 . r≈ ∑ ei2 Проверяется нулевая гипотеза об отсутствии корреляции первого порядка, т. е .
(
)
H0 : ρ = 0, H1 : ρ > 0 . Для проверки нулевой гипотезы используют статистику Дарбина-Уотсона, рассчитываемую по формуле 2 ∑ (ei − ei −1 ) DW = ≈ 2(1 − r ) , 0 ≤ DW ≤ 4 . (17) ∑ ei2 Если автокорреляция остатков отсутствует (r=0), то DW = 2 . При положительной автокорреляции (r>0) имеем 0≤DW