Прямая линейная регрессия. Простая линейная регрессия

Министерство образования и науки РФ

Федеральное агентство по образованию

Государственное образовательное учреждение высшего профессионального образования

Всероссийский заочный финансово-экономический институт

Филиал в г. Туле

Контрольная работа

по дисциплине «Эконометрика»

Тула - 2010 г.

Задача 2 (а, б)

По предприятиям легкой промышленности получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (Х, млн. руб.) табл. 1.

Х 33 17 23 17 36 25 39 20 13 12
Y 43 27 32 29 45 35 47 32 22 24

Требуется:

1. Найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии.

2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков

; построить график остатков.

3. Проверить выполнение предпосылок МНК.

4. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (α=0,05).

5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью F-критерия Фишера (α=0,05), найти среднюю относительную ошибку аппроксимации. Сделать вывод о качестве модели.

6. Осуществить прогнозирование среднего значения показателя Y при уровне значимости α=0,1, если прогнозное значение фактора Х составит 80% от его максимального значения.

7. Представить графически: фактические и модельные значения Y, точки прогноза.

8. Составить уравнения нелинейной регрессии:

гиперболической;

степенной;

показательной.

Привести графики построенных уравнений регрессии.

9. Для указанных моделей найти коэффициенты детерминации и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.

1. Линейная модель имеет вид:

Параметры уравнения линейной регрессии найдем по формулам

Расчет значения параметров представлен в табл. 2.

t y x yx
1 43 33 1419 1089 42,236 0,764 0,584 90,25 88,36 0,018
2 27 17 459 289 27,692 -0,692 0,479 42,25 43,56 0,026
3 32 23 736 529 33,146 -1,146 1,313 0,25 2,56 0,036
4 29 17 493 289 27,692 1,308 1,711 42,25 21,16 0,045
5 45 36 1620 1296 44,963 0,037 0,001 156,25 129,96 0,001
6 35 25 875 625 34,964 0,036 0,001 2,25 1,96 0,001
7 47 39 1833 1521 47,69 -0,69 0,476 240,25 179,56 0,015
8 32 20 640 400 30,419 1,581 2,500 12,25 2,56 0,049
9 22 13 286 169 24,056 -2,056 4,227 110,25 134,56 0,093
10 24 12 288 144 23,147 0,853 0,728 132,25 92,16 0,036
336 235 8649 6351 12,020 828,5 696,4 0,32
Средн. 33,6 23,5 864,9 635,1

Определим параметры линейной модели

Линейная модель имеет вид

Коэффициент регрессии

показывает, что выпуск продукции Y возрастает в среднем на 0,909 млн. руб. при увеличении объема капиталовложений Х на 1 млн. руб.

2. Вычислим остатки

, остаточную сумму квадратов , найдем остаточную дисперсию по формуле:

Расчеты представлены в табл. 2.


Рис. 1. График остатков ε.

3. Проверим выполнение предпосылок МНК на основе критерия Дарбина-Уотсона.

0,584
2,120 0,479
0,206 1,313
6,022 1,711
1,615 0,001
0,000 0,001
0,527 0,476
5,157 2,500
13,228 4,227
2,462 0,728
31,337 12,020

d1=0,88; d2=1,32 для α=0,05, n=10, k=1.

,

значит, ряд остатков не коррелирован.

4. Осуществим проверку значимости параметров уравнения на основе t-критерия Стьюдента. (α=0,05).

для ν=8; α=0,05.

Расчет значения

произведен в табл. 2. Получим:
, то можно сделать вывод, что коэффициенты регрессии a и b с вероятностью 0,95 значимы.

5. Найдем коэффициент корреляции по формуле

Расчеты произведем в табл. 2.

. Т.о. связь между объемом капиталовложений Х и выпуском продукции Y можно считать тесной, т.к. .

Коэффициент детерминации найдем по формуле

По территориям региона приводятся данные за 200Х г.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН .

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .
4) В окне Категория выберете Статистические , в окне функция - ЛИНЕЙН . Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у

Известные значения х

Константа - логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК ;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Стандартная ошибка y
F-статистика
Регрессионная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х - среднедушевого прожиточного минимума, а 48% - действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее , и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
- результаты регрессионной статистики,
- результаты дисперсионного анализа,
- результаты доверительных интервалов,
- остатки и графики подбора линии регрессии,
- остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа . В главном меню последовательно выберите: Файл/Параметры/Надстройки .

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа , а затем нажмите кнопку ОК .

Если Пакет анализа отсутствует в списке поля Доступные надстройки , нажмите кнопку Обзор , чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия , а затем нажмите кнопку ОК .

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные факторного признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист - можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК .

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 - 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н 0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где - случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н 0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК .

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2003. - 192 с.: ил.


Рис. 2.1. График линии регрессии

Первое выражение позволяет по заданным значениям фактора x рассчитать теоретические значения результативного признака, подставляя в него фактические значения фактора x . На графике теоретические значения лежат на прямой, которые представляют собой линию регрессии (рис. 2.1).

Построение линейной регрессии сводится к оценке ее параметров а и b . Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК).

МНК позволяет получить такие оценки параметров а и b, при которых сумма квадратов отклонений фактических значений от теоретических минимальна:

Для нахождения минимума надо вычислить частные производные суммы (4) по каждому из параметров – а и b – и приравнять их к нулю.

(5)

Преобразуем, получаем систему нормальных уравнений:

(6)

В этой системе n - объем выборки, суммы легко рассчитываются из исходных данных. Решаем систему относительно а и b , получаем:

(7)

. (8)

Выражение (7) можно записать в другом виде:

(9)

где ковариация признаков, дисперсия фактора x.

Параметр b называется коэффициентом регрессии. Его величина показывает среднее изменение результата с изменением фактора на одну единицу. Возможность четкой экономической интерпретации коэффициента регрессии сделала линейное уравнение парной регрессии достаточно распространенным в эконометрических исследованиях.

Формально a – значение y при x = 0. Если x не имеет и не может иметь нулевого значения, то такая трактовка свободного члена a не имеет смысла. Параметр a может не иметь экономического содержания. Попытки экономически интерпретировать его могут привести к абсурду, особенно при a < 0. Интерпретировать можно лишь знак при параметре a. Если a > 0, то относительное изменение результата происходит медленнее, чем изменение фактора. Сравним эти относительные изменения:

< при > 0, > 0 <

Иногда линейное уравнение парной регрессии записывают для отклонений от средних значений:

где , . При этом свободный член равен нулю, что и отражено в выражении (10). Этот факт следует из геометрических соображений: уравнению регрессии отвечает та же прямая (3), но при оценке регрессии в отклонениях начало координат перемещается в точку с координатами . При этом в выражении (8) обе суммы будут равны нулю, что и повлечет равенство нулю свободного члена.

Рассмотрим в качестве примера по группе предприятий, выпускающих один вид продукции, регрессионную зависимость издержек от выпуска продукции .

Таблица 2.1

Выпуск продукции тыс.ед.() Затраты на производство, млн.руб.()
31,1
67,9

Продолжение таблицы 2.1

141,6
104,7
178,4
104,7
141,6
Итого: 22 770,0

Система нормальных уравнений будет иметь вид:

Решая её, получаем a = -5,79, b = 36,84.

Уравнение регрессии имеет вид:

Подставив в уравнение значения х , найдем теоретические значения y (последняя колонка таблицы).

Величина a не имеет экономического смысла. Если переменные x и y выразить через отклонения от средних уровней, то линия регрессии на графике пройдет через начало координат. Оценка коэффициента регрессии при этом не изменится:

, где , .

При линейной регрессии в качестве показателя тесноты связи выступает линейный коэффициент корреляции r:

Величина характеризует долю дисперсии y , вызванную влиянием остальных, не учтенных в модели факторов.

2.3. Предпосылки МНК (условия Гаусса-Маркова)

Связь между y и x в парной регрессии является не функциональной, а корреляционной. Поэтому оценки параметров a и b являются случайными величинами, свойства которых существенно зависят от свойств случайной составляющей ε. Для получения по МНК наилучших результатов необходимо выполнение следующих предпосылок относительно случайного отклонения (условия Гаусса-Маркова):

1. Математическое ожидание случайного отклонения равно нулю для всех наблюдений: .

2. Дисперсия случайных отклонений постоянна: .

Выполнимость данной предпосылки называется гомоскедастичностью - постоянством дисперсии отклонений. Невыполнимость данной предпосылки называется гетероскедастичностью - непостоянством дисперсии отклонений.

3. Случайные отклонения ε i и ε j являются независимыми друг от друга для :

Выполнимость этого условия называется отсутствием автокорреляции .

4. Случайное отклонение должно быть независимо от объясняющих переменных. Обычно это условие выполняется автоматически, если объясняющие переменные в данной модели не являются случайными. Кроме того, выполнимость данной предпосылки для эконометрических моделей не столь критична по сравнению с первыми тремя.

При выполнимости указанных предпосылок имеет место теорема Гаусса-Маркова : оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в классе всех линейных несмещенных оценок .

Таким образом, при выполнении условий Гаусса- Маркова оценки (7) и (8) являются не только несмещенными оценками коэффициентов регрессии, но и наиболее эффективными, т. е. имеют наименьшую дисперсию по сравнению с любыми другими оценками данных параметров, линейными относительно величин y i .

Именно понимание важности условий Гаусса- Маркова отличает компетентного исследователя, использующего регрессионный анализ, от некомпетентного. Если эти условия не выполнены, исследователь должен это сознавать. Если корректирующие действия возможны, то аналитик должен быть в состоянии их выполнить. Если ситуацию исправить невозможно, исследователь должен быть способен оценить, насколько серьезно это может повлиять на результаты.

2.4. Оценка существенности параметров линейной
регрессии и корреляции

После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, так и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F -критерия Фишера. При этом выдвигается нулевая гипотеза о том, что коэффициент регрессии равен нулю и, следовательно, фактор х не оказывает влияния на результат y.

Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) y от среднего значения раскладывается на две части – объясненную и необъясненную:


(Общая СКО) =

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор х не оказывает влияния на результат, вся дисперсия y обусловлена воздействием прочих факторов, линия регрессии параллельна оси Ох и .

Во втором случае прочие факторы не влияют на результат, y связан с x функционально, и остаточная СКО равна нулю.

Но на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации y приходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и фактор х оказывает существенное воздействие на результат y . Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы. (df-degrees of freedom ) - это число независимо варьируемых значений признака.

Для общей СКО требуется независимых отклонений, т. к. что позволяет свободно варьировать значений, а последнее n -е отклонение определяется из общей суммы, равной нулю. Поэтому .

Факторную СКО можно выразить так:

Эта СКО зависит только от одного параметра b, поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и

Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

Таким образом, можем записать . Из этого баланса определяем, что

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений, или дисперсию на одну степень свободы:

. (15)

. (16)

. (17)

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим F -критерий для проверки нулевой гипотезы, которая в данном случае записывается как

Если справедлива, то дисперсии не отличаются друг от друга. Для необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз.

Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенности Снедекором и различных числах степеней свободы. Табличное значение F -критерия – это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы.

При нахождении табличного значения F -критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы – числителя (она равна единице) и знаменателя, равная

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного, т. е. (α;1; ). В этом случае отклоняется и делается вывод о существенности превышения D факт над D остат. , т. е. о существенности статистической связи между y и x.

Если , то вероятность выше заданного уровня (например: 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи между y и x. Уравнение регрессии считается статистически незначимым, не отклоняется.

Величина F -критерия связана с коэффициентом детерминации.

, (19)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.

Стандартная ошибка коэффициента регрессии определяется по формуле:

, (20)

Остаточная дисперсия на одну степень свободы (то же, что и ).

Величина стандартной ошибки совместно с t- распределением Стьюдента при степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t- критерия Стьюдента

которое затем сравнивается с табличным значением при определенном уровне значимости α и числе степеней свободы . Здесь проверяется нулевая гипотеза в виде также предполагающая несущественность статистической связи между y и х , но только учитывающая значение b , а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Но общий смысл гипотез один и тот же: проверка наличия статистической связи между y и х или её отсутствия.

Если (α; ), то гипотеза должна быть отклонена, а статистическая связь y с х считается установленной. В случае (α; ) нулевая гипотеза не может быть отклонена, и влияние х на y признается несущественным.

Существует связь между и F :

Отсюда следует, что

Доверительный интервал для b определяется как

где – рассчитанное (оцененное) по МНК значение коэффициента регрессии.

Стандартная ошибка параметра определяется по формуле:

Процедура оценивания существенности a не отличается от таковой для параметра b . При этом фактическое значение t -критерия вычисляется по формуле:

Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что r как случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях |r |. В этом случае гипотеза об отсутствии корреляционной связи между y и х проверяется на основе статистики

, (26)

которая при справедливости приблизительно распределена по закону Стьюдента с () степенями свободы. Если , то гипотеза отвергается с вероятностью ошибиться, не превышающей α . Из (19) видно, что в парной линейной регрессии . Кроме того, , поэтому . Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Но при малых выборках и значениях r , близких к , следует учитывать, что распределение r как случайной величины отличается от нормального, и построение доверительных интервалов для r не может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу.

Чтобы обойти это затруднение, используется так называемое
z -преобразование Фишера:

, (27)

которое дает нормально распределенную величину z , значения которой при изменении r от –1 до +1 изменяются от -∞ до +∞. Стандартная ошибка этой величины равна:

. (28)

Для величины z имеются таблицы, в которых приведены её значения для соответствующих значений r .

Для z выдвигается нуль-гипотеза , состоящая в том, что корреляция отсутствует. В этом случае значения статистики

которая распределена по закону Стьюдента с () степенями свободы, не превышает табличного на соответствующем уровне значимости.

Для каждого значения z можно вычислить критические значения r . Таблицы критических значений r разработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значение r превышает по абсолютной величине табличное, то данное значение r считается существенным. В противном случае фактическое значение несущественно.

2.5. Нелинейные модели регрессии
и их линеаризация

До сих пор мы рассматривали лишь линейную модель регрессионной зависимости y от x (3). В то же время многие важные связи в экономике являются нелинейными . Примерами такого рода регрессионных моделей являются производственные функции (зависимости между объемом произведенной продукции и основными факторами производства – трудом, капиталом и т. п.) и функции спроса (зависимости между спросом на какой-либо вид товаров или услуг, с одной стороны, и доходом и ценами на этот и другие товары – с другой).

При анализе нелинейных регрессионных зависимостей наиболее важным вопросом применения классического МНК является способ их линеаризации. В случае линеаризации нелинейной зависимости получаем линейное регрессионное уравнение типа (3), параметры которого оцениваются обычным МНК, после чего можно записать исходное нелинейное соотношение.

Несколько особняком в этом смысле стоит полиномиальная модель произвольной степени:

к которой обычный МНК можно применять без всякой предварительной линеаризации.

Рассмотрим указанную процедуру применительно к параболе второй степени:

. (31)

Такая зависимость целесообразна в случае, если для некоторого интервала значений фактора возрастающая зависимость меняется на убывающую или наоборот. В этом случае можно определить значение фактора, при котором достигается максимальное или минимальное значение результативного признака. Если исходные данные не обнаруживают изменение направленности связи, параметры параболы становятся трудно интерпретируемыми, и форму связи лучше заменить другими нелинейными моделями.

Применение МНК для оценки параметров параболы второй степени сводится к дифференцированию суммы квадратов остатков регрессии по каждому из оцениваемых параметров и приравниванию полученных выражений нулю. Получается система нормальных уравнений, число которых равно числу оцениваемых параметров, т. е. трем:

(32)

Решать эту систему можно любым способом, в частности, методом определителей.

Экстремальное значение функции наблюдается при значении фактора, равном:

Если , то имеет место максимум, т. е. зависимость сначала растет, а затем падает. Такого рода зависимости наблюдаются в экономике труда при изучении заработной платы работников физического труда, когда в роли фактора выступает возраст. При парабола имеет минимум, что обычно проявляется в удельных затратах на производство в зависимости от объема выпускаемой продукции.

В нелинейных зависимостях, неявляющихся классическими полиномами, обязательно проводится предварительная линеаризация, которая заключается в преобразовании или переменных, или параметров модели, или в комбинации этих преобразований. Рассмотрим некоторые классы таких зависимостей.

Зависимости гиперболического типа имеют вид:

. (33)

Примером такой зависимости является кривая Филлипса , констатирующая обратную зависимость процента прироста заработной платы от уровня безработицы. В этом случае значение параметра b будет больше нуля.

Другим примером зависимости (33) являются кривые Энгеля , формулирующие следующую закономерность: с ростом дохода доля доходов, расходуемых на продовольствие, уменьшается, а доля доходов, расходуемых на непродовольственные товары, будет возрастать. В этом случае а результативный признак в (33) показывает долю расходов на непродовольственные товары.

Линеаризация уравнения (33) сводится к замене фактора , и уравнение регрессии имеет вид (3), в котором вместо фактора х используем фактор z :

К такому же линейному уравнению сводится полулогарифмическая кривая:

, (35)

которая может быть использована для описания кривых Энгеля. Здесь ln(x ) заменяется на z и получается уравнение (34).

Достаточно широкий класс экономических показателей характеризуется приблизительно постоянным темпом относительного прироста во времени. Этому соответствуют зависимости показательного (экспоненциального) типа, которые записываются в виде:

или в виде

. (37)

Возможна и такая зависимость:

. (38)

В регрессиях типа (36) – (38) применяется один и тот же способ линеаризации – логарифмирование. Уравнение (36) приводится к виду:

. (39)

Замена переменной сводит его к линейному виду:

, (40)

где . Если Е удовлетворяет условиям Гаусса-Маркова, параметры уравнения (36) оцениваются по МНК из уравнения (40). Уравнение (37) приводится к виду:

который отличается от (39) только видом свободного члена, и линейное уравнение выглядит так:

, (42)

где . Параметры А и b получаются обычным МНК, затем параметр a в зависимости (37) получается как антилогарифм А . При логарифмировании (38) получаем линейную зависимость:

, (43)

где , а остальные обозначения те же, что и выше. Здесь также применяется МНК к преобразованным данным, а параметр b для (38) получается как антилогарифм коэффициента В .

Широко распространены в практике социально-экономических исследований степенные зависимости. Они используются для построения и анализа производственных функций. В функциях вида:

особенно ценным является то обстоятельство, что параметр b равен коэффициенту эластичности результативного признака по фактору х . Преобразуя (44) путем логарифмирования, получаем линейную регрессию:

, (45)

Еще одним видом нелинейности, приводимым к линейному виду, является обратная зависимость:

. (46)

Проводя замену , получим.

Изучение корреляционных зависимостей основывается на исследовании таких связей между переменными, при которых значения одной переменной, ее можно принять за зависимую переменную, «в среднем» изменяются в зависимости от того, какие значения принимает другая переменная, рассматриваемая как причина по отношению к зависимой переменной. Действие данной причины осуществляется в условиях сложного взаимодействия различных факторов, вследствие чего проявление закономерности затемняется влиянием случайностей. Вычисляя средние значения результативного признака для данной группы значений признака-фактора, отчасти элиминируется влияние случайностей. Вычисляя параметры теоретической линии связи, производится дальнейшее их элиминирование и получается однозначное (по форме) изменение «y» с изменением фактора «x».

Для исследования стохастических связей широко используется метод сопоставления двух параллельных рядов, метод аналитических группировок, корреляционный анализ, регрессионный анализ и некоторые непараметрические методы. В общем виде задача статистики в области изучения взаимосвязей состоит не только в количественной оценке их наличия, направления и силы связи, но и в определении формы (аналитического выражения) влияния факторных признаков на результативный. Для ее решения применяют методы корреляционного и регрессионного анализа.

ГЛАВА 1. УРАВНЕНИЕ РЕГРЕССИИ: ТЕОРЕТИЧЕСКИЕ ОСНОВЫ

1.1. Уравнение регрессии: сущность и типы функций

Регрессия (лат. regressio- обратное движение, переход от более сложных форм развития к менее сложным) - одно из основных понятий в теории вероятности и математической статистике, выражающее зависимость среднего значения случайной величины от значений другой случайной величины или нескольких случайных величин. Это понятие введено Фрэнсисом Гальтоном в 1886.

Теоретическая линия регрессии - это та линия, вокруг которой группируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи.

Теоретическая линия регрессии должна отображать изменение средних величин результативного признака «y» по мере изменения величин факторного признака «x» при условии полного взаимопогашения всех прочих – случайных по отношению к фактору «x» - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек поля корреляции от соответствующих точек теоретической линии регрессии равнялась нулю, а сумма квадратов этих отклонений была ба минимальной величиной.

y=f(x) - уравнение регрессии - это формула статистической связи между переменными.

Прямая линия на плоскости (в пространстве двух измерений) задается уравнением y=a+b*х. Более подробно: переменная y может быть выражена через константу (a) и угловой коэффициент (b), умноженный на переменную x. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом.

Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Главным основанием должен служить содержательный анализ природы изучаемой зависимости, ее механизма. Вместе с тем теоретически обосновать форму связи каждого из факторов с результативным показателем можно далеко не всегда, поскольку исследуемые социально-экономические явления очень сложны и факторы, формирующие их уровень, тесно переплетаются и взаимодействуют друг с другом. Поэтому на основе теоретического анализа нередко могут быть сделаны самые общие выводы относительно направления связи, возможности его изменения в исследуемой совокупности, правомерности использования линейной зависимости, возможного наличия экстремальных значений и т.п. Необходимым дополнением такого рода предположений должен быть анализ конкретных фактических данных.

Приблизительно представление о линии связи можно получить на основе эмпирической линии регрессии. Эмпирическая линия регрессии обычно является ломанной линией, имеет более или менее значительный излом. Объясняется это тем, что влияние прочих неучтенных факторов, оказывающих воздействие на вариацию результативного признака, в средних погашается неполностью, в силу недостаточно большого количества наблюдений, поэтому эмпирической линией связи для выбора и обоснования типа теоретической кривой можно воспользоваться при условии, что число наблюдений будет достаточно велико.

Одним из элементов конкретных исследований является сопоставление различных уравнений зависимости, основанное на использовании критериев качества аппроксимации эмпирических данных конкурирующими вариантами моделей Наиболее часто для характеристики связей экономических показателей используют следующие типы функций:

1. Линейная:

2. Гиперболическая:

3. Показательная:

4. Параболическая:

5. Степенная:

6. Логарифмическая:

7. Логистическая:

Модель с одной объясняющей и одной объясняемой переменными – модель парной регрессии. Если объясняющих (факторных) переменных используется две или более, то говорят об использовании модели множественной регрессии. При этом, в качестве вариантов могут быть выбраны линейная, экспоненциальная, гиперболическая, показательная и другие виды функций, связывающие эти переменные.

Для нахождения параметров а и b уравнения регрессии используют метод наименьших квадратов. При применении метода наименьших квадратов для нахождения такой функции, которая наилучшим образом соответствует эмпирическим данным, считается, что сумка квадратов отклонений эмпирических точек от теоретической линии регрессии должна быть величиной минимальной.

Критерий метода наименьших квадратов можно записать таким образом:

Следовательно, применение метода наименьших квадратов для определения параметров a и b прямой, наиболее соответствующей эмпирическим данным, сводится к задаче на экстремум.

Относительно оценок можно сделать следующие выводы:

1. Оценки метода наименьших квадратов являются функциями выборки, что позволяет их легко рассчитывать.

2. Оценки метода наименьших квадратов являются точечными оценками теоретических коэффициентов регрессии.

3. Эмпирическая прямая регрессии обязательно проходит через точку x, y.

4. Эмпирическое уравнение регрессии построено таким образом, что сумма отклонений

.

Графическое изображение эмпирической и теоретической линии связи представлено на рисунке 1.


Параметр b в уравнении – это коэффициент регрессии. При наличии прямой корреляционной зависимости коэффициент регрессии имеет положительное значение, а в случае обратной зависимости коэффициент регрессии – отрицательный. Коэффициент регрессии показывает на сколько в среднем изменяется величина результативного признака «y» при изменении факторного признака «x» на единицу. Геометрически коэффициент регрессии представляет собой наклон прямой линии, изображающей уравнение корреляционной зависимости, относительно оси «x» (для уравнения

).

Раздел многомерного статистического анализа, посвященный восстановлению зависимостей, называется регрессионным анализом. Термин «линейный регрессионный анализ» используют, когда рассматриваемая функция линейно зависит от оцениваемых параметров (от независимых переменных зависимость может быть произвольной). Теория оценивания

неизвестных параметров хорошо развита именно в случае линейного регрессионного анализа. Если же линейности нет и нельзя перейти к линейной задаче, то, как правило, хороших свойств от оценок ожидать не приходится. Продемонстрируем подходы в случае зависимостей различного вида. Если зависимость имеет вид многочлена (полинома). Если расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной. Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробит-анализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.

Назначение сервиса . С помощью сервиса в онлайн режиме можно найти:
  • параметры уравнения линейной регрессии y=a+bx , линейный коэффициент корреляции с проверкой его значимости;
  • тесноту связи с помощью показателей корреляции и детерминации, МНК-оценку, статическую надежность регрессионного моделирования с помощью F-критерия Фишера и с помощью t-критерия Стьюдента , доверительный интервал прогноза для уровня значимости α

Уравнение парной регрессии относится к уравнению регрессии первого порядка . Если эконометрическая модель содержит только одну объясняющую переменную, то она имеет название парной регрессии. Уравнение регрессии второго порядка и уравнение регрессии третьего порядка относятся к нелинейным уравнениям регрессии .

Пример . Осуществите выбор зависимой (объясняемой) и объясняющей переменной для построения парной регрессионной модели. Дайте . Определите теоретическое уравнение парной регрессии. Оцените адекватность построенной модели (интерпретируйте R-квадрат, показатели t-статистики, F-статистики).
Решение будем проводить на основе процесса эконометрического моделирования .
1-й этап (постановочный) – определение конечных целей моделирования, набора участвующих в модели факторов и показателей, их роли.
Спецификация модели - определение цели исследования и выбор экономических переменных модели.
Ситуационная (практическая) задача. По 10 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x (в %).
2-й этап (априорный) – предмодельный анализ экономической сущности изучаемого явления, формирование и формализация априорной информации и исходных допущений, в частности относящейся к природе и генезису исходных статистических данных и случайных остаточных составляющих в виде ряда гипотез.
Уже на этом этапе можно говорить о явной зависимости уровня квалификации рабочего и его выработкой, ведь чем опытней работник, тем выше его производительность. Но как эту зависимость оценить?
Парная регрессия представляет собой регрессию между двумя переменными – y и x , т. е. модель вида:

Где y – зависимая переменная (результативный признак); x – независимая, или объясняющая, переменная (признак-фактор). Знак «^» означает, что между переменными x и y нет строгой функциональной зависимости, поэтому практически в каждом отдельном случае величина y складывается из двух слагаемых:

Где y – фактическое значение результативного признака; y x – теоретическое значение результативного признака, найденное исходя из уравнения регрессии; ε – случайная величина, характеризующая отклонения реального значения результативного признака от теоретического, найденного по уравнению регрессии.
Графически покажем регрессионную зависимость между выработкой продукции на одного работника и удельного веса рабочих высокой квалификации.


3-й этап (параметризация) – собственно моделирование, т.е. выбор общего вида модели, в том числе состава и формы входящих в неё связей между переменными. Выбор вида функциональной зависимости в уравнении регрессии называется параметризацией модели. Выбираем уравнение парной регрессии , т.е. на конечный результат y будет влиять только один фактор.
4-й этап (информационный) – сбор необходимой статистической информации, т.е. регистрация значений участвующих в модели факторов и показателей. Выборка состоит из 10 предприятий отрасли.
5-й этап (идентификация модели) – оценивание неизвестных параметров модели по имеющимся статистическим данным.
Чтобы определить параметры модели, используем МНК - метод наименьших квадратов . Система нормальных уравнений будет выглядеть следующим образом:
a n + b∑x = ∑y
a∑x + b∑x 2 = ∑y x
Для расчета параметров регрессии построим расчетную таблицу (табл. 1).
x y x 2 y 2 x y
10 6 100 36 60
12 6 144 36 72
15 7 225 49 105
17 7 289 49 119
18 7 324 49 126
19 8 361 64 152
19 8 361 64 152
20 9 400 81 180
20 9 400 81 180
21 10 441 100 210
171 77 3045 609 1356

Данные берем из таблицы 1 (последняя строка), в итоге имеем:
10a + 171 b = 77
171 a + 3045 b = 1356
Эту СЛАУ решаем методом Крамера или методом обратной матрицы .
Получаем эмпирические коэффициенты регрессии: b = 0.3251, a = 2.1414
Эмпирическое уравнение регрессии имеет вид:
y = 0.3251 x + 2.1414
6-й этап (верификация модели) – сопоставление реальных и модельных данных, проверка адекватности модели, оценка точности модельных данных.
Анализ проводим с помощью