Уравнение регрессии. Уравнение множественной регрессии. Множественное уравнение регрессии

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Если же этим влиянием пренебречь нельзя, то в этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии

где – зависимая переменная (результативный признак),– независимые, или объясняющие, переменные (признаки-факторы).

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

2.1. Спецификация модели. Отбор факторов при построении уравнения множественной регрессии

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Он включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано прежде всего с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям.

    Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

    Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором
факторов, то для нее рассчитывается показатель детерминации
, который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии
факторов. Влияние других, не учтенных в модели факторов, оценивается как
с соответствующей остаточной дисперсией.

При дополнительном включении в регрессию
фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:

и
.

Если же этого не происходит и данные показатели практически не отличаются друг от друга, то включаемый в анализ фактор
не улучшает модель и практически является лишним фактором.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по критерию Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции определяют статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если
. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Пусть, например, при изучении зависимости
матрица парных коэффициентов корреляции оказалась следующей:

Таблица 2.1

Очевидно, что факторы идублируют друг друга. В анализ целесообразно включить фактор, а не, хотя корреляцияс результатомслабее, чем корреляция факторас
, но зато значительно слабее межфакторная корреляция
. Поэтому в данном случае в уравнение множественной регрессии включаются факторы,.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

    Затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл.

    Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы
были бы равны нулю. Так, для уравнения, включающего три объясняющих переменных

матрица коэффициентов корреляции между факторами имела бы определитель, равный единице:

.

Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю:

.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов. Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.

Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если
, то возможно построение следующего совмещенного уравнения:

Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие двух факторов). Возможно включение в модель и взаимодействий более высокого порядка, если будет доказана их статистическая значимость по
-критерию Фишера, но, как правило, взаимодействия третьего и более высоких порядков оказываются статистически незначимыми.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно к разным методикам. В зависимости от того, какая методика построения уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

    Метод исключения – отсев факторов из полного его набора.

    Метод включения – дополнительное введение фактора.

    Шаговый регрессионный анализ – исключение ранее введенного фактора.

При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а
-критерий меньше табличного значения.

Задачей множественной линейной регрессии является построение линейной модели связи между набором непрерывных предикторов и непрерывной зависимой переменной. Часто используется следующее регрессионное уравнение:

Здесь а i - регрессионные коэффициенты, b 0 - свободный член(если он используется), е - член, содержащий ошибку - по поводу него делаются различные предположения, которые, однако, чаще сводятся к нормальности распределения с нулевым вектором мат. ожидания и корреляционной матрицей .

Такой линейной моделью хорошо описываются многие задачи в различных предметных областях, например, экономике, промышленности, медицине. Это происходит потому, что некоторые задачи линейны по своей природе.

Приведем простой пример. Пусть требуется предсказать стоимость прокладки дороги по известным ее параметрам. При этом у нас есть данные о уже проложенных дорогах с указанием протяженности, глубины обсыпки, количества рабочего материала, числе рабочих и так далее.

Ясно, что стоимость дороги в итоге станет равной сумме стоимостей всех этих факторов в отдельности. Потребуется некоторое количество, например, щебня, с известной стоимостью за тонну, некоторое количество асфальта также с известной стоимостью.

Возможно, для прокладки придется вырубать лес, что также приведет к дополнительным затратам. Все это вместе даст стоимость создания дороги.

При этом в модель войдет свободный член, который, например, будет отвечать за организационные расходы (которые примерно одинаковы для всех строительно-монтажных работ данного уровня) или налоговые отчисления.

Ошибка будет включать в себя факторы, которые мы не учли при построении модели (например, погоду при строительстве - ее вообще учесть невозможно).

Пример: множественный регрессионный анализ

Для этого примера будут анализироваться несколько возможных корреляций уровня бедности и степень, которая предсказывает процент семей, находящихся за чертой бедности. Следовательно мы будем считать переменную характерезующую процент семей, находящихся за чертой бедности, - зависимой переменной, а остальные переменные непрерывными предикторами.

Коэффициенты регрессии

Чтобы узнать, какая из независимых переменных делает больший вклад в предсказание уровня бедности, изучим стандартизованные коэффициенты (или Бета) регрессии.

Рис. 1. Оценки параметров коэффициентов регрессии.

Коэффициенты Бета это коэффициенты, которые вы бы получили, если бы привели все переменные к среднему 0 и стандартному отклонению 1. Следовательно величина этих Бета коэффициентов позволяет сравнивать относительный вклад каждой независимой переменной в зависимую переменную. Как видно из Таблицы, показанной выше, переменные изменения населения с 1960 года (POP_ CHING), процент населения, проживающего в деревне (PT_RURAL) и число людей, занятых в сельском хозяйстве (N_Empld) являются самыми главными предикторами уровня бедности, т.к. только они статистически значимы (их 95% доверительный интервал не включает в себя 0). Коэффициент регрессии изменения населения с 1960 года (Pop_Chng) отрицательный, следовательно, чем меньше возрастает численность населения, тем больше семей, которые живут за чертой бедности в соответствующем округе. Коэффициент регрессии для населения (%), проживающего в деревне (Pt_Rural) положительный, т.е., чем больше процент сельских жителей, тем больше уровень бедности.

Значимость эффектов предиктора

Просмотрим Таблицу с критериями значимости.

Рис. 2. Одновременные результаты для каждой заданной переменной.

Как показывает эта Таблица, статистически значимы только эффекты 2 переменных: изменение населения с 1960 года (Pop_Chng) и процент населения, проживающего в деревне (Pt_Rural), p < .05.

Анализ остатков. После подгонки уравнения регрессии, почти всегда нужно проверять предсказанные значения и остатки. Например, большие выбросы могут сильно исказить результаты и привести к ошибочным выводам.

Построчный график выбросов

Обычно необходимо проверять исходные или стандартизованные остатки на большие выбросы.

Рис. 3. Номера наблюдений и остатки.

Шкала вертикальной оси этого графика отложена по величине сигма, т.е., стандартного отклонения остатков. Если одно или несколько наблюдений не попадают в интервал ± 3 умноженное на сигма, то, возможно, стоит исключить эти наблюдения (это можно легко сделать через условия выбора наблюдений) и еще раз запустить анализ, чтобы убедится, что результаты не изменяются этими выбросами.

Расстояния Махаланобиса

Большинство статистических учебников уделяют много времени выбросам и остаткам относительно зависимой переменной. Тем не менее роль выбросов в предикторах часто остается не выявленной. На стороне переменной предиктора имеется список переменных, которые участвуют с различными весами (коэффициенты регрессии) в предсказании зависимой переменной. Можно считать независимые переменные многомерным пространством, в котором можно отложить любое наблюдение. Например, если у вас есть две независимых переменных с равными коэффициентами регрессии, то можно было бы построить диаграмму рассеяния этих двух переменных и поместить каждое наблюдение на этот график. Потом можно было отметить на этом графике среднее значение и вычислить расстояния от каждого наблюдения до этого среднего (так называемый центр тяжести) в двумерном пространстве. В этом и заключается основная идея вычисления расстояния Махаланобиса . Теперь посмотрим на гистограмму переменной изменения населения с 1960 года.

Рис. 4. Гистограмма распределения расстояний Махаланобиса.

Из графика следует, что есть один выброс на расстояниях Махаланобиса.

Рис. 5. Наблюдаемые, предсказанные и значения остатков.

Обратите внимание на то, что округ Shelby (в первой строке) выделяется на фоне остальных округов. Если посмотреть на исходные данные, то вы обнаружите, что в действительности округ Shelby имеет самое большое число людей, занятых в сельском хозяйстве (переменная N_Empld). Возможно, было бы разумным выразить в процентах, а не в абсолютных числах, и в этом случае расстояние Махаланобиса округа Shelby, вероятно, не будет таким большим на фоне других округов. Очевидно, что округ Shelby является выбросом .

Удаленные остатки

Другой очень важной статистикой, которая позволяет оценить серьезность проблемы выбросов, являются удаленные остатки . Это стандартизованные остатки для соответствующих наблюдений, которые получаются при удалении этого наблюдения из анализа. Помните, что процедура множественной регрессии подгоняет поверхность регрессии таким образом, чтобы показать взаимосвязь между зависимой и переменной и предиктором. Если одно наблюдение является выбросом (как округ Shelby), то существует тенденция к "оттягиванию" поверхности регрессии к этому выбросу. В результате, если соответствующее наблюдение удалить, будет получена другая поверхность (и Бета коэффициенты). Следовательно, если удаленные остатки очень сильно отличаются от стандартизованных остатков, то у вас будет повод считать, что регрессионный анализа серьезно искажен соответствующим наблюдением. В этом примере удаленные остатки для округа Shelby показывают, что это выброс, который серьезно искажает анализ. На диаграмме рассеяния явно виден выброс.

Рис. 6. Исходные остатки и Удаленные остатки переменной, означающей процент семей, проживающих ниже прожиточного минимума.

Большинство из них имеет более или менее ясные интерпретации, тем не менее обратимся к нормальным вероятностным графикам.

Как уже было упомянуто, множественная регрессия предполагает, что существует линейная взаимосвязь между переменными в уравнении и нормальное распределение остатков. Если эти предположения нарушены, то вывод может оказаться неточным. Нормальный вероятностный график остатков укажет вам, имеются ли серьезные нарушения этих предположений или нет.

Рис. 7. Нормальный вероятностный график; Исходные остатки.

Этот график был построен следующим образом. Вначале стандартизованные остатки ранжируюся по порядку. По этим рангам можно вычислить z значения (т.е. стандартные значения нормального распределения) на основе предположения, что данные подчиняются нормальному распределению. Эти z значения откладываются по оси y на графике.

Если наблюдаемые остатки (откладываемые по оси x) нормально распределены, то все значения легли бы на прямую линию на графике. На нашем графике все точки лежат очень близко относительно кривой. Если остатки не являются нормально распределенными, то они отклоняются от этой линии. Выбросы также становятся заметными на этом графике.

Если имеется потеря согласия и кажется, что данные образуют явную кривую (например, в форме буквы S) относительно линии, то зависимую переменную можно преобразовать некоторым способом (например, логарифмическое преобразование для "уменьшения" хвоста распределения и т.д.). Обсуждение этого метода находится за пределами этого примера (Neter, Wasserman, и Kutner, 1985, pp. 134-141, представлено обсуждение преобразований, убирающих ненормальность и нелинейность данных). Однако исследователи очень часто просто проводят анализ напрямую без проверки соответствующих предположений, что ведет к ошибочным выводам.

Суть регрессионного анализа : построение математической модели и определение ее статистической надежности.

Вид множественной линейной модели регрессионного анализа: Y = b 0 + b 1 x i1 + ... + b j x ij + ... + b k x ik + e i где e i - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s .

Назначение множественной регрессии : анализ связи между несколькими независимыми переменными и зависимой переменной.

Экономический смысл параметров множественной регрессии
Коэффициент множественной регрессии b j показывает, на какую величину в среднем изменится результативный признак Y , если переменную X j увеличить на единицу измерения, т. е. является нормативным коэффициентом.

Матричная запись множественной линейной модели регрессионного анализа: Y = Xb + e где Y (n x 1) наблюдаемых значений результативного признака (y 1 , y 2 ,..., y n );
X - матрица размерности [n x (k+1) ] наблюдаемых значений аргументов;
b - вектор - столбец размерности [(k+1) x 1 ] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков).

Задачи регрессионного анализа
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b 0 , b 1 ,..., b k . Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X i и Y :

  • получить наилучшие оценки неизвестных параметров b 0 , b 1 ,..., b k ;
  • проверить статистические гипотезы о параметрах модели;
  • проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

Построение моделей множественной регрессии состоит из следующих этапов:

  1. выбор формы связи (уравнения регрессии);
  2. определение параметров выбранного уравнения;
  3. анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.
  • Множественная регрессия с одной переменной
  • Множественная регрессия с тремя переменными

Инструкция . Укажите количество данных (количество строк), количество переменных x нажмите Далее.

Количество факторов (x) 1 2 3 4 5 6 7 8 9 10 Количество строк
.");">

Пример решения нахождения модели множественной регрессии

Множественная регрессия с двумя переменными

Модель множественной регрессии вида Y = b 0 +b 1 X 1 + b 2 X 2 ;
1) Найтинеизвестные b 0 , b 1 ,b 2 можно, решим систему трехлинейных уравнений с тремя неизвестными b 0 ,b 1 ,b 2:

Для решения системы можете воспользоваться
2) Или использовав формулы


Для этого строим таблицу вида:

Y x 1 x 2 (y-y ср) 2 (x 1 -x 1ср) 2 (x 2 -x 2ср) 2 (y-y ср)(x 1 -x 1ср) (y-y ср)(x 2 -x 2ср) (x 1 -x 1ср)(x 2 -x 2ср)

Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

Здесь z" jj - j-тый диагональный элемент матрицы Z -1 =(X T X) -1 .

Приэтом:

где m - количество объясняющихпеременных модели.
В частности, для уравнения множественной регрессии Y = b 0 + b 1 X 1 + b 2 X 2 с двумя объясняющими переменными используются следующие формулы:


Или

или
,,.
Здесьr 12 - выборочный коэффициент корреляции между объясняющимипеременными X 1 и X 2 ; Sb j - стандартная ошибкакоэффициента регрессии; S - стандартная ошибка множественной регрессии (несмещенная оценка).
По аналогии с парной регрессией после определения точечных оценокb j коэффициентов β j (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

Доверительный интервал, накрывающий с надежностью (1-α ) неизвестное значение параметра β j, определяется как

Множественная регрессия в Excel

Чтобы найти параметры множественной регресии средствами Excel, используется функция ЛИНЕЙН(Y;X;0;1),
где Y - массив для значений Y
где X - массив для значений X (указывается как единый массив для всех значений Х i)

Проверка статистической значимости коэффициентов уравнения множественной регрессии

Как и в случае множественной регрессии, статистическая значимость коэффициентовмножественной регрессии с m объясняющими переменными проверяется на основе t-статистики:

имеющей в данном случае распределение Стьюдента с числом степеней свободы v = n- m-1. При требуемом уровне значимости наблюдаемое значение t-статистики сравнивается с критической точной распределения Стьюдента.
В случае, если , то статистическая значимость соответствующего коэффициента множественной регрессии подтверждается. Это означает, что фактор Xj линейно связан с зависимой переменной Y. Если же установлен факт незначимости коэффициента b j , то рекомендуется исключить из уравнения переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2:

Справедливо соотношение 0<=R2<=1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
Длямножественной регрессии коэффициент детерминации является неубывающей функциейчисла объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.

Соотношение может быть представлено вследующем виде:

для m>1. С ростом значения m


Показатели F и R2 равны или не равен нулю одновременно. Если F=0, то R 2 =0, следовательно, величина Y линейно не зависит от X1,X2,…,Xm..Расчетное значение F сравнивается с критическим Fкр. Fкр, исходя из требуемого уровня значимости α и чисел степеней свободы v1 = m и v2 = n - m - 1, определяется на основе распределения Фишера. Если F>Fкр, то R 2 статистически значим.

Проверка выполнимости предпосылок МНК множественной регрессии. Статистика Дарбина-Уотсона для множественной регрессии

Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R 2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК. Причины и последствия невыполнимости этих предпосылок, методы корректировки регрессионных моделей будут рассмотрены в последующих главах. В данном параграфе рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой.

При этом проверяется некоррелированность соседних величин e i ,i=1,2,…n..
Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:

Критические значения d 1 и d 2 определяются на основе специальных таблиц для требуемого уровня значимости α , числа наблюдений n и количества объясняющих переменных m .

Частные коэффициенты корреляции при множественной регрессии

Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора х i при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции, т.е. последовательно беруться пары yx 1 ,yx 2 ,... , x 1 x 2 , x 1 x 3 и так далее и для каждой пары находится коэффициент корреляции
Вычисления в MS Excel . Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:
1) Выполнить команду Сервис / Анализ данных / Корреляция .
2) Указать диапозон данных;

Проверка общего качества уравнения множественной регрессии

Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R 2 :

Справедливо соотношение 0 < =R 2 < = 1 . Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y .
Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R 2 , так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведениезависимой переменной.
Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы, т.е. вводится так называемый скорректированный (исправленный) коэффициент детерминации:

Соотношение может быть представлено в следующем виде:

для m>1. С ростом значения mскорректированный коэффициент детерминации растет медленнее, чем обычный.Очевидно, что только при R 2 = 1. может принимать отрицательные значения.
Доказано, что увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Рекомендуется после проверки общего качества уравнения регрессии провести анализ его статистической значимости. Для этого используется F-статистика:
Показатели F и R 2 равны или не равен нулю одновременно. Если F=0 , то R 2 =0, следовательно, величина Y линейно не зависит от X 1 ,X 2 ,…,X m .Расчетное значение F сравнивается с критическим Fкр. Fкр , исходя из требуемого уровня значимости α и чисел степеней свободы v 1 = m и v 2 = n - m - 1 , определяется на основе распределения Фишера. Если F > Fкр , то R 2 статистически значим.

Цель : научиться определению параметров уравнения множественной линейной регрессии методом наименьших квадратов и проведению анализа построенного уравнения.

Методические указания

В этой главе важно абсолютно все. Перед изучением необходимо повторить следующий материал из матричного анализа: умножение матриц, обратная матрица, решение системы линейных уравнений методом обратной матрицы. В этой главе все, что относится к парной линейной регрессии, обобщается на множественную линейную модель. В первой главе приведены функции программы Microsoft Office Excel, позволяющие проводить операции с матрицами. Обратите внимание, что по сравнению с предыдущей главой для определения социально-экономического смысла коэффициентов при объясняющих переменных важно отсутствие мультиколлинеарности (сильной линейной взаимосвязи) этих переменных. Запомните, что формула для расчета коэффициентов уравнения также следует из применения метода наименьших квадратов. Следует изучить рассмотренный ниже пример. Обратите внимание на взаимосвязь модели в исходных и в стандартизованных переменных.

§ 1. Определение параметров уравнения регрессии

На любой экономический показатель чаще всего оказывают влияние не один, а несколько факторов. В этом случае вместо парной рег-

рессии M(Y x) = f(x) рассматривается множественнаярегрессия:

x1 ,x2 ,...,xm ) = f(x1 ,x2 ,...,xm ) .

Задача оценки статистической взаимосвязи

переменных

Y иX = (X 1 , X 2 , ..., X m ) формулируется аналогично

случаю пар-

ной регрессии. Уравнение множественной регрессииможет быть представлено в виде:

Y = f(β ,X) +ε ,

где Y иX = (X 1 , X 2 , ..., X m ) - вектор независимых (объясняющих) переменных;β= (β 0 , β 1 , β 2 ,..., β m ) - вектор параметров

(подлежащих определению); ε - случайная ошибка (отклонение);Y - зависимая (объясняемая) переменная. Предполагается, что для данной генеральной совокупности именно функцияf связывает исследуемую переменнуюY с вектором независимых переменных

Y и X= (X1 , X2 , ..., Xm ) .

Рассмотрим самую употребляемую и наиболее простую из моделей множественной регрессии - модель множественной линейной регрессии.

Теоретическое линейное уравнение регрессии имеет вид:

Здесь β= (β 0 , β 1 , β 2 ,..., β m ) - вектор размерности (т +1) неизвестных параметров.β j , j = (1, 2, ..., m ) называется j -м теоретиче-

ским коэффициентом регрессии (частным коэффициентом регрессии). Он характеризует чувствительность величины Y к изменениюX j . Другими словами, он отражает влияние на условное математи-

ческое ожидание M (Y x 1 ,x 2 ,...,x m ) зависимой переменнойY объяс-

няющей переменной X j при условии, что все другие объясняющие переменные модели остаются постоянными,β 0 -свободный член ,

определяющий значение Y в случае, когда все объясняющие переменныеX j равны нулю.

После выбора линейной функции в качестве модели зависимости необходимо оценить параметры регрессии.

Пусть имеется n наблюдений вектора объясняющих переменныхX = (X 1 , X 2 , ...,X m ) и зависимой переменнойY :

{ xi 1 , xi 2 , ..., xim , yi } , i= 1 ,2 , ..., n.

Для того чтобы однозначно можно было решить задачу отыскания параметров β 0 , β 1 , β 2 ,..., β m , должно выполняться неравенство

n ≥ m + 1 . Еслиn = m + 1, то оценки коэффициентов вектораβ

рассчитываются единственным образом.

Если число наблюдений больше минимально необходимого: n > m + 1 , то возникает необходимость оптимизации, оценивания

параметров β 0 , β 1 , β 2 ,..., β m , при которых формула дает наилучшее

приближение для имеющихся наблюдений.

В данном случае число ν= n − m − 1 называетсячислом степеней свободы . Самым распространенным методом оценки параметров уравнения множественной линейной регрессии являетсяметод наименьших квадратов (МНК). Напомним, что его суть состоит в минимизации суммы квадратов отклонений наблюдаемых значений

зависимой переменной Y от ее значенийY , получаемых по уравнению регрессии.

Отметим, что изложенные ранее предпосылки МНК, позволяют проводить анализ в рамках классической линейной регрессионной модели.

Как и в случае парной регрессии, истинные значения параметров β j по выборке получить невозможно. В этом случае вместо

теоретического уравнения регрессии (3.3) оценивается так назы-

ваемое эмпирическое уравнение регрессии:

Y = b0 + b1 X1 + b2 X2 + ...+ bm Xm + e.

b 0 , b 1 , ..., b m - оценки теоретических

значений

β 0 ,β 1 , ...,β m

коэффициентов регрессии (эмпирические коэффици-

енты регрессии, e - оценка случайного отклоненияε ). Для индивидуальных наблюдений имеем:

yi = b0 + b1 xi 1 + b2 xi 2 + ...+ bm xim + ei ,(i= 1 ,2 , ..., n) (3.6)

Оцененное уравнение в первую очередь должно описывать общий тренд (направление) изменения зависимой переменной Y . При этом необходимо иметь возможность рассчитать отклонения от указанного тренда.

По данным выборки объема n:(xi 1 , xi 2 , ..., xim , yi ) , i= 1 ,2 , ..., n

требуется оценить значения параметров β j вектораβ , т. е. провести параметризацию выбранной модели (здесьx ij , j = 1, 2, ..., m

значение переменной X j в i -м наблюдении).

При выполнении предпосылок МНК относительно случайных отклонений ε i , оценкиb 0 , b 1 , ..., b m параметровβ 0 , β 1 , ..., β m множе-

ственной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными.

На основании (3.6) отклонение e i значенияy i зависимой переменной от модельного значенияˆy i , соответствующего уравнению рег- рессиивi -мнаблюдении i = 1, 2, ..., n , рассчитываетсяпоформуле:

ei = yi − ˆyi = yi − b0 − b1 xi 1 − b2 xi 2 − ...− bm xim . (3.7)

§ 2. Расчет коэффициентов множественной линейной регрессии

Представим данные наблюдений и соответствующие коэффициенты в матричной форме.

xn 1

xn 2

X1 m

X2 m

Здесь Y - n -мерный вектор-столбец наблюдений зависимой переменнойY ;X - матрица размерностиn × (m + 1) , в которой i-я строкаi = 1, 2, ..., n представляет i -е наблюдение вектора значений независимых переменныхX 1 ,X 2 , ...,X m , единица соответствует переменной при свободном членеb 0 ;B - вектор-столбец размер-

ности (m + 1) параметров уравнения регрессии (3.5);e - векторстолбец размерностиn отклонений выборочных (реальных) значенийy i зависимой переменной от значенийˆy i , получаемых по

уравнению регрессии:

i= 1

где e T = (e 1 , e 2 , ..., e n ) , т. е. надстрочный значокT означает транс-

понированную матрицу.

Можно показать, что условие (3.10) выполняется, если векторстолбец коэффициентов B найти по формуле:

B = (XT X) − 1 XT Y.

Здесь X T - матрица, транспонированная к матрицеX ,

(X T X ) − 1 - матрица, обратная к(X T X ) . Соотношение (3.11)

справедливо для уравнений регрессии с произвольным количеством m объясняющих переменных.

Пример 3.1. Пусть объем предложения некоторого благаY фирмы линейно зависит от ценыX 1 и заработнойX 2 сотрудников, производящих данное благо (табл. 3.1). Определим коэффициенты уравнения линейной регрессии. (Здесь предполагается знание матричной алгебры).

Таблица 3.1

Данные для множественной линейной регрессии

Матрицы имеют вид:

X T X= 318

7, 310816

− 0, 10049

− 0, 53537

−1

0, 001593

, (XT X)

= − 0, 10049

− 0, 006644,

− 0, 53537

− 0, 006644

0, 043213

X T Y = 23818,

В действительности каждое явление определяется действием не одной причины, а нескольких, даже комплексом причин. Их совместное действие может по-разному сказываться на следствии. «Следствие порождается совокупным действием множества причин. Сложное сочетание причин приводит к различным результатам. Действуя на следствие в одном и том же направлении, они усиливают влияние друг друга. Если часть причин имеет обратное направление в отношении объекта действия, то их совместное действие на следствие ослабляется или даже сводится на нет. Может возникнуть даже такая ситуация, когда вполне определенная, реально действующая причина не имеет явного следствия. Это означает, что наряду с этой причиной действует другая, поглощающая действие первой» . Итак, необходимо исследовать воздействие различных причин, т. е. исследовать зависимость одного явления от ряда других явлений, вызывающих первое.

Совершенно очевидно, что не все причины и факторы, в какой-то степени оказывающие влияние на изучаемое явление, могут быть исследованы. Мы вынуждены ограничиться только существенными причинами.

Экономическое явление детерминируется множеством одновременно и совокупно действующих причин. Поэтому перед нами стоит задача исследования зависимости одной зависимой переменной от нескольких объясняющих переменных в условиях конкретного места и конкретного времени. Эту задачу можно решить с помощью множественного, или многофакторного, регрессионного анализа. При этом снова ограничимся рассмотрением линейного соотношения между зависимой переменной у и объясняющими переменными хт. Мы обсудим также применение регрессионного анализа при нелинейном соотношении между переменными, но только для случая, когда возможна линейная аппроксимация.

Итак, при существовании линейного соотношения между переменными общее выражение уравнения множественной регрессии (2.1) записывается в виде

Объясняющие переменные оказывают совместное одновременное влияние на зависимую переменную у.

Как было сказано, мы не можем охватить весь комплекс причин и учесть случайность, присущую в той или иной степени причинному действию и определяемому им следствию. Поэтому, ограничиваясь наиболее важными объясняющими переменными, в выражение функции регрессии вводим аддитивную составляющую возмущающую переменную и, дающую суммарный эффект от воздействия всех неучтенных факторов и случайностей. Эмпирические значения у можно вследствие этого представить таким образом:

Итак, возмущающая переменная и интерпретируется так же, как и при простой линейной регрессии.

В выражении функции - расчетные значения регрессии. Они указывают средние значения переменной у в точке при фиксированных значениях объясняющих переменных в предположении, что только эти переменных являются причиной изменения переменной у. Значения у представляют собой оценки средних значений у для фиксированных значений переменных в точке

Коэффициенты - параметры регрессии (2.42). Постоянная регрессия снова выполняет в уравнении регрессии функцию выравнивания. Она определяет точку пересечения гиперповерхности регрессии с осью ординат.

Значения представляют собой оценки коэффициентов регрессии. Индекс при коэффициенте соответствует индексу объясняющей переменной. Так, указывает среднюю величину изменения у при изменении на одну единицу при условии, что другие переменные остаются без изменения; показывает, на сколько единиц в среднем изменится у, если бы переменная изменилась на единицу при условии, что переменные остались бы без изменения, и т. д. В то время как регрессия (2.42) охватывает совокупное одновременное влияние объясняющих переменных, коэффициенты регрессии указывают соответствующие усредненные частные влияния переменных в предположении, что остальные объясняющие переменные сохраняются на постоянном уровне. С точки зрения статистической методологии, таким образом, нет различия между множественной и частной регрессией. (На этом мы еще остановимся подробнее в следующем разделе.) По этой причине в литературе параметры называются как коэффициентами множественной, так и частной регрессии.

Такая содержательная интерпретация коэффициентов регрессии могла бы привести к ошибочному заключению, что достаточно определить несколько простых линейных регрессий переменной у по отдельным переменным Но, как мы уже упоминали ранее и в чем мы еще убедимся на примере, множественная регрессия хотя и охватывает одновременное действие объясняющих переменных, коэффициент регрессии исключает влияние остальных объясняющих переменных,

В случае простой линейной регрессии дело обстоит иначе. При простой линейной регрессии влияние прочих объясняющих переменных частично отражается в коэффициенте регрессии, что можно объяснить часто существующей двусторонней зависимостью объясняющих переменных. Итак, если располагают достаточной информацией и эмпирическим числовым материалом по нескольким причинам-факторам для переменной у, то целесообразнее и теоретически обоснованнее строить множественную регрессию. В разделе 2.5 мы уже указывали, что из-за рассеяния значений отдельных переменных функция регрессии необратима даже тогда, когда это оправдано логически и обосновано профессиональными соображениями. Необратимость характерна также для множественной регрессии. Если интересуются не только зависимостью переменной у от но также зависимостью переменной от у и то следует определить другую функцию (регрессию х на у и Теоретически существует сопряженных, или альтернативных, регрессий. Уже здесь мы обращаем внимание на то, что многосторонняя зависимость между переменными у и нарушает существенные предпосылки применения метода наименьших квадратов. Подробно речь об этом пойдем в главе 12.

Процедуру построения множественной регрессии рассмотрим на примере регрессии с двумя объясняющими переменными. Функция линейной множественной регрессии в этом случае записывается в виде

Задача состоит в оценке параметров регрессии по результатам выборочных наблюдений над переменными, включенными в анализ. Для этой цели снова применяем метод наименьших квадратов. Поставим условие, согласно которому регрессия должна по возможности хорошо согласовываться с Эмпирическими данными. Поэтому по тем же соображениям, что и в разделе 2.4, выдвинем требование, по которому сумма квадратов отклонений всех наблюдаемых значений зависимой переменной от значений, вычисленных по уравнению регрессии (т. е. сумма квадратов остатков), должна быть минимальна. Итак, должно выполняться требование

Подставляя вместо выражение (2.43), получим

Так же, как в разделе 2.4, 5 является функцией от неизвестных параметров регрессии. Необходимым условием выполнения (2.45) служит обращение в нульгчастных производных функции по каждому из параметров После соответствующих алгебраических

выкладок получаем следующую систему нормальных уравнений:

Если мы сравним эти уравнения с нормальными уравнениями простой линейной регрессии, то увидим большое сходство. Они отличаются лишь слагаемым, учитывающим новую переменную Следовательно, включение в анализ новых переменных не представляет больших трудностей.

Разделив обе части уравнения (2.46) на получим следующее выражение для постоянной регрессии

Подставляя (2.49) в (2.43), после некоторых простых преобразований получим выражение, аналогичное (2.25):

Решая систему нормальных уравнений относительно неизвестных параметров, получим

По аналогии с формулой (2.27) для простой регрессии можно коэффициенты множественной или частной регрессии представить через дисперсии и ковариации.

Разделив вначале обе части нормального уравнения (2.46) на и умножив их на вычтем их соответственно из левой и правой частей уравнения (2.47). В результате получим

Затем умножим обе части нормального уравнения (2.46) на предварительно поделенные на и вычтем их соответственно из левой и правой частей уравнения (2.48). В результате получим

Оба равенства мы можем представить следующим образом:

Разделив обе части равенств (2.53) и (2.54) на найдем, с учетом определений дисперсии и ковариации, выражения коэффициентов регрессии:

Используя данные примера из раздела 2.4, дополним их результатами наблюдений над второй объясняющей переменной - средним возрастом работников. Переменную х, использованную в примере раздела 2.4, обозначим теперь . В табл. 7 приведены значения, которые принимает переменная а также промежуточные результаты вычислений, необходимые для нахождения оценок коэффициентов регрессии.

Таблица 7. Средний возраст работников, средний процент выполнения нормы на 14 предприятиях и промежуточные результаты, необходимые для нахождения оценок параметров регрессии (см. скан)

Среднее значение переменной

Используя промежуточные результаты из табл. 3 и 7, по формулам (2.51) и (2.52) вычисляем коэффициенты регрессии:

Постоянную регрессии получаем по формуле (2.49):

Итак, в соответствии с формулой функции регрессии (2.43) уравнение регрессии можно записать в виде

Если рассматривать зависимость производительности одновременно от уровня механизации работ и от среднего возраста работников, то производительность труда в среднем изменится на при условии, что уровень механизации работ изменится на один процент при исключении влияния среднего возраста работников. Если исключить влияние уровня механизации работ, то производительность труда в среднем изменится на при изменении среднего возраста работников на один год.

По сравнению с коэффициентом регрессии в уравнении с одной объясняющей переменной частный коэффициент регрессии несколько уменьшился. Это объясняется тем, что переменная коррелирует с в чем мы еще убедимся с помощью количественного показателя. По этой причине переменная влияет на переменную у через вследствие чего ослабевает сила зависимости у от Наличие зависимости среди объясняющих переменных нарушает одно из основных предположений линейной модели регрессионного анализа, что влечет за собой особые проблемы. Более подробно эти проблемы мы обсудим в главе 9.

Подставляя последовательно значения переменных в полученное уравнение, найдем расчетные значения регрессии. Вычитая их из наблюдаемых значений переменной у, получим остатки:

По величине этих остатков можно сделать вывод, аналогичный выводу, сделанному в разделе 2.4 для простой линейной регрессии.

Сравнивая формулы (2.51) и (2.52) с (2.22) и (2.23), а также процедуры расчета, убеждаемся, что включение в регрессию новых объясняющих переменных усложняет аналитические выражения формул, а вместе с этим и вычисления. Обобщение модели множественной регрессии на объясняющих переменных требует использования матричных обозначений и владения техникой матричной алгебры. Кроме того, это необходимо для компактности изложения и применения некоторых стандартных вычислительных процедур, значительно облегчающих и ускоряющих проведение анализа }