Привет студент. Определение наличия мультиколлинеарности В чем состоит негативное влияние мультиколлинеарности

Привет студент. Определение наличия мультиколлинеарности В чем состоит негативное влияние мультиколлинеарности

02.07.2020

1.В модели с двумя переменными одним из признаков мультиколлинеарности является близкое к единице значение коэффициента парной корреляции . Если значение хотя бы одного из коэффициентов парной корреляции больше, чем 0,8, то мультиколлинеарность представляет собой серьезную проблему.

Однако в модели с числом независимых переменных больше двух, парный коэффициент корреляции может принимать небольшое значение даже в случае наличия мультиколлинеарности. В этом случае лучше рассматривать частные коэффициенты корреляции.

2. Для проверки мультиколлинеарности можно рассмотреть детерминант матрицы коэффициентов парной корреляции |r|. Этот детерминант называется детерминантом корреляции |r| ∈(0; 1). Если |r| = 0, то существует полная мультиколлинеарность. Если |r|=1, то мультиколлинеарность отсутствует. Чем ближе |r| к нулю, тем более вероятно наличие мультиколлинеарности.

3. Если оценки имеют большие стандартные ошибки, невысокую значимость, но модель в целом значима (имеет высокий коэффициент детерминации), то это свидетельствует о наличие мультиколлинеарности.

4. Если введение в модель новой независимой переменной приводит к существенному изменению оценок параметров и небольшому изменению коэффициента детерминации, то новая переменная находится в линейной зависимости от остальных переменных

65. Фиктивные переменные: определение, назначение, типы, смысл названий.

Фиктивные переменные – это переменные с дискретным множеством значений, которые количественным образом описывают качественные признаки. В эконометрических моделях обычно используются фиктивные переменные бинарного типа “0-1”.

Фиктивные переменные необходимы для оценки качественных признаков на эндогенную переменную. Например, при оценке спроса на некоторый товар мы построили регрессионную модель, регрессорами в которой в которой были количественные переменные – цены и дохода потребителя. Одним из способов уточнения данной модели может послужить включение таких качественных признаков, как вкус потребителя, возраст, национальные особенности, сезонность и т.д. Эти показатели нельзя представить в численном виде. Поэтому возникает задача отражения их влияния на значения эндогенной переменной, которая решается как раз при помощи введения фиктивных переменных.

В общем случае, когда качественный признак имеет более двух значений, вводится несколько бинарных переменных. При использовании нескольких бинарных переменных необходимо исключить линейную зависимость между переменными, так как в противном случае, при оценке параметров, это приведет к совершенной мультиколлинеарности. Поэтому применяется следующее правило: если качественная переменная имеет k альтернативных значений, то при моделировании используются только (k-1) фиктивная переменная.

В регрессионных моделях применяются фиктивные переменные двух типов:

1. Фиктивные переменные сдвига

2. Фиктивные переменные наклона – это переменная, которая изменяет наклон линии регрессии. При помощи таких фиктивных переменных можно построить кусочно-линейные модели, которые позволяют учесть структурные изменения в экономических процессах (например, введение новых правовых или налоговых ограничений, изменение политической ситуации и т.д.) Такие переменные применяются, когда изменение качественного признака приводит не к параллельному сдвигу графика регрессии, а к изменению его наклона. Собственно поэтому такие фиктивные переменные и называются переменными наклона.

66. Фиктивная переменная сдвига: спецификация регрессионной модели с фиктивной переменной сдвига.

Фиктивные переменные сдвига – эти переменные применяются в динамических моделях, когда с определенного момента времени начинает действовать какой-либо качественный фактор (например, при рассмотрении производительности завода до забастовки рабочих и во время нее). Эти переменные применяются, когда изменение качественного признака приводит к параллельному сдвигу графика регрессионной модели, поэтому они и называются переменными сдвига.

Спецификация парной регрессионной модели с фиктивной перемен­ной сдвига имеет вид:

Где α, β, δ – параметры модели; – значение регрессора в наблюдении t;

Фиктивная переменная;

δ – параметр при фиктивной переменной.

Значение фиктивной переменной dt=0 называется базовым (сравнительным). Базовое значение может либо определяться целями исследования, либо выбираться произвольно. Если заменить базовое значение переменной, то суть модели не изменится, изменится знак параметра δ на противоположный.

Рассмотрим парную регрессионную модель с фиктивной переменной сдвига на примере.

Пусть на продажи мороженого влияет наличие рекламы на фургоне у продавца. При помощи уравнения с фиктивными переменными можно, использую одно уравнение регрессии, получить результат как для продавцов с рекламой, так и для продавцов без рекламы.

Пусть первоначальная модель описывается спецификацией:

Где n – количество продавцов мороженого, – количество продаж для t-го продавца, – значение количественного регрессора для t-го продавца

Введем фиктивную переменную сдвига

0

Министерство образования и науки Российской Федерации

Федеральное государственное бюджетное образовательное учреждение

высшего образования

ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

Кафедра «Бухгалтерский учет и финансы»

КУРСОВОЙ ПРОЕКТ
по дисциплине «Эконометрика»

“Исследование мультиколлинеарности в эконометрических моделях: исключение переменной (ых) из модели”

Руководитель работы:

канд. тех. наук, доцент

Коновалова

Исполнитель:

студент группы ЭК-1315 ЭПО

Тверь, 2015

Введение…………………………………………………………………………...3

1.Аналитическая часть……………………………………………………………4

1.1. Обобщенные признаки мультиколлинеарности в эконометрических моделях…………………………………………………………………………….4

1.2. Основные способы устранения мультиколлинеарности в эконометрических моделях…………..…………………………………………..7

2.Проектная часть………………………………………………………………..11

2.1. Информационно-методическое обеспечение эконометрического исследования………………………………………………………………….11

2.2. Пример эконометрического исследования…………………………….17

Заключение ……………………………………………………………………....30

Список использованных источников…………………………………………...31

Введение

Актуальность темы работы “Исследование мультиколлинеарности в эконометрических моделях: исключение переменной (ых) из модели” обусловлена тем, что в наше время данная проблема часто встречается в прикладных эконометрических моделях.

Предмет исследования - проблема мультиколлинеарности. Объектом исследования выступают эконометрические модели.

Основная цель работы - разработка проектных решений по информационно-методическому обеспечению эконометрического исследования.

Для достижения цели поставлены и решены следующие основные задачи исследования:

  1. Обобщение признаков мультиколлинеарности в эконометрических моделях.
  2. Выявление основных способов устранения мультиколлинеарности.

3.Разработка информационно-методического обеспечения эконометрического исследования.

  1. Аналитическая часть

1.1. Обобщенные признаки мультиколлинеарности в эконометрических моделях

Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность , которая означает наличие функциональной (тождественной) линейной зависимости, и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами .

Полная коллинеарность приводит к неопределенности параметров в линейной регрессиионной модели независимо от методов оценки. Рассмотрим это на примере следующей линейной модели:

Пусть факторы этой модели тождественно связаны следующим образом: . Тогда рассмотрим исходную линейную модель, в которой к первому коэффициенту добавим произвольное число a , а из двух других коэффициентов это же число вычтем. Тогда имеем (без случайной ошибки):

Таким образом, несмотря на относительно произвольное изменение коэффициентов модели получается та же модель. Такая модель принципиально неидентифицируема. Неопределенность существует уже в самой модели. Если рассмотреть 3-мерное пространство коэффициентов, то в этом пространстве вектор истинных коэффициентов в данном случае не единственный, а представляет собой целую прямую линию. Любая точка этой прямой — истинный вектор коэффициентов .

Если полная коллинеарность приводит к неопределенности значений параметров, то частичная мультиколлинеарность приводит к неустойчивости их оценок . Неустойчивость выражается в увеличении статистической неопределенности — дисперсии оценок. Это означает, что конкретные результаты оценки могут сильно различаться для разных выборок несмотря на то, что выборки однородны.

Как известно ковариационная матрица оценок параметров множественной регрессии методом наименьших квадратов равна. Тем самым чем «меньше» ковариационная матрица (ее определитель), тем «больше» ковариационная матрица оценок параметров, и, в частности, больше диагональные элементы этой матрицы, то есть дисперсии оценок параметров. Для большей наглядности рассмотрим на примере двухфакторной модели:

Тогда дисперсия оценки параметра, например, при первом факторе равна:

где — выборочный коэффициент корреляции между факторами.

Здесь наглядно видно, что чем больше по модулю корреляция между факторами, тем больше дисперсия оценок параметров. При (полная коллинеарность) дисперсия стремится к бесконечности, что соответствует сказанному ранее.

Таким образом, оценки параметров получаются неточными, а значит сложно будет дать интерпретацию влияния тех или иных факторов на объясняемую переменную. При этом на качество модели в целом мультиколлинеарность не сказывается — она может признаваться статистически значимой, даже тогда, когда все коэффициенты незначимы (это один из признаков мультиколлинеарности).

В линейных моделях коэффициенты корреляции между параметрами могут быть положительными и отрицательными. В первом случае увеличение одного параметра сопровождается увеличением и другого параметра. Во втором случае при повышении одного параметра происходит снижение другого.

Исходя из этого, можно установить допустимую и недопустимую мультиколлинеарность. Недопустимая мультиколлинеарность будет тогда, когда между факторами 1 и 2 существует значительная положительная корреляция и при этом влияние каждого фактора на корреляционную связь с функцией у однонаправленное, то есть увеличение обоих факторов 1 и 2 ведёт к увеличению или снижению функции у . Другими словами, оба фактора действуют на функцию у одинаково, и значительная положительная корреляции между ними может позволить исключить один из них.

Допустимая мультиколлинеарность такова, при которой факторы действуют на функцию у неодинаково. Здесь возможны два случая:

а) при значительной положительной корреляции между факторами влияние каждого фактора на корреляционную связь с функцией у разнонаправленное, т.е. увеличение одного фактора ведёт к росту функции, а увеличение другого фактора приводит к уменьшению функции у.

б) при значительной отрицательной корреляции между факторами увеличение одного фактора сопровождается уменьшением другого фактора и это делает факторы разнозначными, поэтому возможен любой знак влияния факторов на функцию у .

На практике выделяют некоторые наиболее характерные признаки мультиколлинеарности.: 1. Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному изменению оценок коэффициентов модели. 2. Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R 2 и соответствующей F-статистики). 3. Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

Косвенными признаками мультиколлинеарности являются высокие стандартные ошибки оценок параметров модели, малые t-статистики (то есть незначимость коэффициентов), неправильные знаки оценок, при том, что модель в целом признается статистически значимой (большое значение F-статистики). О мультиколлинеарности также может свидетельствовать сильное изменение оценок параметров от добавления (или удаления) выборочных данных (если соблюдены требования достаточной однородности выборки).

Для обнаружения мультиколлинеарности факторов можно проанализировать непосредственно корреляционную матрицу факторов. Уже наличие больших по модулю (выше 0,7-0,8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.

Однако, анализ парных коэффициентов корреляции недостаточен. Необходимо проанализировать коэффициенты детерминации регрессий факторов на остальные факторы (). Рекомендуется рассчитывать показатель. Слишком высокие значения последнего означают наличие мультиколлинеарности.

Таким образом, главные критерии обнаружения мультиколлинеарности заключаются в следующем: высокий R 2 при всех незначимых коэффициентах,высокие парные коэффициенты корреляции,высокие значения коэффициента VIF .

1.2. Основные способы устранения мультиколлинеарности в эконометрических моделях

Прежде чем указать основные методы устранения мультиколлинеарности, отметим, что в ряде случаев мультиколлинеарность не является серьёзной проблемой, предполагающей существенные усилия по ее выявлению и устранению. В основном всё зависит от целей исследования.

Если основная задача модели - прогноз будущих значений регрессанда, то при достаточно большом коэффициенте детерминации R2 (> 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели. Хотя это утверждение будет обоснованным лишь в том случае, что и в будущем между коррелированными регрессорами будут сохраняться те же отношения, что и ранее. Если же целью исследования является определение степени влияния каждого из регрессоров на регрессанд, то наличие мультиколлинеарности, приводящее к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между регрессорами. В этой ситуации мультиколлинеарность является серьезной проблемой.

Отметим, что единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки .

На практике выделяют основные методы устранения мультиколлинеарности:

  1. Исключение регрессоров из модели простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных регрессоров. Однако необходима определенная осмотрительность при применении данного метода. В этой ситуации возможны ошибки спецификации. Например, при исследовании спроса на некоторое благо в качестве объясняющих переменных можно использовать цену данного блага и цены заменителей данного блага, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, скорее всего, допустим ошибку спецификации. Вследствие этого можно получить смещенные оценки и сделать необоснованные выводы. Таким образом, в прикладных эконометрических моделях желательно не исключать регрессоры до тех пор, пока их коллинеарность не станет серьезной проблемой.
  2. Получение дополнительных данных или новой выборки поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности вообще не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.

III. Изменение спецификации модели В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются новые регрессоры, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым, сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.

  1. Преобразование переменных в ряде случаев минимизировать либо вообще устранить проблему мультиколлинеарности можно только с помощью преобразования переменных. Исходные данные в каждом наблюдении делятся на значения одного из зависимых регрессоров в данном наблюдении. Применение метода главных компонент к факторам модели позволяет преобразовать исходные факторы и получить совокупность ортогональных (некоррелированных) факторов. При этом наличие мультиколлинеарности позволит ограничиться небольшим количеством главных компонент. Тем не менее, может возникнуть проблема содержательной интерпретации главных компонент .

Если по всем признакам имеется мультиколлинеарность, то среди эконометристов есть разные мнения на этот счет. При столкновении с проблемой мультиколлинеарности может возникнуть естественное желание отбросить «лишние» независимые переменные, которые, возможно, служат ее причиной. Однако следует помнить, что при этом могут возникнуть новые трудности. Во-первых, далеко не всегда ясно, какие переменные являются лишними в указанном смысле.

Мультиколлинеарность означает лишь приблизительную линейную зависимость между факторами, но это не всегда выделяет «лишние» переменные. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Наконец, отбрасывание так называемых существенных переменных, т.е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, приводит к смещению коэффициентов модели. На практике, обычно при обнаружении мультиколлинеарности убирают наименее значимый для анализа фактор, а затем повторяют расчеты.

Таким образом, на практике выделяют основные методы устранения мультиколлинеарности: изменение или увеличение выборки, исключение одной из переменной, преобразование мультиколлинеарных переменных (использовать нелинейные формы, использовать агрегаты (линейные комбинации нескольких переменных), использовать первые разности вместо самих переменных. Однако если мультиколлинеарность не устраняется, можно её игнорировать с учетом целесообразие исключения.

  1. Проектная часть

2.1. Информационно-методическое обеспечение эконометрического исследования

Информационное обеспечение эконометрического исследования включает следующие сведения:

Входные сведения:

  • статистические данные по социально-экономическому показателю, определяемому как зависимая переменная (факторы - результата);
  • статистические данные по социально-экономическим показателям, определяемым как объясняющие переменные (факторы - признака);

Промежуточные сведения:

  • модель уравнения регрессии, оцененное уравнение регрессии, показатели качества и заключение о качестве уравнения регрессии, заключение о наличии (отсутствии) проблемы мультиколлинеарности, рекомендации по применению модели;

Результативные сведения:

  • оцененное уравнение регрессии, заключение о качестве уравнения регрессии, заключение о наличии (отсутствии) проблемы мультиколлинеарности, рекомендации по применению модели.

Методика эконометрического исследования заключается в следующем: спецификация; параметризация, верификация, дополнительное исследование, прогнозирование.

1.Спецификация модели уравнения регрессии включает в себя графический анализ корреляционной зависимости зависимой переменной от каждой объясняющей переменной. По результатам графического анализа делается заключение о модели уравнения регрессии линейного или нелинейного видов. Для проведения графического анализа чаще всего рекомендуют использовать инструмент «Точечная диаграмма» MsExcel. В результате этого этапа определяется модель уравнения регрессии, причем в случае нелинейного вида также определяются способы ее линеаризации.

2.Параметризация уравнения регрессии включает в себя оценку параметров регрессии и их социально-экономическую интерпретацию. Для параметризации используют инструмент «Регрессия» в составе надстроек «Анализ данных» MsExcel. По результатам автоматизированного регрессионного анализа (столбец «Коэффициенты») определяются параметры регрессии, также дается их интерпретация согласно типовому правилу:

Bj представляет собой величину, на которую в среднем изменяется значение переменной Y при увеличении независимой переменной Xj на единицу при прочих равных условиях.

Свободный член уравнения регрессии равен предсказанному значению зависимой переменной Y в случае, когда все независимые переменные равны нулю.

3.Верификация уравнения регрессии проводится на основе результатов автоматизированного регрессионного анализа (этап 2) по следующим показателям: «R-квадрат», «Значимость F», «P-значение» (по каждому параметру регрессии), а также по графикам подбора и остатков.

Определяется значимость коэффициентов и оценивается качество модели. Для этого рассматривается “Значимость F”, “P-Значение” и “R-квадрат”. Если “P-значение” меньше статического уравнения значимости, то это говорит о значимости коэффициента. Если “R-квадрат” больше 0.6, то это означает, модель регрессии хорошо описывает поведение зависимой переменной Y от факторов переменных.

Если “Значимость F” меньше статического уравнения значимости, то коэффициент детерминации(R-квадрат) признается условно статистически значимым.

График остатков позволяет оценить вариации ошибок. Если нет особых различий между ошибками, соответствующими разным значениям Xi, то есть вариации ошибок при разных значениях Хi приблизительно одинаковы и можно предположить, отсутствие проблем. График подбора позволяет сформировать суждения о базисном, предсказанных и факторных значений.

В заключение формируется суждение о качестве уравнения регрессии.

  1. Дополнительное исследование.

4.1.Обнаружение первого признака мультиколлинеарности. На основе полученных в п.2-3 результатов регрессионного анализа проверяется ситуации, при которой коэффициент детерминации имеет высокое значение (R 2 >0.7) и статически значим (Значимость F <0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05).При обнаружении, такой ситуации, делается вывод о предположении мультиколлинеарности.

4.2.Обнаружение второго признака мультиколлинеарности. На основе расчетов коэффициентов корреляции между факторными переменными определяется существенная взаимосвязь отдельных факторов. Для расчетов в MS Excel, целесообразно использовать инструмент “Анализ данных / Корреляция”. По значениям коэффициента кореляции делаются выводы: чем ближе (r) к крайним точкам (±1), тем больше степень линейной связи, если коэффициент корреляции меньше 0,5, то считается, что связь слабая. Наличие мультиколлинеарности предполагается в следующем случае, если хотя бы между двумя переменными имеется существенный коэффициент корреляции (т.е. больше 0,7 по модулю).

4.3.Обнаружение третьего признака мультиколлинеарности. На основе оценки вспомогательных регрессий между факторными переменными, причём между переменными где имеется существенный коэффициент корреляции (п.4.2), делается вывод о наличии мультиколлинеарности, если хотя бы в одной вспомогательной регрессии является существенным и значимым. Метод дополнительных регрессий коэффициента детерминации заключается в следующем: 1) cтроятся уравнения регрессии, которые связывают каждый из регрессоров со всеми оставшимися; 2) вычисляются коэффициенты детерминации R 2 для каждого уравнения регрессии; 3) если уравнение и коэффициент детерминации признаётся статистически значимым, значит данный регрессор приводит к мультиколлинеарности.

4.4.Обобщение суждений.

На основе п.4.1-4.3 формируется суждение о наличии / отсутствии мультиколлинеарности и регрессоров, приводящих к мультиколлинеарности.

Далее формируется направления использования модели (в случае игнорирования или отсутствие проблемы мультиколлинеарности) или рекомендации по устранению мультиколлинеарности (на практике, исключение переменной).

При исключении переменной целесообразно использовать правило:

Определяется коэффициент детерминации для первоначально построенного по n наблюдениям уравнения регрессии (R 2 1);

Исключением из рассмотрения (k) последних переменных формируется уравнение для оставшихся факторов по первоначальным n наблюдениям и определяется для него коэффициент детерминации (R 2 2);

Рассчитывается F-статистика: где (R 1 2 -R 2 2)- потеря уравнения в качества результате отбрасывания к переменных, (K) - число дополнительно появившихся степеней свободы, (1- R 1 2)/(n-m-l) - необъясненная дисперсия первоначального уравнения;

Определяется критическое значение F a ,k ,n- m -1 по таблицам критических точек распределения Фишера при заданном уровне значимости а и степенях свободы v 1 =k, v 2 =n-m-l;

Формируется суждения о целесообразности исключении по правилу: исключение (одновременное) из уравнения k переменных считается нецелесообразным при F > F a , k , n- m - 1 , в противном случае - такое исключение допустимо.

При устранении переменной, получаемая модель анализируется согласно, п.п.3-4; и сравнивается с исходной моделью, в результате выбирается «лучшая». На практике, так как мультиколлинеарность не влияет на прогнозные качества модели, эта проблема может игнорироваться.

5.Прогнозирование проводится по исходной/«лучшей» модели, выбранной в пункте 4.4, по схеме ретроспективного прогноза, при котором для прогноза используется последняя 1/3 наблюдений.

5.1. Точечный прогноз. Фактические значения факторных переменных в прогнозном периоде считаются предсказанными, прогнозные значения результативной переменной определяются как предсказанные по исходной/«лучшей» модели на основе факторных переменных в прогнозном периоде. С помощью инструмента Microsoft Excel «График» строится график фактических и предсказанных згачений результативной переменной по наблюдениям и делается вывод о близости фактических значений к прогнозным.

5.2. Интервальный прогноз предполагает расчет стандартных ошибок предсказания (с помощью фиктивных переменных Салкевера) и верхних и нижних границ прогнозных значений.

С помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных D 1 , D 2 , ..., D p . При этом D i = 1 только для момента наблюдения (n + i), для всех других моментов D i =0. Тогда коэффициент при фиктивной переменной D i равен ошибке предсказания в момент (n + i), а стандартная ошибка коэффициента равна стандартной ошибке предсказания (S i). Так, проводится автоматизированный регрессионный анализ модели, где в качестве значений X используются совокупные (выборочные и прогнозные) значения факторных переменных и значения фиктивных переменных Салкевера, в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной.

Полученные стандартные ошибки коэффициентов при фиктивных переменных Салкевера равны стандартным ошибкам предсказания. Тогда границы интервального прогноза рассчитываются по следующим формулам: Ymin n + i =Yэмп n + i -S i *t кр, Ymax n + i =Yэмп n + i +S i *t кр, где t кр - критическое значение распределения Стьюдента, определяемое по формуле « =СТЬЮРАСПОБР(0,05; n-m-1)», m- количество объясняющих факторов в модели (Y * t), Yэмп n + i - прогнозные значения результативной переменной (п.5.1).

С помощью инструмента Microsoft Excel «График» строится график по фактическим и предсказанным значениям результативной переменной, верхним и нижним границам прогноза по наблюдениям. Делается вывод о вписываемости фактических значений результативной переменной в границы интервального прогноза.

5.3. Оценка устойчивости модели с помощью теста ЧОУ проводится следующим образом:

а) с помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия, где в качестве значений X принимаются совокупные (выборочные и прогнозные) значения факторных переменных, а в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной. По данной регрессии определяется сумма квадратов остатков S;

б) по регрессии п.5.2 с фиктивными переменными Салкевера определяется сумма квадратов остатков Sd;

в) рассчитывается и оценивается значение Fстатистики по формуле:

где p- количество прогнозных шагов. Если полученное значение больше критического значения F кр, определяемого по формуле «=FРАСПОБР(0,05; p; n-m-1)», тогда гипотеза о стабильности модели в прогнозном периоде отклоняется, в противном случае - принимается.

5.4.Обобщение суждений о прогнозных качествах модели на основе п.5.1-5.3, в результате формируется заключение о прогнозном качестве модели и рекомендации по применению модели для прогнозирования.

Так, разработанное информационно-методическое обеспечение соответствует основным задачам эконометрического исследования проблемы мультиколлинеарности в моделях множественной регрессии.

2.2. Пример эконометрического исследования

Исследование проводится на основе данных, отражающих реальные макроэкономические показатели РФ за период 2003-2011 г.г. (табл. 1), согласно методике п.2.1.

Таблица 1

Расходы дом. хозяйств (млрд.руб)[Y]

Численность населения (млн. чел)

Денежная масса (млрд.руб.)

Уровень безработицы (%)

1.Спецификация модели уравнения регрессии включает графический анализ корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 1 (Численность населения) (рис. 1), корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 2 (Денежная масса) (рис. 2), корреляционной зависимости зависимой переменной Y (Расходы дом. хозяйств от объясняющей переменной X 3 (Уровень безработицы) (рис. 3).

График корреляционной зависимости между Y и X 1 , представленный на рисунке 1, отражает существенную (R 2 =0,71) обратную линейную зависимость Y от X 1 .

График корреляционной зависимости между Y и X 2 , представленный на рисунке 2, отражает существенную (R 2 =0,98) прямую линейную зависимость Y от X 2 .

График корреляционной зависимости между Y и X 3 , представленный на рисунке 3, отражает несущественную (R 2 =0,15) обратную линейную зависимость Y от X 3 .

Рисунок 1

Рисунок 2

Рисунок 3

В результате можно специфицировать модель линейной множественной регрессии Y=b 0 +b 1 X 1 +b 2 X 2 + b 3 X 3 .

2.Параметризация уравнения регрессии проводится с использованием инструмента «Регрессия» в составе надстроек «Анализ данных» MsExcel (рис. 4).

Рисунок 4

Оцененное уравнение регрессии имеет вид:

233983,8- 1605,6Х 1 + 1,0Х 2 + 396,22X 3 .

При этом коэффициенты регрессии интерпретируются следующим образом: при увеличении численности населения на 1 млн. чел расходы дом. хозяйств уменьшаются на 1605,6 млрд. руб.; при увеличении денежной массы на 1 млрд.руб. расходы дом. хозяйств увеличатся на 1,0 млрд.руб.; при увеличении уровня безработицы на 1%, расходы дом. хозяйств будут увеличиваться на 396,2 млрд.руб. При нулевых значениях факторных переменных расходы дом. хозяйств составят 233983,8 млрд.руб, что, возможно, не имеет экономической интерпретации.

3.Верификация уравнения регрессии проводится на основе результатов автоматизированного регрессионного анализа (этап 2).

Так, «R-квадрат» равен 0,998, т.е. уравнение регрессии описывает поведение зависимой переменной на 99%, что говорит о высоком уровне описания уравнения. «Значимость F» равна 2,14774253442155E-07, что говорит о том, что «R-квадрат» значим. «Р-Значение» для b 0 равно 0,002, что говорит о том, что данный параметр значим. «Р-Значение» для b 1 равно 0,002, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 2 равно 8,29103190343224E-07, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 3 равно 0,084, что говорит о том, что данный коэффициент не значим.

На основе графиков остатков остатки е представляют собой случайные величины.

На основе графиков подбора делается заключение о близости фактических и предсказанных значений по модели.

Так, модель имеет хорошее качество, при этом b 3 не значим, поэтому можно предположить наличие мультиколлинеарности.

4.Дополнительное исследование.

4.1. Обнаружение первого признака мультиколлинеарности. По данным регрессионного анализа (рисунка 5) можно сказать, что имеется первый признак мультиколлинеарности, так как выявляется высокий и значимый R 2 , выявлено, что уравнение имеет высокий коэффициент детерминации, а также один из коэффициентов не значимый. Это позволяет предположить наличие мультиколлинеарности.

4.2.Обнаружение второго признака мультиколлинеарности.

На основе расчетов коэффициентов корреляции между факторными переменными определяется существенная взаимосвязь отдельных факторов. (табл.2). Наличие мультиколлинеарности предполагается в следующем случае, если хотя бы между двумя переменными имеется существенный коэффициент корреляции (т.е. больше 0,5 по модулю).

Таблица 2

[ X2]

[ X3]

[ X2]

[ X3]

В нашем случае существует коэффициент корреляции между Х 1 и Х 2 (-0,788), что говорит о сильной зависимости между переменными X 1, X 2 , так же существует коэффициент корреляции между Х 1 и Х 3 (0,54), что говорит о сильной зависимости между переменными X 1, X 3.

В результате можно предположить наличие мультиколлинеарности.

4.3.Обнаружение третьего признака мультиколлинеарности.

Так как в п.4.2 обнаружена сильная зависимость между переменными X 1 и X 2 , далее анализируется вспомогательная регрессия между этими переменными (рис. 5).

Рисунок 5

Так как «Значимость F» равна 0,01, что говорит о том, что «R-квадрат» и вспомогательная регрессия значимы, поэтому можно предположить, что регрессор X 2 приводит к мультиколлинеарности.

Так как в п.4.2 обнаружена выше среднего уровня зависимость между переменными X 1 и X 3 , далее анализируется вспомогательная регрессия между этими переменными (рис. 6).

Рисунок 6

Так как «Значимость F» равна 0,13, что говорит о том, что «R-квадрат» и вспомогательная регрессия не значимы, поэтому можно предположить, что регрессор X 3 не приводит к мультиколлинеарности.

Так, согласно третьему признаку, можно предположить наличие мультиколлинеарности.

4.4.Обобщение суждений.

По данным анализа п.4.1-4.3, обнаружены все три признака мультиколлинеарности, поэтому ее можно предположить с высокой вероятностью. При этом несмотря на предположение в п.4.3 относительно регрессора, приводящего к мультиколлинеарности, можно рекомендовать исключение X 3 из исходной модели, т.к. X 3 имеет наименьший коэффициент корреляции с Y и коэффициент при этом регрессоре является незначимым в исходном уравнении. Результаты регрессионного анализа после исключения X 3 представлены на рис. 7.

Рисунок 7

При этом рассчитаем F - статистику для проверки целесообразности исключения:

F факт = 4,62,

причем F табл = F 0,05;1;5 = 6,61, так как F факт < F табл, то исключение допустимо для переменной X 3 .

Оценка качества модели линейной множественной регрессии Y=b 0 +b 1 X 1 +b 2 X 2 . «R-квадрат» равен 0,996, т.е. уравнение регрессии описывает поведение зависимой переменной на 99%, что говорит о высоком уровне описания уравнения. «Значимость F» равна 3,02415218982089E-08, что говорит о том, что «R-квадрат» значим. «Р-Значение» для b 0 равно 0,004, что говорит о том, что данный параметр значим.«Р-Значение» для b 1 равно 0,005, что говорит о том, что данный коэффициент значим. «Р-Значение» для b 2 равно 3,87838361673427E-07, что говорит о том, что данный коэффициент значим. Оцененное уравнение регрессии имеет вид:

201511,7 -1359,6Х 1 + 1,01Х 2

При этом коэффициенты регрессии интерпретируются следующим образом: при уменьшении численности населения на 1 млн. чел расходы дом. хозяйств уменьшаются на 1359,6 млрд. руб.; при увеличении уровня денежной массы, расходы дом. хозяйств увеличатся на 1,0) (млрд.руб). При нулевых значениях факторных переменных расходы дом. хозяйств составят 201511,7 млрд.руб, что, возможно, имеется экономическая интерпретация.

Так, модель = 201511,7 -1359,6Х 1 + 1,01Х 2 имеет хорошее качество и рекомендуется для прогнозирования в качестве «лучшей» в сравнении с исходной моделью.

5.Прогнозирование.

5.1.Точечный прогноз. Фактические значения факторных переменных в прогнозном периоде считаются предсказанными, прогнозные значения результативной переменной определяются как предсказанные по «лучшей» модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) на основе факторных переменных в прогнозном периоде. С помощью инструмента Microsoft Excel «График» строится график фактических и предсказанных згачений результативной переменной по наблюдениям и делается вывод о близости фактических значений к прогнозным.

Прогнозные значения факторных переменных представлены в табл.3.

Таблица 3

Прогнозные значения результативной переменной определяются как предсказанные по «лучшей» модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) на основе факторных переменных в прогнозном периоде. Прогнозные значения представлены в табл.4, для сравнения добавляются фактические значения.

Таблица 4

[Y] эмпирическое

На рис.8 представлены фактические и прогнозные значения результативной переменной, а также нижние и верхние границы прогноза.

Рисунок 8

Согласно рис.8, прогноз сохраняет возрастающую тенденцию, а также все прогнозные значения близки к фактическим.

5.2. Интервальный прогноз.

С помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных D 1 , D 2 , ..., D p . При этом D i = 1 только для момента наблюдения (n + i), для всех других моментов D i =0. Данные представлены в табл.5, результат регрессии на рис.9.

Таблица 5

[Y]сов

Рисунок 9

Тогда стандартная ошибка коэффициента при фиктивной переменной равна стандартной ошибке предсказания (S i): для 2012 года составит 738,5; для 2013 года составит 897,1; для 2014 года составит 1139,4.

Границы интервального прогноза рассчитываются в табл.6.

Таблица 6

[Y] эмпирическое

[Y]сов

[S] пр

По данным табл. 6 с помощью инструмента Microsoft Excel «График» строится график по фактическим и предсказанным значениям результативной переменной, верхним и нижним границам прогноза по наблюдениям (рис.10).

Рисунок 10

Согласно графику, прогнозные значения вписываются в границы интервального прогноза, что говорит о хорошем качестве прогноза.

5.3. Оценка устойчивости модели с помощью теста ЧОУ проводится следующим образом:

а) с помощью инструмента Microsoft Excel «Анализ данных/Регрессия» строится регрессия (рис.11), где в качестве значений X принимаются совокупные (выборочные и прогнозные) значения факторных переменных, а в качестве значений Y - совокупные (выборочные и прогнозные) значения результативной переменной. По данной регрессии определяется сумма квадратов остатков S=2058232,333.

Рисунок 11

б) по регрессии п.3.2 с фиктивными переменными Салкевера (рис. 9) определяется сумма квадратов остатков Sd=1270272,697.

в) рассчитывается и оценивается значение Fстатистики:

при этом F кр = F 0,05;3;5 = 5,40, тогда полученное значение меньше критического значения F кр и гипотеза о стабильности модели в прогнозном периоде принимается.

5.4.Обобщение суждений о прогнозных качествах модели на основе п.5.1-5.3, в результате формируется заключение о высоком прогнозном качестве модели (= 201511,7 -1359,6Х 1 + 1,01Х 2) и даются рекомендации по применению модели для прогнозирования.

Методика п.2.1 успешно апробирована, позволяет выявить основные признаки мультиколлинеарности и может быть рекомендована для подобных исследований.

Заключение

Мультиколлинеарность — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

Основные последствия мультиколлинеарности: большие дисперсии оценок, уменьшение t-статистик коэффициентов, оценки коэффициентов по МНК становятся неустойчивыми, затрудненное определения вклада переменных, получение неверного знака у коэффициента.

Главные критерии обнаружения мультиколлинеарности заключаются в следующем: высокий R 2 при незначимых коэффициентах; Высокие парные коэффициенты корреляции; высокие значения коэффициента VIF.

Основные методы устранения мультиколлинеарности: исключение переменной(ых) из модели; получение дополнительных данных или новой выборки; изменение спецификации модели; использование предварительной информации о некоторых параметрах.

Разработанное информационно-методическое обеспечение соответствует основным задачам эконометрического исследования проблемы мультиколлинеарности в моделях множественной регрессии и может быть рекомендовано для подобных исследований.

Список использованных источников

  1. Астахов, С.Н. Эконометрика [Текст]: Учебно-методический комплекс. Казань, 2008. - 107с.
  2. Бардасов, С. А. ЭКОНОМЕТРИКА [Текст]: учебное пособие. 2-е изд., пере- раб. и доп. Тюмень: Издательство Тюменского государственного университета, 2010. 264 с.
  3. Бородкина, Л.И. Курс лекций [Электронный ресурс]. Режим доступа - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Воскобойников, Ю.Е. ЭКОНОМЕТРИКА в EXCEL Часть 1 [Текст]: учебное пособие, Новосибирск 2005,156 с.
  5. Елисеева, И.И. Практикум по эконометрике: учеб. пособие для экон. вузов / Елисеева, И.И., Курышева, С.В., Гордеенко, Н.М. , [и др.] ; под ред. И.И. Елисеевой - М.: Финансы и статистика, 2001. - 191 с. - (14126-1).
  6. Мультиколлинеарность [Электронный ресурс]. Режим доступа - https://ru.wikipedia.org/wiki/Мультиколлинеарность.
  7. Новиков, А.И. Эконометрика [Текст]: учеб. пособие по напр. "Финансы и кредит", "Экономика" - М.: Дашков и К, 2013. - 223 с.- (93895-1).
  8. Проблема мультиколлинеарности [Электронный ресурс]. Режим доступа - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf .
  9. Черняк, В. Прикладная эконометрика. Лекция №9 [Электронный ресурс]. Режим доступа http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - энциклопедический сайт [Электронный ресурс]. Режим доступа - http://kodcupon.ru/ra17syplinoe97/Мультиколлинеарность.

Скачать: У вас нет доступа к скачиванию файлов с нашего сервера.

Мультиколлинеарность – это линейная зависимость между двумя или несколькими факторными переменными в уравнении множественной регрессии. Если такая зависимость является функциональной, то говорят о полной мультиколлинеарности . Если же она является корреляционной, то имеет место частичная мультиколлинеарность . Если полная мультиколлинеарность является скорее теоретической абстракцией (она проявляется, в частности, если фиктивную переменнную, имеющую k уровней качества, заменить на k дихотомических переменных), то частичная мультиколлинеарность весьма реальна и присутствует практически всегда. Речь может идти лишь о степени ее выраженности. Например, если в состав объясняющих переменных входят располагаемый доход и потребление, то обе эти переменные, конечно, будут сильно коррелированными.

Отсутствие мультиколлинеарности является одной из желательных предпосылок классической линейной множественной модели. Это связано со следующими соображениями:

1) В случае полной мультиколинеарности вообще невозможно построить оценки параметров линейной множественной регрессии с помощью МНК.

2) В случае частичной мультиколлинеарности оценки параметров регрессии могут быть ненадежными и, кроме того, затруднено определение

изолированного вклада факторов в результативный показатель.

Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

Подозрением наличия мультиколлинеарности служат:

– большое количество незначимых факторов в модели;

– большие стандартные ошибки параметров регрессии;

– неустойчивость оценок (небольшое изменение исходных данных приводит к их существенному изменению).

Один из подходов для определения наличия или отсутствия мультиколлинеарности заключается в анализе корреляционной матрицы

между объясняющими переменными и выявлении пар факторов, имеющих высокие коэффициенты парной корреляции (обычно больше 0,7). Если такие факторы существуют, то говорят о явной коллинеарности между ними.

Однако парные коэффициенты корреляции, рассматриваемые индивидуально, не могут оценить совокупное взаимодействие нескольких факторов (а не только двух).

Поэтому для оценки наличия мультиколлинеарности в модели используется определитель матрицы парных коэффициентов корреляции между факторами (определитель матрицы межфакторной корреляции )

Чем ближе определитель матрицы межфакторной корреляции к 0, тем сильнее мультиколлинеарность, и наоборот, чем ближе определитель к 1, тем меньше мультиколлинеарность.


Статистическая значимость мультиколлинеарности факторов определяется проверкой нулевой гипотезы при альтернативной гипотезе . Для проверки нулевой гипотезы используется распределение Пирсона с степенями свободы. Наблюдаемое значение статистики находится по формуле , где n – число наблюдений, m – число факторов. Для заданного уровня значимости по таблице критических точек распределения Пирсона определяется критическое значение . Если , то гипотеза отклоняется и считается, что в модели присутствует мультиколлинеарность факторов.

Выделить факторы, влияющие на мультиколлинеарность, позволяет также анализ коэффициентов множественной детерминации, вычисленных при условии, что каждый из факторов рассматривается в качестве зависимой переменной от других факторов: , , …, . Чем ближе они к 1, тем сильнее мультиколлинеарность факторов. Значит, в уравнении следует оставлять факторы с минимальной величиной коэффициента множественной детерминации.

Что касается полной мультиколлинеарности, то с ней следует вести самую решительную борьбу: сразу же удалять из регрессионного уравнения переменные, которые являются линейными комбинациями другихпеременных.

Частичная мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.

Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет настолько серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

Иногда проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

В ряде случаев минимизировать либо совсем устранить мультиколлинеарность можно с помощью преобразования факторных переменных. При этом наиболее распространены следующие преобразования:

1. Линейная комбинация мультиколлинеарных переменных (например, ).

2. Замена мультиколлинеарной переменной ее приращением .

3. Деление одной коллинеарной переменной на другую.

Мультиколлинеарность – это коррелированность двух или нескольких переменных в уравнении регрессии. При наличии мультиколлинеарности МНК-оценки формально существуют, но обладают рядом недостатков:

1) небольшое изменение исходных данных приводит к существенному изменению оценок регрессии;

2) оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (индекс детерминации имеет высокое значение).

Главной причиной возникновения мультиколлинеарности является наличие в изучаемом объекте процессов, которые одновременно влияют на некоторые входные переменные, но не учтены в модели. Это может быть результатом некачественного исследования предметной области или сложности взаимосвязей параметров изучаемого объекта.

Различают два вида мультиколлинеарности: полную и частичную.

Например, если в модели объясняющие переменные связаны линейным соотношением , то исходное уравнение сводится к уравнению простой линейной зависимости .

Последнее уравнение не позволяет разделить вклады и в объяснение поведения переменной .

Полная (совершенная) мультиколлинеарность имеет место, когда между переменными имеется линейная функциональная связь.

Частичная (несовершенная) коллинеарность возникает в случае достаточно тесных линейных статистических связей между объясняющими переменными.

Несовершенная мультиколлинеарность факторов характеризуется величиной коэффициента корреляции между ними. Чем больше значение коэффициента корреляции, тем труднее разделить влияние объясняющих переменных и тем менее надежными будут оценки коэффициентов регрессии при этих переменных. Поэтому, если при оценке уравнения регрессии несколько объясняющих переменных оказались незначимыми, то нужно выяснить, нет ли среди них сильно коррелированных между собой. Для этого рассчитывается корреляционная матрица (это предусмотрено стандартными статистическими пакетами), и проверяется статистическая значимость коэффициентов парной корреляции. При наличии сильной корреляции (коэффициент корреляции по абсолютной величине больше 0,7) один из пары связанных между собой факторов исключается или в качестве объясняющей переменной берется какая-то их функция. Если незначимой оказалась только одна переменная, то ее можно исключить или заменить другой.

Для оценки наличия мультиколлинеарности может быть использован определитель матрицы межфакторной корреляции, а значимость мультиколлинеарности факторов может быть оценена с помощью статистики .

В ряде случаев мультиколлинеарность не является таким уж серьезным злом, чтобы ее выявлять и устранять. Все зависит от целей исследования. Если основная задача моделирования – только прогнозирование значений зависимой переменной, то при достаточно большом коэффициенте детерминации () присутствие мультиколлинеарности не сказывается на прогнозных качествах модели. Если же целью моделирования является и определение вклада каждого фактора в изменение зависимой переменной, то наличие мультиколлинеарности является серьезной проблемой.


Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных.

Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет вообще либо она не будет столь серьезной. Поэтому для уменьшения мультиколлинеарности в ряде случаев достаточно увеличить объем выборки.

В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются факторы, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную.

Литература:

1. Елисеева И.И. Эконометрика: учебник. М.: Финансы и статистика, 2008.

2. Бородич С.А. Эконометрика: учебное пособие. Мн.: Новое знание, 2001.

3. Кремер Н.Ш. Эконометрика: учебник для студентов вузов. М.: ЮНИТИ-ДАНА, 2008.

После изучения данной главы студент должен: знать

  • основные проблемы, возникающие при нарушении предположения МНК об отсутствии мультиколлинеарности;
  • методы обнаружения и устранения мультиколлинеарности; уметь
  • выявлять нарушения классической предпосылки МИК - мультиколлинеарности;

владеть

  • методами выявления наличия нарушений предпосылок МИК;
  • методами устранения мультиколлинеарности.

Понятие мультиколлинеарности

Мультиколлинеарностью называется высокая степень коррелированное™ двух или нескольких объясняющих переменных в уравнении множественной регрессии. Крайним случаем мультиколлинеарности является линейная зависимость между объясняющими переменными. Считается, что две переменные X,- и X сильно коррелированы, если выборочный коэффициент корреляции двух объясняющих переменных г хх. >0,7.

Рассмотрим виды мультиколлинеарности.

1. Строгая мультиколлинеарность - наличие линейной функциональной связи между объясняющими переменными (иногда также линейная связь с зависимой переменной). Связь между объясняющими переменными - функциональная.

Строгая мультиколлинеарность не позволяет однозначно определить коэффициенты регрессии b t и bj и разделить вклады объясняющих переменных Xj и Xj в зависимую переменную У.

2. Нестрогая мультиколлинеарность - наличие сильной линейной корреляционной связи между объясняющими переменными (иногда также и зависимой переменной). При нестрогой мультиколлинеарности связь между объясняющими переменными корреляционная.

Сложность проблемы мультиколлинеарности состоит в следующем.

  • 1. Корреляционные связи есть всегда. Проблема мультиколлинеарности - сила проявления корреляционных связей.
  • 2. Однозначных критериев определения мультиколлинеарности не существует.
  • 3. Строгая мультиколлинеарность нарушает предпосылку 5 теоремы Гаусса - Маркова и делает построение регрессии невозможным (см. гл. 4, параграф 4.1), так как согласно теореме Кронекера - Капелли система уравнений имеет бесчисленное множество решений.
  • 4. Нестрогая мультиколлинеарность затрудняет работу, но не препятствует получению правильных выводов.

Поясним сказанное о проблеме мультиколлинеарности. Пусть имеется т объясняющих факторов Х { , Х 2 , ..., Х т. Матрица межфакторной корреляции состоит из парных коэффициентов корреляции и имеет вид

Парный коэффициент корреляции г х. х. определяется по формуле 1

Отметим, что так как r xx = 1, i = 1,2,..., т, и г х х. = г х х., то данная матрица является симметрической.

Если связь между факторами полностью отсутствует, то недиагональные элементы матрицы межфакторной корреляции будут равны нулю, а ее определитель будет равен единице: | R xx = 1.

Пример 7.1

Пусть имеется четыре объясняющие переменные Х ь Х->, Х 3 , Аф При отсутствии взаимной корреляции между переменными (> хх = 0) определитель матрицы межфакторной корреляции будет равен

Противоположный случай: если связь между факторами является очень тесной (практически функциональной), то определитель матрицы межфакторной корреляции будет равен нулю.

Пример 7.2

Имеется четыре объясняющие переменные X lt Х 2 , Х 3 , Х 4 , между всеми переменными сильная функциональная связь (г х. х. =1). Тогда

Вывод. Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы межфакторной корреляции. Если |R xx . | ~1, то мультиколлинеарность отсутствует, а если | Л |

Совершенная мультиколлинеарность - равенство определителя матрицы межфакторной корреляции нулю - проявляется скорее в теории, а практически между некоторыми объясняющими переменными существует очень сильная корреляционная зависимость г х. х > 0,7, а не функциональная г х. х =1.

Замечание 7.1. Существует истинная мультиколлинеарность при отсутствии зависимости между переменными, что показано в примере 7.3.

Пример 7.3

Имеется выборка из 10 групп наблюдений (табл. 7.1).

Таблица 7.1

Данные к примеру 7.3

В данной выборке существует строгая мультиколлинеарность при отсутствии зависимости между переменными: х, * f(xj), г *j.

Матрица парных коэффициентов корреляции

Определитель этой матрицы равен -0,003402, т.е. практически равен нулю. Это говорит о совершенной мультиколлинеарности в выборке. Коэффициенты парной корреляции.г| 2 и.г 23 очень высоки.

Полная матрица парных коэффициентов корреляции R yx . включает коэффициенты парной корреляции факторов с результатом г 1/х. и факторов между собой г х. х:


Отметим, что в случае мультиколлинеарности в модель регрессии включаются те факторы, которые более сильно связаны с зависимой переменной, но слабо связаны с другими факторами.

Причины возникновения мультиколлинеарности следующие:

  • 1) ошибочное включение в уравнение регрессии двух или более линейно зависимых объясняющих переменных;
  • 2) две (или более) объясняющие переменные, в нормальной ситуации слабо коррелированные, становятся в конкретной выборке сильно коррелированными;
  • 3) в модель включается объясняющая переменная, сильно коррелирующая с зависимой переменной (такая переменная называется доминантной).
  • 2 Термин коллинеарность характеризует линейную связь между двумя объясняющими переменными. Мультиколлинеарность означает линейную связь между более чем двумя объясняющими переменными. На практике всегда используется один термин - мультиколлинеарность.
  • В гл. 2 соответствующая формула - это формула (2.9).


© 2024 beasthackerz.ru - Браузеры. Аудио. Жесткий диск. Программы. Локальная сеть. Windows