Многофакторный дисперсионный анализ

Средние квадраты и s R 2 представляют собой несмещенные оценки зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров регрессии, n – число наблюдений. При отсутствии линейной зависимости между зависимой и объясняющей (факторной) переменной случайные величины и s R 2 имеют 2 – распределение соответственно с m-1 и n-m степенями свободы, а их отношение F – распределение с теми же степенями свободы. Поэтому, уравнение регрессии значимо на уровне , если фактически наблюдаемое значение статистики превышает табличное:

(5.11),

где - табличное значение F – критерия Фишера – Снедекора, определенное на уровне значимости при k1 = m-1 и k2 = n-m степенях свободы.

Учитывая смысл величин и s R 2 , можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

В случае парной линейной регрессии m = 2, и уравнение регрессии значимо на уровне , если

(5.12)

Мерой значимости линии регрессии может служить следующее соотношение:

где ŷ i -i-e выравненное значение; -средняя арифметическая значений y i ; σ y.x -средняя квадратическая ошибка (ошибка аппроксимации) регрессионного уравнения, вычисляемая по известной формуле; n-число сравниваемых пар значений признаков; m-число факторных признаков.

Действительно, связь тем больше, чем значительнее мера рассеяния признака, обусловленная регрессией, превосходит меру рассеяния отклонений фактических значений от выравненных.

Данное соотношение позволяет решить вопрос о значимости уравнения регрессии в целом, то есть о наличии реально существующей статистической зависимости между переменными. Уравнение регрессия значимо, т. е. между признаками существует статистическая связь, если для данного уровня значимости расчетное значение критерия Фишера F превышает критическое значение F кр , стоящее на пересечении m-го столбца и -й строки специальной статистической таблицы, которая так и называется «Таблица значений F-критерия Фишера».

Пример. Воспользуемся критерием Фишера для оценки значимости уравнения регрессии, построенного на прошлой лекции, то есть уравнения, выражающего зависимость между сбором урожая и размером посева на душу населения.

Подставив в формулу для расчета критерия Фишера, данные предыдущего примера, получим

Обращаясь к таблице F-распределения для Р=0,95 (α=1-Р=0,5) и учитывая, что n-2=21, m-1 =1, в таблице значений F-критерия на пересечения 1-го столбца и 21-й строки находим критическое значение F кр, равное 4,32 при степени надежности Р=0,95. Поскольку расчетное значение F-критерия существенно превосходит по величине F кр, то обнаруженная линейная связь существенна, т. е. априорная гипотеза о наличии линейной связи подтвердилась. Вывод сделан при степени надежности P=0,95. Можно проверить, что вывод в данном случае останется прежним, если надежность повысить до Р=0,99 (соответствующее значение F кр =8,02 для уровня значимости α=0,01).


Коэффициент детерминации. С помощью F-критерия мы установили, что существует линейная зависимость между величиной сбора хлеба и величиной посева на душу. Следовательно, можно утверждать, что величина сбора хлеба, приходящегося на душу, линейно зависит от величины посева на душу. Теперь уместно поставить уточняющий вопрос - в какой степени величина посева на душу определяет величину сбора хлеба на душу? На этот вопрос можно ответить, рассчитав, какая часть вариации результативного признака может быть объяснена влиянием факторного признака. Этой цели служит индекс (или коэффициент) детерминации R 2 , который позволяет оценить долю разброса, учитываемого регрессией, в общем разбросе результативного признака. Коэффициент детерминации , равный отношению факторной вариации к полной вариации признака, позволяет судить о том, насколько «удачно» выбран вид функции, описывающей реальную статистическую зависимость.

Если известен коэффициент детерминации R 2 , то критерий значимости уравнения регрессии или самого коэффициента детерминации (критерий Фишера) может быть записан в виде:

Критерий Фишера позволяет также оценивать полезность включения дополнительных факторов в модель для уравнения множественной линейной регрессии.

В эконометрике, помимо общего критерия Фишера, используется также понятие частного критерия . Частный F-критерий показывает степень влияния дополнительной независимой переменной на результативный признак и может использоваться при решении вопроса о добавлении в уравнение или исключении из него этой независимой переменной.

Разброс признака, объясняемый уравнением двухфакторной регрессии, построенным ранее, можно разложить на два вида: 1) разброс признака, обусловленный независимой переменной х 1 , и 2) разброс признака, обусловленный независимой переменной x 2 , когда х 1 уже включена в уравнение. Первой составляющей соответствует разброс признака, объясняемый уравнением, включающим только переменную х 1 . Разность между разбросом признака, обусловленным уравнением парной линейной регрессии, и разбросом признака, обусловленным уравнением двухфакторной линейной регрессии, определит ту часть разброса, которая объясняется дополнительной независимой переменной x 2 .

Отношение указанной разности к разбросу признака, регрессией не объясняемому, представляет собой значениечастного критерия. Частный F-критерий называется также последовательным, если статистические характеристики строятся при последовательном добавлении переменных в регрессионное уравнение.

Пример. Оценить полезность включения в уравнение регрессии дополнительной переменной «урожайность» (по данным и результатам ранее рассмотренных примеров).

Разброс признака, объясняемый уравнением множественной регрессии и рассчитываемый как сумма квадратов разностей выравненных значений и их средней, равен 1623,8815. Разброс признака, объясняемый уравнением простой регрессии, составляет 1545,1331.

Разброс признака, регрессией не объясняемый, определяется квадратом средней квадратической ошибки уравнения и равен 10,9948.

Воспользовавшись этими характеристиками, рассчитаем частный F-критерий

С уровнем надежности 0,95 (α=0,05) табличное значение F (1,20), т. е. значение, стоящее на пересечении 1-го столбца и 20-й строки табл. 4А приложения, равно 4,35. Рассчитанное значение F-критерия значительно превосходит табличное, и, следовательно, включение в уравнение переменной «урожайность» имеет смысл.

Таким образом, выводы, сделанные ранее относительно коэффициентов регрессии, вполне правомерны.

4й учебный вопрос. Оценка значимости отдельных параметров уравнения регрессии с помощью критерия Стьюдента.

Очень часто в эконометрике требуется оценить значимость коэффициента корреляции r , то есть определить, насколько существенно отличие коэффициента корреляции от нуля (например, при анализе мультиколлинеарности и оценке парных коэффициентов корреляции между факторами в уравнении множественной регрессии).

При этом исходят из того, что при отсутствии корреляционной связи статистика t ,

имеет t -распределение Стьюдента с (n-2) степенями свободы.

Коэффициент корреляции r xy значим на уровне , (иначе – гипотеза Н 0 о равенстве генерального коэффициента корреляции нулю отвергается), если

(5.13),

Где -табличное значение t -критерия Стьюдента, определенное на уровне значимости a при числе степеней свободы (n-2).

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка. Процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффициента регрессии; вычисляется значение t-критерия, его величина сравнивается с табличным значением при (n-2) степенях свободы. Проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Заключение. Итак, мы рассмотрели на данной лекции общие правила проверки статистических гипотез и их практическое применение при оценке значимости уравнений регрессии и их отдельных параметров с помощью критериев Фишера и Стьюдента.

Дисперсионный анализ

1. Понятие дисперсионного анализа

Дисперсионный анализ -это анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов. В зарубежной литературе дисперсионный анализ часто обозначается как ANOVA, что переводится как анализ вариативности (Analysis of Variance).

Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность иного рода:

а) вариативность обусловленную действием каждой из исследуемых независимых переменных;

б) вариативность, обусловленную взаимодействием исследуемых независимых переменных;

в) случайную вариативность, обусловленную всеми другими неизвестными переменными.

Вариативность, обусловленная действием исследуемых переменных и их взаимодействием, соотносится со случайной вариативностью. Показателем этого соотношения является критерий F Фишера.

В формулу расчета критерия F входят оценки дисперсий, то есть параметров распределения признака, поэтому критерий F является параметрическим критерием.

Чем в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия .

Нулевая гипотеза в дисперсионном анализе будет гласить, что средние величины исследуемого результативного признака во всех гра­дациях одинаковы.

Альтернативная гипотеза будет утверждать, что средние вели­чины результативного признака в разных градациях исследуемого фак­тора различны.

Дисперсионный анализ позволяет нам констатировать изменение признака, но при этом не указывает направление этих изменений.

начнем рассмотрение дисперсионного анализа с простей­шего случая, когда исследуется действие только одной переменной (одного фактора).

2. Однофакторный дисперсионный анализ для несвязан­ных выборок

2.1. Назначение метода

Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака под влиянием изменяющихся условий или градаций какого-либо фактора. В данном варианте метода влиянию каждой из градаций фактора подвер­гаются разные выборки испытуемых. Градаций фактора должно быть не менее трех. (Градаций может быть и две, но в этом случае мы не сможем установить нели­нейных зависимостей и более разумным представляется использование более про­стых).

Непараметрическим вариантом этого вида анализа является критерий Н Крускала-Уоллиса.

Гипотезы

H 0: Различия между градациями фактора (разными условиями) являются не более выраженными, чем случайные различия внутри каждой группы.

H 1: Различия между градациями фактора (разными условиями) являются более выраженными, чем случайные различия внутри каждой группы.

2.2. Ограничения метода однофакторного дисперсионного анали­за для несвязанных выборок

1. Однофакторный дисперсионный анализ требует не менее трех града­ций фактора и не менее двух испытуемых в каждой градации.

2. Результативный признак должен быть нормально распределен в ис­следуемой выборке.

Правда, обычно не указывается, идет ли речь о распределении признака во всей обследованной выборке или в той ее части, которая составляет дисперсионный комплекс.

3. Пример решения задачи методом однофакторного дисперсионного анализа для несвязанных выборок на примере:

Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в Табл. 1.

Количество воспроизведенных слов Таблица 1

№ испытуемого

низкая скорость

средняя скорость

высокая скорость

Общая сумма

H 0: Различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы.

H 1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы. Используя экспериментальные значения, представленные в Табл. 1, установим некоторые величины, которые будут необходимы для расчета критерия F.

Расчет основных величин для однофакторного дисперсионного анализа представим в таблице:

Таблица 2

Таблица 3

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок

Часто встречающееся в этой и последующих таблицах обозначе­ние SS - сокращение от "суммы квадратов" (sum of squares). Это со­кращение чаще всего используется в переводных источниках.

SS факт означает вариативность признака, обусловленную действи­ем исследуемого фактора;

SS общ - общую вариативность признака;

S CA -вариативность, обусловленную неучтенными факторами, "случайную" или "остаточную" вариативность.

MS - "средний квадрат", или математическое ожидание суммы квадратов, усредненная величина соответствующих SS.

df - число степеней свободы, которое при рассмотрении непара­метрических критериев мы обозначили греческой буквой v .

Вывод: H 0 отклоняется. Принимается H 1 . Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (α=0,05). Итак, скорость предъявления слов влияет на объем их воспроизведения.

Пример решения задачи в Excel представлен ниже:

Исходные данные:

Используя команду: Сервис->Анализ данных->Однофакторный дисперсионный анализ, получим следующие результаты:

ДИСПЕРСИОННЫЙ АНАЛИЗ

в математической статистике - статистический метод, предназначенный для выявления влияния отдельных факторов на результат эксперимента, а также для последующего планирования аналогичных экспериментов. Первоначально Д. а. был предложен Р. Фишером для обработки результатов агрономич. опытов по выявлению условий, при к-рых испытываемый сорт сельскохозяйственной культуры дает максимальный урожай. Современные приложения Д. а. охватывают широкий задач экономики, социологии, биологии и техники и трактуются обычно в терминах статистич. теории выявления систематич. различий между результатами непосредственных измерений, выполненных при тех пли иных меняющихся условиях.

Если значения неизвестных постоянных a 1 , ... , a I могут быть измерены с помощью различных методов или измерительных средств М 1 ,. .., M J , и в каждом случае систематич. ошибка b ij может, вообще говоря, зависеть как от выбранного метода Mj, так и от неизвестного измеряемого значения а i , то результаты таких измерений представляют собой суммы вида

где К- количество независимых измерений неизвестной величины а i методом M j , a у ijk - случайная ошибка k-го измерения величины а i методом M j (предполагается, что все y ijk - независимые одинаково распределенные случайные величины, имеющие нулевое математич. ожидание: Е у ijk =0). Такая линейная наз. двухфакторной схемой Д. а.; первый - истинное значение измеряемой величины, второй - метод измерения, причем в данном случае для каждой возможной комбинации значений первого и второго факторов осуществляется одинаковое количество Кнезависимых измерений (это допущение для целей Д. а. не является существенным и введено здесь лишь ради простоты изложения).

Примером подобной ситуации могут служить спортивные соревнования I спортсменов, мастерство к-рых оценивается J судьями, причем каждый участник соревнований выступает Краз (имеет К"попыток"). В этом случае а i - истинное значение показателя мастерства спортсмена с номером i, b ij - систематич. ошибка, вносимая в оценку мастерства i -го спортсмена судьей с номером j, x ijk - оценка, выставленная j -м судьей г-му спортсмену после выполнений последним k-й попытки, а y ijk - соответствующая случайная . Подобная типична для так наз. субъективной экспертизы качества нескольких объектов, осуществляемой группой независимых экспертов. Другой пример - статистич. исследование урожайности сельскохозяйственной культуры в зависимости от одного из J сортов почвы и J методов ее обработки, причем для каждого сорта г почвы и каждого метода обработки с номером J осуществляется kнезависимых экспериментов (в этом примере b ij - истинное значение урожайности для г-го сорта почвы при j-м способе обработки, x ijk - соответствующая экспериментально наблюдаемая урожайность в k-м опыте, а y ijk - ее случайная ошибка, возникающая из-за тех или иных случайных причин; что же касается величин а i , то в агрономич. опытах их разумно считать равными нулю).

Положим c ij =a i +b ij , и пусть с i *, с *j и с ** - результаты осреднений с ij по соответствующим индексам, т. е.

Пусть, кроме того, a=c ** , b i = с i* - с ** , g j = с *j -с ** и d ij = с ij - с i* - с *j +c ** . Идея Д. а. основана на очевидном тождестве

Если символом (c ij )обозначить размерности IJ , получаемый из матрицы ||с ij || порядка IXJ с помощью какого-либо заранее фиксированного способа упорядочивания ее элементов, то (1) можно записать в виде равенства где все векторы имеют IJ , причем a ij =a, b ij =b i , g ij =g j . Так как четыре вектора в правой части (2) ортогональны, то a ij =a - наилучшее приближение функции c ij от аргументов i и j постоянной величиной [в смысле минимальности суммы квадратов отклонений ]. В том же смысле a ij +b ij =a+b i - наилучшее c ij функцией, зависящей лишь от i, a ij +g ij =a+g j - наилучшее приближение c ij функцией, зависящей лишь от j, a a ij +b ij +g ij =a+b i +g j - наилучшее приближение c ij суммой функций, из к-рых одна (напр., a+b i ) зависит лишь от г, а другая - лишь от j. Этот факт, установленный Р. Фишером (см. ) в 1918, позднее послужил основой теории квадратичных приближений функций.

В примере, связанном со спортивными соревнованиями, d ij выражает "взаимодействие" г-го спортсмена и j-го судьи (положительное значение б/у означает "подсуживание", т. с. систематич. завышение /-м судьей оценки мастерства i-го спортсмена, а отрицательное значение б/у означает "засуживание", т. е. систематич. снижение оценки). Равенство всех б/у нулю - необходимое требование, к-рое надлежит предъявлять к работе группы экспертов. В случае же агрономич. опытов такое равенство рассматривается как гипотеза, подлежащая проверке по результатам экспериментов, поскольку основная цель здесь - отыскание таких значений i и j, при к-рых функция (1) достигает максимального значения. Если эта гипотеза верна, то

и значит, выявление наилучших "почвы" и "обработки" может быть осуществлено раздельно, что приводит к существенному сокращению числа экспериментов (напр., можно при каком-либо одном способе обработки испытать все Iсортов "почвы" и определить наилучший сорт, а затем на этом сорте опробовать все J способов "обработки" и найти наилучший способ; общее количество экспериментов с повторениями будет равно (I+J) К). Если же гипотеза {все d ij =0} неверна, то для определения max c ij необходим описанный выше "полный план", требующий при Кповторениях IJК экспериментов.

В ситуации спортивных соревнований функция g ij =g j может трактоваться как систематич. ошибка, допускаемая j-м судьей по отношению ко всем спортсменам. В конечном счете g j - характеристика "строгости" или "либеральности" j-го судьи. В идеале хотелось бы, чтобы все g j были нулевыми, но в реальных условиях приходится мириться с наличием ненулевых значений g j и учитывать это обстоятельство при подведении итогов экспертизы (напр., за основу сравнения мастерства спортсменов можно принять не последовательности истинных значений a+b 1 +g j , ..., a+b I +g j , a лишь результаты упорядочиваний этих чисел по их величине, поскольку при всех j=1, . . . , J такие упорядочивания будут одинаковыми). Наконец, сумма двух оставшихся функций a ij +b ij =a+b i зависит лишь от iи поэтому может быть использована для характеризации мастерства г-го спортсмена. Однако здесь нужно помнить, что Поэтому упорядочивание всех спортсменов по значениям a+b i (или по a+ + b i +g j при каждом фиксированном j) может не совпадать с упорядочиванием по значениям a i . При практической обработке экспертных оценок этим обстоятельством приходится пренебрегать, так как Упомянутый полный план экспериментов не позволяет оценивать отдельно a i и b i* . Таким образом, a+b i =a i + b i* характеризует не только мастерство i -го спортсмена, но и в той или иной мере экспертов к этому мастерству. Поэтому, напр., результаты субъективных экспертных оценок, осуществленных в разное время (в частности, на нескольких Олимпийских играх), едва ли можно считать сопоставимыми. В случае же агрономич. опытов подобные трудности не возникают, поскольку все a i =0 и значит, a+b i =b i* .

Истинные значения функций a, b i , g i и d ij неизвестны и выражаются в терминах неизвестных функций c ij . Поэтому первый этап Д. а. заключается в отыскании статистич. оценок для c ij по результатам наблюдений x ijk .Несмещенная и имеющая минимальную дисперсию для c ij выражается формулой

Так как a, b i , g j и d ij - линейные функции от элементов матрицы ||c ij ||, то несмещенные линейные оценки для этих функций, имеющие минимальную дисперсию, получаются в результате замены аргументов c ij соответствующими оценками, c ij , т. е. причем случайные векторы и определенные так же, как введенные выше (a ij ), (b ij ), (g ij ). и (d ij ), обладают свойством ортогональности, и значит, они представляют собой некоррелированные случайные векторы (иными словами, любые две компоненты, принадлежащие разным векторам, имеют нулевой корреляции). Кроме того, любая вида

некоррелирована с любой из компонент этих четырех векторов. Рассмотрим пять совокупностей случайных величин {x ijk }, {x ijk -x ij* }, Так как

то дисперсии эмпирич. распределений, соответствующих указанным совокупностям, выражаются формулами

Эти эмпирич. дисперсии представляют собой суммы квадратов случайных величин, любые две из к-рых некоррелированы, если только они принадлежат разным суммам; при этом относительно всех y ijk справедливо тождество

объясняющее происхождение термина "Д. а."" Пусть и пусть

в таком случае

где s 2 - дисперсия случайных ошибок y ijk .

На основе этих формул и строится второй этап Д. а., посвященный выявлению влияния первого и второго факторов на результаты эксперимента (в агрономич. опытах первый фактор - сорт "почвы", второй - способ "обработки"). Напр., если требуется проверить гипотезу отсутствия "взаимодействия" факторов, к-рая выражается равенствомто разумно вычислить дисперсионное отношение s 2 3 /s 2 0 = F 3 . Если это отношение значимо отличается от единицы, то проверяемая гипотеза отвергается. Точно так же для проверки гипотезы полезно отношение s 2 2 /s 2 0 = F 2 , к-рое надлежит также сравнить с единицей; если при этом известно, чтото вместо F 2 целесообразно сравнить с единицей отношение

Аналогичным образом можно построить статистику, позволяющую дать заключение о справедливости или ложности гипотезы

Точный смысл понятия значимого отличия указанных отношений от единицы может быть определен лишь с учетом закона распределения случайных ошибок y ijk . В Д. а. наиболее обстоятельно изучена ситуация, в к-рой все y ijk распределены нормально. В этом случае - независимые случайные векторы, а - независимые случайные величины, причем

отношения подчиняются нецентральным распределениям хи-квадрат с f m степенями свободы и параметрами нецентральности l т, m =0, 1, 2, 3, где

Если параметр нецентральности равен нулю, то нецентральное хи-квадрат совпадает с обычным распределением хи-квадрат. Поэтому в случае справедливости гипотезы l 3 =0 отношение подчиняется F-распре делению (распределению дисперсионного отношения) с параметрами f 3 и f 0 . Пусть х- такое число, для к-рого события {F 3 >x} равна заданному значению е, называемому уровнем значимости (таблицы функции х= х (e; f 3 , f 0) имеются в большинстве пособий по математич. статистике). Критерием для проверки гипотезы l 3 =0 служит правило, согласно к-рому эта гипотеза отвергается, если наблюдаемое значение F 3 превышает х;в противном случае гипотеза считается не противоречащей результатам наблюдений. Аналогичным образом конструируются критерии, основанные на статистиках F 2 и F* 2 .

Дальнейшие этапы Д. а. существенно зависят не только от реального содержания конкретной задачи, но также и от результатов статистич. проверки гипотез на втором этапе. Напр., в условиях агрономич. опытов справедливость гипотезы l 3 =0, как указано выше, позволяет более экономно спланировать аналогичные дальнейшие эксперименты (если помимо гипотезы l 3 =0 справедлива также и гипотеза l 2 =0, то это означает, что урожайность зависит лишь от сорта "почвы", и поэтому в дальнейших опытах можно воспользоваться схемой однофакторного Д. а.); если же гипотеза l 3 =0 отвергается, то разумно проверить, нет ли в данной задаче неучтенного третьего фактора? Если сорта "почвы" и способы ее "обработки" варьировались не в одном и том же месте, а в различных географич. зонах, то таким фактором могут быть климатич. или географич. условия, и "обработка" наблюдений потребует применения трехфакторного Д. а.

В случае экспертных оценок статистически подтвержденная справедливость гипотезы l 3 = 0 дает основание для упорядочивания сравниваемых объектов (напр., спортсменов) по значениям величин i=l, . .. , I.

Если же гипотеза l 3 =0 отвергается (в задаче о спортивных соревнованиях это означает статистич. обнаружение "взаимодействия" нек-рых спортсменов и судей), то естественно попытаться перевычнслить все результаты заново, предварительно исключив из рассмотрения x ijk с такими парами индексов (i, j ), для к-рых абсолютные значения статистич. оценок d ij превышают нек-рый заранее установленный допустимый уровень. Это означает, что из матрицы ||x ij* || вычеркиваются нек-рые элементы, и значит, план Д. а. становится неполным.

Модели современного Д. а. охватывают широкий круг реальных экспериментальных схем (напр., схемы неполных планов, со случайно или неслучайно отобранными элементами x ij* ). Соответствующие этим схемам статистич. выводы во многих случаях находятся в стадии разработки. В частности, еще (к 1978) далеки от окончательного решения те задачи, в к-рых результаты наблюдений x ijk =c ij +y ijk не являются одинаково распределенными случайными величинами; еще более трудная задача возникает в случае зависимости величин x ijk . Неизвестно проблемы выбора факторов (даже в линейном случае). Суть этой проблемы заключается в следующем: пусть с=с ( и, v )- и пусть u=u (z, w u=u (z, w )- какие-либо линейные функции от переменных г и w. Фиксируя значения z 1 , . .., z I и w 1 , . . ., w J , можно при каждом заданном выборе линейных функций ии u. определить c ij формулой и построить Д. а. этих величин по результатам соответствующих наблюдений x ijk . Проблема заключается в отыскании таких линейных функций u и u, к-рым соответствует минимальное значение суммы квадратов

где (предполагается, что функция с( и, v )неизвестна). В терминах Д. а. эта проблема сводится к статистич. отысканию таких факторов z=z (u, v w-w (u, v ), к-рым соответствует "наименьшее взаимодействие".

Лит. : Fisher R. A., Statistical methods for research workers, Edinburgh, 1925; Шеффе Г., Дисперсионный анализ, пер. с англ., М., 1963; Xальд А., Математическая с техническими приложениями, пер. с англ., М., 1956; Снедекор Д ж. У., Статистические методы в применении к исследованиям в сельском хозяйстве и биологии, пер. с англ., М., 1961.

Л. Н. Большее.


Математическая энциклопедия. - М.: Советская энциклопедия . И. М. Виноградов . 1977-1985 .

Смотреть что такое "ДИСПЕРСИОННЫЙ АНАЛИЗ" в других словарях:

    Метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of… … Википедия

    - (analysis of variance) Статистический метод, основанный на разложении общей дисперсии (variance) какой либо характеристики населения на составные части, коррелирующие с другими характеристиками, и остаточную вариацию (residual variation). В… … Экономический словарь

    Один из методов математической статистики, применяемый для анализа результатов наблюдений, зависящих от различных, одновременно действующих факторов, к рые не поддаются, как правило, количеств. описанию. Рассмотрим простейшую из задач Д. а. Пусть … Физическая энциклопедия

    Дисперсионный анализ - раздел математической статистики, посвященный методам выявления влияния отдельных факторов на результат эксперимента (физического, производственного, экономического эксперимента). Д.а. возник как средство обработки результатов… … Экономико-математический словарь

    дисперсионный анализ - — дисперсионный анализ Раздел математической статистики, посвященный методам выявления влияния отдельных факторов на результат эксперимента (физического, производственного,… … Справочник технического переводчика

Дисперсионный анализ

Курсовая работа по дисциплине: «Системный анализ»

Исполнитель студент гр. 99 ИСЭ-2 Жбанов В.В.

Оренбургский государственный университет

Факультет информационных технологий

Кафедра прикладной информатики

г. Оренбург-2003

Введение

Цель работы: познакомится с таким статистическим методом, как дисперсионный анализ.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации /1/.

При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, на сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята дисперсия. Дисперсия σ 2 – мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы /2/.

1 Дисперсионный анализ

1.1 Основные понятия дисперсионного анализа

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.

Основными схемами организации исходных данных с двумя и более факторами являются:

Перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;

Иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.

Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ /3/.

Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.

При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный (Гауссовский) закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.

Говорят, что техника дисперсионного анализа является "робастной". Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но несмотря на это, технику можно использовать.

При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.

В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия σ 2 . Она является мерой вариации частных средних по группам

вокруг общей средней и определяется по формуле: ,

где k - число групп;

n j - число единиц в j-ой группе;

- частная средняя по j-ой группе; - общая средняя по совокупности единиц.

Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия σ j 2 .

.

Между общей дисперсией σ 0 2 , внутригрупповой дисперсией σ 2 и межгрупповой дисперсией

существует соотношение: + σ 2 .

Внутригрупповая дисперсия объясняет влияние неучтенных при группировке факторов, а межгрупповая дисперсия объясняет влияние факторов группировки на среднее значение по группе /2/.

1.2 Однофакторный дисперсионный анализ

Однофакторная дисперсионная модель имеет вид:

x ij = μ + F j + ε ij , (1)

где х ij – значение исследуемой переменой, полученной на i-м уровне фактора (i=1,2,...,т) c j-м порядковым номером (j=1,2,...,n);

F i – эффект, обусловленный влиянием i-го уровня фактора;

ε ij – случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменой внутри отдельного уровня.

Основные предпосылки дисперсионного анализа:

Математическое ожидание возмущения ε ij равно нулю для любых i, т.е.

M(ε ij) = 0; (2)

Возмущения ε ij взаимно независимы;

Дисперсия переменной x ij (или возмущения ε ij) постоянна для

любых i, j, т.е.

D(ε ij) = σ 2 ; (3)

Переменная x ij (или возмущение ε ij) имеет нормальный закон

распределения N(0;σ 2).

Влияние уровней фактора может быть как фиксированным или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора - партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании. Если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие – фиксированные.

5.1. Что такое дисперсионный анализ?

Дисперсионный анализ разработан в 20-х годах XX века английским математиком и генетиком Рональдом Фишером. По данным опроса среди ученых, где выяснялось, кто сильнее всего повлиял на биологию XX века, первенство получил именно сэр Фишер (за свои заслуги он был награжден рыцарским званием - одним из высших отличий в Великобритании); в этом отношении Фишер сравним с Чарльзом Дарвином, оказавшим наибольшее влияние на биологию XIX века.

Дисперсионный анализ (Analis of variance) является сейчас отдельной отраслью статистики. Он основан на открытом Фишером факте, что меру изменчивости изучаемой величины можно разложить на части, соответствующие влияющим на эту величину факторам и случайным отклонениям.

Чтобы понять суть дисперсионного анализа, мы выполним однотипные расчеты дважды: «вручную» (с калькулятором) и с помощью программы Statistica. Для упрощения нашей задачи мы будем работать не с результатами действительного описания разнообразия зеленых лягушек, а с вымышленным примером, который касается сравнения женщин и мужчин у людей. Рассмотрим разнообразие роста 12 взрослых человек: 7 женщин и 5 мужчин.

Таблица 5.1.1. Пример для однофакторного дисперсионного анализа: данные о поле и росте 12 людей

Проведем однофакторный дисперсионный анализ: сравним, статистически значимо или нет отличаются ли мужчины и женщины в охарактеризованной группе по росту.

5.2. Тест на нормальность распределения

Дальнейшие рассуждения основываются на том, что распределение в рассматриваемой выборке нормальное или близкое к нормальному. Если распределение далеко от нормального, дисперсия (варианса) не является адекватной мерой его его изменчивости. Впрочем, дисперсионный анализ относительно устойчив к отклонениям распределения от нормальности.

Тест этих данных на нормальность можно провести двумя разными способами. Первый: Statistics / Basic Statistics/Tables / Descriptive statistics / Вкладка Normality. Во вкладке Normality можно выбрать используемые тесты нормальности распределения. При нажатии на кнопку Frequency tables появится частотная таблица, а кнопки Histograms - гистограмма. На таблице и гистограмме будут приведены результаты различных тестов.

Второй способ связан с использованием соответствующих возможнойтсей при построении гистограмм. В диалоге построения гистограмм (Grafs / Histograms...) следует выбрать вкладку Advanced. В ее нижней части есть блок Statistics. Отметим на ней Shapiro-Wilk test и Kolmogorov-Smirnov test, как это показано на рисунке.

Рис. 5.2.1. Статистические тесты на нормальность распределения в диалоге построения гистограмм

Как видно по гистограмме, распределение роста в нашей выборке отличается от нормального (в середине - «провал»).


Рис. 5.2.2. Гистограмма, построенная с параметрами, указанными на предыдущем рисунке

Третья строка в заголовке графика указывает параметры нормального распределения, к которому оказалось ближе всего наблюдаемое распределение. Генеральное среднее составляет 173, генеральное стандартное отклонение - 10,4. Внизу во врезке на графике указаны результаты тестов на нормальность. D - это критерий Колмогорова-Смирнова, а SW-W - Шапиро-Вилка. Как видно, для всех использованных тестов отличия распределения по росту от нормального распределения оказались статистически незначимыми (p во всех случаях больше, чем 0,05).

Итак, формально говоря, тесты на соответствие распределения нормальному не «запретили» нам использовать параметрический метод, основанный на предположении о нормальном распределении. Как уже сказано, дисперсионный анализ относительно устойчив к отклонениям от нормальности, поэтому мы им все-таки воспользуемся.

5.3. Однофакторный дисперсионный анализ: вычисления «вручную»

Для характеристики изменчивости роста людей в приведенном примере вычислим сумму квадратов отклонений (в английском обозначается как SS , Sum of Squares или ) отдельных значений от среднего: . Среднее значение для роста в приведенном примере составляет 173 сантиметра. Исходя из этого,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Полученная величина (1192) - мера изменчивости всей совокупности данных. Однако они состоят из двух групп, для каждой из которых можно выделить свою среднюю. В приведенных данных средний рост женщин - 168 см, а мужчин - 180 см.

Вычислим сумму квадратов отклонений для женщин:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Также вычислим сумму квадратов отклонений для мужчин:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

От чего зависит исследуемая величина в соответствии с логикой дисперсионного анализа?

Две вычисленные величины, SS f и SS m , характеризуют внутригрупповую вариансу, которую в дисперсионном анализе принято называть «ошибкой». Происхождение этого названия связано со следующей логикой.

От чего зависит рост человека в рассматриваемом примере? Прежде всего, от среднего роста людей вообще, вне зависимости от их пола. Во вторую очередь - от пола. Если люди одного пола (мужского) выше, чем другого (женского), это можно представить в виде сложения с «общечеловеческой» средней какой-то величины, эффекта пола. Наконец, люди одного пола отличаются по росту в силу индивидуальных отличий. В рамках модели, описывающей рост как сумму общечеловеческой средней и поправки на пол, индивидуальные отличия необъяснимы, и их можно рассматривать как «ошибку».

Итак, в соответствии с логикой дисперсионного анализа, исследуемая величина определяется следующим образом: , где x ij - i-тое значение изучаемой величины при j-том значении изучаемого фактора; - генеральное среднее; F j - влияние j-того значения изучаемого фактора; - «ошибка», вклад индивидуальности объекта, к которому относится величина x ij .

Межгрупповая сумма квадратов

Итак, SS ошибки = SS f + SS m = 212 + 560 = 772. Этой величиной мы описали внутригрупповую изменчивость (при выделении групп по полу). Но есть и вторая часть изменчивости - межгрупповая, которую мы назовем SS эффекта (поскольку речь идет об эффекте разделения совокупности рассматриваемых объектов на женщин и мужчин).

Среднее каждой группы отличается от общей средней. Вычисляя вклад этого отличия в общую меру изменчивости, мы должны умножить отличие групповой и общей средней на число объектов в каждой группе.

SS эффекта = = 7×(168–173) 2 + 5×(180–173) 2 = 7×52 + 5×72 = 7×25 + 5×49 = 175 + 245 = 420.

Здесь проявился открытый Фишером принцип постоянства суммы квадратов: SS = SS эффекта + SS ошибки , т.е. для данного примера, 1192 = 440 + 722.

Средние квадраты

Сравнивая в нашем примере межгрупповую и внутригрупповую суммы квадратов, мы можем увидеть, что первая связана с варьированием двух групп, а вторая - 12 величин в 2 группах. Количество степеней свободы (df ) для какого-то параметра может быть определено как разность количества объектов в группе и количества зависимостей (уравнений), которое связывает эти величины.

В нашем примере df эффекта = 2–1 = 1, а df ошибки = 12–2 = 10.

Мы можем разделить суммы квадратов на число их степеней свободы, получив средние квадраты (MS , Means of Squares). Сделав это, мы можем установить, что MS - ни что иное, как вариансы («дисперсии», результат деления суммы квадратов на число степеней свободы). После этого открытия мы можем понять структуру таблицы дисперсионного анализа. Для нашего примера она будет иметь следующий вид.

Эффект

Ошибка

МS эффекта и МS ошибки являются оценками межгрупповой и внутригрупповой вариансы, и, значит, их можно сравнить по критерию F (критерию Снедекора, названному в честь Фишера), предназначенному для сравнения варианс. Этот критерий представляет собой просто частное от деления большей вариансы на меньшую. В нашем случае это 420 / 77,2 = 5,440.

Определение статистической значимости критерия Фишера по таблицам

Если бы мы определяли статистическую значимость эффекта вручную, по таблицам, нам было бы необходимо сравнить полученное значение критерия F с критическим, соответствующим определенному уровню статистической значимости при заданных степенях свободы.


Рис. 5.3.1. Фрагмент таблицы с критическими значениями критерия F

Как можно убедиться, для уровня статистической значимости p=0,05 критическое значение критерия F составляет 4,96. Это означает, что в нашем примере действие изучавшегося пола зарегистрировано с уровнем статистической значимости 0,05.

Полученный результат можно интерпретировать так. Вероятность нулевой гипотезы, согласно которой средний рост женщин и мужчин одинаков, а зарегистрированная разница в их росте связана со случайностью при формировании выборок, составляет менее 5%. Это означает, что мы должны выбрать альтернативную гипотезу, заключающуюся в том, что средний рост женщин и мужчин отличается.

5.4. Однофакторный дисперсионный анализ (ANOVA) в пакете Statistica

В тех случаях, когда расчеты производятся не вручную, а с помощью соответствующих программ (например, пакета Statistica) величина p определяется автоматически. Можно убедиться, что она несколько выше критического значения.

Чтобы проанализировать обсуждаемый пример с помощью простейшего варианта дисперсионного анализа, нужно запустить для файла с соответствующими данными процедуру Statistics / ANOVA и выбрать в окне Type of analysis вариант One-way ANOVA (однофакторный дисперсионный анализ), а в окне Specification method - вариант Quick specs dialog.


Рис. 5.4.1. Диалог General ANOVA/MANOVA (Дисперсионный анализ)

В открывшемся окне быстрого диалога в поле Variables нужно указать те столбцы, которые содержат данные, изменчивость которых мы изучаем (Dependent variable list; в нашем случае - столбец Growth), а также столбец, содержащие значения, разбивающие изучаемую величину на группы (Catigorical predictor (factor); в нашем случае - столбец Sex). В данном варианте анализа, в отличие от многофакторного анализа, может рассматриваться только один фактор.


Рис. 5.4.2. Диалог One-Way ANOVA (Однофакторный дисперсионный анализ)

В окне Factor codes следует указать те значения рассматриваемого фактора, которые нужно обрабатывать в ходе данного анализа. Все имеющиеся значения можно посмотреть с помощью кнопки Zoom; если, как в нашем примере, нужно рассматривать все значения фактора (а для пола в нашем примере их всего два), можно нажать кнопку All. Когда заданы обрабатываемые столбцы и коды фактора, можно нажать кнопку OK и перейти в окно быстрого анализа результатов: ANOVA Results 1, во вкладку Quick.

Рис. 5.4.3. Вкладка Quick окна результатов дисперсионного анализа

Кнопка All effects/Graphs позволяет увидеть, как соотносятся средние двух групп. Над графиком указывается число степеней свободы, а также значения F и p для рассматриваемого фактора.


Рис. 5.4.4. Графическое отображение результатов дисперсионного анализа

Кнопка All effects позволяет получить таблицу дисперсионного анализа, аналогичную описанной выше (с некоторыми существенными отличиями).


Рис. 5.4.5. Таблица с результатами дисперсионного анализа (сравните с аналогичной табличей, полученной "вручную")

В нижней строке таблицы указана сумма квадратов, количество степеней свободы и средние квадраты для ошибки (внутригрупповой изменчивости). На строку выше - аналогичные показатели для исследуемого фактора (в данном случае - признака Sex), a также критерий F (отношение средних квадратов эффекта к средним квадратам ошибки), и уровень его статистической значимости. То, что действие рассматриваемого фактора оказалось статистически значимым, показывает выделение красным цветом.

А в первой строке приведены данные по показателю «Intercept». Эта строка таблицы представляет загадку для пользователей, приобщающихся к пакету Statistica в его 6-й или более поздней версии. Величина Intercept (пересечение, перехват), вероятно, связана с разложением суммы квадратов всех значений данных (т.е. 1862 + 1692 … = 360340). Указанное для нее значение критерия F получено путем деления MS Intercept /MS Error = 353220 / 77,2 = 4575,389 и, естественно, дает очень низкое значение p . Интересно, что в Statistica-5 эта величина вообще не вычислялась, а руководства по использованию более поздних версий пакета никак не комментируют ее введение. Вероятно, лучшее, что может сделать биолог, работающий с пакетом Statistica-6 и последующих версий, это попросту игнорировать строку Intercept в таблице дисперсионного анализа.

5.5. ANOVA и критерии Стьюдента и Фишера: что лучше?

Как вы могли заметить, те данные, которые мы сравнивали с помощью однофакторного дисперсионного анализа, мы могли исследовать и с помощью критериев Стьюдента и Фишера. Сравним эти два метода. Для этого вычислим разницу в росте мужчин и женщин с использованием этих критериев. Для этого нам придется пройти по пути Statistics / Basic Statistics / t-test, independent, by groups. Естественно, Dependent variables - это переменная Growth, а Grouping variable - переменная Sex.


Рис. 5.5.1. Сравнение данных, обработанных с помощью ANOVA, по критериям Стьюдента и Фишера

Как можно убедиться, результат тот же самый, что и при использовании ANOVA. p = 0,041874 в обоих случаях, как показанном на рис. 5.4.5, так и показанном на рис. 5.5.2 (убедитесь в этом сами!).


Рис. 5.5.2. Результаты анализа (подробная расшифровка таблицы результатов - в пункте, посвященном критерию Стьюдента)

Важно подчеркнуть, что хотя критерий F с математической точки зрения в рассматриваемом анализе по критериям Стьюдента и Фишера тот же самый, что в ANOVA (и выражает отношение варианс), смысл его в результатах анализа, представляемых итоговой таблицей, совсем иной. При сравнении по критериям Стьюдента и Фишера сравнение средних значений выборок проводится по критерию Стьюдента, и сравнение их изменчивости проводится по критерию Фишера. В результатах анализа выводится не сама варианса, а ее квадратный корень - стандартное отклонение.

В дисперсионном анализе, напротив, критерий Фишера используется для сравнения средних разных выборок (как мы обсудили, это осуществляется с помощью разделения суммы квадратов на части и сравнения средней суммы квадратов, соответствующей меж- и внутригрупповой изменчивости).

Впрочем, приведенное отличие касается скорее представления результатов статистического исследования, чем его сути. Как указывает, например, Гланц (1999, с. 99), сравнение групп по критерию Стьюдента можно рассматривать как частный случай дисперсионного анализа для двух выборок.

Итак, сравнение выборок по критериям Стьюдента и Фишера имеет одно важное преимущество перед дисперсионным анализом: в нем можно сравнить выборки с точки зрения их изменчивости. Но преимущества дисперсионного анализа все равно весомее. К их числу, например, относится возможность одновременного сравнения нескольких выборок.