Анализ дисперсионный

АНАЛИЗ ДИСПЕРСИОННЫЙ - метод статистики математической, предназначенной для выявления влияния отд. независимых друг от друга признаков, традиционно называемых факторами (А, В, С, ...), на некоторый наблюдаемый признак (У). Концепция А. д. предложена Р. Фишером в 1920 и состоит в выделении и сравнении между собой различный компонент дисперсии признака У (отсюда и название метода). Эти компоненты выделяются посредством разложения вариации (SS) признака У на составные части. Величина SS равна числителю в формуле для вычисления дисперсии признака (см. Меры рассеяния). Сравнение компонент вариации позволяет делать вывод о значимости или незначимости влияния отд. фактора на изменчивость признака У. А.д., возникший как метод планирования эксперимента (Фишер предложил А.д. для обработки результатов опытов по выявлению условий, при которых испытываемый сорт с.-х. культуры дает максимальный урожай), используется как метод анализа данных для выявления систематических различий между результатами непосредственных измерений, выполненных при тех или иных меняющихся условиях (что особенно важно для социологии). Для применения А.д. требуется определенная структура представления исходных данных. Рассмотрим это на примере выявления влияния образования (фактор А) и пола (фактор В) на удовлетворенность трудом (признак У) в предположении, что образование как признак (фактор) имеет три градации (1 — среднее, 2 — среднее специальное, 3 — высшее), пол — две градации (1 — мужской, 2 — женский), а признак У — некий индекс удовлетворенности трудом, носящий количественный характер. Тогда для применения А.д. значения признака У должны быть представлены в виде совокупности ячеек {i, j}, где i отвечает градации фактора А, j — градации фактора В.

Табл. 1

В

А

1

2

3

1

{У11}

{У12}

{У13}

2

{У21}

{У22}

{У23}

 

 

 

 

 

Так, в ячейке (1,1) представлены значения удовлетворенности трудом мужчин со средним образованием, а в ячейке (2,3) — значения удовлетворенности трудом женщин с высшим образованием. Градации факторов называются уровнями факторов. Наиб, благоприятные условия для применения А.д. в предположении независимости факторов: данные, представленные в отд. ячейке, подчинены нормальному закону распределения (см. Распределение вероятностей), число наблюдений в ячейках одинаково, дисперсия признака У в ячейках одинакова.

Общая вариация (SS) признака У, отвечающего табл. 1, может быть разложена на компоненты, каждая из которых обусловлена вполне определенным источником дисперсии (вариации). Число источников зависит от числа изучаемых факторов. Для одного фактора A: SS = SSa + SSoc (1), для двух факторов А и В: SS = SSa + SSb + + SSaв + SSoc (2), а для трех факторов А, В, С. SS = SSA + SSB + SSC + SSAB + SSAC + + SSbc + SSAbc + SSoc (3). В каждое разложение (1)—(3) входят три гр. компонент. Компоненты первой гр.: SSA, SSB, SSc (с одним индексом) обусловлены т.н. гл. эффектами факторов. В нашем примере SSa — компонента вариации (удовлетворенности трудом), обусловленная возрастом и только им. Ее можно получить усреднением значений удовлетворенности по полу и внутри ячеек, т.е. рассмотреть всего три значения средней удовлетворенности: для респондентов со средним, средним специальным и высшим образованием. По этим значениям легко вычисляется SSa, на основе которой получается оценка дисперсии признака У при действии только фактора образования без принятия во внимание остальных источников дисперсии. По существу, речь идет о «чистом» влиянии фактора образования.

Компоненты второй гр.: SSab, SSac, SSbc, SSabc обусловлены т.н. взаимодействиями факторов. SSab — компонента вариации (удовлетворенности трудом), обусловленная одновременным действием на У и возраста, и пола респондента. Ее можно получить усреднением данных внутри ячеек, т.е. на основе шести (по числу ячеек) значений удовлетворенности.

Третья гр. компонент вариации У, состоящая из SSoc, представляет собой т.н. остаточную вариацию. Ее источником служат все неучтенные факторы, влияние которых обнаруживается при анализе изменчивости признака У внутри ячеек. Естественно предположить, что эти факторы одинаково действуют на изменчивость в каждой ячейке (отсюда и возникает требование равенства дисперсий и нормальности распределения в ячейках, о которых говорилось выше).

Процедура А.д. начинается с вычисления перечисленных выше компонент. На основе этих компонент рассчитываются различные оценки дисперсии. Число таких оценок равно числу источников дисперсии. Эти оценки называют средними квадратами. Вычисляются они делением значения соотв. компоненты SS на отвечающее ей число степеней свободы. В табл. 2 приведено число степеней свободы для случая двух факторов, когда фактор А имеет г уровней, фактор В — с уровней, общее число наблюдений N, число наблюдений в ячейках одинаково и равно п.

Табл. 2

Компо-нента

SSa

SSb

SSab

SSoc

SS

 

 

 

 

 

 

Число
степеней
свободы

 

r- 1

c- 1

(r- 1)
(c - 1)

rc(n - 1)               

N- 1

 

 

 

 

 

 

 

В нашем примере r = 3, c = 2. Суждение о значимости влияния того или иного источника дисперсии выносится после сравнения оценки дисперсии, отвечающей этому источнику, с оценкой, вычисленной на основе SSoc. Подобное сравнение осуществляется посредством критерия Фишера (F-критерий). Для этого вычисляется значение отношения двух оценок. Напр., для выявления влияния фактора А на изменчивость признака У вычисляется величина FA = SSA  rc(n — 1) / SSoc(r - 1)- Полученная величина сравнивается с табличным значением Ft, которое определенно однозначно при заданных степенях свободы и для заданного уровня значимости (см. Проверка статистических гипотез). Если окажется, что Fa > Ft, то влияние фактора А статистически значимо.

Предположим, что в нашем примере SSa = 3,5; SSoc = 7,0; n = 6. Тогда гипотеза о значимости влияния образования подтверждается, т.к. FA = 7,5 больше, чем Ft = 4,17, при уровне значимости, равной 0,05, и степенях свободы (r — 1 = 2, rc(n — 1) = 30). Проверка этой гипотезы есть не что иное, как проверка гипотезы о равенстве средних значений удовлетворенности на различных уровнях фактора образования. Если средние удовлетворенности для респондентов со средним, средним специальным и высшим образованием не равны между собой (в стат. смысле различие значимо), то влияние образования на удовлетворенность трудом значимо. В А.д. «влияние» понимается именно в этом смысле.

Рассмотренная процедура А.д. возможна (т.е. SS разложима) лишь в предположении некоторой модели изучаемого явления, описываемого посредством У, А, В... А.д., по существу, представляет собой совокупность методов, каждый из которых предполагает опред. модель обу-словленности значения У тем, какие значения принимают рассматриваемые факторы А, В, и возможностями получения наблюдений при различном сочетании уровней факторов (та или иная модель подобного рода предполагается при использовании любого математического метода). Мы рассмотрим лишь наиб, простую из них, в предположении к-рой и стало возможным разложение типа (1), (2) или (3). Для случая двух факторов она имеет вид

Y ijk = μ +  αi + βj+ γ ijk + λ ijk где { λ ijk } - независимы и распределены нормально с параметрами (0, σ 2), а

Σ αi = Σ βj = 0.

i          j

Для нашего примера это означает, что оценка удовлетворенности трудом k-го респондента с i-м уровнем образования, j-го пола представляет собой сумму нескольких величин, где μ — средняя «генеральная» удовлетворенность, статистической оценкой (см. Оценивание статистическое) которой является среднее значение признака У по всем наблюдениям, представленным в табл. 1, т.е. средняя удовлетворенность всех респондентов; αi — главный эффект j-го уровня фактора А. Его оценкой является превышение среднего значения удовлетворенности респондентов с i-м образованием над средней удовлетворенностью всех респондентов; аналогично определенным βj; γ ij — взаимодействие i-го уровня фактора А с j-м уровнем фактора В. Принятый в литературе термин «взаимодействие факторов» означает совместное воздействие рассматриваемых факторов на У. Так, в приведенном примере может оказаться, что ни одна градация пола и ни одна градация образования не определяют какого-либо специфического уровня удовлетворенности трудом (мужчины и женщины удовлетворены примерно одинаково, то же справедливо для разных уровней образования). Однако какое-то сочетание (из шести градаций этих факторов) может быть связано с каким-то выделяющимся значением удовлетворенности (напр., может оказаться, что женщины со средним образованием намного более удовлетворены трудом, чем все остальные рассматриваемые группы (ячейки) респондентов). Именно тогда и говорят о взаимодействии факторов (в нашем при-мере взаимодействуют пол и образование). Понятие «взаимодействие» можно трактовать и несколько по-иному (см. Анализ регрессионный). Поясним, как рассчитывается оценка γ ij Оценка γ 12 — взаимодействие «среднее образование» и «жен-щина» — вычисляется как разность двух величин. Первая — превышение средней удовлетворенности трудом женщин со средним образованием над средней удовлетворенностью всех респондентов со средним образованием (т.е. оценка гл. эффекта второго уровня фактора «пол», вычисленная относительно первого уровня фактора «образование»), а вторая — превышение средней удовлетворенности трудом всех женщин над средней удовлетворенностью всех респондентов (т.е. оценка гл. эффекта второго уровня фактора «пол»). Величина λ ijk — ошибка наблюдения. Она оценивается путем вычисления меры изменчивости удовлетворенности трудом у респондентов, имеющих одни и те же пол и образование. Равенство

Σ αi = Σ βj = 0.

i          j

вытекает из определения αi и βj.

Смысл сравнения Fa с Ft (О чем шла речь выше) на языке модели А.д. — проверка гипотезы, что все а, = 0. Если гипотеза о значимости влияния образования на удовлетворенность трудом принимается (т.е. не все α, = 0), то можно проверить, напр., гипотезу об одинаковости влияния среднего и высшего образования на оценку удовлетворенности трудом. Выявляется, какие же из а, не равны нулю. Для проверки таких гипотез служат методы множественного сравнения: метод Тьюки (T-метод) и метод Шеффе (S-метод).

При решении конкретных задач условия применимости А.д. не всегда выполняются. А.д. можно применять и при их нарушении, но при этом: 1) нарушение нормальности распределения в ячейках возможно при больших значениях числа степеней свободы; 2) нарушение равенства дисперсий в ячейках возможно, если число наблюдений в ячейках равное; 3) нарушение независимости наблюдений в ячейках недопустимо.

Г. Г. Татарова

Литература:

Шеффе Г. Дисперсионный анализ. М., 1962;

Гласе Дж., Стэнли Дж. Стат. методы в педагогике и психологии. М., 1976;

Стат. методы анализа информации в соц. иссл-ях. М., 1979;

Гмурман В.Е. Теория вероятности и матем. статистика. М., 1998;

Калинина В.Н., Панкин В.Ф. Матем. статистика. М., 1998;

Крыштановский А.О. Анализ социол. данных с помощью пакета SPSS. М., 2006.

Использованы материалы кн.: Социологический словарь / отв. ред. Г.В. Осипов, Л.Н. Москвичев. М, 2014, с. 20-23.

Понятие: