Что такое статистика хи-квадрат?
Хи-квадрат ( х 2) статистика - это тест, который измеряет сравнение ожиданий с фактическими наблюдаемыми данными (или результатами модели). Данные, используемые при расчете статистики хи-квадрат, должны быть случайными, необработанными, взаимоисключающими, взятыми из независимых переменных и взятыми из достаточно большой выборки. Например, результаты подбрасывания монеты 100 раз соответствуют этим критериям.
Критерии хи-квадрат часто используются при проверке гипотез.
Формула для хи-квадрат
χc2 = ∑ (Oi-Ei) 2Eiwhere: c = степени свободы O = наблюдаемое значение (я) E = ожидаемое значение (я) begin {выровненный} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {где:} \ & c = \ text {степени свободы} \ & O = \ text {наблюдаемое значение (я)} \ & E = \ text {ожидаемое значение (я) } \ \ end {выровненный} χc2 = ∑Ei (Oi -Ei) 2 где: c = степени свободы O = наблюдаемое значение (я) E = ожидаемое значение (я)
Что говорит вам статистика хи-квадрат?
Существует два основных вида критерия хи-квадрат: критерий независимости, который задает вопрос о взаимоотношениях, например: «Существует ли связь между полами и баллами SAT?»; и тест на пригодность, который спрашивает что-то вроде: «Если монету подбрасывают 100 раз, поднимется ли она в голову 50 раз, а в хвост - 50 раз?»
Для этих тестов используются степени свободы, чтобы определить, можно ли отклонить определенную нулевую гипотезу на основе общего количества переменных и выборок в эксперименте.
Например, при рассмотрении вопроса о студентах и выборе курса размер выборки в 30 или 40 студентов, вероятно, недостаточно велик для получения значимых данных. Получение таких же или аналогичных результатов исследования с использованием выборки из 400 или 500 студентов является более обоснованным.
В другом примере рассмотрите подбрасывание монеты 100 раз. Ожидаемый результат 100-кратного подбрасывания справедливой монеты состоит в том, что головы поднимутся 50 раз, а хвосты - 50 раз. Фактическим результатом может быть то, что головы поднимаются 45 раз, а хвосты поднимаются 55 раз. Статистика хи-квадрат показывает любые расхождения между ожидаемыми результатами и фактическими результатами.
Пример теста хи-квадрат
Представьте, что выборочный опрос был проведен среди 2000 разных избирателей, как мужчин, так и женщин. Люди, которые ответили, были классифицированы по полу, и были ли они республиканцами, демократами или независимыми. Представьте сетку с колонками, помеченными как республиканские, демократические и независимые, и двумя рядами, обозначенными как мужчина и женщина. Предположим, что данные 2000 респондентов выглядят следующим образом:
Первым шагом для вычисления статистики хи-квадрат является поиск ожидаемых частот. Они рассчитываются для каждой «ячейки» в сетке. Поскольку существует две категории пола и три категории политического взгляда, существует шесть ожидаемых частот. Формула для ожидаемой частоты:
E (r, c) = n (r) × c (r) nwhere: r = строка в вопросеc = столбец в вопросе = соответствующая сумма \ begin {выровненный} & E (r, c) = \ frac {n (r) времена c (r)} {n} \ & \ textbf {где:} \ & r = \ text {рассматриваемая строка} \ & c = \ text {рассматриваемый столбец} \ & n = \ text {соответствующая сумма} \ \ end {выровненный} E (r, c) = nn (r) × c (r) где: r = строка в вопросе c = столбец в вопросе = соответствующий итог
В этом примере ожидаемые частоты:
- E (1, 1) = (900 x 800) / 2000 = 360E (1, 2) = (900 x 800) / 2000 = 360E (1, 3) = (200 x 800) / 2000 = 80E (2, 1) = (900 x 1200) / 2000 = 540E (2, 2) = (900 x 1200) / 2000 = 540E (2, 3) = (200 x 1200) / 2000 = 120
Далее, эти значения используются для вычисления статистики хи-квадрат по следующей формуле:
Хи-квадрат = ∑2E (r, c) где: O (r, c) = наблюдаемые данные для данной строки и столбца \ begin {выровненный} & \ text {хи-квадрат} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {где:} \ & O (r, c) = \ text {наблюдаемые данные для данной строки и столбца} \ \ end {выровненный} Chi-squared = ∑E (r, c) 2 где: O (r, c) = наблюдаемые данные для данной строки и столбца
В этом примере выражение для каждого наблюдаемого значения:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500-540) 2/540 = 2, 96O (2, 2) = (600-540) 2/540 = 6, 67O (2, 3) = (100-120) 2/120 = 3, 33
Статистика хи-квадрат тогда равна сумме этих значений, или 32, 41. Затем мы можем взглянуть на статистическую таблицу хи-квадрат, чтобы узнать, учитывая степени свободы в нашей установке, статистически значимый результат или нет.