Заказать статобработку 
Онлайн-курсы
Мастер-классы
Магазин
@medstatistic
medstatistic_chat
теория
калькуляторы
форум
литература
алгоритмы
презентации
методы
авторы

Статистический
словарь

Учёные-
статистики

Общие вопросы
статистики

Алгоритмы
и схемы

Описательная
статистика

Критерии
и методы


Диаграммы
и графики

Мнение
автора

Библиотека постов MEDSTATISTIC об анализе медицинских данных

Ещё больше полезной информации в нашем блоге в Инстаграм @medstatistic


Критерии и методы


КРИТЕРИЙ ХИ-КВАДРАТ ПИРСОНА

Карл Пирсон
Карл Пирсон

Критерий χ2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

2. Для чего используется критерий χ2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности, содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

  Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

  Артериальная гипертония есть (1) Артериальной гипертонии нет (0) Всего
Курящие (1) 40 30 70
Некурящие (0) 32 48 80
Всего 72 78 150

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение меньше 10, то для анализа лучше использовать точный критерий Фишера.
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек. В случае несоблюдения данного условия для сравнения долей следует также использовать точный критерий Фишера.

4. Как рассчитать критерий хи-квадрат Пирсона?

  1. Рассчитываем ожидаемое количество наблюдений для каждой из ячеек таблицы сопряженности (при условии справедливости нулевой гипотезы об отсутствии взаимосвязи) путем перемножения сумм рядов и столбцов с последующим делением полученного произведения на общее число наблюдений. Общий вид таблицы ожидаемых значений представлен ниже:
  2.   Исход есть (1) Исхода нет (0) Всего
    Фактор риска есть (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A + B
    Фактор риска отсутствует (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C + D
    Всего A + C B + D A+B+C+D

  3. Находим значение критерия χ2 по следующей формуле:

    где i – номер строки (от 1 до r), j – номер столбца (от 1 до с), Oij – фактическое количество наблюдений в ячейке ij, Eij – ожидаемое число наблюдений в ячейке ij.
  4. Определяем число степеней свободы по формуле: f = (r – 1) × (c – 1). Соответственно, для четырехпольной таблицы, в которой 2 ряда (r = 2) и 2 столбца (c = 2), число степеней свободы составляет f2x2 = (2 - 1)*(2 - 1) = 1.
  5. Сравниваем значение критерия χ2 с критическим значением при числе степеней свободы f (по таблице).

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

  Артериальная гипертония есть (1) Артериальной гипертонии нет (0) Всего
Курящие (1) 40 30 70
Некурящие (0) 32 48 80
Всего 72 78 150
  1. Рассчитываем ожидаемые значения для каждой ячейки:
      Артериальная гипертония есть (1) Артериальной гипертонии нет (0) Всего
    Курящие (1) (70*72)/150 = 33.6 (70*78)/150 = 36.4 70
    Некурящие (0) (80*72)/150 = 38.4 (80*78)/150 = 41.6 80
    Всего 72 78 150
  2. Находим значение критерия хи-квадрат Пирсона:

    χ2 = (40-33.6)2/33.6 + (30-36.4)2/36.4 + (32-38.4)2/38.4 + (48-41.6)2/41.6 = 4.396.

  3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
  4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.
Показать таблицу критических значений критерия хи-квадрат Пирсона


©Д.Марапов,2013
damirov@list.ru
Яндекс.Метрика