сайт для аспирантов и молодых учёных, врачей-специалистов и организаторов, студентов и преподавателей

Статистика - это очень просто!

теория
калькуляторы
форум
литература
алгоритмы
презентации
задания
авторы
Заказать статобработку
Курсы по статанализу

Общие вопросы медицинской статистики

Медицинская статистика Базы данных в MS Excel Определение размера выборки Какой метод статанализа выбрать? Медицинская демография

Статистические величины

Абсолютные величины Относительные величины Графические изображения Вариационные ряды Стандартизация Динамические ряды

Сравнение количественных показателей

t-критерий Стьюдента U-критерий Манна-Уитни Критерий Уилкоксона Парный t-критерий Стьюдента Q-критерий Розенбаума G-критерий знаков Однофакторный дисперсионный анализ (ANOVA) Критерий Фридмана Критерий Краскелла-Уоллиса

Сравнение относительных показателей

Критерий χ2 Пирсона Относительный риск Отношение шансов Точный критерий Фишера Q-критерий Кохрена Тест Мак-Немара

Методы оценки связи

Корреляционный анализ (общие сведения) Критерий корреляции Пирсона Парная линейная регрессия Критерий Спирмена Коэффициент Фехнера Коэффициент корреляции Кендалла Коэффициент конкордации Кендалла

Методы оценки распределения

F-критерий Фишера Критерий Колмогорова-Смирнова Метод Шапиро-Уилка

КРИТЕРИЙ ХИ-КВАДРАТ ПИРСОНА

Карл Пирсон
Карл Пирсон

Критерий χ2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

2. Для чего используется критерий χ2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности, содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

  Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

  Артериальная гипертония есть (1) Артериальной гипертонии нет (0) Всего
Курящие (1) 40 30 70
Некурящие (0) 32 48 80
Всего 72 78 150

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса. Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера.
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.

4. Как рассчитать критерий хи-квадрат Пирсона?

Для расчета критерия хи-квадрат необходимо:

  1. Рассчитываем ожидаемое количество наблюдений для каждой из ячеек таблицы сопряженности (при условии справедливости нулевой гипотезы об отсутствии взаимосвязи) путем перемножения сумм рядов и столбцов с последующим делением полученного произведения на общее число наблюдений. Общий вид таблицы ожидаемых значений представлен ниже:
  2.   Исход есть (1) Исхода нет (0) Всего
    Фактор риска есть (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A + B
    Фактор риска отсутствует (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C + D
    Всего A + C B + D A+B+C+D

  3. Находим значение критерия χ2 по следующей формуле:

    где i – номер строки (от 1 до r), j – номер столбца (от 1 до с), Oij – фактическое количество наблюдений в ячейке ij, Eij – ожидаемое число наблюдений в ячейке ij.

    В том случае, если число ожидаемого явления меньше 10 хотя бы в одной ячейке, при анализе четырехпольных таблиц должен рассчитываться критерий хи-квадрат с поправкой Йейтса. Данная поправка позволяет уменьшить вероятность ошибки первого типа, т.е обнаружения различий там, где их нет. Поправка Йейтса заключается в вычитании 0,5 из абсолютного значения разности между фактическим и ожидаемым количеством наблюдений в каждой ячейке, что ведет к уменьшению величины критерия хи-квадрат.

    Формула для расчета критерия χ2 с поправкой Йейтса следующая:

  4. Определяем число степеней свободы по формуле: f = (r – 1) × (c – 1). Ссответственно, для четырехпольной таблицы, в которой 2 ряда (r = 2) и 2 столбца (c = 2), число степеней свободы составляет f2x2 = (2 - 1)*(2 - 1) = 1.
  5. Сравниваем значение критерия χ2 с критическим значением при числе степеней свободы f (по таблице).

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

  Артериальная гипертония есть (1) Артериальной гипертонии нет (0) Всего
Курящие (1) 40 30 70
Некурящие (0) 32 48 80
Всего 72 78 150
  1. Рассчитываем ожидаемые значения для каждой ячейки:
      Артериальная гипертония есть (1) Артериальной гипертонии нет (0) Всего
    Курящие (1) (70*72)/150 = 33.6 (70*78)/150 = 36.4 70
    Некурящие (0) (80*72)/150 = 38.4 (80*78)/150 = 41.6 80
    Всего 72 78 150
  2. Находим значение критерия хи-квадрат Пирсона:

    χ2 = (40-33.6)2/33.6 + (30-36.4)2/36.4 + (32-38.4)2/38.4 + (48-41.6)2/41.6 = 4.396.

  3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
  4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.
Показать таблицу критических значений критерия хи-квадрат Пирсона


Презентация на тему "Методы непараметрического анализа"

Расчетные задачи по теме "Хи-квадрат Пирсона"

Онлайн-калькулятор расчета критерия хи-квадрат Пирсона для четырехпольной таблицы

Онлайн-калькулятор расчета критерия хи-квадрат Пирсона для произвольной таблицы



©Д.Марапов,2013
damirov@list.ru
Яндекс.Метрика Рейтинг@Mail.ru