Критерий χ2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).
Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).
Критерий хи-квадрат может применяться при анализе таблиц сопряженности, содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:
Исход есть (1) | Исхода нет (0) | Всего | |
Фактор риска есть (1) | A | B | A + B |
Фактор риска отсутствует (0) | C | D | C + D |
Всего | A + C | B + D | A + B + C + D |
Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.
Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).
Заполняем исходными данными четырехпольную таблицу сопряженности:
Артериальная гипертония есть (1) | Артериальной гипертонии нет (0) | Всего | |
Курящие (1) | 40 | 30 | 70 |
Некурящие (0) | 32 | 48 | 80 |
Всего | 72 | 78 | 150 |
В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.
Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.
Исход есть (1) | Исхода нет (0) | Всего | |
Фактор риска есть (1) | (A+B)*(A+C) / (A+B+C+D) | (A+B)*(B+D)/ (A+B+C+D) | A + B |
Фактор риска отсутствует (0) | (C+D)*(A+C)/ (A+B+C+D) | (C+D)*(B+D)/ (A+B+C+D) | C + D |
Всего | A + C | B + D | A+B+C+D |
Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.
В том случае, если полученное значение критерия χ2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.
Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:
Артериальная гипертония есть (1) | Артериальной гипертонии нет (0) | Всего | |
Курящие (1) | 40 | 30 | 70 |
Некурящие (0) | 32 | 48 | 80 |
Всего | 72 | 78 | 150 |
Артериальная гипертония есть (1) | Артериальной гипертонии нет (0) | Всего | |
Курящие (1) | (70*72)/150 = 33.6 | (70*78)/150 = 36.4 | 70 |
Некурящие (0) | (80*72)/150 = 38.4 | (80*78)/150 = 41.6 | 80 |
Всего | 72 | 78 | 150 |