Заказать статобработку 
Онлайн-курсы
Мастер-классы
Магазин
@medstatistic
medstatistic_chat
теория
калькуляторы
форум
литература
алгоритмы
презентации
методы
авторы

Статистический
словарь

Учёные-
статистики

Общие вопросы
статистики

Алгоритмы
и схемы

Описательная
статистика

Критерии
и методы


Диаграммы
и графики

Мнение
автора

Библиотека постов MEDSTATISTIC об анализе медицинских данных

Ещё больше полезной информации в нашем блоге в Инстаграм @medstatistic


Критерии и методы


КРИТЕРИЙ КОРРЕЛЯЦИИ ПИРСОНА

Карл Пирсон
Карл Пирсон

Критерий корреляции Пирсона – это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, изменяется ли (возрастает или уменьшается) один показатель в ответ на изменения другого? В статистических расчетах и выводах коэффициент корреляции обычно обозначается как rxy или Rxy.

1. История разработки критерия корреляции

Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон.

2. Для чего используется критерий корреляции Пирсона?

Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.

Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в количественной шкале (например, частота сердечных сокращений, температура тела, содержание лейкоцитов в 1 мл крови, систолическое артериальное давление).
  2. Посредством критерия корреляции Пирсона можно определить лишь наличие и силу линейной взаимосвязи между величинами. Прочие характеристики связи, в том числе направление (прямая или обратная), характер изменений (прямолинейный или криволинейный), а также наличие зависимости одной переменной от другой - определяются при помощи регрессионного анализа.
  3. Количество сопоставляемых величин должно быть равно двум. В случае анализ взаимосвязи трех и более параметров следует воспользоваться методом факторного анализа.
  4. Критерий корреляции Пирсона является параметрическим, в связи с чем условием его применения служит нормальное распределение каждой из сопоставляемых переменных. В случае необходимости корреляционного анализа показателей, распределение которых отличается от нормального, в том числе измеренных в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена.
  5. Следует четко различать понятия зависимости и корреляции. Зависимость величин обуславливает наличие корреляционной связи между ними, но не наоборот.

Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью, подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь, означающая, что изменения одного показателя сопровождаются изменениями другого показателя.

В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста, но разного роста, то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.

Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.

4. Как рассчитать коэффициента корреляции Пирсона?

Расчет коэффициента корреляции Пирсона производится по следующей формуле:

5. Как интерпретировать значение коэффициента корреляции Пирсона?

Значения коэффициента корреляции Пирсона интерпретируются исходя из его абсолютных значений. Возможные значения коэффициента корреляции варьируют от 0 до ±1. Чем больше абсолютное значение rxy – тем выше теснота связи между двумя величинами. rxy = 0 говорит о полном отсутствии связи. rxy = 1 – свидетельствует о наличии абсолютной (функциональной) связи. Если значение критерия корреляции Пирсона оказалось больше 1 или меньше -1 – в расчетах допущена ошибка.

Для оценки тесноты, или силы, корреляционной связи обычно используют общепринятые критерии, согласно которым абсолютные значения rxy < 0.3 свидетельствуют о слабой связи, значения rxy от 0.3 до 0.7 - о связи средней тесноты, значения rxy > 0.7 - о сильной связи.

Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока:

Абсолютное значение rxy Теснота (сила) корреляционной связи
менее 0.3 слабая
от 0.3 до 0.5 умеренная
от 0.5 до 0.7 заметная
от 0.7 до 0.9 высокая
более 0.9 весьма высокая

Оценка статистической значимости коэффициента корреляции rxy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:

Полученное значение tr сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если tr превышает tкрит, то делается вывод о статистической значимости выявленной корреляционной связи.

6. Пример расчета коэффициента корреляции Пирсона

Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице:

N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y)
1. 951 83
2. 874 76
3. 957 84
4. 1084 89
5. 903 79
  1. Вычислим суммы анализируемых значений X и Y:

    Σ(X) = 951 + 874 + 957 + 1084 + 903 = 4769

    Σ(Y) = 83 + 76 + 84 + 89 + 79 = 441

  2. Найдем средние арифметические для X и Y:

    Mx = Σ(X) / n = 4769 / 5 = 953.8

    My = Σ(Y) / n = 441 / 5 = 82.2

  3. Рассчитаем для каждого значения сопоставляемых показателей величину отклонения от среднего арифметического dx = X - Mx и dy = Y - My:
    N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (dx) Отклонение % мышечной массы от среднего значения (dy)
    1. 951 83 -2.8 0.8
    2. 874 76 -79.8 -6.2
    3. 957 84 3.2 1.8
    4. 1084 89 130.2 6.8
    5. 903 79 -50.8 -3.2
  4. Возведем в квадрат каждое значение отклонения dx и dy:
    N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (dx) Отклонение % мышечной массы от среднего значения (dy) dx2 dy2
    1. 951 83 -2.8 0.8 7.84 0.64
    2. 874 76 -79.8 -6.2 6368.04 38.44
    3. 957 84 3.2 1.8 10.24 3.24
    4. 1084 89 130.2 6.8 16952,04 46.24
    5. 903 79 -50.8 -3.2 2580,64 10.24
  5. Рассчитаем для каждой пары анализируемых значений произведение отклонений dx x dy:
    N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (dx) Отклонение % мышечной массы от среднего значения (dy) dx2 dy2 dx x dy
    1. 951 83 -2.8 0.8 7.84 0.64 -2.24
    2. 874 76 -79.8 -6.2 6368.04 38.44 494.76
    3. 957 84 3.2 1.8 10.24 3.24 5.76
    4. 1084 89 130.2 6.8 16952,04 46.24 885.36
    5. 903 79 -50.8 -3.2 2580,64 10.24 162.56
  6. Определим значения суммы квадратов отклонений Σ(dx2) и Σ(dy2):

    Σ(dx2) = 25918.8

    Σ(dy2) = 98.8

  7. Найдем значение суммы произведений отклонений Σ(dx x dy):

    Σ(dx x dy) = 1546.2

  8. Рассчитаем значение коэффициента корреляции Пирсона rxy по приведенной выше формуле:

  9. Найдем значение t-критерия для оценки статистической значимости корреляционной связи:

    Критическое значение t-критерия найдем по таблице, где при числе степеней свободы f = n-2 = 3 и уровне значимости p = 0.01 значение tкрит = 5.84. Рассчитанное значение tr (7.0) больше tкрит (5.84), следовательно связь является статистически значимой.

  10. Сделаем статистический вывод:

    Значение коэффициента корреляции Пирсона составило 0.97, что соответствует весьма высокой тесноте связи между уровнем тестостерона в крови и процентом мышечной массы. Данная корреляционная связь является статистически значимой (p<0.01).



©Д.Марапов,2013
damirov@list.ru
Яндекс.Метрика