Парная линейная регрессия подробно изучается в медицинских вузах и вполне может считаться рутинным методом. Она определяет значение одного количественного показателя (например, систолическое артериальное давление), исходя из известного значения другого показателя (например, возраста).
Уравнение парной линейной регрессии выглядит как:
где y - зависимый показатель (в приведенном выше примере - систолическое артериальное давление), x - независимый показатель (в примере - возраст), a - коэффициент регрессии, показывающий на сколько вырастет y при увеличении x на 1, b - константа, соответствующая предполагаемому значению y при x=0.
Графиком данной функции является прямая линия, поэтому данный метод называется линейной регрессией.
Однако во многих ситуациях связь между показателями x и y - нелинейна, и ее следует описывать другими математическими функциями. Какие виды нелинейной регрессии наиболее известны?
Полиномиальная регрессия - предполагает возведение x в разные степени (обычно, не выше 3). В зависимости от этого может иметь разные порядки:
Например, регрессия второго порядка описывается уравнением квадратичной функции:
y = a·x2 + b·x + c
Описывает процессы, когда при увеличении x вначале происходит плавное снижение скорости изменения признака y, он достигает своего максимума или минимума («плато»), затем начинает изменяться в противоположном направлении.
Примеры:
Гиперболическая (обратная) регрессия - описывает зависимость y от x в форме обыкновенной дроби, где x находится в знаменателе:
y = 1/(a·x + b) + c
При a>0 показывает обратную связь между признаками (увеличение одного из них сопровождается снижением другого).
Примеры:
Показательная регрессия - описывает изменения y в геометрической прогрессии. Здесь x - показатель степени:
y = a·bx + c
Если b = е (математическая постоянная, основание натурального логарифма, число Эйлера = 2,718...), такая функция называется экспоненциальной.
Характеризует изменения с нарастающей скоростью. Вначале прогресс незначительный, но в дальнейшем он стремительно увеличивается.
Примеры:
Логарифмическая регрессия - описывает зависимость y от логарифма значения х по основанию b:
y = a·logbx + c
Характеризует изменения показателя y со снижающейся скоростью. Вначале прогресс - значительный, но постепенно замедляется.
Примеры:
Как выбрать оптимальный вид регрессии? Обычно приходится использовать метод перебора, строя несколько разных функций. Качество приближения модели оценивается по коэффициенту детерминации R2. Зависимость y от x описывается лучше всего тем уравнением, которому соответствует наивысший коэффициент детерминации.
⠀