Каждый исследователь должен знать, какие данные считаются сфальсифицированными, как распознать их при чтении работ других авторов и как избежать возможных подозрений на фальсификации в своём исследовании.
⠀Начнём с определения фальсификаций. Очевидно, что речь идёт о неверных, не соответствующих истине результатах исследования. По этапам исследования можно выделить три типа фальсификаций:
Другая классификация фальсификаций заключается в оценке намерений автора:
Например, не владея методами непараметрического анализа, автор проводит сравнение «ненормально» распределённых данных с помощью t-критерия Стьюдента.
Или, получив отношение шансов (OR) больше 1, автор делает неправильный вывод об обратной связи фактора и исхода.
Например, при изучении причин ИБС не были собраны данные о содержании холестерина в крови как одном из ведущих факторов.
Или: выявив различия между тремя группами с помощью дисперсионного анализа, автор не проводит апостериорные сравнения, способные дать ценные данные о природе этих различий.
Например, сравнивая новый метод лечения инсульта со старым, автор намеренно занижает летальность в экспериментальной группе, чтобы получить заведомо ложный вывод о лучшей выживаемости пациентов при лечении новым методом.
По каким признакам мы можем определить, является ли данное исследование фальсифицированным? Сразу хочу пояснить, универсальных «волшебных» приемов здесь нет, к каждой работе необходим индивидуальный подход. Заметные признаки фальсификаций, в основном, относятся к случаям невежества или небрежности автора. Если фальсификации делались специально, и при этом были соблюдены все правила и алгоритмы, то выявить их, читая только саму работу - практически невозможно.
Начнём с простых фальсификаций, которые можно увидеть «невооружённым глазом».
При анализе количественных показателей следует обращать внимание на:
Например, значения АД в двух группах составили (M±SD): 150±56 и 165±43, при сравнении с помощью t-критерия Стьюдента сделан вывод об отсутствии значимых различий (p>0,05). Однако при таких высоких значениях SD следует заподозрить «ненормальное» распределение, следовательно данные должны быть представлены медианой и квартилями, а для сравнения должен использоваться критерий Манна-Уитни.
Похожая ситуация: к показателям, которые вначале описываются и сравниваются непараметрическими методами, вдруг применяется параметрический корреляционный анализ по Пирсону.
Распространённая и забавная ошибка, когда данные описываются с помощью медианы и квартилей. Если показатель - целочисленный, т.е. не имеет дробных значений (АД, ЧСС и многие другие), то медиана может принимать только целые значения, либо с десятичной частью ,5. А квартили - целые, ,5, ,75 или ,25. Поэтому если мы видим медиану АД 130,3 или квартиль 125,1 - это ошибка!
Пример неверного p: в 2х группах по 36 человек сравнивались значения АД 130±12 и 135±15. Сделан вывод о существенных различиях (р=0,031). Однако, если мы перепроверим результаты вычислений, p составит 0,123, то есть различия несущественны. Видимо, автор переписал значение р на нужное ему, при этом он забыл скорректировать сравниваемые значения.
Фальсификации номинальных данных, выраженных в процентах.
Общим свойством таких фальсификаций, если они связаны с небрежностью или невежеством автора, является легкость их выявления, по сравнению с количественными показателями. База данных для этого обычно не требуется, так как в работе указываются все необходимые числа для проверки - общее количество исследуемых и число тех, кто имеет изучаемый признак.
Например, рассчитаны значения летальности в двух группах по 50 человек: в основной - 10%, в контрольной - 15%. Летальность 10% - возможна, так как 10% от 50 - это 5 человек. А вот летальность 15% - невозможна, так как 15% от 50 - это дробные 7,5 человек! Возможные близкие к 15% значения летальности - это либо 14% (7/50), либо 16% (8/50).
Например, в группе из 50 исследуемых доля мужчин составила 40%, а летальность среди мужчин - 8%. Считаем: 40% от 50 - это 20 человек, здесь все в порядке. 8% от 20 - это 1,6 умершего мужчины, то есть враньё.
Например, в группах по 50 человек сравнивалась летальность, которая составляла 16% и 30%. Был получен p=0,047. Подставим число умерших (8, 15) и выживших (42, 35) в калькулятор, получим p=0,097. Фальсификация - налицо!
Завершая разговор о фальсификациях, расскажем об их самом сложном виде - фальсификации исходных данных. Здесь с технической точки зрения все вычисления безупречны: методы применены в соответствии с алгоритмами, интерпретация полученных результатов корректна. Однако, на самом деле данные, используемые автором, не соответствуют реальной ситуации. А значит - и выводы из работы также неверны.
Фальсификации исходной базы данных могут возникнуть намеренно, с целью получения определенного результата, или случайно, по незнанию автора. В первом случае при качественной подгонке данных - внешних признаков фальсификаций вообще может не быть! Во втором - они могут быть заподозрены при анализе дизайна исследования, описанного в разделе материалы и методы.
Например, автор указал, что из 100 больных ОНМК в течение первого года умерло 20. Подняв истории болезни исследуемых, было установлено, что количество летальных исходов было занижено, на самом деле умерло 26 человек.
Например, автором описано снижение среднего АД после приема препарата X за первую неделю с 170 до 120. Эксперт, обладающий большим опытом назначения Х на практике, а также сославшись на другое, более ранее исследование препарата Y из той же группы, утверждает, что снижение АД не может составлять больше 20-25 мм рт.ст.
Например, пациентам основной группы выполняли лапароскопическую аппендэктомию, а контрольной - лапаротомную. При этом для лапароскопии отбирались более молодые пациенты с менее тяжелыми формами аппендицита. Сравнивать результаты лечения нельзя, вначале необходимо выровнять группы по возрасту и тяжести заболевания.