Шрифт:
Закладка:
Рис. 3. Проблема переподгонки, проиллюстрированная с помощью моделей для осадков. На графике А модель плохая – это “недостаточная аппроксимация”, поскольку она неудовлетворительно описывает данные. На графике Б модель куда лучше, ведь она описывает выпадение осадков таким образом, который обобщается, вероятно, и на другие годы. На графике В показана “чрезмерная аппроксимация”: хотя модель прекрасно описывает данные именно этого года, маловероятно, что в другие годы значения будут скакать вверх и вниз точно так же. Обратите внимание: эти данные выдуманы для иллюстрирования принципа
На рисунке 3 проиллюстрирована чрезмерная аппроксимация. Как вы видите, у нас есть набор данных: одно измерение количества осадков за каждый месяц на протяжении года. Мы хотим провести через наши данные линию, которая описывала бы, как меняется количество осадков со временем, – линия будет нашей статистической моделью этих данных – и с ее помощью предсказывать, сколько осадков будет выпадать каждый месяц в следующем году. Самое небрежное из возможных решений – просто провести прямую, как на рисунке 3А, только вот на имеющиеся данные это не очень-то похоже: если бы мы попробовали использовать эту прямую для прогнозирования измерений будущего года, предсказывая абсолютно одно и то же количество осадков каждый месяц, мы бы справились с заданием хуже некуда. Далее, мы могли бы использовать кривую линию, проходящую через данные так, как показано на рисунке 3Б, что было бы добротной аппроксимацией – такая кривая служила бы полезной моделью для предсказывания значений на следующий год. Однако есть риск на этом не остановиться, а провести линию через каждую отдельную точку, вихляя в разные стороны, как на рисунке 3В. Такая модель прекрасно согласуется с нашим набором данных, это идеальное описание имеющихся точек, но каковы шансы, что данные в следующем году будут совершенно точно так же прыгать то вверх, то вниз? Они невысоки. Проводя линию столь близко к точкам, мы моделируем лишь случайный шум, существующий в наших данных. Это и есть чрезмерная аппроксимация.
Вот что неосознанно делают ученые, прибегающие к p-хакингу: придают слишком большое значение тому, что зачастую представляет собой лишь случайный шум, и считают это частью модели, а не досадным отклонением, которое ради реального сигнала (если таковой вообще существует) следует оставить без внимания. Горе тому, кто берет переподогнанную модель после p-хакинга и пытается применить ее к другим выборкам: она обусловлена определенными расходящимися тропками, которыми ее создатели следовали сквозь свои зашумленные данные, так что модель эта, скорее всего, мало что скажет нам о мире за пределами единичного набора данных.
Легко понять, почему ученые соблазняются переподгонкой. Если сосредоточиться только на собственных данных и забыть, что ваша работа – формулировать общие утверждения о мире, то модель вроде изображенной на рисунке 3В, чудесно описывающая данные, кажется крайне привлекательной: нет никаких неопределенностей, беспорядочных точек, уклоняющихся от проведенной вами линии. Однако столь притягательной эту модель делает не ее аккуратность как таковая, бесхитростно соединить точки на графике можно и без всякого научного знания. А как насчет статьи, звучащей так, словно вы придумали конкретную форму линии (свою теорию) еще до сбора данных? Теперь к вам приковано внимание научной общественности – а как мы знаем, основная цель в науке состоит в том, чтобы убедить других ученых, что вашу модель, теорию или исследование следует принимать всерьез.
Те же побуждения справедливы и для p-хакинга в более широком смысле: исследования, которые не омрачены случайным незначимым результатом, торчащим посреди p-значений, поголовно меньших 0,05, выглядят гораздо привлекательнее. Вспомним, как Стивен Джей Гулд сказал про науку: “профессия, присваивающая статус и авторитет за аккуратные и недвусмысленные открытия [курсив мой]”. Социальный психолог Роджер Джинер-Соролла согласен: “При прямой конкуренции между статьями… работе, чьи результаты все значимы и непротиворечивы, отдадут предпочтение перед той, что столь же хороша, но сообщает результат без прикрас, дабы прийти к более правомочному выводу”[367].
Здесь мы видим, как публикационное смещение и p-хакинг оказываются двумя проявлениями одного феномена – желания стереть результаты, которые плохо соотносятся с заранее сложившейся теорией. Этот феномен в хитроумном метанаучном исследовании обнажила группа специалистов, изучающих работы по экономике и управлению. Они воспользовались фактом, что некоторые результаты включаются в диссертации до того, как их по всей форме опишут и отправят в научные журналы для публикации. Происходящее между включением в диссертацию и опубликованием в журнале эти исследователи назвали “окукливанием”. К моменту выхода в виде финальной публикации исходно неказистые наборы данных часто превращались в красивых бабочек, поскольку все неопрятно выглядящее, незначимое отбрасывалось или изменялось ради стройного изложения положительных результатов[368]. В большинстве случаев творцы сих превращений, вероятно, думали, что, устраняя некоторые результаты, позволяют своим данным четче “рассказывать историю”, – и возможно, старшие коллеги учили их, что так и надо делать, дабы уверить рецензентов: статью стоит публиковать[369]. На самом же деле они обрекали будущих ученых на безнадежно предвзятую картину того, что происходило в исследовании.
Жажда красивых результатов подтачивает даже “точнейшие” из наук. Физик Сабина Хоссенфельдер в своей книге “Уродливая Вселенная” утверждает, что физики до такой степени увлеклись своими собственными построениями, сосредоточившись на элегантности и красоте моделей вроде теории струн, что на практике проверить, действительно ли эти модели верны, они не в состоянии[370]. Хотя сложнейшая математическая работа специалистов по теории струн, казалось бы, неимоверно далека от кухонной, бытовой науки Брайана Вонсинка, оба типа исследований могут пропитаться одинаковыми видами человеческих предубеждений.
Равно как и области, где из-за подобных предубеждений на кону оказываются жизни людей. Поколениям студентов-медиков рассказывали, вполне справедливо, что двойные слепые рандомизированные плацебо-контролируемые испытания – золотой стандарт для доказательства эффективности новых средств лечения. При должном проведении такие испытания вычленяют эффект плацебо, предвзятость со стороны врачей, осуществляющих лечение, ложные результаты, вызванные факторами, не