Шрифт:
Закладка:
Насколько распространены подобные аналитические предубеждения, что пронизывали работу Вонсинка и подорвали исследование поз силы? В 2012 году в ходе опроса свыше двух тысяч психологов выяснялось, не вовлекались ли они в какие-либо практики p-хакинга[359]. Приходилось ли им когда-нибудь собирать данные по нескольким разным исходам, но не сообщать обо всех? Около 65 % сказали, что да. Исключали ли они определенные точки из анализа после того, как уже взглянули на результат? В этом сознались 40 %. И примерно 57 % сказали, что принимали решение подсобрать еще данных, после того как провели анализ – и, видимо, сочли его неудовлетворительным.
Опросы в других сферах принесли сходные удручающие открытия. Опрос статистиков в области биомедицины 2018 года выявил, что к 30 % респондентов их клиенты-ученые обращались с просьбой “интерпретировать статистические данные исходя из ожиданий, а не фактических результатов”, при этом 55 % участников опроса их клиенты просили “подчеркнуть только значимые результаты, а о незначимых умолчать”[360]. В другом опросе 32 % экономистов признались, что “представляли эмпирические результаты избирательно, так чтобы они подтверждали их аргументы”, а 37 % сказали, что “прерывали статистический анализ, когда получали [свой] результат” – то есть в тот момент, когда p-значению случалось опуститься ниже 0,05, хотя это могло произойти просто по стечению обстоятельств[361]. Если собрать вместе все p-значения из опубликованных работ и построить диаграмму, то мы увидим странный резкий скачок чуть пониже 0,05: значений 0,04, 0,045, 0,049 и так далее будет куда больше, чем можно было бы ожидать по воле случая. Аргумент несокрушительный, однако это красный флаг, сигнализирующий о возможном p-хакинге: ученые, похоже, подкручивают свои исследования как раз настолько, чтобы результаты поднырнули под линию в 0,05, а затем отсылают их в журналы[362].
Нужно помнить, что p-хакинг может ощущаться учеными так, словно они делают свои результаты, кажущиеся им правдивыми, некоторым образом более четкими или реалистичными. И это снова ошибка подтверждения. Вот тот участник? Я точно видел, как он глазел в окно, вместо того чтобы сосредоточиться на выданном ему тесте по психологии. Вот та чашка Петри? На ней определенно виднелось пятнышко грязи, так что она, вероятно, контаминирована, лучше выкинуть соответствующие результаты из набора данных. Нет сомнений: логичнее провести статистический тест X вместо теста Y (и гляньте-ка, получается, что статистический тест X дает положительные результаты!). Думаю, идею вы уловили. Как мы обсуждали в предыдущей главе, когда рассматривали мотивы нечистых на руку ученых, если вы еще до проверки своей гипотезы верите, что она верна, вам может показаться в высшей степени уместным подтолкнуть любые неоднозначные результаты в нужном направлении. И если настоящий мошенник знает, что поступает неэтично, обычные исследователи, занимающиеся p-хакингом, часто этого не сознают.
Не бывает так, чтобы набор данных можно было проанализировать лишь одним-единственным способом. Исключаете ли вы из рассмотрения выпадающие точки, поскольку полагаете, что они делают вашу выборку менее репрезентативной, хуже отражающей популяцию в целом, или же оставляете их? Разделяете ли вы выборку на разные группы по возрасту либо по какому-то другому критерию? Объединяете ли вы наблюдения первой и второй недели и сравниваете их с наблюдениями за третью и четвертую или рассматриваете каждую неделю по отдельности, а может, группируете их как-то иначе? Выбираете ли вы эту конкретную статистическую модель или ту? Сколько в точности “контрольных” переменных вы включаете в рассмотрение? На такого рода вопросы нет однозначных ответов – они зависят от особенностей и смысла исследования и от вашего взгляда на статистику (она все-таки и сама по себе постоянно развивающаяся область). Спроси десять статистиков – и получишь, вероятно, столько же разных ответов. Эксперименты по метанауке, в которых нескольким исследовательским группам поручается проанализировать один и тот же набор данных или придумать с нуля дизайн собственного исследования для проверки одной и той же гипотезы, показали высокую степень вариативности в методах и результатах[363].
Неограниченный выбор предоставляет неограниченные возможности для тех ученых, кто приступает к анализу, не имея в голове четкой идеи искомого. Но, как теперь должно быть понятно, чем больше анализируешь, тем выше шансы получить ложноположительные результаты. Специалисты по работе с данными Таль Яркони и Джейк Вестфолл объясняют это так: “Чем менее строгим… исследователь хочет быть – то есть чем шире спектр закономерностей, которые он хочет «увидеть» в данных, – тем существеннее риск попасть в ситуацию, когда ему привидится закономерность, коей там вовсе и нет”[364].
Дальше – хуже. Пока звучало все так, будто p-хакинг всегда осуществляется явным образом – прогоном множества статистических анализов и обнародованием только тех, что дают p-значения ниже 0,05. Вне всякого сомнения, такое происходит часто, однако настоящая проблема куда щекотливее. Вот она: даже если вы проводите лишь один анализ, вам все равно надо учитывать все те, что вы могли провести. Статистики Эндрю Гелман и Эрик Локен сравнили процесс проведения незапланированного статистического анализа с “садом расходящихся тропок” из рассказа Хорхе Луиса Борхеса с одноименным названием: в каждой точке, где требуется принять аналитическое решение, вы можете выбрать какую угодно из множества имеющихся опций. Любой выбор, как мы видели, приведет к несколько иным результатам[365]. Пока вы не установили очень четкие критерии того, как должен выглядеть результат, подтверждающий вашу гипотезу, пока вы не сказали, что хотите получить “p-значение меньше 0,05 при вот такой работе с переменными при вот этих конкретных условиях и с такими вот контролями”, вы будете в итоге принимать за доказательство своей правоты любой из многочисленных возможных результатов. Но откуда вам знать, не является ли тот результат, с которым вы остались, пройдя уникальную комбинацию расходящихся тропок, статистической случайностью? Таким образом, даже вне проб и ошибок классического p-хакинга ученые, подходящие к своим данным без тщательно продуманного плана, могут в итоге загнать себя в угол невоспроизводимости.
Почему “невоспроизводимости”? Да потому что, когда ученый достигает каждого разветвления на тропке, он оказывается одурачен данными – делая выбор, который кажется ведущим к p < 0,05 в этом наборе данных, но не обязательно приведет туда же в других наборах данных. Это проблема всех видов p-хакинга, будь он явный или нет: они приводят к чрезмерной