Шрифт:
Закладка:
3. Правильно ли исследование спланировано? В пятой главе мы говорили, что в настораживающе большой доле статей, посвященных работе на животных, рандомизация и ослепление даже не упоминаются. А это существенные аспекты в дизайне эксперимента, так что, если в статье они никак не обсуждаются – как минимум в работах, посвященных клиническим испытаниям, где эти аспекты критически важны, – ваша подозрительность должна усилиться. Кроме того, для многих исследований необходима подходящая контрольная группа. Когда ваш взгляд цепляется в статье за сенсационное утверждение, всегда надо задаваться вопросом “по сравнению с чем?”. Если ответ – “по сравнению с контрольной группой, отличавшейся от лечебной по важным параметрам еще до начала эксперимента”, то перед вами плохо спланированное исследование.
4. Насколько велика выборка? Размер выборки имеет значение, главным образом из-за статистической мощности. Это правда, что статистическую мощность можно увеличить и другими способами, поэтому размер выборки – не единственный фактор. Для некоторых видов исследований, где, например, ожидаются большие эффекты или участники тестируются снова и снова, скромной выборки совершенно достаточно. И даже огромные выборки бывают безнадежно смещенными, если они неслучайны или нерепрезентативны. Но для исследований в таких областях, как нейронаука, экология и психология, это распространенная ошибка – искать в крошечных выборках в принципе слабые эффекты; такая стратегия оказывается хуже, чем просто бесполезной. Еще нужно следить за тем, сколько испытуемых оказались исключены из финальной выборки. Некоторые исключения абсолютно в порядке вещей и обычно даже неизбежны. Например, люди, участвующие в исследовании, редко все поголовно следуют указаниям, как должны были бы. Тем не менее, если исключений слишком уж много, скажем больше половины выборки, вы вправе засомневаться, можно ли обобщать результаты на изучавшуюся популяцию, или авторы просто отобрали тех участников, которые демонстрировали желаемый эффект, а остальных выкинули.
5. Насколько велик эффект? Первое, что надо проверить: статистически значим ли заявленный в статье эффект и каков уровень значимости. Высчитано ли много p-значений, которые чуть ниже порога в 0,05? Используют ли авторы туманные выражения вроде “тенденция в сторону значимости”, дабы сгладить тот факт, что их результаты недостаточно хороши? Впрочем, это лишь начало – еще вы должны задаться вопросом, насколько велик обнаруженный в исследовании эффект. Как он соотносится с другими исследованиями или с другими релевантными эффектами? К примеру, если в работе анализируется новое медицинское вмешательство или образовательная инициатива, как результаты соотносятся с другими, уже устоявшимися медицинскими методами и образовательными практиками? Не интерпретируется ли средствами массовой информации или самими учеными какой-то небольшой эффект так, словно он единственное, что имеет значение? Поскольку мы знаем, что на ту же тему может существовать несколько исследований с отрицательными результатами, запрятанных в “картотечный ящик”, полезно в уме немного уменьшить величину эффекта. Проблема в том, что неправдоподобно большие эффекты – которые, попросту говоря, слишком хороши, чтобы быть правдой, – также должны вызывать подозрение, что с исследованием не все в порядке. То же касается и p-значений: при виде исследования, сообщающего исключительно или почти исключительно о статистически значимых результатах, стоит удивленно выгибать бровь. Ибо, как мы видели, исследования никогда не обладают идеальной статистической мощностью, а часто она на самом деле очень низка. Поэтому, даже если заявленные эффекты правдивы, все равно логично ожидать, что некоторые p-значения не перевалят через порог 0,05. Ровный строй статистически значимых результатов в исследовании, где вычислялось много p-значений, намекает на p-хакинг (или на что похуже).
6. Адекватны ли выводы? Как мы видели, ученые регулярно впадают в “причинно-следственный” тон, даже если провели всего лишь корреляционное исследование. Если ученые на основании результатов наблюдательного исследования говорят о том, как переменная X влияет или оказывает воздействие на переменную Y, они выходят за пределы своих данных. В наблюдательном исследовании нет никакого рандомизированного вмешательства, поэтому выводов о причинно-следственных связях обычно сделать нельзя. Аналогично, если эксперимент выполнен на мышах или крысах либо на компьютерной модели, заключение, что такой опыт обязательно дает нам некую информацию о том, “как все устроено у людей”, попросту неверно. То же касается исследований, проведенных лишь на небольшой выборке людей, но представленных так, будто результаты сообщают нам что-то о человечестве в целом.
7. Есть ли предвзятости? Нет ли у исследования явной политической или социальной подоплеки? И не сообщают ли о ней ученые кажущимся не слишком уж беспристрастным образом? Мы видели, что преувеличения и подача под нужным углом часто ужасающи, даже в рецензируемых статьях. Не профинансировано ли исследование – полностью или частично – каким-либо коллективом или компанией, для которых предпочтительным был бы один конкретный исход? Некоторое представление об этом можно получить, заглянув в разделы “Источники финансирования” и “Конфликт интересов”, обязательные почти для всех журналов (но имейте в виду, что сейчас там не требуется упоминать о таких вещах, как контракты с издательствами и лекционные туры, а ведь они могут быть напрямую связаны с результатами статьи; вероятно, вам захочется проверить подобный второстепенный вид деятельности авторов на их сайтах). Если авторы подобающе осторожны при обсуждении своих открытий и не отыскиваются материалы средств массовой информации, где эти ученые говорили бы журналистам, как их результаты отчетливо согласуются с некой политической позицией или конкретным политическим курсом, это хороший знак, свидетельствующий о том, что они сдерживают свои предубеждения. Между прочим, еще важнее отслеживать предвзятости, когда исследование согласуется с вашими личными идеологическими предубеждениями. Стоит спросить себя: я подвергаю исследование несоразмерно жесткой проверке, поскольку не согласен с его выводами, или же не глядя принимаю слабую работу, потому что в ней подкрепляются мои предрассудки?
8. Насколько все вообще правдоподобно? Если речь идет об исследовании с участием людей, полезно представить, будто вы сами были его участником[836]. Например, в случае работы по эпидемиологии питания подумайте, насколько точно при заполнении опросника по частоте потребления различных пищевых продуктов вы сумели бы вспомнить свои привычки, касающиеся перекусов, за последние десять лет