Шрифт:
Закладка:
Без рандомизации и ослепления даже исследования с громадным размером выборки могут вводить в заблуждение[453]. Но это вовсе не значит, что размер выборки не имеет значения. На самом деле это один из самых важных параметров, учитываемых при разработке эксперимента, и Маклауд с коллегами его тоже проверял. Сообщается ли в статье, как авторы решали, сколько животных включить в исследование? Об этом говорилось только в 0,7 % работ. Это удручает по двум причинам. Первую мы обсуждали раньше – p-хакинг. Не задавая предварительно размер выборки, исследователи оставляют себе возможность продолжать без конца собирать данные и анализировать их – снова и снова, снова и снова, пока не получится желаемое p-значение, меньшее 0,05. Вторая причина связана со смежным понятием, которое мы еще не обсуждали, – со статистической мощностью. Проще говоря, слишком много научных исследований слишком малы.
Представим себе идеальный препарат от головной боли, при любых условиях мгновенно ее снимающий. Нам не понадобились бы p-значения или статистические тесты, чтобы обнаружить этот сверхсильный эффект: мы замечали бы его всякий раз при сравнении хотя бы одного страдальца с головной болью, принимающего такие таблетки, с контрольным пациентом, получающим плацебо или менее эффективный препарат. Как если бы всякий мужчина на свете был выше абсолютно любой женщины, если вернуться к исследованию роста шотландцев из предыдущей главы. Конечно, на самом деле так не бывает: реальные статистические эффекты почти всегда меньше, и их труднее заметить. Реальная таблетка может уменьшить головную боль в среднем, скажем, на полбалла по шкале интенсивности мучений от 1 до 5. Невозможно было бы отделить такой небольшой эффект от случайного шума при сравнении двух человек, проводить подобное исследование было бы бесполезно. Даже если бы мы сравнивали две группы по десять участников, небольшой эффект мог бы запросто затеряться в случайном шуме. Например, кто-то по невнимательности обвел бы неправильную цифру в анкете, или ударился головой перед опросом, что усилило боль, или, наоборот, облегчил свое состояние, бросив пить.
Но если бы мы включили в исследование гораздо больше людей (человек пятьсот, принимающих таблетки, и пятьсот – плацебо), скромный эффект от таблеток было бы куда легче отделить от случайных отклонений. Так получилось бы потому, что эффект от лекарства проявлялся бы систематически: наш сигнал менялся бы в одну и ту же сторону у достаточно большого количества людей, принимающих препарат. А вот шум оставался бы случайным: у людей из любой группы по причинам, никак не связанным с тем, принимали ли они таблетки или плацебо, боль иногда становилась бы то слабее, то сильнее. Поскольку число участников велико, эти случайные отклонения компенсировали бы друг друга, так что среднее значение в крупной выборке было бы ближе к “истинному” эффекту. Статистик сказал бы, что при большем размере выборки исследование имеет более высокую статистическую мощность – больше шансов обнаружить разницу между группами, если новый препарат действительно работает лучше, чем плацебо.
Как мы обсуждали в предыдущей главе, p-значение характеризует вероятность, что мы получим результаты, похожие на наши (или даже более впечатляющие), если на самом деле никакого искомого эффекта нет, поэтому обычно мы хотим, чтобы оно оказалось как можно меньшим (по крайней мере ниже стандартного порога, обычно устанавливаемого на уровне 0,05). С другой стороны, статистическая мощность характеризует вероятность, что мы увидим статистически значимый сигнал, когда он действительно есть, поэтому мы хотим, чтобы она была как можно большей. Меньшие эффекты (слабые сигналы) гораздо сложнее обнаружить, когда у вас мало данных, поэтому обычно чем более тонкий эффект вы исследуете, тем крупнее вам требуется выборка.
Приведу конкретный пример. В 2013 году психолог Джозеф Симмонс со своими коллегами попросил онлайн-выборку участников ответить на ряд вопросов об их предпочтениях в таких областях, как еда и политика, а также собрал их основные анкетные данные (пол, возраст, рост и так далее)[454]. Затем он разделил выборку на различные группы (мужчины и женщины, либералы и консерваторы и тому подобное) и отметил, насколько сильно те различаются по целому набору переменных. Исходя из этих данных, Симмонс вычислил, сколько участников потребовалось бы, чтобы с уверенностью обнаружить данное различие, если не знать о его существовании заранее[455]. Например, оказалось, что можно надежно установить уже знакомую нам связь между ростом и полом – мужчины в среднем выше женщин – с помощью всего лишь шести мужчин и шести женщин из опроса; этот эффект, как мы знаем, велик и потому очевиден (наше исследование из предыдущей главы с участием двадцати человек имело, стало быть, высокую статистическую мощность). Еще один простой вопрос: склонны ли участники опроса более старшего возраста говорить, что они ближе к пенсионному возрасту? Так и есть, и Симмонс обнаружил, что для выявления этого факта потребовалось бы всего девять человек постарше и девять помоложе. Однако вот некоторые эффекты, для обнаружения которых понадобилось бы большее число участников:
• Любители острой пищи чаще уважают индийскую кухню (понадобилось бы двадцать шесть любителей острого и двадцать шесть человек, острое не любящих).
• Либералы считают социальную справедливость более важной, чем консерваторы (понадобилось бы по тридцать четыре человека от каждого политического лагеря).
• Мужчины в среднем весят больше, чем женщины (понадобилось бы по сорок шесть представителей каждого пола).
Цель этого упражнения состояла в следующем: заставить ученых реалистично оценивать величину искомого эффекта в любом конкретном исследовании, а значит, и размер выборки, необходимый для того, чтобы результаты получились значимыми. Если размер выборки у вас не будет достаточным для надежной проверки, весят ли мужчины больше женщин, скорее всего, статистической мощности вашего исследования не хватит и на то, чтобы обнаружить специфический тонкий эффект, подразумеваемый теорией, которую вы сформулировали.
Проводить исследование с низкой статистической мощностью – это