Шрифт:
Закладка:
1. Чтобы определить загрязненность озера, я взял 20 проб воды в разное время суток в одном и том же месте на пляже возле лаборатории.
2. Чтобы определить загрязненность озера, я взял три пробы воды в трех разных местах, разбросанных по акватории озера.
3. Чтобы узнать, не снижается ли уровень грамотности, я разместил анкету о читательских привычках в ежемесячном журнале, посвященном политике.
4. В моем первом крупном исследовании, касающемся уровня мотивации населения нашей страны, участвовала группа из 50 волонтеров-студентов Гарвардской школы бизнеса.
В первом примере взятие всех проб в одном и том же месте снижает вероятность того, что выборка отражает ситуацию в озере в целом, хотя взять 20 проб, причем в разное время суток, – здравая идея.
Второй пример хорош тем, что пробы брались в разных местах озера, однако три – слишком малый объем выборки, чтобы обеспечить ее репрезентативность.
В третьем примере анкета, включенная в журнал с целью изучения грамотности, вероятнее всего, будет заполнена людьми, не представляющими население в целом, – не только читающими политический ежемесячник, но и готовыми уделить время участию в опросе на специфическую тему.
Выборка из последнего примера также едва ли адекватно представляет все население, поскольку студенты Гарвардской школы бизнеса, готовые участвовать в экспериментах, очевидно, более мотивированы, чем среднестатистический гражданин, а также относятся к одной, довольно узкой, группе по таким параметрам, как возраст, благосостояние и образование.
Вот как следовало усовершенствовать метод составления выборки в трех исследованиях (первый и второй примеры в данном случае объединены).
1 + 2 Чтобы определить загрязненность озера, мы ежедневно в течение года брали пробы с разных глубин в 50 случайным образом выбранных местах по всей акватории озера.
3 Изучая вопрос о возможном снижении грамотности, я собрал сравнимые данные за последние 50 лет на основе репрезентативной выборки из 100 школ.
4 В моем первом крупном исследовании, касающемся уровня мотивации населения нашей страны, использовался телефонный опрос на основе репрезентативной выборки из 500 совершеннолетних респондентов.
Ни одна из предложенных методик не является совершенной, но все они обеспечивают намного более качественный результат и повышают вероятность получения индуктивных выводов, переносимых на генеральную совокупность.
Обучение с умом: четыре критерия составления репрезентативной выборки
Провести репрезентативную выборку означает, насколько возможно, учесть все разнообразие изучаемой совокупности, будь то люди или обстоятельства. Понимание базовых принципов методичного составления эффективной выборки имеет принципиальное значение для ученых, да и всем остальным тоже будет очень полезно. Качественная выборка должна отвечать следующим условиям.
• Возможно более полная и точная передача характерных черт целевой группы (иначе невозможно узнать, какие вариации нужно в ней отобразить).
• Подходящий объем: в целом чем масштабнее выборка, тем лучше, но точное число элементов зависит от того, насколько вы должны быть уверены в результатах, а также от уровня изменчивости изучаемой совокупности, предела погрешности измерений и доли выборки, обладающей интересующим вас свойством (для расчета объема выборки разработано много эффективных онлайновых инструментов).
• Подходящий метод составления выборки. Это зависит от того, что вы изучаете и какими ресурсами располагаете. Все методы имеют ограничения и дают широкий спектр результатов: от простых «удобных» выборок, составившихся произвольным образом из добровольцев, до кейсов и сложных «многоступенчатых» выборок, для которых совокупность разбивается на кластеры, и часть их случайным образом выбирается для тщательного изучения.
Иными словами, чем реже встречается изучаемый эффект, тем большего объема должна быть выборка.
• При необходимости взвешивание результатов – некоторым приписывается больший вес для большего соответствия общей картине. Например, в исследовании транспортных расходов данные о взрослых могут получить вдвое больший вес, чем данные о детях, поскольку билеты для данной категории населения стоят в два раза дороже[11].
Проблема индукции
Доступный индуктивному аргументу максимум – это предположить, что нечто весьма и весьма вероятно. Однако мы привыкли исходить из предпосылки, что очень вероятное фактически является обязательным. Рассмотрим знаменитый пример индуктивного аргумента.
Каждое утро в течение миллионов лет восходит солнце. Следовательно, солнце взойдет и завтра утром.
По замечанию философа XVIII в. Дэвида Юма[12], все мы верим, что солнце взойдет завтра: мы ведем себя так, как если бы вероятность данного события равнялась 100 %. Однако этот очевидный факт невозможно доказать с абсолютной точностью – не более, чем следующее утверждение:
Я являюсь живым каждый день последние 10 000 дней; следовательно, я буду жить вечно.
Однажды я умру. Или, если неукоснительно следовать схеме индуктивного аргумента, вероятность того, что однажды я умру, намного, просто несоизмеримо больше вероятности, что я буду жить вечно. Аналогично почти наверняка настанет день, когда солнце перестанет существовать. Есть основания надеяться, что до наступления его еще много миллионов лет. Однако это может произойти и завтра.
Хотя утверждение «Солнце всходило миллионы лет; каждый день в будущем станет следовать этой схеме; таким образом, солнце будет всходить всегда» является безупречно валидным дедуктивным аргументом, но однажды этот дедуктивный аргумент перестанет быть обоснованным. Когда-нибудь предпосылка, что Солнечное завтра окажется таким же, каким было и вчера, уже не будет истинной.
Итак, если нечто имело место в прошлом, причем сколь угодно много раз, из этого еще не следует, что оно гарантированно случится в будущем. Данный факт иногда называют проблемой индукции{78}. Теоретически возможно, что я никогда не умру или что Солнце будет существовать вечно, но это крайне маловероятно в соответствии с нашими нынешними знаниями о Вселенной.
Возможно, вам кажется, что это высосанная из пальца проблема, важная лишь для философов. Действительно, никто – включая и самих философов – не рассуждает подобным образом: «Солнце, весьма вероятно, взойдет завтра утром, но имеется крохотный шанс, что миру настанет конец». Я не говорю: «Я почти убежден, что встречусь с тобой в кафе завтра в два часа дня, за вычетом небольшой вероятности скончаться или утратить дееспособность до этого времени».
Даже наука в данном случае не является исключением. Мы говорим «Пламя нагревает воду», а не «Пламя с большой степенью вероятности нагревает воду, как свидетельствует прошлый опыт». Мы считаем бесчисленное множество вещей фактами, опираясь на опыт и достигнутые в этом вопросе соглашения, не чувствуя потребности постоянно поминать вероятность. Зачем в таком случае вообще держать в уме, что индукция всегда имеет дело с вероятностью, а не с определенностью? Да затем, что это помогает лучше мыслить, проводить исследования и писать тексты. Причин тут по меньшей мере две.
1. Это показывает, что многие вещи, которые мы принимаем как данность, необязательно являются абсолютной истиной и