Шрифт:
Закладка:
• Совпадения кажутся потрясающими только потому, что мы игнорируем бесчисленные повседневные события, которые нас не потрясли. На самом деле редкие и маловероятные вещи происходят постоянно.
Использование выборки
Индукция представляет собой процесс обобщения. Она движется от частного к общему, в связи с чем становится важным понятие выборки{71}. Выборка включает несколько конкретных случаев, которые изучаются, чтобы на их основе сделать обобщающее заключение об универсальной черте, тенденции или закономерности.
Если я изучаю поведение кошачьих, то могу использовать своего домашнего кота Бэзила в качестве олицетворения всех кошек вообще и построить индуктивный аргумент. Как вы оцениваете его силу?
Это не особенно сильный индуктивный аргумент, поскольку в моей выборке всего один кот. В исследованиях объем выборки принято обозначать буквой n: запись n = 1{72} означает выборку из одного элемента, n = 100 – выборку из 100 элементов и т. д. Поскольку n = 1 – выборка наименьшего возможного объема, эта формула стала своего рода сокращенным обозначением того факта, что казус, описывающий один-единственный пример, почти наверняка является слабым аргументом.
Если некто заявляет: «Мой дядя курил всю жизнь и дожил до 90 лет; значит, и тебе от курения вреда не будет», то единственно верный (хотя и невежливый ответ) заключается в том, что чрезвычайно глупо полагаться в вопросах здоровья на выборку, объем которой равен единице.
Вернемся к кошкам. Мой аргумент был бы значительно сильнее, если бы опирался на более обширную выборку. В целом верно следующее.
• Чем больше объем выборки, тем надежнее она представляет целое. Индуктивные аргументы на основе маленьких выборок значительно слабее аргументов, опирающихся на масштабные выборки.
Хотел бы я, чтобы это был невыдуманный пример…
Выборки большого объема, однако, недостаточно, чтобы обеспечить истинность оценок. Предположим, у меня есть сайт, посвященный кофе. Я хочу узнать, сколько людей предпочитают кофе чаю, и устраиваю опрос под названием «Большое кофейное исследование Тома», предлагая посетителям сайта выбрать ответы на несколько вопросов об их пристрастиях. Результаты таковы.
В ходе последнего исследования с участием более чем 2000 человек поразительно большое число респондентов – целых 80 % (их оказалось в четыре с лишним раза больше, чем поклонников чая) – назвали кофе своим любимым горячим напитком, а больше половины – вообще самым любимым из всех напитков, включая спиртные. Безусловное лидерство кофе в нашей стране подтверждено официально!
Вы заметили мою ошибку? Дело в том, что я провел опрос на сайте, посвященном исключительно кофе. Хотя в нем участвовало более 2000 человек, все они, без исключения, отвечали двум условиям: посещали специализированный сайт о кофе и решили принять участие в опросе, посвященном кофе.
Вероятно ли, что эта специфическая группа людей представляет вкусы населения в целом? Нет. Мое заявление, что кофе – «официально» самый популярный напиток в стране, смехотворно. Обоснованно я могу утверждать лишь то, что «он оказался самым любимым напитком читателей моего “кофейного” сайта, решивших принять участие в опросе, посвященном популярности кофе». Проблема возникла потому, что я использовал нерепрезентативную выборку – хотя и достаточно большого объема, но не представляющую должным образом все население страны, о вкусах которого я сделал заявление.
Хорошая выборка должна быть максимально репрезентативной{73}, то есть очень близкой к большей группе, о которой делается обобщающее заключение. Это подводит нас к важнейшему вопросу: как убедиться, что выборка репрезентативна?
Ответить на него нелегко, отчасти потому что составить идеальную репрезентативную выборку невозможно. В целом лучшие выборки имеют максимальный объем и являются грамотно рандомизированными{74}, то есть включающими результаты случайного выбора из всех интересующих исследователя возможных случаев, осуществленного методом, не вносящим искажений.
Поскольку идеальная репрезентативность выборки недостижима, важно постоянно помнить как о возможных источниках ошибки отбора{75}, так и о степени погрешности, присутствующей в исследовании. Погрешности неизбежны во всех выборках и измерениях, это не заблуждение и не промах исследователя.
Погрешность измерения{76} характеризует точность системы измерений и обычно представляется в виде «±Х», где Х – потенциальная разница между полученным в результате измерения и действительным значениями. Например, если вы пользуетесь набором шкал, имеющих точность до 10 г, то должны добавлять к записи результатов измерений «±10 г» и не можете представлять их в виде дробных значений с долями граммов, что могло бы создать ложное представление о точности.
Читайте не спеша – тема сложная.
Предел погрешности{77} – более сложный показатель, равный наибольшей ожидаемой разнице между результатами, полученными при выборке, и теми, которые вы получили бы, если бы смогли протестировать всю совокупность. Обычно его записывают в виде «±Х с доверительной вероятностью Y%», что означает «если бы мы продолжали это тестирование, то в Y% случаев результаты укладывались бы в интервал от – Х до +Х вокруг результата выборки». Например, если вы сообщаете, что в вашем исследовании предел погрешности составляет «±5 % с доверительной вероятностью 80 %», это значит, что 80 % истинных значений по всей совокупности лежат в интервале от величины на 5 % меньшей до величины на 5 % большей указанного результата измерений.
Помните о возможных источниках ошибки отбора, которых следует избегать в собственных исследованиях и учитывать, оценивая чужие изыскания.
• Самоотбор – такое составление выборки, при котором участники определенного типа фактически выбирают себя сами. Например, человек, готовый заполнить подробную анкету, существенно отличается от среднестатистического респондента.
• Выбор специфической области – перекос выборки, чрезмерная представленность в ней определенной области: например, при исследовании мирового городского населения на основе статистических данных, собранных только в Лондоне и Нью-Йорке.
• Исключение – составление выборки, определенные элементы которой представлены непропорционально слабо. Скажем, наблюдение за дикой природой только в дневное время оставит за рамками исследования ночных животных.
• Предварительный отбор – использование на первом этапе составления выборки метода, который приведет к отбору участников определенного типа: например, поиск добровольцев для участия в клиническом исследовании через объявления, распространяемые лишь в приемных покоях больниц.
• Систематическая ошибка выжившего – выборка, охватывающая только случаи успеха; является чрезвычайно односторонней в ситуациях, когда важно также учитывать и неудачи. Например, изучение коммерческих долгов исключительно на материале компаний, осуществляющих операции не менее десяти лет, полностью игнорирует фирмы, развалившиеся раньше этого срока.
Каждый из следующих примеров имеет по крайней мере одну принципиальную проблему методики составления выборки. Постарайтесь их