Шрифт:
Закладка:
В отличие от этого, результаты работы менеджеров банка оказались на удивление низкими: скудный показатель d′ составил 0,13 (а точность на уровне шансов - 0). Аналогичные результаты работы экспертов были обнаружены и в медицине. Действительно, разочарование по поводу низкой эффективности работы врачей отделения неотложной помощи при классификации пациентов с сердечным приступом стало основной причиной того, что медицинские исследователи Ли Грин и Дэвид Мер разработали одно из первых быстрых и экономных деревьев в медицине. 17 Одним из решений этой проблемы является обучение врачей и менеджеров банков систематической разработке и использованию быстрых и экономных деревьев. В книге "Классификация в дикой природе" Константинос Кацикопулос и его коллеги описывают, как быстрые и экономные деревья достигают таких же результатов во многих других задачах классификации, а также как построить быстрое и экономное дерево на основе количественных и качественных данных. 18 В целом, это исследование - еще одна демонстрация того, как эвристика может быть эффективным инструментом в большом мире. Важно отметить, что, в отличие от большинства алгоритмов машинного обучения , быстрые и экономные деревья абсолютно прозрачны, что позволяет менеджерам понимать, обучать и изменять их.
Прогнозирование выбытия населения
Во всех исследованиях, описанных в этой главе, для проверки точности прогнозирования эвристики или алгоритма использовался метод кросс-валидации. В базовой форме кросс-валидации набор данных делится на две части: обучающую и тестирующую выборки. Свободные параметры модели оцениваются на обучающей выборке, и с этими значениями параметров модель применяется на тестирующей выборке: точность модели там является ее предсказательной точностью. Этот подход также известен как предсказание вне выборки и обычно практикуется в машинном обучении и аналитике данных. Он является улучшением по сравнению с подгонкой данных, при которой параметры модели оцениваются по всему набору данных, а точность модели определяется тем, насколько хорошо она соответствует данным. Подгонка данных имеет тенденцию "объяснять" закономерности, вызванные случайным шумом, что приводит к чрезмерной подгонке. Использование подгонки вместо прогнозирования - проблема, до сих пор не признанная многими исследователями и практиками бизнеса. Она способствует возникновению иллюзии сложности - убежденности в том, что сложные стратегии всегда будут более точными, чем простые. Сложные стратегии с большим количеством свободных параметров могут лучше подходить к данным, но не обязательно лучше предсказывать их на основе выборки.
Однако модели, хорошо справляющиеся с предсказаниями вне выборки, могут столкнуться с проблемами, когда их применяют для предсказаний вне популяции, когда модели, обученные на наборах данных, представляющих одну популяцию, используются для предсказания моделей другой популяции. В данном случае популяция имеет свободное определение. Это может быть группа людей, сфера деятельности или события в определенный период времени или в определенном месте. В мире VUCA обобщаемость модели для разных групп населения может быть весьма сомнительной. Например, в случае принятия решений о выдаче кредитов эффективные модели, разработанные для небольших компаний, работающих в крупных городах в 2010-х годах, могут перестать работать для других типов компаний или даже для тех же типов компаний в 2020-х годах, поскольку могут измениться сигналы, политика и экономическая среда. Эвристика умножения на 6 - еще один наглядный пример: она хорошо работает для прогнозирования доходов от покупок в приложениях, но не для разных видов доходов. В этом случае решение состоит в том, чтобы оценить мультипликатор для других областей на основе данных. В следующем обсуждении мы приведем еще два примера этой проблемы в здравоохранении.
После вспышки пандемии COVID-19 больницы и медицинские исследователи по всему миру разработали сотни алгоритмов искусственного интеллекта, чтобы помочь диагностировать пациентов и управлять ресурсами. Эффективные алгоритмы не только спасли бы мир, но и имели бы огромный коммерческий потенциал. Но в 2021 году, через два года после начала пандемии, в нескольких обзорных исследованиях было заявлено, что алгоритмы в основном бесполезны, а некоторые даже могут быть вредны. 19 У этого колоссального провала есть множество причин. Одной из главных является невозможность обобщить алгоритм за пределами набора данных, на котором он был обучен.
По словам Дерека Дриггса, соавтора одного из обзорных исследований, их группа из Кембриджского университета обучала свой алгоритм на наборе данных со снимками грудной клетки, сделанными, когда пациенты находились в положении лежа или стоя. 20 Поскольку те, кого сканировали в положении лежа, как правило, были более серьезно больны, алгоритм использовал этот весьма показательный, но ложный признак (т. е. положение тела) при классификации пациентов с высоким и низким риском. В другом случае исследователи обучали свои алгоритмы на сканах здоровых детей как на экземплярах пациентов, не относящихся к группе COVID-19. В результате алгоритмы научились отличать детей от взрослых, но не отличать неинфицированных, большинство из которых были взрослыми, от инфицированных, поэтому их диагностическая ценность была невелика. Эти примеры показывают, что даже если предсказание вне выборки является превосходным, предсказание вне популяции все равно может оказаться неудачным, поскольку алгоритмы могут улавливать сигналы, которые не имеют отношения к задаче.
Epic Systems - крупнейшая в США компания по разработке программного обеспечения для здравоохранения. К 2021 году ее программное обеспечение использовалось в более чем 2400 больницах по всему миру и для ведения медицинских карт примерно двух третей всего населения США. Вооружившись таким обилием данных, Epic разработала различные алгоритмы медицинской диагностики на основе искусственного интеллекта. Например, ее модель для выявления сепсиса широко используется в больницах США. Поскольку эта модель, как и большинство алгоритмов "черного ящика", является собственной, мало кто за пределами компании знает, как она работает, но это не мешает исследователям проверять ее диагностическую валидность. В одном из исследований группа ученых обнаружила, что среди 2 552 пациентов с сепсисом из 38 000 госпитализаций модель Epic не поставила диагноз 67 %; кроме того, среди 7 000 предупреждений о сепсисе, которые выдала модель, только 12 % оказались верными, что привело к огромному количеству ложных срабатываний. 21 В целом использование модели не только подвергает опасности многих пациентов, но и приводит к растрате большого количества ресурсов больницы.
Это исследование - не единичный случай. Другое исследование показало, что точность модели сепсиса Epic с годами снижалась и в конце периода едва превышала случайный уровень . 22 Основной причиной такого снижения является сдвиг данных, который происходит, когда в меняющемся мире популяция меняется со временем, но алгоритм остается неподвижным с момента обучения. Конкретная причина неудачи модели Epic была двоякой: изменение в новой системе кодирования заболеваний, которая не была обновлена в модели, и приток новой группы пациентов. Осознав проблемы, Epic пересмотрела