Шрифт:
Закладка:
Возможно, вы потеряли ценную информацию, хранящуюся на персональном компьютере, из-за того, что не сделали резервную копию данных, хотя знали, что она очень важна. Надеемся, что последствия потери данных не столь плачевны, как те, с которыми столкнулся валлийский системный инженер по имени Джеймс Хоуэллс. В 2013 году он случайно выбросил жесткий диск, принадлежавший старому компьютеру (жесткий диск, извлеченный после того, как пролитый лимонад уничтожил его игровой ноутбук), и слишком поздно понял, что потерял приватный ключ из шестидесяти четырех символов, который разблокировал то, что начиналось как его скромные инвестиции в биткоины. Несмотря на неустанные попытки получить разрешение на извлечение драгоценного жесткого диска с городской свалки, спустя восемь лет он так и не смог получить полмиллиарда долларов, которые тогда стоил биткоин.
Социальные сети изменили бизнес, политику и дружеские отношения, сделав вирусные сообщения привычным термином. Глобальная финансовая индустрия связывает каждый банк и бесчисленные домохозяйства в каждой стране, делая нас уязвимыми перед человеческими ошибками, происходящими на другом конце света. Как объясняет мой друг, профессор стратегии Колумбийского университета Рита Макграт, много лет назад большинство наших учреждений были разделены и тем самым защищены от последствий ошибок за их стенами. Теперь это не так. Оцифровка огромных объемов информации продолжает расти в геометрической прогрессии по мере снижения стоимости вычислительных мощностей. Развитие интеллектуальных систем, которые взаимодействуют независимо друг от друга, породило бесконечное множество потенциальных сбоев. Такая взаимозависимость - питательная среда для сложных сбоев. По словам Риты, когда "вещи, которые раньше хранились отдельно, сталкиваются друг с другом (другими словами, когда некогда сложные системы становятся сложными), становится гораздо сложнее предсказать, что произойдет дальше". ИТ создают новые уязвимости, поскольку взаимосвязанность мгновенно распространяет последствия небольших сбоев.
Нам не нужно искать дальше коронавируса 2019 года, который зародился в Ухане (Китай) и быстро распространился по всему миру, чтобы найти примеры того, как глобальная взаимосвязь делает сложные сбои более вероятными. Рассмотрим этот небольшой пример. В начале 2020 года, когда спрос на защитные маски внезапно вырос по всему миру, фабрики в Китае начали наращивать производство, грузить их на грузовые суда и отправлять в разные страны. В результате пустых морских контейнеров скопилось в этих далеких странах как раз в тот момент, когда Китай больше всего нуждался в них, чтобы экспортировать больше масок.
Отслеживание контактов - попытка ограничить распространение вируса путем поиска людей, с которыми контактировал инфицированный, чтобы изолировать всех участников, - основана на признании сложных неудач. Каждый инфицированный или подвергшийся воздействию вируса человек потенциально является одной из множества причин сбоя, которым является продолжающаяся пандемия. Мои друзья Крис Клирфилд и Андраш Тильчик буквально написали книгу о комплексном сбое и о том, почему он находится на подъеме. Их увлекательная, а порой и пугающая книга Meltdown объясняет "общую ДНК ядерных аварий, катастроф в Twitter, разливов нефти, провалов на Уолл-стрит и даже правонарушений". Как и я, Крис и Андраш попали под влияние социолога Чарльза Перроу, который выявил факторы риска, делающие определенные виды систем уязвимыми к сбоям.
Как системы порождают сложные сбои
Мысли, которые в итоге превратились в мою систему классификации неудач, начали формироваться тридцать лет назад. Мои исследования были посвящены вопросу о том, почему медицинские ошибки сохраняются даже в первоклассных больницах - и даже после того, как внимание экспертов и общественности к этой проблеме резко возросло. Открытие распространенности непреднамеренного вреда в больницах стало шоком как для общественности, так и для медицинских работников в конце 1990-х годов. По оценкам, такие ошибки в американских больницах ежегодно становятся причиной четверти миллиона ненужных смертей пациентов. Как могло случиться, что так много хорошо обученных и благонамеренных медицинских работников, которые исповедовали принцип "не навреди", продолжали это делать? Как я выяснил, во многом причина кроется в природе комплексного отказа.
Благодаря своему инженерному образованию я стал поклонником новаторской книги Перроу "Нормальные аварии", впервые опубликованной в 1984 году и оказавшей неизгладимое влияние на представления экспертов о безопасности и рисках. Перроу сосредоточился на том, как системы, а не отдельные люди, приводят к последующим отказам. Важность этого различия нельзя недооценивать. Понимание того, как системы приводят к сбоям, и особенно того, какие виды систем особенно подвержены сбоям, помогает исключить вину из уравнения. Это также помогает нам сосредоточиться на снижении количества отказов путем изменения системы, а не путем изменения или замены человека, который работает в неисправной системе.
Я обратился к работе Перроу, чтобы разобраться с тем, как сохраняются медицинские несчастные случаи. Перроу описал обычный несчастный случай - термин, призванный спровоцировать - как предсказуемое (то есть нормальное) следствие системы с интерактивной сложностью и тесной связью. Интерактивная сложность означает, что множество частей взаимодействуют таким образом, что последствия действий трудно предсказать. Например, слегка изменив курс своего судна, капитан Ругиати вышел на траекторию, где внезапное появление двух лодок с омарами потребовало последующего внезапного и трудновыполнимого поворота, завершившегося фатальной аварией. Жесткая связь - термин, заимствованный из инженерного дела, - означает, что действие в одной части системы неумолимо ведет к реакции в другой части; прервать цепь событий невозможно. Когда механическое оборудование банковского банкомата принимает вашу банковскую карту, программное обеспечение, управляющее машиной, и банковское приложение тесно связаны друг с другом и работают вместе, чтобы завершить вашу транзакцию. Если какой-либо компонент выходит из строя, то выходит из строя и вся система. В системах с жесткой связью нет слабины.
Для Перроу назвать несчастный случай нормальным означало, что некоторые системы функционируют как подстерегающие несчастные случаи. Их конструкция делает их опасными. Это просто вопрос времени, когда такие системы выйдут из строя. Напротив, система с низкой интерактивной сложностью и неплотной связью - скажем, начальная школа - не будет подвержена обычным авариям. Если же система имеет высокую сложность, но не имеет тесной связи (например, большой университет с множеством научных подразделений, которые работают относительно независимо), то в одной части может произойти сбой, не вызывающий автоматически серьезного сбоя во всей системе.
Как отмечают ученики Перроу Крис и Андраш в книге Meltdown, со временем все больше и больше наших учреждений попадают в опасную зону Перроу: "Когда Перроу