Шрифт:
Закладка:
412
Вполне вероятно, что наши ценности в итоге сводятся к чему то простому, например к классической утилитаристской доктрине повышения суммы положительного опыта. Но даже здесь возникают две серьезных трудности. Во-первых, даже положительный опыт слишком сложен и плохо изучен, чтобы мы сегодня могли объяснить его агенту. Возможно, в будущем, когда мы поймем природу опыта, появится простая формулировка, но пока ее нет. Во-вторых, вопрос о том, считать ли классический утилитаризм лучшей моральной доктриной, остается предметом (ожесточенных) споров. Если применим его принципы и окажемся неправы – например, упустим другие ключевые характеристики жизненного блага или не сможем объяснить, как следует его оптимально распределять, – мы окажемся заперты в ловушке в гораздо менее приятном для жизни мире. Я симпатизирую классическому утилитаризму сильнее, чем большинство философов, но все равно не стал бы этим рисковать. Думаю, нам всем стоит всерьез воспринимать такую моральную неопределенность.
413
Лично я полагаю, что вообще то человеческие ценности во многом сходятся. Мы неспроста уделяем основное внимание различиям, а не тому факту, что почти все мы отдаем предпочтение более долгой, здоровой и благополучной жизни, контролю над своей судьбой, процветающей среде и так далее. Я бы предложил такую схему: обеспечить, чтобы ИИ-системы поддерживали жизненные ценности, которые не вызывают споров, но с осторожностью относились к оспариваемым и неоднозначным ценностям, а ответственность за разрешение этих споров и неоднозначности путем размышлений и дискуссий возложить на плечи людей будущего.
414
Повесть американского писателя-фантаста Джека Уильямсона (With Folded Hands, 1947). – Прим. ред.
415
Можно рассмотреть происходящее с технической точки зрения. Стюарт Рассел (2014) сравнивает это с распространенной проблемой оптимизации: “Система, которая оптимизирует функцию с числом переменных n, где функциональное требование зависит от подмножества размером k
Исследователи проблемы контроля сравнивают ситуацию с законом Гудхарта (Goodhart, 1975): “Любая наблюдаемая статистическая закономерность склонна к разрушению, как только на нее оказывается давление с целью управления”. Изначально этот закон был предложен для того, чтобы анализировать проблемы постановки целей, которые согласуются с нашими истинными желаниями. Хотя намеченные цели могут и выполняться, часто в процессе они перестают соответствовать тому, что нам действительно важно.
416
Это может произойти одним из двух способов. Системы, основанные на использовании моделей, спрогнозируют последствия отключения и увидят, что в таком случае будут серьезно ограничены все будущие траектории и, как правило, отрезаны многие из лучших вариантов. Соответственно, действиям, ведущим к отключению, будет присвоена очень низкая ценность.
Безмодельные системы тоже могут научиться избегать отключения. Orseau & Armstrong (2016) показывают, как периодическое отключение агента в процессе обучения может привести к появлению систематических ошибок в усвоенном поведении (и предлагают возможное решение проблемы).
Далее я по большей части буду исходить из того, что продвинутый ИИ основан на использовании моделей. Или хотя бы способен применять свои фоновые знания о мире, чтобы с первой попытки успешно справляться со сложными и комплексными задачами, вместо того чтобы всегда сначала делать многие тысячи неудачных попыток, нащупывая путь к успеху. Хотя на момент написания этой книги такие системы еще не созданы, это совместимо с текущей парадигмой и является условием для того, чтобы признать систему общим ИИ. Нет необходимости считать, что такая система справляется с задачами с первого раза лучше, чем человек.
417
Omohundro (2008); Bostrom (2012). В книге Ника Бустрёма Superintelligence (2014) подробно объясняется, как именно такие инструментальные цели могут привести к очень плохим исходам для человечества.
418
Алгоритмы обучения редко учитывают возможность изменения функции вознаграждения в будущем. Неясно, будут ли они оценивать будущие состояния, ориентируясь на текущую или на будущую функцию вознаграждения. Исследователи приступают к изучению этих возможностей (Everitt et al., 2016), и каждая из них сопряжена с трудностями. Применение будущей функции вознаграждения помогает справиться с проблемой противостояния агентов попыткам человека откалибровать их функцию вознаграждения, но усугубляет проблему стимуляции “центра удовольствия” – склонности агентов менять собственную функцию вознаграждения таким образом, чтобы получать вознаграждение стало проще.
419
Несколько из этих инструментальных целей можно считать примерами “сдвигов распределения” – ситуаций, когда агент в процессе работы сталкивается с совершенно неожиданными обстоятельствами, что вынуждает его совершать действия, которые никогда не демонстрировались в процессе обучения и испытания. В этом случае агент в процессе испытания может и не получить возможность стать сильнее людей, которые им управляют, а следовательно, ему не понадобится демонстрировать поведение, сопряженное с обманом и захватом контроля над ресурсами.
420
Например, в книге “Просвещение продолжается” (2018, pp. 299–300; перевод Г. Бородиной и С. Кузнецовой) Стивен Пинкер говорит, что сценарии риска, сопряженного с ИИ, “основаны на двух гипотезах… (2) этот ИИ будет так гениален, что сможет придумать, как преобразовывать химические элементы и перепрошивать мозги, но так придурковат, что погрузит мир в хаос из за элементарной оплошности или недопонимания”.
421
Обратите также внимание, что агент может замечать вероятное несоответствие между своими и нашими ценностями (что вызовет враждебность к человечеству), даже если наши ценности ему не совсем понятны. В этом случае, даже если он был запрограммирован таким образом, чтобы заменять свои ценности на наши, вполне возможно возникновение несоответствия, пусть и менее опасного.
Есть несколько перспективных направлений исследований проблемы контроля, связанных с предоставлением агентам возможности обновлять свои функции вознаграждения таким образом, чтобы они лучше соответствовали нашим. Одно из них – широкий набор идей о “возможности внесения поправок”, то есть о создании агентов, которые не противятся изменению их целей. Другое – основанный на неопределенности подход к обучению с вознаграждением, в рамках которого агент действует не так, словно уверен в своей трактовке человеческих ценностей, а так, словно пребывает в состоянии моральной неопределенности, а степень его уверенности в различных человеческих ценностях зависит от данных, полученных к настоящему моменту (Russell, 2019). Это подталкивает агента считаться с людьми (которые лучше понимают собственные ценности) и просить совета при необходимости. Поскольку я сам занимаюсь философскими вопросами, связанными с моральной неопределенностью, я нахожу этот подход особенно перспективным (MacAskill & Ord, 2018; MacAskill, Bykvist & Ord, готовится к публикации). Чтобы все сделать правильно, потребуется и