Шрифт:
Закладка:
Теперь, после стольких лет прорывов в области компьютерного зрения, LLM вызывают ренессанс в обработке естественного языка и, вполне возможно, предвещают следующую великую эпоху ИИ. Под капотом новый тип модели машинного обучения, известный как "трансформатор", который, вероятно, является самым большим эволюционным скачком в дизайне нейронных сетей со времен AlexNet в 2012 году, делает LLM возможными, воплощая в себе все необходимые качества: гигантский масштаб, возможность ускорить время обучения за счет обработки данных большими параллельными массивами и невероятно сложный механизм внимания. По любым меркам это веха, если не точка перегиба; почти сразу после публикации трансформатор продемонстрировал возможности, настолько впечатляющие, что они шокировали даже экспертов, стоявших за его созданием, и с тех пор прогресс не замедлился.
Мое первое знакомство с текстом, созданным с помощью большой языковой модели, было сюрреалистическим опытом, и оно заставило вспомнить о нашей работе с Андреем. Я вспомнил, как захватывающе было видеть, как в те дни ИИ составлял одно полное предложение - даже неуклюже сформулированное - для описания того, что он видел. Всего несколько лет спустя алгоритмы стали настолько искусными словесниками, что могут отвечать на вопросы, сочинять истории и даже объяснять шутки. Более того, зарождающийся класс "мультимодальных" сетей, обученных не только на тексте, но и на фотографиях, аудио, записанном голосе и даже видео, учится генерировать и эти медиа. Это развитие, которое на практике часто кажется опережающим на поколение или два: всего за десять лет алгоритмы прошли путь от попыток распознать содержимое фотографий до сверхчеловеческого уровня, а теперь, что удивительно, самостоятельно создают совершенно новые изображения, ничуть не хуже фотографических, но полностью синтетические и с зачастую тревожным уровнем реализма и детализации. Похоже, что эра глубокого обучения уже уступает место новой революции - наступает эра генеративного ИИ.
Но в основе этой технологии, которая даже мне порой кажется абсолютным волшебством, лежит еще один урок силы данных в больших масштабах. И, конечно, "масштаб" - это главное слово. Для сравнения: AlexNet дебютировала с сетью, состоящей из шестидесяти миллионов параметров - этого достаточно, чтобы разумно воспринимать набор данных ImageNet, по крайней мере частично. В то время как трансформаторы, достаточно большие для обучения на мире текстов, фотографий, видео и многого другого, имеют сотни миллиардов параметров. Это, конечно, создает бесконечные инженерные проблемы, но удивительно элегантную науку. Как будто эти возможности ждали нас все это время, со времен считывателя ZIP-кодов ЛеКуна, неокогнитрона Фукусимы или даже перцептрона Розенблатта. Со времен ImageNet. Все это было где-то здесь. Нужно было только сделать простую идею достаточно большой.
Однако все чаще такие объяснения кажутся простой семантикой. Большие языковые модели, даже мультимодальные, не могут быть "мыслящими" в самом прямом и великом смысле этого слова - и, чтобы мы не слишком увлекались, их склонность к абсурдным концептуальным промахам и готовность сочинять правдоподобно звучащую чепуху заставляет легко вспомнить об этом факте. Тем не менее, по мере того как они генерируют все более сложные тексты, изображения, голоса и видео - до такой степени, что все больший хор комментаторов бьет тревогу по поводу нашей способности отделить правду от фантазии, как отдельных людей, как институтов и даже как обществ, - не всегда ясно, насколько важна эта разница. Эта мысль становится особенно отрезвляющей, когда понимаешь, что все это - едва ли версия 1.0.
И так до бесконечности. Алгоритмы проявляют себя на уровне человеческой сложности. Роботы постепенно учатся ориентироваться в реальном окружении. Модели зрения обучаются не просто на фотографиях, а благодаря погружению в полностью трехмерные миры в реальном времени. ИИ, который генерирует так же бегло, как и распознает. И, поднимаясь вокруг нас, этические последствия, которые, кажется, с каждым мгновением все глубже проникают в человеческие дела. Но наука всегда была именно такой. Путешествие, которое становится все длиннее и сложнее по мере того, как оно разворачивается. Бесконечно разветвленные пути. Постоянно расширяющийся горизонт. Новые открытия, новые кризисы, новые споры. История, вечно находящаяся в первом акте.
Решение посвятить свою жизнь этой некогда малоизвестной области завело меня дальше, чем я мог себе представить. По какой-то исторической случайности я стал частью поколения, которое видело, как она превращается из академической арканы в материал для заголовков газет. Это позволило мне путешествовать по миру, сидеть за одним столом с мировыми лидерами, а в последние годы выступать на самых больших площадках, которые только существуют. Ослепительные огни, неоновые цвета, аудитория, сидящая рядами, которые, кажется, бесконечно простираются к горизонту. Это редкие привилегии, и каждая из них была неожиданной честью.
Но лаборатория остается тем местом, которое я люблю больше всего: гул флуоресцентных ламп, жесткие стулья, несвежий кофе, бесконечные щелчки и набор текста, скрип маркеров на досках. Так много произошло с тех пор, как в 2012 году появился AlexNet, с тех пор, как мы с Цзя начали работу над ImageNet в 2006 году, с тех пор, как Пьетро положил мне на стол распечатку исследования ЭЭГ Саймона Торпа. Поверьте мне. Вы захотите это прочитать. Но даже сейчас Полярная звезда светит на дорогу, которая простирается передо мной. Путешествие все еще манит. Еще так много нужно успеть.
Мне часто вспоминается моя первая встреча с Пьетро и Кристофом, когда я увидел в них гигантов. Трудно представить, что кто-то может видеть меня таким - один только мой физический рост, вероятно, дисквалифицирует меня - но в той мере, в какой я действительно обладаю некоторым авторитетом, они научили меня использовать его с пользой: как приглашение, а не как барьер. Как послание каждому студенту, готовому приложить достаточно усилий, чтобы оказаться в этом месте: если вы действительно увлечены этим делом - неважно, кто вы и откуда - ваше место здесь. Давайте строить будущее вместе.
Полдень был ярким, даже когда солнце все ниже и ниже опускалось над деревьями, а воздух был достаточно теплым, чтобы мы оставались в тени беседки. Моя мать сидела тихо, довольная, а ее внуки визжали и смеялись, гоняя футбольный мяч по лужайке. Мой отец изо всех сил старался не отставать и смеялся вместе с ними, не уступая им в темпераменте. Наконец-то он был в своей стихии - в роли дедушки, которая не требовала от него ничего, кроме игривости, которую он оттачивал всю жизнь.
Я опустил глаза на свой вибрирующий телефон и увидел сообщение от директора по политике Стэнфордской ассоциации HAI.
Национальное исследовательское облако только что прошло через Сенат
Часть