Шрифт:
Закладка:
"Снова правильно", - сказал я, на этот раз с ухмылкой. Джиа прекрасно понимал, к чему я клоню, но он был готов позволить мне затянуть с этим, чтобы донести до него суть. "Итак, у нас есть бесконечные размеры. Что еще?"
"Освещение? Кружка может быть ярко освещена или находиться в тени. И цвет тоже. Кружки могут быть практически любого оттенка, а на некоторых есть рисунки и слова".
"Хорошо, хорошо. И сколько вариаций для каждого из них?"
"Одно и то же. Оба бесконечны".
"А мы еще только начинаем", - сказал я. "Как насчет перспективы? Куда направлена ручка? Мы смотрим на кружку снизу вверх или сверху вниз? А как насчет окклюзии? Есть ли что-то перед ней? Стопка книг? Кошачий хвост? Другая кружка? А что насчет фона? Кружка стоит перед стеной? Окно? Находится ли она в шкафу?"
"Бесконечно, бесконечно, бесконечно, бесконечно", - подытожила Цзя, довольно точно.
Чем больше я думал об этом, тем больше убеждался в развивающем характере нашей работы - попытке синтезировать восприятие ребенка в годы его становления в виде данных. Я представил себе, как дети играют с вещами - как они тянутся к ним, ощупывают и трогают, тычут и тыкают. Они привыкают к изменениям освещения и перспективы, беря вещи в руки, поворачивая их и рассматривая под разными углами. Они играют в игры вроде "пикабу", узнавая, что предметы сохраняются, даже если их на мгновение спрятать. Все это инстинкты, которых так не хватало нашим алгоритмам.
"Хорошо, но мы так и не пришли к числу", - размышлял Цзя. "Пока что мы просто умножили бесконечность на саму себя. Что же нам с этим делать?"
"Полагаю, в этом и заключается моя мысль", - ответил я. "Никакого количества изображений не будет достаточно. Поэтому, сколько бы мы ни думали о количестве, мы должны думать о большем. А потом еще больше. Мы в любом случае угадываем, так что давайте угадывать по-крупному".
Мы поставили перед собой цель сделать тысячу разных фотографий каждой категории предметов. Тысяча разных фотографий скрипок. Тысяча разных фотографий немецких овчарок. Тысяча разных фотографий брошенных подушек. И так далее, более чем по двадцати двум тысячам категорий. Что-то около двадцати миллионов изображений. И даже эта цифра говорила нам только о готовом продукте; скорее всего, нам придется начать с сотен миллионов, а то и почти миллиарда изображений-кандидатов.
Цзя смотрел скептически. "Я понимаю теорию, но вы говорите об астрономическом объеме работы. Это выходит за рамки нескольких поисков в Google".
Он, конечно, был прав, но нам нужно было принять этот факт, а не прятаться от него. Мы пытались отразить всю полноту реального мира. Цифры должны были нас пугать.
"Цзя, все, что мы хотим, чтобы наши алгоритмы увидели, уже где-то есть. Каждая деталь фотографируется, даже пока мы разговариваем. В наши дни у каждого есть телефон-раскладушка. Каждый получает на Рождество цифровую камеру. Представьте, что вы увидите, если сможете каким-то образом собрать все эти фотографии в одном месте. Это была бы мозаика всего мира! Вся повседневная жизнь, от одного конца до другого".
"При условии, что мы сможем как-то это организовать", - добавил он. "Изображения сами по себе ничего не делают, верно? Все они должны быть помечены, прежде чем мы сможем использовать их для обучения модели. И каждая метка должна быть точной". Цзя сделал паузу, как будто его осенила серьезность собственных слов. "Это уже совсем другой разговор".
"Да, да, да", - ответила я. "По одному чуду за раз".
Мы с Джией наблюдали из угла лаборатории, как ряд студентов-старшекурсников выдает ровный ритм щелчков мыши и нажатий клавиш. Отклик на письмо, которое мы разослали в начале недели, был быстрым. Требуются: Студенты, готовые помочь загрузить и разметить изображения из Интернета. Гибкие смены. 10 долларов в час. Это казалось справедливой сделкой: мы сделаем шаг к новой эре машинного интеллекта, а они получат деньги на пиво. Это был приятный момент, но реальность не заставила себя долго ждать.
"Мне кажется, Цзя, или все это выглядит немного... медленно?"
"Да, я беспокоился об этом. На самом деле, я засекал несколько минут их темпа и делал некоторые экстраполяции".
О-о.
"С такими темпами мы можем ожидать, что ImageNet будет завершен в..."
Я тяжело сглотнула. Он заметил.
"Да: девятнадцать лет, плюс-минус. Фей-Фей, я верю в этот проект - правда верю, но я не могу так долго ждать своей докторской".
Справедливое замечание, Цзя.
"Так что же нам делать?" - спросил он. "Может, просто наймем больше студентов?"
"Это один из вариантов, конечно. Но это будет стоить нам денег, и если наш временной горизонт составляет девятнадцать лет, я не уверен, что бюджет нашей лаборатории будет достаточно велик, чтобы выкупить наш выход".
Так или иначе, было ясно, что для решения проблемы нам понадобится больше, чем горстка подростков. Этого едва хватило для Caltech 101, который был просто ошибкой в сравнении с ImageNet. Казалось, необходимо применить новую тактику.
Я подумал о работе, которой Цзя занимался вместе с Каем Ли до прихода в мою лабораторию. Их мир был миром сложных систем - ошеломляюще сложных - и они жили стремлением к эффективности. Более высокая производительность. Более низкая стоимость. Кратчайший путь. Конечно, протеже одного из лучших в мире разработчиков микропроцессоров мог бы придумать, как повысить производительность некоторых детей.
"Цзя, подожди секунду". Я жестом указал на студентов. "Это ведь все процесс, верно? Разве это не инженерная задача?"
Он на мгновение задумался, а затем бросил на меня взгляд человека, собирающегося засучить рукава.
"Хорошо", - сказал он со слабым намеком на ухмылку. "Давайте поговорим об оптимизации".
Следующие месяцы вошли в ритм, хотя и не слишком изящный. ImageNet был диким зверем, который не поддавался укрощению и вырывался каждый раз, когда мы подходили слишком близко. Мы продолжали бороться, одерживая все новые и новые победы - по крайней мере, маленькие, - а также накапливая царапины и синяки. Но каждый раз, когда нам казалось, что мы наконец загнали его в угол, он издавал более глубокий, более гортанный рев и отправлял нас в бегство.
К счастью для меня, Цзя был из тех партнеров, которые в ответ на досадные проблемы начинают думать еще активнее. Участие людей было самой затратной частью нашего процесса, как с точки зрения времени, так и с точки зрения денег, и именно здесь он начал свою контратаку: сделал своей личной миссией сократить эти затраты