Шрифт:
Закладка:
Для меня было большой честью участвовать в исследованиях, которые, казалось, оказывали влияние на всю область, но самой большой наградой была философская. Наши результаты пополнили ряды десятилетий работ, свидетельствующих о том, что в основе человеческого зрительного восприятия лежит простая идея: прежде всего, наше зрение основано на осознании четко определенных категорий. На распознавании вещей. По выражению лица Пьетро - едва уловимому, но безошибочному - я понял, что он согласен. Я все больше убеждался, что мы находимся на пороге раскрытия секрета всего сущего.
По мере приближения конца второго года обучения в Калтехе я почувствовал, что прочитал достаточно литературы, посетил достаточно семинаров и симпозиумов и, после публикации результатов нашего эксперимента, увидел достаточно из первых рук, чтобы оценить важный факт: визуальное восприятие основано на категоризации; наш мозг естественным образом сортирует детали того, что мы видим, на более широкие понятия, которые имеют для нас значение, такие как объекты, люди, места и события. Например, вид дерева на фоне неба - это гораздо больше, чем просто узор из зеленых и синих цветов. Зрение работает на более высоком, более значимом уровне, вооружая нас знанием: мы можем представить себе листья, которые колышет ветер или которые мы держим между пальцами, или ветку с текстурой и весом, которые мы можем мгновенно оценить, - и все это разительно отличается от неприкосновенной атмосферы и цветного света, висящего за много миль над головой.
Способность к классификации наделяет нас такими возможностями, которые трудно переоценить. Вместо того чтобы погружать нас в бесчисленные детали света, цвета и формы, зрение превращает наш мир в дискретные понятия, которые мы можем описать словами, - полезные идеи, расположенные вокруг нас, как на карте, сводящие сложную реальность к тому, что мы можем понять с первого взгляда и отреагировать на это в течение мгновения. Именно так наши древние предки выживали в условиях чистого хаоса, так поколения художников извлекали красоту и смысл из повседневной жизни и так мы продолжаем ориентироваться в постоянно усложняющемся мире.
Многое из того, что я прочитал, казалось, подкрепляло эту идею. В то время как Трейсман показал один из способов распознавания сложных объектов, Бидерман, Поттер и Торп усложнили картину поразительной альтернативой: в некоторых случаях такая интенсивная обработка снизу вверх вообще обходится стороной. В исследованиях нашей лаборатории изучался вопрос о том, в какой степени распознавание работает в отсутствие сознательного внимания. Особенно интересным было предположение Канвишера о том, что этой невероятной способности способствуют специально созданные нейронные корреляты, которые отображают конкретные вещи в мире - убедительное доказательство того, что мозг физически склонен к быстрому и надежному распознаванию хорошо известных визуальных концепций.
Казалось, что мы пытаемся перепрошить часовой механизм, созданный со скрупулезным терпением каким-то непостижимым колоссом. Мы все еще были далеки от его полного понимания - его маленькие шестеренки оставались загадочными, даже когда они тикали перед нами, - но мы украли взгляд на нечто замечательное. Биологическая эволюция - единственная сила во вселенной , способная создать настоящий интеллект с нуля, и я чувствовал, что мы восстановили ее чертеж или, по крайней мере, несколько его обрывков.
Это меняло и мое представление о собственной области компьютерного зрения. Хотя изобретательность была налицо, она была разбросана по эклектичному спектру исследовательских проектов. Нигде я не мог найти общих, единых усилий, аналогичных той целеустремленной силе, которая терпеливо формировала развитие нашего собственного разума на протяжении тысячелетий. Я не мог не задаться вопросом, каким был бы мир, если бы ситуация изменилась - если бы исследователи объединились, чтобы понять и воссоздать основную идею, которая, казалось, лежит в самом сердце человеческого познания.
Я с трудом представлял себе, какие открытия могут ожидать такую координацию. Нет предела тому, во что в конечном итоге может превратиться искусственный интеллект, но это стало казаться второстепенным; я все больше убеждался, что эта конкретная задача - осмысление визуального мира путем понимания бесчисленных категорий объектов, которые его наполняют, - является идеальным первым шагом к его раскрытию. В конце концов, это сработало для нашего вида. Теперь я верил, что это может сработать и для наших машин.
Я подумал о своих примерах для подражания - от легенд физики до моих собственных профессоров. Годами я восхищался силой идей, которые двигали ими как учеными, и тем, какое влияние они оказывали на свои области. Теперь, спустя всего пару лет после начала обучения в аспирантуре, я верил, что вижу проблеск на своем собственном горизонте - что-то далекое и туманное, но достаточно яркое, чтобы осветить мой путь вперед. Так или иначе, мы собирались сделать визуальный мир привычным для машин. Превзойдя даже стандарты жизни, склонной к зацикливанию, я развил одержимость, более сильную, чем любая другая, которую я когда-либо знал.
Я нашел свою собственную Полярную звезду.
На экране появилось изображение реактивного лайнера, и алгоритм приступил к выполнению своей задачи. Это была задача, с которой мог справиться даже ребенок: определить присутствие самолета в любой точке фотографии. Но в 2003 году на этот вопрос машины могли ответить только после изучения огромного количества примеров. И даже тогда их шансы на успех были скромными. В тот день мы с Пьетро проверяли идею, которая, как мы надеялись, могла изменить эти шансы, возможно, кардинально. Я присмотрелся, желая увидеть, что будет делать алгоритм.
На экране начали появляться розовые точки - так сказать, визуальные подсказки, призванные выделить детали на фотографии, которые привлекли внимание алгоритма. Я слегка поморщился, когда первая из них появилась на участке травы у асфальта. Алгоритм смотрел не туда. Но тенденция быстро изменилась, когда следующие две появились на крыльях самолета. Затем еще одна, где-то в хвостовой части. Затем еще три возле кабины пилота. Наконец появилась последняя точка. Шасси. Это считается, подумал я. Это же техническая часть самолета!
Я взволнованно выдохнула. Пока все хорошо.
Далее началась самая сложная часть работы. Поскольку каждый выделенный элемент занимал всего несколько пикселей, алгоритм был разработан таким образом, чтобы объединять их в кластеры, представляющие более крупные части объекта, который он должен был идентифицировать. Другими словами, это прокси для тусклой формы визуального восприятия. Вокруг каждой части были нарисованы цветные круги: синий и тиловый - для разных сегментов фюзеляжа, красный - для вертикального стабилизатора, зеленый - для области, где они встречаются. Конечно, алгоритм расположил их почти