Шрифт:
Закладка:
Вдобавок на тот момент только небольшая часть сведений была оцифрована. Большинство содержалось в книгах, статьях из академических журналов, труднодоступной «серой литературе», скажем, отчетах об археологических раскопках. Некоторые же и вовсе находились в головах отдельных ученых. Очень хотелось завести робота-паука, который ползал бы по разумам экспертов и собирал из них нужную информацию, но это, конечно, научная фантастика. Поэтому пришлось пройти сложный путь.
Реальный исторический макроскоп называется Seshat: Global History Database. Проект Seshat был запущен в 2011 году, когда я познакомился с социальным антропологом Харви Уайтхаусом. Когда я изложил идею исторической базы данных, Харви сразу же осознал ее потенциал, и мы решили добавить эту базу в качестве элемента заявки на крупный грант, которую он собирался подавать. К счастью для нас, заявку профинансировали, и мы начали набирать научных сотрудников, экспертов и аспирантов. Проект расширился за счет привлечения антропологов, историков, археологов и специалистов по данным, которые помогали нам с техническими вопросами создания базы данных.
Изначально наша идея заключалась в том, что все данные в Seshat будут поставлять эксперты: академические историки, археологи и другие исследователи прошлого. Однако быстро выяснилось, что у этого подхода есть серьезные недостатки, даже если брать только историков, которые были в восторге от проекта. Например, просить экспертов заполнить сотни полей – значит бессовестно злоупотреблять их опытом. Для многих переменных после того, как внедрена надежная схема кодировки, 80–90 процентов данных способны ввести хорошо обученные сотрудники, привычные к работе со стандартными текстами. Следовательно, время и усилия экспертов являются очень ценным ресурсом, и их следует использовать стратегически, там, где они действительно необходимы: для решения сложных проблем с кодированием и поиска ускользающей информации. Кроме того, лишь эксперт может сделать вывод о том, что в данной области неизвестно о какой-либо конкретной переменной (подлинный пробел в знаниях).
Таким образом, большую часть данных в Seshat вводят ассистенты-исследователи. В начале проекта мы экспериментировали, привлекая разных помощников. Мы установили, что привлечение на временной основе студентов бакалавриата нецелесообразно: не имело смысла вкладывать несколько месяцев в обучение ассистентов, с тем чтобы далее потерять этих людей навсегда. Как следствие, мы перенаправили ресурсы на наем постоянных ассистентов; все они работают над проектом не менее года, обычно много лет подряд. Все наши ассистенты – как минимум бакалавры, среди них немало магистров, а некоторые даже имеют докторскую степень.
Третьим важным элементом нашего процесса сбора данных является пристальное наблюдение за ассистентами со стороны социологов с докторской степенью; это постдоки[86], региональные редакторы (каждый из которых имеет опыт работы в определенном регионе), координаторы переменных (отвечают за определенный набор переменных Seshat) и директора (в настоящее время – три историка, антрополог, археолог и специалист по сложности). Их роль заключается в обучении ассистентов, проверке их решений по кодированию и обеспечении последовательного применения схем кодировки. Было бы попросту невозможно создать столько высококачественных исторических данных, как в нашей базе, без упорного труда ассистентов, чрезвычайной компетентности опытных сотрудников, их готовности жертвовать собственным временем и делиться знаниями с нашим проектом.
Мы обнаружили, что лучшие результаты получаются, когда все три группы (ассистенты, ученые эксперты и социологи) работают сообща. Когда мы начинаем кодировать конкретное «государство» (политически независимое общество, заключенное в рамки дат своего зарождения и гибели), то получаем экспертную помощь в предложении набора стандартных текстов и ответов на общие вопросы. Например, какие даты следует использовать в качестве дат зарождения и гибели этого государства? Затем ассистентам дают указание собрать как можно больше данных из стандартных источников, используя подход «низко висящих плодов». Иными словами, если ответ не находится быстро, то ассистенты прекращают изучение вопроса и добавляют его в список проблем, достойных внимания экспертов. По завершении этого этапа мы возвращаемся к экспертам со списком вопросов, пробелов в данных и сложных решений по кодированию. Еще мы часто проводим специализированные семинары, на которых участники проекта Seshat общаются с экспертами, сведущими либо в истории отдельных регионов мира (например, Египет или Юго-Восточная Азия), либо в конкретных переменных (к примеру, ритуалы и религия или продуктивность сельского хозяйства).
Таким образом, расширение банка данных Seshat и особенно поиск данных для переменных, которые трудно закодировать, есть результат сотрудничества между экспертами и персоналом Seshat. Этот процесс сочетает в себе специализированные знания экспертов о конкретных исторических обществах с нашим опытом преобразования исторических сведений в данные.
Как упоминалось выше, создание эффективной схемы кодирования является ключевой особенностью работы проекта Seshat. Если определения переменных слишком расплывчаты, слишком абстрактны или требуют избыточного истолкования, то их становится трудно кодировать, и шансы на то, что между кодировщиками возникнут разногласия, возрастают. Например, собирая данные в Seshat, мы избегаем навязывания информации о прошлых обществах в произвольном режиме (например, «оцените социальную сложность этого общества по шкале от 0 до 10»). Перед сбором данных мы проводим семинар, обычно с участием экспертов, развивая понимание того, как кодировать ту или иную переменную, которую мы стремимся зафиксировать в Seshat. Вообще говоря, мы рассчитываем использовать количественную переменную (например, оценку численности населения государства) или разбить сложные переменные на несколько простых переменных, которые можно закодировать бинарным образом (отсутствует/присутствует и т. д.). Первоначальная схема кодирования затем тестируется ассистентами, которые применяют ее к нескольким примерам, работая в сотрудничестве с экспертами. Затем схема кодирования уточняется на основе предложений экспертов и ассистентов и применяется ко всей выборке. Иногда мы понимаем, что должны скорректировать схему кодирования после того, как значительное количество информации уже было закодировано с использованием старой схемы. Переход к лучшим определениям отчасти лишает процесс эффективности, поскольку ассистентам приходится возвращаться к уже закодированным сведениям и перекодировать их с использованием новой схемы. Этот процесс требует времени, и такие старые коды иногда задерживаются в базе данных, пока в конце концов не будут выявлены и исправлены.
Прежде чем использовать данные Seshat в статистическом анализе, мы проводим систематическую проверку их качества. Каждый параметр проверяется ассистентом – но не тем, который вводил информацию.
Seshat – громадная, сложная, «живая» сущность, которая постоянно развивается. В таком большом и многогранном проекте, как Seshat, при наличии столь обширной базы данных неизбежно возникают некоторые практические ограничения на получение точных или репрезентативных значений и кодов для конкретных переменных, потому что, например, конкретный