Шрифт:
Закладка:
Область машинного обучения лежит в основе современной науки о данных, поскольку она предоставляет алгоритмы, способные автоматически анализировать большие наборы данных для выявления потенциально интересных и полезных закономерностей. Машинное обучение и сегодня продолжает развиваться и модернизироваться. В число наиболее важных разработок входят ансамблевые методы, прогнозирование в которых осуществляется на основе набора моделей, где каждая модель участвует в каждом из запросов, а также дальнейшее развитие нейронных сетей глубокого обучения, имеющих более трех слоев нейронов. Такие глубокие слои в сети способны обнаруживать и анализировать отображения сложных атрибутов (состоящие из нескольких взаимодействующих входных значений, обработанных более ранними слоями), которые позволяют сети изучать закономерности и обобщать их для всех входных данных. Благодаря своей способности исследовать сложные атрибуты сети глубокого обучения лучше других подходят для многомерных данных — именно они произвели переворот в таких областях, как машинное зрение и обработка естественного языка.
Как уже упоминалось в историческом обзоре баз данных, начало 1970-х гг. ознаменовало приход современной технологии с реляционной моделью данных Эдгара Кодда и последующий взрывной рост генерации данных и их хранения, который в 1990-х гг. привел к развитию хранилищ, а позднее — к возникновению феномена больших данных. Однако еще задолго до появления больших данных, фактически к концу 1980-х — началу 1990-х гг., стала очевидной необходимость в исследованиях, направленных на анализ больших наборов данных. Примерно в то же время появился термин «глубинный анализ данных». Как мы уже отметили, в ответ на это началась разработка хранилищ данных и технологии OLAP. Кроме того, параллельно велись исследования в других областях. В 1989 г. Григорий Пятецкий-Шапиро провел первый семинар по обнаружению знаний в базах данных (KDD). Следующая цитата из анонса этого семинара дает ясное представление о том, какое внимание на нем уделялось междисциплинарному подходу к проблеме анализа больших баз данных:
Обнаружение знаний в базах данных ставит много интересных проблем, особенно когда эти базы огромны. Таким базам данных обычно сопутствуют существенные знания предметной области, которые могут значительно облегчить обнаружение данных. Доступ к большим базам данных недешев — отсюда необходимость выборки и других статистических методов. Наконец, для обнаружения знаний в базах данных могут оказаться полезными многие существующие инструменты и методы из различных областей, таких как экспертные системы, машинное обучение, интеллектуальные базы данных, получение знаний и статистика[2].
Фактически термины «KDD» и «глубинный анализ данных» описывают одну и ту же концепцию; различие заключается только в том, что термин «глубинный анализ данных» более распространен в бизнес-сообществах, а «KDD» — в академических кругах. Сегодня эти понятия часто взаимозаменяются[3], и многие ведущие академические центры используют как одно, так и другое. И это закономерно, ведь главная научная конференция в этой сфере так и называется — Международная конференция по обнаружению знаний и глубинному анализу данных.
Возникновение и эволюция науки о данных
Термин «наука о данных» появился в конце 1990-х гг. в дискуссиях, касающихся необходимости объединения статистиков с теоретиками вычислительных систем для обеспечения математической строгости при компьютерном анализе больших данных. В 1997 г. Джефф Ву выступил с публичной лекцией «Статистика = наука о данных?», в которой осветил ряд многообещающих тенденций, в том числе доступность больших и сложных наборов данных в огромных базах и рост использования вычислительных алгоритмов и моделей. В завершение лекции он призвал переименовать статистику в «науку о данных».
В 2001 г. Уильям Кливленд опубликовал план действий по созданию университетского факультета, сфокусированного на науке о данных{1}. В плане подчеркивалось место науки о данных между математикой и информатикой и предлагалось понимать ее как междисциплинарную сферу. Специалистам по данным предписывалось учиться, работать и взаимодействовать с экспертами из этих областей. В том же году Лео Брейман опубликовал статью «Статистическое моделирование: две культуры»{2}. В ней он охарактеризовал традиционный подход к статистике как культуру моделирования данных, которая предполагает основной целью анализа выявление скрытых стохастических моделей (например, линейной регрессии), объясняющих, как были сгенерированы данные. Брейман противопоставляет это культуре алгоритмического моделирования, которая фокусируется на использовании компьютерных алгоритмов для создания более точных моделей прогнозирования, не объясняющих то, как данные были получены. Проведенная Брейманом граница между статистическими моделями, которые объясняют данные, и алгоритмическими, которые могут их точно прогнозировать, подчеркивает коренное различие между статистиками и исследователями машинного обучения. Споры между этими двумя подходами не утихают до сих пор{3}. В целом сегодня большинство проектов, осуществляемых в рамках науки о данных, соответствует подходу машинного обучения к построению точных моделей прогнозирования и все меньше озабочены статистическим объяснением. Таким образом, хотя наука о данных родилась в дискуссиях вокруг статистики и до сих пор заимствует некоторые статистические методы и модели, со временем она разработала свой собственный, особый подход к анализу данных.
С 2001 г. концепция науки о данных значительно расширилась и вышла за пределы модификаций статистики. Например, в последние 10 лет наблюдается колоссальный рост объема данных, генерируемых онлайн-активностью (интернет-магазинами, социальными сетями или развлечениями). Чтобы собрать эту информацию (порой неструктурированную) из внешних веб-источников, подготовить и очистить ее для использования в проектах по анализу данных, специалистам по данным требуются навыки программирования и взлома. Кроме того, появление больших данных означает, что специалист по данным должен уметь работать с такими технологиями, как Hadoop. Фактически сегодня понятие «специалист по данным» стало настолько широким, что вызвало настоящие дебаты о том, как определить его роль и требуемые опыт и навыки{4}. Тем не менее можно перечислить их, опираясь на мнение большинства людей, как это сделано на рис. 1. Одному человеку трудно овладеть всем перечисленным, и большинство специалистов по данным действительно обладают глубокими знаниями и реальным опытом только в некоторых из этих областей. При этом важно понимать и осознавать вклад каждой из них в проекты по обработке данных.