Шрифт:
Закладка:
Определение итогового периода влияет на то, какие данные следует использовать в качестве входных для модели. Если модель предназначена для прогнозирования оттока клиентов в ближайшие два месяца начиная с сегодняшнего дня, то при ее обучении нельзя использовать данные клиентов, описывающие их активность за последние два месяца. Таким образом, при построении набора обучающих данных входные атрибуты для каждого потерянного клиента должны рассчитываться только с использованием данных, полученных не позднее, чем за два месяца до того, как он отказался от услуг. Точно так же входные атрибуты, описывающие активных в настоящий момент клиентов, должны рассчитываться на основе данных, полученных не ранее двух месяцев назад. Это гарантирует, что все объекты набора данных, включая как ушедших, так и активных клиентов, позволяют сделать прогноз на ближайшие два месяца.
Почти во всех моделях склонности клиентов в качестве атрибутов используется демографическая информация: возраст, пол, род занятий и т. д. Сценарии продолжительного обслуживания могут также включать в себя атрибуты, описывающие фазы жизненного цикла клиента, например адаптацию, середину цикла, приближение к концу контракта. В телекоммуникационных моделях оттока клиентов также могут присутствовать атрибуты, характерные для этой отрасли. Например, средний счет клиента, изменения сумм счетов, привычки, превышение количества минут тарифного плана, соотношение вызовов внутри сети и за ее пределами, подробности, касающиеся телефонного аппарата и проч.[24] Тем не менее конкретные атрибуты, используемые в каждой модели, будут варьироваться в зависимости от проекта. Линофф и Берри рассказывают об одном проекте прогнозирования, реализованном в Южной Корее, где полезным оказался атрибут, описывающий зависимость оттока клиентов от возраста телефонного аппарата (т. е. какой процент клиентов с телефоном определенного возраста отказались от услуг компании). Однако, когда они создавали аналогичную модель оттока клиентов в Канаде, этот атрибут стал бесполезным. Причина такой разницы заключалась в том, что в Южной Корее оператор мобильной связи предлагал большие скидки на мобильные телефоны только новым клиентам, тогда как в Канаде такие же скидки предлагались как новым, так и действующим клиентам. В результате в Южной Корее устаревание телефона приводило к оттоку клиентов, которые были заинтересованы в том, чтобы перейти к другому оператору за новыми скидками, а в Канаде такого стимула для оттока не было{1}.
После создания маркированного набора данных начинается построение модели классификации с использованием алгоритма машинного обучения. В процессе моделирования рекомендуется экспериментировать с различными алгоритмами машинного обучения, чтобы выяснить, какой из них лучше работает с конкретным набором данных. После выбора окончательной модели вероятная точность ее прогнозов для новых объектов оценивается путем тестирования на подмножестве набора данных, не использованном ранее на этапе обучения модели. Если модель оценивается как достаточно точная и удовлетворяющая бизнес-потребности, она развертывается и применяется к новым данным. Этот процесс может происходить как периодически, так и в режиме реального времени. Важной частью развертывания модели является внедрение соответствующих бизнес-процессов и ресурсов для ее эффективного использования. Нет смысла создавать модель оттока клиентов, если не существует процесса, позволяющего бизнесу вмешаться для их удержания.
Кроме вышеперечисленного, модели прогнозирования могут также определять степень достоверности прогноза. Этот показатель называется вероятностью прогноза и принимает значение от нуля до единицы. Чем оно выше, тем выше вероятность того, что прогноз верен. Значение вероятности прогноза можно использовать для определения приоритетов клиентов. Например, при прогнозировании оттока клиентов организация хочет сфокусироваться на тех из них, кто, скорее всего, уйдет. Используя вероятность прогноза, сортируя потоки данных на основе этого значения, компания может приоритетно сосредотачивать свои усилия на ключевых клиентах, прежде чем переходить к клиентам с более низким показателем вероятности прогноза.
Ценовое прогнозирование — это задача оценки стоимости товара в определенный момент времени. Товаром может быть автомобиль, дом, баррель нефти, акции или медицинская процедура. Очевидно, что качественное ценовое прогнозирование будет востребовано любым, кто рассматривает возможность покупки товара. Точность модели напрямую зависит от предметной области. Например, из-за нестабильности фондовых рынков прогнозировать цену акций на завтра очень сложно. Для сравнения: предсказать цену дома на аукционе проще, поскольку цены на жилье колеблются меньше, чем цены акций.
Тот факт, что ценовое прогнозирование включает в себя оценку значения непрерывного атрибута, означает, что оно решается как проблема регрессии. Структурно проблема регрессии похожа на проблему классификации — в обоих случаях наука о данных предполагает построение модели, которая может предсказать недостающее значение на основании набора входных атрибутов. Единственное отличие состоит в том, что классификация оценивает значения категориального атрибута, а регрессия — значения непрерывного. Регрессионный анализ требует набора данных, в котором указано значение целевого атрибута для каждого из объектов. Модель линейной регрессии с несколькими входами из предыдущей главы является базовой — большинство других представляют собой варианты этого подхода. Базовая структура регрессионных моделей прогнозирования цены одинакова независимо от товара — меняется только имя и количество атрибутов. Например, для прогнозирования цены на дом входные данные должны включать в себя такие атрибуты, как размер дома, количество комнат, этажность, средняя цена квадратного метра в этом районе, средний размер дома в этом районе и т. д. Для сравнения: чтобы предсказать цену автомобиля, атрибуты должны включать марку, возраст автомобиля, пробег, объем двигателя, количество дверей и т. д. В любом случае при наличии соответствующих данных алгоритм регрессии определяет, какое влияние каждый из атрибутов оказывает на окончательную цену.
Как и все примеры, приведенные в этой главе, пример применения регрессионной модели для прогнозирования цен иллюстрирует лишь тип проблемы, которую целесообразно решать с помощью регрессионной модели. Регрессионный анализ может быть использован в самых разных областях, в том числе для решения таких задач, как расчет прибыли, стоимости, объема продаж, спроса, размеров, расстояний, дозировок и объемов.
‹1›. Linoff, Gordon S., and Michael JA Berry. 2011. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. John Wiley & Sons.
Самый большой вопрос, стоящий сегодня перед наукой о данных, — как найти баланс между свободой частной жизни отдельных лиц и меньшинств и безопасностью и интересами всего общества. В контексте науки о данных этот старый вопрос формулируется с точки зрения того, что считать разумными способами сбора и использования персональных данных в таких разнообразных контекстах, как борьба с терроризмом, улучшение медицины, исследования государственной политики, борьба с преступностью, выявление мошенничества, оценка кредитного риска, страхование и таргетированная реклама.