Книги

Наука о данных. Базовый курс

22
18
20
22
24
26
28
30

«Мы учимся на прошлом, чтобы предсказывать будущее».

Классификация — это метод машинного обучения с учителем, в ходе которого берется набор данных с помеченными экземплярами и строится модель классификации с использованием одного или нескольких алгоритмов. Помеченный набор данных называется обучающим. Он состоит из объектов, целевой результат которых уже известен. Например, для анализа оттока клиентов требуется набор данных (по одной строке на каждого), в котором клиентам будут присвоены метки, указывающие на возможность смены ими поставщика услуг. Такой набор данных будет включать в себя целевой атрибут, который перечисляет эту метку для каждого клиента. В одних случаях назначить метку оттока для записи клиента несложно. Например, клиент сам связался с компанией и недвусмысленно отменил свою подписку или контракт. В других случаях вероятность оттока может быть неявной. К примеру, не все абоненты имеют ежемесячный контракт с оператором мобильной связи. Некоторые предпочитают договор предоплаты, который позволяет пополнять счет не регулярно, а только по необходимости. Определить, собирается ли клиент с таким типом контракта прекратить пользование услугами, бывает непросто, поскольку неясно, что считать признаком: отсутствие звонков в течение двух недель, нулевой баланс, прекращение активности на три недели или что-то еще. После того как факт оттока был установлен с точки зрения бизнеса, необходимо реализовать это определение в коде, чтобы назначить целевую метку клиенту в наборе данных.

Другим фактором, усложняющим прогнозирование оттока, является необходимость учета временных задержек. Цель прогнозирования оттока состоит в том, чтобы смоделировать склонность (или вероятность) клиента к уходу в определенный момент в будущем. Следовательно, этот тип модели имеет временное измерение, которое необходимо учитывать при создании набора данных. Атрибуты в наборе данных для модели склонности взяты из двух разных периодов времени — периода наблюдения и итогового периода. Период наблюдения — это период времени, на основе которого рассчитываются значения входных атрибутов. Итоговый период — период, на основе которого рассчитывается целевой атрибут. Цель создания модели оттока клиентов состоит в том, чтобы дать возможность бизнесу провести вмешательство до события оттока, чтобы побудить клиента остаться. Это означает, что прогноз относительно оттока клиентов должен быть сделан до того, как клиент фактически покинет сервис. Продолжительность периода, необходимого для попытки удержания клиента, равна продолжительности итогового периода, и прогноз, который возвращает модель оттока, по факту состоит в том, расстанется ли клиент с компанией в течение этого итогового периода. Например, модель может быть обучена предсказывать, что клиент уйдет в течение одного или двух месяцев, в зависимости от скорости предпринятых бизнесом мер по его удержанию.

Определение итогового периода влияет на то, какие данные следует использовать в качестве входных для модели. Если модель предназначена для прогнозирования оттока клиентов в ближайшие два месяца начиная с сегодняшнего дня, то при ее обучении нельзя использовать данные клиентов, описывающие их активность за последние два месяца. Таким образом, при построении набора обучающих данных входные атрибуты для каждого потерянного клиента должны рассчитываться только с использованием данных, полученных не позднее, чем за два месяца до того, как он отказался от услуг. Точно так же входные атрибуты, описывающие активных в настоящий момент клиентов, должны рассчитываться на основе данных, полученных не ранее двух месяцев назад. Это гарантирует, что все объекты набора данных, включая как ушедших, так и активных клиентов, позволяют сделать прогноз на ближайшие два месяца.

Почти во всех моделях склонности клиентов в качестве атрибутов используется демографическая информация: возраст, пол, род занятий и т. д. Сценарии продолжительного обслуживания могут также включать в себя атрибуты, описывающие фазы жизненного цикла клиента, например адаптацию, середину цикла, приближение к концу контракта. В телекоммуникационных моделях оттока клиентов также могут присутствовать атрибуты, характерные для этой отрасли. Например, средний счет клиента, изменения сумм счетов, привычки, превышение количества минут тарифного плана, соотношение вызовов внутри сети и за ее пределами, подробности, касающиеся телефонного аппарата и проч.[24] Тем не менее конкретные атрибуты, используемые в каждой модели, будут варьироваться в зависимости от проекта. Линофф и Берри рассказывают об одном проекте прогнозирования, реализованном в Южной Корее, где полезным оказался атрибут, описывающий зависимость оттока клиентов от возраста телефонного аппарата (т. е. какой процент клиентов с телефоном определенного возраста отказались от услуг компании). Однако, когда они создавали аналогичную модель оттока клиентов в Канаде, этот атрибут стал бесполезным. Причина такой разницы заключалась в том, что в Южной Корее оператор мобильной связи предлагал большие скидки на мобильные телефоны только новым клиентам, тогда как в Канаде такие же скидки предлагались как новым, так и действующим клиентам. В результате в Южной Корее устаревание телефона приводило к оттоку клиентов, которые были заинтересованы в том, чтобы перейти к другому оператору за новыми скидками, а в Канаде такого стимула для оттока не было{1}.

После создания маркированного набора данных начинается построение модели классификации с использованием алгоритма машинного обучения. В процессе моделирования рекомендуется экспериментировать с различными алгоритмами машинного обучения, чтобы выяснить, какой из них лучше работает с конкретным набором данных. После выбора окончательной модели вероятная точность ее прогнозов для новых объектов оценивается путем тестирования на подмножестве набора данных, не использованном ранее на этапе обучения модели. Если модель оценивается как достаточно точная и удовлетворяющая бизнес-потребности, она развертывается и применяется к новым данным. Этот процесс может происходить как периодически, так и в режиме реального времени. Важной частью развертывания модели является внедрение соответствующих бизнес-процессов и ресурсов для ее эффективного использования. Нет смысла создавать модель оттока клиентов, если не существует процесса, позволяющего бизнесу вмешаться для их удержания.

Кроме вышеперечисленного, модели прогнозирования могут также определять степень достоверности прогноза. Этот показатель называется вероятностью прогноза и принимает значение от нуля до единицы. Чем оно выше, тем выше вероятность того, что прогноз верен. Значение вероятности прогноза можно использовать для определения приоритетов клиентов. Например, при прогнозировании оттока клиентов организация хочет сфокусироваться на тех из них, кто, скорее всего, уйдет. Используя вероятность прогноза, сортируя потоки данных на основе этого значения, компания может приоритетно сосредотачивать свои усилия на ключевых клиентах, прежде чем переходить к клиентам с более низким показателем вероятности прогноза.

Сколько это будет стоить? (Регрессия)

Ценовое прогнозирование — это задача оценки стоимости товара в определенный момент времени. Товаром может быть автомобиль, дом, баррель нефти, акции или медицинская процедура. Очевидно, что качественное ценовое прогнозирование будет востребовано любым, кто рассматривает возможность покупки товара. Точность модели напрямую зависит от предметной области. Например, из-за нестабильности фондовых рынков прогнозировать цену акций на завтра очень сложно. Для сравнения: предсказать цену дома на аукционе проще, поскольку цены на жилье колеблются меньше, чем цены акций.

Тот факт, что ценовое прогнозирование включает в себя оценку значения непрерывного атрибута, означает, что оно решается как проблема регрессии. Структурно проблема регрессии похожа на проблему классификации — в обоих случаях наука о данных предполагает построение модели, которая может предсказать недостающее значение на основании набора входных атрибутов. Единственное отличие состоит в том, что классификация оценивает значения категориального атрибута, а регрессия — значения непрерывного. Регрессионный анализ требует набора данных, в котором указано значение целевого атрибута для каждого из объектов. Модель линейной регрессии с несколькими входами из предыдущей главы является базовой — большинство других представляют собой варианты этого подхода. Базовая структура регрессионных моделей прогнозирования цены одинакова независимо от товара — меняется только имя и количество атрибутов. Например, для прогнозирования цены на дом входные данные должны включать в себя такие атрибуты, как размер дома, количество комнат, этажность, средняя цена квадратного метра в этом районе, средний размер дома в этом районе и т. д. Для сравнения: чтобы предсказать цену автомобиля, атрибуты должны включать марку, возраст автомобиля, пробег, объем двигателя, количество дверей и т. д. В любом случае при наличии соответствующих данных алгоритм регрессии определяет, какое влияние каждый из атрибутов оказывает на окончательную цену.

Как и все примеры, приведенные в этой главе, пример применения регрессионной модели для прогнозирования цен иллюстрирует лишь тип проблемы, которую целесообразно решать с помощью регрессионной модели. Регрессионный анализ может быть использован в самых разных областях, в том числе для решения таких задач, как расчет прибыли, стоимости, объема продаж, спроса, размеров, расстояний, дозировок и объемов.

Источники

‹1›. Linoff, Gordon S., and Michael JA Berry. 2011. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. John Wiley & Sons.

Глава 6. Конфиденциальность и этика

Самый большой вопрос, стоящий сегодня перед наукой о данных, — как найти баланс между свободой частной жизни отдельных лиц и меньшинств и безопасностью и интересами всего общества. В контексте науки о данных этот старый вопрос формулируется с точки зрения того, что считать разумными способами сбора и использования персональных данных в таких разнообразных контекстах, как борьба с терроризмом, улучшение медицины, исследования государственной политики, борьба с преступностью, выявление мошенничества, оценка кредитного риска, страхование и таргетированная реклама.

Наука о данных предлагает свой способ для того, чтобы понять мир. В нынешнюю эпоху больших данных это предложение очень заманчиво, и действительно существует целый ряд аргументов в поддержку разработки и внедрения инфраструктуры и технологий, основанных на данных. Первый аргумент связан с повышением эффективности, экономичности и конкурентоспособности — аргумент, который в контексте бизнеса подтверждается научными исследованиями. Например, исследование, проведенное в 2011 г. с участием 179 крупных публичных компаний, показало, что чем больше решений принимается на основе данных, тем выше производительность: «Мы видим, что фирмы, которые принимают решения на основе данных, имеют производительность на 5‒6 % выше, чем можно было бы ожидать, учитывая другие их инвестиции и использование информационных технологий»{1}.

Еще один аргумент в пользу широкого внедрения методов науки о данных связан с безопасностью. Правительства часто его используют, оправдывая наблюдение и слежку долгосрочным повышением уровня безопасности. Как бы то ни было, начиная с 11 сентября 2001 г. и с каждым новым терактом этот аргумент набирал силу. Его использовали в публичных дебатах, которые начались после того, как Эдвард Сноуден раскрыл информацию о программе наблюдения PRISM Агентства национальной безопасности (АНБ) США, регулярно собирающей данные об американских гражданах. Красноречивым примером силы этого аргумента являются $1,7 млрд, инвестированные АНБ в центр обработки данных в Блаффдейле, штат Юта, который способен хранить огромное количество перехваченных сообщений{2}.

В то же время общество, государственные структуры и бизнес пытаются понять долгосрочные последствия применения науки о данных в мире больших данных. Учитывая быстрое развитие технологий сбора, хранения и анализа данных, неудивительно, что действующая правовая база и более широкие дискуссии вокруг этой темы, в том числе о неприкосновенности частной жизни, пытаются идти в ногу с достижениями прогресса. Несмотря на это, существуют основные правовые принципы сбора и использования данных, которые применимы почти всегда и которые важно понимать. Кроме того, дискуссии об использовании данных и конфиденциальности выявили ряд тревожных тенденций, о которых мы должны знать.

Коммерческие интересы против частной жизни

Науку о данных можно представить как процесс создания процветающего и безопасного мира. Но одни и те же аргументы могут использовать организации, имеющие очень разные повестки. Мы видим противоположные призывы: с одной стороны, от групп защиты гражданских свобод к большей открытости правительств в отношении данных, чтобы граждане могли привлекать правительства к ответственности, и с другой — призывы деловых кругов использовать эти же данные для увеличения прибыли{3}. Поэтому наука о данных — это палка о двух концах. Она может быть использована для улучшения жизни за счет повышения эффективности государственного управления, развития медицины и здравоохранения, удешевления страховки, создания умных городов, снижения уровня преступности и прочего. Но в то же время ее можно использовать для слежки, таргетирования нежелательной рекламы и поведенческого контроля — как в открытую, так и тайно (страх слежки может влиять на нас не менее негативно, чем сама слежка).