Книги

Наука о данных. Базовый курс

22
18
20
22
24
26
28
30

1. Подбросьте монету и держите результат в секрете.

2. Если выпал орел, отвечайте «Да».

3. Если выпала решка, отвечайте правдиво.

Половине респондентов выпадет орел, и она ответит «Да», другая половина ответит правдиво. Таким образом, истинное число респондентов, ответивших «Нет» в общей численности населения приблизительно вдвое превысит количество данных ответов «Нет» (монета выпадает случайным образом, поэтому соотношение ответов «Да» и «Нет» среди респондентов, которым выпал орел, должно быть таким же, как и среди ответивших правдиво). Зная истинное число ответов «Нет», мы можем вычислить истинное число ответов «Да». Однако, несмотря на то что теперь мы относительно точно знаем долю ответивших «Да», невозможно определить, для кого конкретно из респондентов это условие выполняется. Существует компромисс между количеством шума, вводимого в данные, и полезностью данных для анализа. Дифференциальная приватность устраняет этот компромисс, оценивая необходимый уровень шума с учетом таких факторов, как распределение данных в базе, типы обрабатываемых запросов и их количество. Хорошим введением в дифференциальную приватность и знакомством с методами ее реализации может стать книга Синтии Дворк и Аарона Рота «Алгоритмические основы дифференциальной приватности»{42}. В настоящее время техники дифференциальной приватности уже используются при создании потребительских продуктов. Например, Apple внедрила дифференциальную приватность в iOS 10, чтобы защитить конфиденциальность отдельных пользователей, но в то же время сохранить возможность выявлять закономерности в данных для совершенствования функции поиска и интеллектуального набора текста в мессенджерах.

В некоторых сценариях данные поступают в проект из нескольких разнородных источников. Например, несколько больниц участвуют в общем исследовательском проекте, или компания собирает данные от большого числа пользователей приложения для мобильного телефона. Вместо того чтобы централизовать данные в одном хранилище и проводить анализ в единой базе, альтернативный метод предлагает обучать различные модели подмножеств непосредственно в источниках данных (т. е. в отдельно взятых больницах или в телефонах пользователей), а затем объединить уже обученные модели. Google использует этот федеративный метод машинного обучения, чтобы улучшить советника запросов, сделанных с помощью клавиатуры Google на Android{43}. Сперва мобильное устройство загружает в матрицу федеративного машинного обучения Google копию текущего приложения. Данные по его использованию собираются непосредственно на устройстве, и к ним применяется алгоритм обучения, который действует локально до обновления. В процессе обновления полученные модели загружаются в облако, где они усредняются с такими же моделями, загруженными с других телефонов пользователей. Затем базовая модель обновляется с использованием полученной усредненной модели. Используя этот процесс, компания улучшает базовую модель и в то же время сохраняет конфиденциальность пользователей.

Правовые рамки регулирования использования данных и защиты конфиденциальности

В разных юрисдикциях существуют разные правовые методы защиты конфиденциальности и допустимого использования данных. Тем не менее в большинстве демократических юрисдикций присутствуют два основных законодательства: антидискриминационное и о защите личных данных.

Антидискриминационное законодательство, как правило, запрещает дискриминацию на основании некоторого подмножества следующих признаков: инвалидность, возраст, пол, раса, этническая принадлежность, национальность, сексуальная ориентация и религиозные или политические убеждения. В США Закон о гражданских правах 1964 г.{44} запрещает дискриминацию по расовым, половым, религиозным или национальным признакам. Позднее этот список был расширен: Закон об американцах-инвалидах 1990 г. защищает людей от дискриминации по признаку инвалидности{45}. Подобная законодательная база существует и во многих других юрисдикциях. Например, Хартия основных прав Европейского союза запрещает дискриминацию по любым признакам, включая расу, цвет кожи, этническое или социальное происхождение, генетические особенности, пол, возраст, место рождения, инвалидность, сексуальную ориентацию, религию или убеждения, имущество, принадлежность к национальным меньшинствам, а также политическое или любое другое мнение{46}.

Ситуация схожести и частичного совпадения наблюдается и в отношении законодательств о конфиденциальности. В США Принципы честной работы с информацией{47} послужили основой для большей части государственного Закона о конфиденциальности. Аналогично в Евросоюзе Директива о защите данных{48} стала основой европейского законодательства о конфиденциальности, последним воплощением которого является Общий регламент по защите данных{49}. Однако наиболее широко принятыми являются Руководящие принципы по защите частной жизни и трансграничных потоков персональных данных, опубликованные Организацией экономического сотрудничества и развития{50}. В рамках этих руководящих принципов персональные данные определяются как данные, относящиеся к идентифицируемому лицу или субъекту данных. Этот документ устанавливает восемь частично перекрывающихся принципов, которые предназначены для защиты конфиденциальности субъекта данных:

1. Принцип ограничения сбора данных: персональные данные должны быть получены только законным образом, с ведома и согласия субъекта данных.

2. Принцип качества данных: любые собираемые персональные данные должны соответствовать цели использования и быть точными, полными и актуальными.

3. Принцип детализации цели: во время или до момента сбора личных данных субъект данных должен быть проинформирован о цели их использования. Кроме того, изменения цели допустимы, но они не должны быть произвольными (новая цель должна быть совместима с первоначальной) и требуют согласия субъекта данных.

4. Принцип ограничения использования: использование персональных данных ограничивается целью, о которой субъект данных был проинформирован, и они не должны раскрываться третьим лицам без его согласия.

5. Принципы обеспечения безопасности: персональные данные должны быть защищены мерами безопасности от удаления, кражи, разглашения, изменения или несанкционированного использования.

6. Принцип открытости: субъект данных должен иметь возможность легко получать информацию, касающуюся сбора, хранения и использования его персональных данных.

7. Принцип индивидуального участия: субъект данных имеет право на доступ к своим персональным данным и их оспаривание.

8. Принцип подотчетности: ответственность за соблюдение принципов несет оператор данных.

На пути к этической науке о данных

Хорошо известно, что, несмотря на существующие правовые рамки, государства часто собирают персональные данные своих и иностранных граждан без их ведома. Часто это делается под предлогом безопасности и в целях разведки: программа PRISM АНБ США, программа Tempora Центра правительственной связи Великобритании{51} и программа СОРМ правительства России{52}. Эти программы влияют на общественное мнение о правительствах и на использование телекоммуникационных технологий. Результаты опроса Pew Research Centre 2015 г. на тему стратегий приватности американцев после заявлений Сноудена показали, что 87 % респондентов были осведомлены о государственном надзоре за телефонной связью и интернетом; среди тех, кто знал об этом, 61 % заявили о своей неуверенности в том, что эти программы служат общественным интересам; а 25 % сообщили, что стали иначе использовать технологии в ответ на эту информацию{53}. Аналогичные результаты были получены и в европейских опросах: более половины европейцев знают о крупномасштабном сборе данных государственными учреждениями, и большинство респондентов утверждают, что такой надзор негативно влияет на уровень их доверия правительству в отношении использования персональных данных{54}.

В то же время многие частные компании избегают соблюдения правил в вопросах персональных данных и приватности, утверждая, что используют производные, агрегированные или анонимные данные. Переупаковывая данные таким образом, компании утверждают, что данные больше не являются персональными и их можно собирать без ведома или согласия людей, не имея четкой непосредственной цели, чтобы хранить в течение длительных периодов времени, перепрофилировать эти данные или продавать их с выгодой. Мотивация такой позиции состоит в том, что многие сторонники науки о данных с точки зрения коммерческих возможностей утверждают, что реальная ценность данных заключается в их повторном использовании или «необязательном значении»{55}. Сторонники повторного использования данных любят говорить о двух технических инновациях, которые делают сбор и хранение данных разумной бизнес-стратегией: во-первых, сегодня данные можно собирать пассивно без особых усилий или осведомленности со стороны отслеживаемых лиц, и, во-вторых, хранение данных стало относительно дешевым. В этом контексте имеет коммерческий смысл записывать и хранить данные на случай, если будущие (непредсказуемые сегодня) коммерческие возможности сделают их ценными.