Книги

Цифры врут. Как не дать статистике обмануть себя

22
18
20
22
24
26
28
30

В старых публикациях Вансинка обнаружились и другие проблемы методологического характера, а его имейлы указывали на порочную статистическую практику. Например, он писал: «Мы должны получить из этого намного больше… Думаю, стоит перебрать данные в поисках значимых и увлекательных утверждений». Он хотел, чтобы их исследование «стало вирусным».

Этот случай по-настоящему драматичен. Но вообще p-подгонка – в менее драматичных формах – происходит постоянно. Обычно она вполне невинна. Ученым нужно добиться p < 0,05 для публикаций, поэтому они повторяют исследования или заново анализируют результаты старых. Возможно, вы слышали о «кризисе воспроизводимости»: многие важные открытия в психологии и иных науках оказались неверными, когда другие ученые попытались повторить эксперименты первооткрывателей. Он произошел именно потому, что ученые не осознавали этой проблемы: они пересортировывали свои данные и повторяли эксперименты до тех пор, пока не получали статистически значимые результаты, не понимая, что таким образом работа становится бессмысленной. Мы еще вернемся к этому вопросу в главе 15, «В погоне за новизной».

Для того чтобы вскрыть ситуацию с Вансинком, потребовались месяцы кропотливой работы добросовестных статистически подкованных исследователей и опытного научного журналиста. По большей части научные журналисты пишут новости на базе пресс-релизов. Они вряд ли могут выявить p-подгонку, даже имея на руках наборы данных, которых у них обычно нет. А исследования, созданные в результате p-подгонки, имеют незаслуженное преимущество: их легче сделать сенсационными, ведь для них необязательна правдивость. Поэтому именно они так часто появляются в СМИ.

Читателям непросто выявить такие публикации. Но важно понимать, что статистически значимые утверждения не обязаны быть ни реально значимыми, ни верными.

Глава 6

Размер эффекта

Насколько опасно проводить время перед экраном? В последние годы мы слышали самые разные страшилки, вот наиболее яркие: «айфоны разрушили поколение» и «для девочек социальные сети намного опаснее героина» (сейчас это утверждение из статьи изъято). Подобные исследования трудны и противоречивы: сложно получить хорошие данные и устранить ложные корреляции. Впрочем, по-настоящему серьезные работы дают намного меньше поводов для беспокойства.

Особенно много внимания привлекает вопрос о связи гаджетов и сна. В 2014 году, например, вышла статья под кричащим (возможно, даже орущим) заголовком: «Чтение с экрана перед сном может убить вас». Статья опиралась на публикацию из Proceedings of the National Academy of Sciences.

Рассуждение было простым: недостаток сна вреден для здоровья, исследование показало, что чтение с экрана сокращает время сна; следовательно, чтение с экрана может оказаться смертельным.

Начнем с начала. Исследование действительно показало, что продолжительность чтения с экрана сказывается на продолжительности сна. Участникам предлагалось один вечер читать электронную книгу, а следующий – бумажную. (Расписание составлялось случайным образом: часть испытуемых начинали с бумажной книги, часть – с электронной; вдруг это тоже влияет на результаты.)

Был получен статистически значимый результат (p < 0,01), который, как объяснялось в главе 5, означает: если бы никакой связи не существовало, то при стократном повторении эксперимента такое резкое различие встретилось бы менее одного раза. Только это было очень небольшое исследование (всего 12 участников), а, как мы узнали в главе 3, небольшие выборки могут приводить к странным открытиям. Правда, при основательном подходе они могут быть полезными и прокладывать направления будущих исследований.

При этом, как отмечалось в главе 5, статистически значимый не равно значимый. Такой результат с большой вероятностью верен, только и всего. Следует учитывать размер эффекта. «Размер эффекта» – в отличие от «статистической значимости» – значит именно то, что написано: это просто размер эффекта. Удобно.

Поскольку речь снова зашла о книгах, вернемся к нашему воображаемому эксперименту из главы 5, в котором мы изучали наших читателей. В этот раз мы поступим немного иначе. Мы сравним 500 читателей «Цифры врут» и 500 читателей чего-нибудь менее ценного: «Мидлмарча» или, к примеру, полного собрания сочинений Шекспира. И вместо того чтобы выяснять, как чтение влияет на знание статистики, посмотрим, в какой из групп люди засыпают быстрее.[13]

Представим, что результаты ясно показывают: все 500 читателей этой книги ложатся позже. Это, бесспорно, статистически значимый результат. Независимо от величины различия шансы, что такой результат получился случайно, ничтожны. Намного меньше единицы, поделенной на число атомов во вселенной. При условии, что исследование проводилось правильно, эффект несомненно реален.

Теперь представим, что нас интересует размер эффекта. Оказывается, что все 500 читателей этой книги засыпают ровно на одну минуту позже, чем читатели другой.

Это реальный эффект. Он статистически значим. Но он никак не сказывается на вашей жизни. Если вы хотите знать, как улучшить свой сон, эта информация не принесет вам ровным счетом никакой пользы.

Бывает, что статистическая значимость представляет серьезный интерес для ученых: обнаружив какую-то корреляцию, они могут ее исследовать и узнать что-то о стоящем за ней механизме. Например, если чтение с экрана действительно влияет – пусть и незначительно – на сон, это дает какую-то информацию о работе суточных ритмов и о том, можно ли с помощью синего света переустановить наши внутренние часы. Что, в свою очередь, может привести к дальнейшим интересным открытиям. А иногда важны даже маленькие эффекты: если команда велосипедистов ухитрится сделать колесо более круглым, что сэкономит по 0,001 секунды на каждом километре, то этого может оказаться достаточным, чтобы получить не серебро, а золото, особенно если врач прописывает спортсменам верные дозы лекарств от астмы.[14]

Зато как читателя – человека, стремящегося разобраться в мире и научиться справляться со всеми рисками и трудностями, – вас не очень волнует, есть ли между двумя вещами статистически значимая связь: ее наличие или отсутствие представляет для вас не более чем интеллектуальный интерес. Например, вы предпочитаете читать в постели перед сном электронную книгу вместо бумажной, чтобы не зажигать свет и не мешать спать партнеру. Вам нет дела, есть ли связь, но важно, насколько она велика.

Насколько велик эффект чтения с экрана перед сном? Совсем невелик. Участников эксперимента просили читать книги – электронные или бумажные – по четыре часа (четыре часа!). Никто не предупреждал, что «чтение с экрана перед сном может оказаться смертельным», и в те вечера, когда испытуемые пользовались электронными книгами, они засыпали в среднем на десять минут позже. Возможно, ежедневная потеря десяти минут сна и имеет значение, но кто же перед сном так много читает?

Интересно, что позже более масштабное исследование молодежи пришло к тем же выводам: корреляция между чтением с гаджетов и сном есть, но небольшая. Лишний час экранного времени приводил к потере от трех до восьми минут сна. Возможно тут скрывается серьезный разброс – на большинство детей и подростков такое чтение никак не влияет, зато на некоторых влияет очень сильно. И все-таки нет ощущения, что отказ от гаджетов в вечернее время сильно скажется на продолжительности сна у британцев.