Книги

Цифры врут. Как не дать статистике обмануть себя

22
18
20
22
24
26
28
30

Если же верна альтернативная гипотеза, то средний балл читателей будет выше среднего балла другой группы и кривая распределения для этой группы сместится вправо.

Но даже если верна нулевая гипотеза и книга не оказывает никакого эффекта; если – внезапно – окажется, что обе группы одинаково хорошо разбираются в статистике, все равно останется одна проблема – вам не избежать случайных вариаций. У кого-то будет просто неудачный день. Вспомните фильм «Осторожно! Двери закрываются» – Гвинет Пэлтроу в одной вселенной пропускает свой поезд, опаздывает на наш тест, расстраивается и сдает его плохо; а в другой – приходит вовремя, блестяще отвечает на вопросы и влюбляется в Джона Ханну. Пунктуальность и душевное равновесие, вероятно, не сделают из девушки эксперта по статистике, однако благоприятно отразятся на результатах теста. Есть некоторая (пусть и небольшая) доля случайности в том, насколько хорошо каждый участник выполнит задания.[12]

Если несколько не читавших книгу выполнят тест очень плохо, а несколько прочитавших – очень хорошо, это может заметно изменить среднее значение – покажется, что читатели в общем проходят тест намного лучше.

Итак, представим, что по какой-то причине ваши результаты говорят, что читатели лучше справляются с тестом. Теперь важно узнать, насколько вероятно получить такие (или еще более экстремальные) результаты, если верна ваша нулевая гипотеза – чтение книги не влияет, а все вариации случайны. Это и называется проверкой достоверности.

Нет конкретного значения, при котором абсолютно ясно, что нулевая гипотеза неверна: теоретически даже самые сильные различия могут оказаться случайными. Но чем больше разница, тем меньше шансов, что это случайно. Ученые измеряют шансы случайного совпадения с помощью вероятности, или p-значения.

Чем менее правдоподобна случайность какого-нибудь события, тем меньше p. Если есть только один шанс из ста, что получится не менее экстремальный результат, если чтение книги не оказывает никакого эффекта, то p = 0,01. (Однако это не значит – и это ИСКЛЮЧИТЕЛЬНО ВАЖНО, настолько, что мы дважды напишем «ИСКЛЮЧИТЕЛЬНО ВАЖНО» прописными буквами, что вероятность того, что данный результат неверен, составляет одну сотую. Мы позже вернемся к этому, а пока просто отметим как факт.)

Во многих науках принято считать, что если p меньше или равно 0,05 – иными словами вы ожидаете увидеть столь экстремальные результаты не более чем в 5 % случаев, – то открытие статистически значимо, а нулевую гипотезу можно отвергнуть.

Предположим, что при тестировании средний балл у людей, прочитавших книгу, действительно оказался выше. Если p-значение такого результата меньше 0,05, будем считать, что мы достигли статистической значимости, отвергнем нулевую гипотезу (что книга не приносит пользы) и примем альтернативную (книга помогает лучше понимать статистику). Величина p-значения здесь показывает нам, что будь нулевая гипотеза верна и проведи мы тестирование сто раз, наши читатели показали бы не меньшее преимущество перед второй группой менее чем в пяти случаях.

* * *

Статистическая значимость сбивает с толку даже ученых. Исследование 2002 года показывает, что 100 % студентов-психологов и, хуже того, 90 % их преподавателей неправильно трактуют этот термин. В другом исследовании выяснилось, что в 25 из 28 рассмотренных учебников по психологии есть хотя бы одна ошибка в данном определении.

Давайте же разберемся с некоторыми возможными заблуждениями. Во-первых, важно помнить, что статистическая значимость – понятие условное. Нет ничего магического в числе 0,05. Вы можете взять за основу другое: меньшее, тем самым объявляя недостоверными большее число результатов (отнеся их к категории случайных), или большее, расширяя границы статистически значимых данных. Чем выше планка, тем выше риск ложноположительных результатов, чем ниже – тем выше риск ложноотрицательных. Ужесточив критерий, мы можем подумать, что чтение книги никак не сказывается, хотя на самом деле это не так. Ну и, конечно, наоборот.

Во-вторых, статистически значимый результат не обязательно значим в обыденном смысле. Например, если в группе тех, кто книгу не читал, средний балл – 65, а в другой – 68, то результат вполне может считаться статистически значимым, но для вас он вряд ли важен. Статистическая значимость какого-то результата характеризует вероятность его случайного получения, а не его важность.

И в-третьих: p = 0,05 для вашего результата не гарантирует, что вероятность ложности вашей гипотезы составляет всего одну двадцатую. Это самое распространенное заблуждение, и оно лежит в основе многих научных ошибок.

Проблема же в том, что хотя выбор в качестве границы статистической значимости числа 0,05 совершенно условен, ученые и – что еще важнее – редакции научных журналов принимают ее за точку отсечения. Если для ваших результатов p = 0,049, у вас есть шансы их опубликовать, а если p = 0,051, то такие шансы ничтожны. А ученым нужны публикации их исследований, чтобы получить грант, найти постоянную должность и вообще рассчитывать на карьерный рост. Поэтому они крайне заинтересованы в получении статистически значимых результатов.

Вернемся же к нашему эксперименту. Мы хотим показать, что эта книга помогает лучше разбираться в статистике и достойна попасть в список бестселлеров Sunday Times; и после этого, надеемся, будем получать приглашения на престижные коктейльные вечеринки. Но мы получаем лишь p = 0,08.

Наверное, просто не повезло, думаем мы. И повторяем эксперимент – достигаем 0,11. И еще, и еще, и еще раз, пока наконец не выходит 0,04. Потрясающе! Мы докладываем о результатах и дальше припеваючи живем на роялти с продажи книги. Только это почти наверняка ложноположительный результат. Если провести эксперимент 20 раз, вполне можно ожидать один случайный результат.

Есть и другие способы достичь желаемого. Мы можем по-разному тасовать данные. Например, не только считать баллы, но и измерять, насколько быстро люди проходят тест, или оценивать красоту почерка. Пусть читатели книги не получают более высокие баллы, но вдруг они быстрее справляются с тестом? Или у них улучшился почерк? А можно отбросить самые крайние результаты, назвав их выбросами. Если ввести достаточно параметров и по-разному сочетать их или внести в данные необходимые и кажущиеся разумными поправки, то по чистой случайности рано или поздно наверняка найдется что-то подходящее.

Теперь вернемся к мужчинам, пытающимся покорить женщин хорошим аппетитом. В конце 2016 года Вансинк, ведущий автор того исследования, опубликовал в своем блоге пост – «Аспирантка, которая никогда не говорила „нет“». Это положило конец его карьере.

Вансинк написал о новой турецкой аспирантке, пришедшей в его лабораторию. Он дал ей данные провалившегося эксперимента, который проводился без внешнего финансирования и имел нулевые результаты. (Это был месячный эксперимент, в ходе которого одним людям продавали входные билеты в итальянский ресторан со шведским столом по цене в два раза выше, чем другим.) Вансинк предложил ей проанализировать данные, потому что, по его мнению, из них можно было что-нибудь извлечь.

По его рекомендации аспирантка сделала это десятками различных способов и – вас это не должно удивить – нашла кучу корреляций. В нашем воображаемом эксперименте с чтением книги мы бы точно так же могли перебирать данные на разные лады, пока бы не обнаружили что-нибудь со значением p < 0,05. На основании полученного набора данных аспирантка с Вансинком опубликовали пять статей, включая ту самую. В ней утверждалось, что в присутствии женщин мужчины едят больше пиццы (p < 0,02) и салата (p < 0,04).

Пост в блоге насторожил ученых. Описанная в нем практика называется p-подгонкой (p-hacking) – это перетряхивание данных в поисках утверждений, позволяющих преодолеть барьер в p = 0,05 и опубликовать статью. Методологически подкованные исследователи стали пересматривать все старые статьи Вансинка, а научная журналистка из BuzzFeed News Стефани Ли получила от своего источника электронную переписку ученого с сотрудниками и опубликовала ее. Оказалось, что он рекомендовал аспирантке разбивать данные на «мужчин, женщин, обедающих, ужинающих, питающихся в одиночку, по двое, в группах более двух человек, заказывающих алкогольные или безалкогольные напитки, садящихся рядом со шведским столом или далеко от него и т. п.».