Книги

Цифры врут. Как не дать статистике обмануть себя

22
18
20
22
24
26
28
30

Если бросить кости 20 раз, то с вероятностью 95 % количество 7 будет в интервале от 1 до 6. Это 6 возможных вариантов – более 25 % от общего числа вариантов.

Если бросить кости 100 раз, то с вероятностью 95 % количество семерок будет в интервале от 11 до 25: всего 15 % от возможного числа вариантов.

Если бросить кости 1000 раз, то с вероятностью 95 % количество семерок будет в интервале от 140 до 190. Число вариантов сузилось до 4,6 % от общего числа.

То же самое произойдет для любой другой суммы: число двоек будет все больше приближаться к 1/36, как и две шестерки; такая закономерность сохранится и для всех промежуточных чисел.

Включая в свою выборку все большее число бросков, вы будете все ближе к «правильному» распределению.

* Тех, кто дочитал до этого места, ждет небольшой приз. Вас могут позабавить проблемы, возникшие у Джо Уикса (этот доброхот помогал Великобритании пережить локдаун физкультурными занятиями на ютубе, которые он проводил ежедневно из своей гостиной). Он пытался внести в выпуски элемент случайности – присвоил упражнениям номера от 2 до 12 и бросал кости, но был неприятно удивлен, что упражнение № 7 («бёрпи») приходилось делать намного чаще, чем № 2 (прыжок звездой). Поняв свою ошибку, Уикс заменил кости рулеткой.

С ростом мужчин у вас получилось простое распределение вокруг среднего значения. Если вы действительно выбираете мужчин случайным образом, то чем больше вы их измерите, тем больше ваша выборка будет напоминать популяцию в целом, точно так же как в примере с костями из врезки.

Но, предположим, вы хотите выяснить что-то другое – например, выздоравливают ли пациенты, принимающие определенное лекарство, быстрее не принимающих. В этом случае вы измеряете не одну величину, а две: насколько быстро выздоравливают те, кто принимает лекарство, и те, кто его не принимает.

Вы хотите узнать, есть ли различия между этими группами. Однако тут, как и в случае с измерением роста, бывают случайные отклонения. Если взять двух пациентов и одному давать лекарство, а другому – нет, то принимающий лекарство может выздороветь быстрее просто за счет более крепкого здоровья.

Поэтому вы берете целый коллектив больных и случайным образом разделяете его на две группы: одной даете лекарство, а другой – плацебо. Затем вычисляете среднее время, за которое идет на поправку каждая из них, точно так же как вы вычисляли средний рост мужчин. По сути, вы делаете то же самое: изучаете выборку из одной популяции (тех, кто принимал лекарство) и другой (тех, кто не принимал). Если окажется, что первая в среднем выздоравливает быстрее, то логично предположить, что лекарство ускоряет выздоровление.

Беда в том, что здесь, как и при измерении роста, притаилась опасность: в первой группе случайно окажутся все более здоровые люди или по крайней мере значительная их часть. Тогда создастся впечатление, что лекарство ускоряет выздоровление, хотя на самом деле эти пациенты и так поправились бы быстрее.

Конечно, чем больше будет ваша выборка, тем меньше вероятность, что такие случайные вариации повлияют на результат. Вопрос: сколько нужно изучить пациентов для надежной оценки? Ответ: бывает по-разному.

Это зависит от множества факторов, но один из самых главных – величина изучаемого эффекта. Чем она меньше, тем больше людей нужно обследовать – по-научному, тем большая «статистическая мощность» требуется. Если вдуматься, это совершенно очевидно. Для ответа на вопрос «Вреден ли для здоровья выстрел в голову?» не нужна выборка из десяти тысяч человек.

Возвращаясь к исследованию о ругани: можно предположить, что если ругань и придает сил, то лишь самую малость. Иначе мы бы это заметили, а финал Олимпийских игр по тяжелой атлетике приходилось бы транслировать в вечернее время (когда в эфире допустимы бранные выражения).

То исследование включало два эксперимента по измерению силы. В одном было 52 участника, а во втором – 29. Стоит отметить, что схема этих экспериментов слегка отличалась от описанной выше. Некоторых людей просили поднимать тяжести и ругаться, а других – выкрикивать небранное слово, как в описанном нами исследовании про лекарство. Потом группы поменяли местами: тех, кто не бранился, просили браниться, и наоборот. В обоих случаях измеряли силу в обеих группах. Такие исследования называются внутрисубъектными – они позволяют снизить проблемы с небольшими выборками.

Как уже говорилось, нужный размер выборки зависит от разных факторов, включая величину изучаемого эффекта. И существуют статистические хитрости, позволяющие снизить вероятность получения случайного результата.

Однако опыт показывает, что следует с осторожностью относиться к исследованиям с менее чем сотней участников, особенно если получаются какие-то удивительные или малозаметные результаты. По мере роста числа участников исследования – при прочих равных – доверие к его результатам повышается. Не исключено, что, бранясь, становишься сильнее, но нас бы это до чертиков удивило.

Опять же – это все развлечение и игра: кому реально важно знать, прибавляет ли ругань сил? Если так и есть, то это удивительный, но вряд ли жизненно важный факт.

Во многих других случаях дело обстоит иначе. В первой половине 2020-го, когда мир судорожно искал средство – какое угодно – для лечения или профилактики ковида, научные статьи и препринты (ранние версии научных статей, еще не одобренные рецензентами) заполонили интернет. В одной из них рассматривалось влияние на коронавирус антималярийного препарата гидроксихлорохина. Как и в случае исследования брани, оно было контролируемым (хотя и не рандомизированным). Оно привлекло такое внимание, что некий Дональд Трамп упомянул о нем в своем твите. В исследовании утверждалось, что «лечение гидроксихлорохином достоверно приводило к снижению вирусной нагрузки или полной элиминации вируса COVID-19 у пациентов с коронавирусной инфекцией».

В эксперименте задействовали 42 человек: экспериментальной группе (26 пациентов) давали гидроксихлорохин, контрольной (16 испытуемых) – нет. Даже если бы это исследование было идеально проведено со всех остальных точек зрения (а это не так), оно все равно являлось бы сомнительным из-за небольших размеров выборки. Точно так же как брань может придавать сил, так и гидроксихлорохин может как-то влиять на ковид. Но так же вероятно, что он не оказывает никакого влияния, а возможно, и наносит серьезный вред. Исследование не дает уверенных оснований для вывода. Тем не менее СМИ раструбили о нем всему миру.