Книги

Цифры врут. Как не дать статистике обмануть себя

22
18
20
22
24
26
28
30

Вы могли уже слышать термин «статистическая регрессия». Звучит наукообразно, но обозначает простую вещь.

Предположим, мы хотим узнать, зависит ли рост людей от их веса. Возьмем большую случайную выборку населения, измерим рост и вес этих людей и разместим на графике: один человек – одна точка, откладывая по оси X рост, а по Y – вес. Таким образом, точки, представляющие более высоких людей, окажутся правее, а более толстых – выше. Очень низкие и худые – слева внизу, а высокие и тучные – справа вверху.

Посмотрим на график, чтобы понять, есть ли тут какая-то явная зависимость. Мы видим, что график ползет вверх – если кто-то выше, он, скорее всего, и толще. Это называется позитивной связью (или позитивной корреляцией) – попросту говоря, когда увеличивается одно, другое тоже тяготеет к росту. А если одно растет, а другое уменьшается, то их связь называется негативной. Если точки разбросаны повсюду без ярко выраженной зависимости, мы считаем, что связи нет.

Теперь предположим, что мы хотим провести через точки линию, чтобы показать эту связь. Как это сделать? Можно рисовать на глаз, и даже вполне успешно, но есть более математически точный способ – метод наименьших квадратов.

Предположим, мы нарисовали на графике прямую. Часть точек окажется прямо на ней, но большая часть будет выше или ниже. Расстояние каждой точки до прямой по вертикали – это «ошибка», или «остаток». Возьмем значение каждого остатка и возведем в квадрат (то есть умножим само на себя, что решит проблему отрицательных чисел: число, умноженное само на себя, всегда дает положительный результат), а потом все их сложим. Это число называется остаточной суммой квадратов.

Линия с наименьшей остаточной суммой квадратов называется линией лучшей подгонки. Для приведенного выше графика она будет выглядеть так:

Эта линия позволяет делать прогнозы, и они тем точнее, чем меньше остатки (меньше сумма их квадратов). Если мы измеряем рост и вес любого нового человека, мы ожидаем, что соответствующая точка окажется вблизи этой линии. Зная чей-то рост, мы можем предсказать его вес. Например, судя по графику, 182-сантиметровый человек вероятнее будет весить 76 кг. (Можно действовать и наоборот: зная вес, можно угадать и рост. Но тогда линию надо проводить немного иначе, измеряя ошибки по горизонтали; не стоит сейчас в это углубляться.)

Стоит отметить, что по одному росту трудно точно предсказать вес. Уточнить его помогут дополнительные параметры: много ли вы занимаетесь спортом, много ли пьете, много ли пирогов съедаете в неделю. Учтя все эти переменные, вы получите более ясную картину влияния роста на вес. Это будет контролирование других переменных, о котором мы говорили в этой главе. Если не учитывать искажающие факторы, то можно переоценить или недооценить корреляцию или найти ее там, где ее на самом деле нет.

Глава 8

Причинно-следственная связь

Выпив кока-колы, вы рветесь в драку? А глотнув ледяной фанты, испытываете неконтролируемое желание долбануть кого-нибудь бутылкой?

Судя по новостным публикациям 2011 года, у некоторых такое бывает. Ох уж эта молодежь! «Газированные напитки делают подростков агрессивными», – объявила The Daily Telegraph. «Газированные напитки делают подростков агрессивнее, выяснили ученые», – вторит ей The Times.

В основе этих утверждений – исследование, вышедшее в журнале Injury Prevention. Было обнаружено, что подростки, пьющие более пяти банок газировки в неделю, с гораздо большей (на 10 %) вероятностью носят с собой оружие и проявляют агрессию по отношению к сверстникам, родственникам и возлюбленным.

Приглядимся к формулировкам. В публикации Injury Prevention утверждается, что потребители кока-колы с большей вероятностью агрессивны. В газетах же пишут, что газированные напитки делают подростков агрессивнее.

Здесь важно это различие. В исследовании обнаружили корреляцию – о ней мы говорили в предыдущих главах: вместе с одной переменной росла и другая. Но мы уже знаем: это не означает, что рост одной вызывает рост другой. Как увеличение объемов углекислого газа в атмосфере не приводит к ожирению населения, а продажа мороженого никак не сказывается на количестве смертей на воде.

Газеты же отмечают причинно-следственную связь. Газировка «делает подростков агрессивными», то есть вызывает вспышки ярости; из этого логически следует, что если запретить продажу таких напитков, то насилие прекратится.

Мы уже видели, что иногда трудно определить, прямая ли корреляция: продажи мороженого действительно – при учете других переменных – коррелируют с числом утопленников, или же оба показателя связаны с третьим фактором – температурой воздуха? Только часто нам интереснее ответ на иной вопрос: служит ли одно причиной другого? И как найти этот ответ?

Большинство описанных нами исследований были наблюдательными – в них рассматривался мир как он есть. Так, в примере с углекислым газом и ожирением ученые проследили за изменениями уровня углекислого газа в атмосфере и количеством смертей от избыточного веса и нашли, что и то и другое выросло.

Беда в том, что это не доказывает – и в принципе не может доказывать, – что население полнеет (или умирает) из-за CO2. Вдруг наоборот: выделяется больше углекислого газа, потому что люди толстеют? Или (что вероятнее) есть некий искажающий фактор: возможно, по мере того как страны богатеют, растет и число диагнозов «ожирение», и объемы выбросов в атмосферу? Мы отмечали это в предыдущей главе.

Определить причину в наблюдательных исследованиях помогают некоторые маркеры. Например, причина обычно предшествует следствию: если вы видите, что уровень углекислого газа возрастает раньше, чем количество случаев ожирения, это явно исключает версию, что ожирение провоцирует выбросы CO2. Второе, на что стоит посмотреть, – отношение «доза-реакция»: верно ли в данном конкретном случае, что чем выше гипотетическая причина, тем больше видимый эффект. И, конечно, неплохо иметь какое-то теоретическое обоснование того, почему одно влечет за собой другое. Между мокрыми тротуарами и дождевыми облаками есть корреляция, и в одном направлении объяснить причинно-следственную связь легко, а в обратном – намного труднее.