Вы могли уже слышать термин «статистическая регрессия». Звучит наукообразно, но обозначает простую вещь.
Предположим, мы хотим узнать, зависит ли рост людей от их веса. Возьмем большую случайную выборку населения, измерим рост и вес этих людей и разместим на графике: один человек – одна точка, откладывая по оси X рост, а по Y – вес. Таким образом, точки, представляющие более высоких людей, окажутся правее, а более толстых – выше. Очень низкие и худые – слева внизу, а высокие и тучные – справа вверху.
Посмотрим на график, чтобы понять, есть ли тут какая-то явная зависимость. Мы видим, что график ползет вверх – если кто-то выше, он, скорее всего, и толще. Это называется позитивной связью (или позитивной корреляцией) – попросту говоря, когда увеличивается одно, другое тоже тяготеет к росту. А если одно растет, а другое уменьшается, то их связь называется негативной. Если точки разбросаны повсюду без ярко выраженной зависимости, мы считаем, что связи нет.
Теперь предположим, что мы хотим провести через точки линию, чтобы показать эту связь. Как это сделать? Можно рисовать на глаз, и даже вполне успешно, но есть более математически точный способ – метод наименьших квадратов.
Предположим, мы нарисовали на графике прямую. Часть точек окажется прямо на ней, но большая часть будет выше или ниже. Расстояние каждой точки до прямой по вертикали – это «ошибка», или «остаток». Возьмем значение каждого остатка и возведем в квадрат (то есть умножим само на себя, что решит проблему отрицательных чисел: число, умноженное само на себя, всегда дает положительный результат), а потом все их сложим. Это число называется остаточной суммой квадратов.
Линия с наименьшей остаточной суммой квадратов называется линией лучшей подгонки. Для приведенного выше графика она будет выглядеть так:
Эта линия позволяет делать прогнозы, и они тем точнее, чем меньше остатки (меньше сумма их квадратов). Если мы измеряем рост и вес любого нового человека, мы ожидаем, что соответствующая точка окажется вблизи этой линии. Зная чей-то рост, мы можем предсказать его вес. Например, судя по графику, 182-сантиметровый человек вероятнее будет весить 76 кг. (Можно действовать и наоборот: зная вес, можно угадать и рост. Но тогда линию надо проводить немного иначе, измеряя ошибки по горизонтали; не стоит сейчас в это углубляться.)
Стоит отметить, что по одному росту трудно точно предсказать вес. Уточнить его помогут дополнительные параметры: много ли вы занимаетесь спортом, много ли пьете, много ли пирогов съедаете в неделю. Учтя все эти переменные, вы получите более ясную картину влияния роста на вес. Это будет контролирование других переменных, о котором мы говорили в этой главе. Если не учитывать искажающие факторы, то можно переоценить или недооценить корреляцию или найти ее там, где ее на самом деле нет.
Глава 8
Причинно-следственная связь
Выпив кока-колы, вы рветесь в драку? А глотнув ледяной фанты, испытываете неконтролируемое желание долбануть кого-нибудь бутылкой?
Судя по новостным публикациям 2011 года, у некоторых такое бывает. Ох уж эта
В основе этих утверждений – исследование, вышедшее в журнале
Приглядимся к формулировкам. В публикации
Здесь важно это различие. В исследовании обнаружили корреляцию – о ней мы говорили в предыдущих главах: вместе с одной переменной росла и другая. Но мы уже знаем: это не означает, что рост одной
Газеты же отмечают причинно-следственную связь. Газировка «делает подростков агрессивными», то есть вызывает вспышки ярости; из этого логически следует, что если запретить продажу таких напитков, то насилие прекратится.
Мы уже видели, что иногда трудно определить, прямая ли корреляция: продажи мороженого действительно – при учете других переменных – коррелируют с числом утопленников, или же оба показателя связаны с третьим фактором – температурой воздуха? Только часто нам интереснее ответ на иной вопрос: служит ли одно
Большинство описанных нами исследований были наблюдательными – в них рассматривался мир как он есть. Так, в примере с углекислым газом и ожирением ученые проследили за изменениями уровня углекислого газа в атмосфере и количеством смертей от избыточного веса и нашли, что и то и другое выросло.
Беда в том, что это не доказывает – и в принципе не может доказывать, – что население полнеет (или умирает)
Определить причину в наблюдательных исследованиях помогают некоторые маркеры. Например, причина обычно предшествует следствию: если вы видите, что уровень углекислого газа возрастает раньше, чем количество случаев ожирения, это явно исключает версию, что ожирение провоцирует выбросы CO2. Второе, на что стоит посмотреть, – отношение «доза-реакция»: верно ли в данном конкретном случае, что чем выше гипотетическая причина, тем больше видимый эффект. И, конечно, неплохо иметь какое-то теоретическое обоснование того, почему одно влечет за собой другое. Между мокрыми тротуарами и дождевыми облаками есть корреляция, и в одном направлении объяснить причинно-следственную связь легко, а в обратном – намного труднее.