Искажение коллайдера дурачит и противников тестовых испытаний, заставляя их думать, будто экзаменационные оценки не имеют значения, потому что студенты, поступившие в институт с высокими экзаменационными баллами, не чаще прочих добираются до диплома. Хитрость тут в том, что студенты, поступившие
От корреляции к причинности: настоящие и естественные эксперименты
Теперь, когда мы познакомились с природой корреляции и природой причинности, давайте посмотрим, как перейти от одного к другому. Проблема не в том, что «корреляция не предполагает причинности». Как правило, предполагает: если корреляция не иллюзорна и перед нами не случайное совпадение,
Обратная причинная зависимость и мешающие параметры, вторая и третья часть этой мантры, вездесущи. Наш мир — гигантская байесовская причинно-следственная сеть, со стрелками, указывающими сразу во все стороны, и с событиями, запутанными в узлы, где все коррелирует со всем. Существование подобных узлов (именуемых мультиколлинеарностью и эндогенностью) может объясняться эффектом Матфея, без обиняков сформулированным Билли Холидей: «Всякому имеющему дастся, а у не имеющего отнимется. Так сказано еще в Библии, а мы все удивляемся»{34},[351]. В более богатых странах население обычно здоровее, уровни счастья, безопасности, образования, миролюбия, демократии, либеральности и гендерного равенства выше, а уровни религиозности и загрязнения окружающей среды — ниже[352]. Более богатые люди, как правило, здоровее, лучше образованны, имеют больше социальных связей, чаще занимаются спортом, сбалансированнее питаются и с большей вероятностью принадлежат к привилегированным группам[353].
Такая спутанность означает, что почти любое заключение о причинной обусловленности, которое вы сделаете на основе корреляции по странам или отдельным людям, скорее всего, будет неверным или в лучшем случае недоказанным. Демократические страны миролюбивей, потому что их лидеры не готовы пускать граждан на пушечное мясо? Или же страны, которым не угрожают соседи, могут позволить себе роскошь демократии? Это учеба в колледже обеспечивает человека знаниями и умениями, которые позволяют заработать на хлеб с маслом? Или же высшее образование по плечу лишь умным, дисциплинированным или привилегированным, которые могут перевести свои врожденные активы в финансовые?
Однако безупречный способ разрубить эти узлы все-таки существует — это рандомизированный эксперимент, часто называемый рандомизированным контролируемым испытанием (РКИ). Возьмите крупную выборку из изучаемой популяции, случайным образом разделите всех испытуемых на две группы, воздействуйте предполагаемой причиной только на одну из них и проверьте первую группу на изменения, а вторую — на их отсутствие. Рандомизированный эксперимент позволяет нам максимально близко подобраться к
Ключ к успеху — рандомизированность, то есть случайность разбиения на экспериментальную и контрольную группы: если давать лекарство тем пациентам, которые живут ближе к больнице, или первыми записались на участие в эксперименте, или демонстрируют больше интересующих нас симптомов, чем пациенты, которым дают плацебо, вы никогда не узнаете, работает ли ваша таблетка. Один из моих университетских преподавателей любил переиначивать реплику из пьесы Джеймса Барри «Что знает каждая женщина» (What Every Woman Knows): «Рандомизированность — она как обаяние. Если она у вас есть, вам больше ничего не нужно; если ее у вас нет, неважно, что еще у вас есть»[355]. Относительно обаяния это не совсем верно, как и относительно рандомизированности, но я и десятилетия спустя помню эти слова, причем они мне нравятся больше клише, провозглашающего рандомизированные испытания «золотым стандартом» доказательства причинно-следственной связи.
Премудрость РКИ постепенно просачивается в политику, экономическую науку и образование. «Рандомисты» все чаще убеждают политиков проверять действенность предлагаемых последними мер на случайной выборке деревень, школьных классов или городских районов и сравнивать полученные результаты с контрольной группой, к которой никакое воздействие не применялось или которой для вида поручили выполнять какую-нибудь бессмысленную программу[356]. Весьма вероятно, что такие данные — более надежная основа для оценки стратегий, чем традиционные способы вроде догм, побасенок, харизмы, общепринятых воззрений или мнения наиболее высокооплачиваемого лица.
Рандомизированные эксперименты, впрочем, не панацея (потому что ничто не панацея — и это, кстати, неплохая причина отказаться и от этого клише). Сотрудники научных лабораторий критикуют друг друга не реже аналитиков данных, потому что даже в лабораторных условиях невозможно делать что-то одно. Экспериментаторы могут считать, что дали экспериментальной группе только лекарство и ничего кроме, но это не избавляет их от опасности появления мешающих параметров — эту проблему называют исключаемостью. На эту тему есть анекдот про сексуально неудовлетворенную пару, решившую обсудить свою беду с раввином, поскольку в талмуде сказано, что ответственность за сексуальное удовлетворение жены лежит на муже. Раввин чешет бороду и предлагает выход: супруги должны нанять симпатичного, крепкого молодого человека, который — в следующий раз, когда пара займется любовью, — будет обмахивать их полотенцем; сексуальные фантазии помогут жене достичь оргазма. Последовав совету мудреца, супруги желаемого эффекта не добились; они приходят к нему снова, умоляя посоветовать им что-нибудь еще. Почесав бороду, раввин говорит: пусть на этот раз в супружескую постель вместо мужа ляжет молодой человек, а муж пусть машет полотенцем. Супруги следуют совету, и в этот раз женщина действительно достигает умопомрачительного оргазма. «
Полагаясь на экспериментальные манипуляции, мы сталкиваемся и с другой проблемой: наш мир — не лаборатория. Политологи не могут подбросить монетку, внедрить в одних странах демократию, а в других — автократию, подождать пять лет и посмотреть, какие из них ввяжутся в войну. Эта же практическая и этическая проблема встает при изучении людей.
Хотя не все на свете можно изучать экспериментально, социологи призывают на помощь всю свою изобретательность, отыскивая случаи, когда рандомизация происходит сама собой. Такие естественные эксперименты иногда позволяют выжимать причинные выводы из корреляционной Вселенной. Они часто фигурируют во «Фрикономике» (Freakonomics) — серии книг и прочих медиапродуктов, созданной экономистом Стивеном Левиттом и журналистом Стивеном Дабнером[357].
Например, «разрыв регрессии». Скажем, вы хотите понять: это учеба в колледже делает людей богаче или же дети из богатых семей чаще поступают в колледжи? Хотя вы не можете в буквальном смысле рандомизировать выборку подростков, заставив колледж принять одну группу и завалить вторую, колледжи со вступительными испытаниями так, собственно, и поступают со студентами, чьи баллы находятся в районе нижней границы. Глупо было бы думать, что еле-еле поступивший студент, который набрал 1720 баллов, умнее того, кто чуть-чуть недотянул и набрал всего 1710. Разница между ними — фактически шум и вполне может быть случайной. (То же самое верно и для других отборочных критериев, таких как, например, средний балл аттестата или рекомендательные письма.) Допустим, ученый следит за двумя этими группами десять лет, изучая зависимость их дохода от экзаменационных баллов. Если он видит ступеньку или изгиб у нижней границы — больший скачок в уровне дохода в районе перехода «поступил — не поступил», чем для интервалов той же величины в остальной части графика, — он может сделать вывод, что ситуацию изменила волшебная палочка поступления в колледж.
Еще один подарок охотящимся на причинность социологам — спонтанная рандомизация. Это телеканал Fox News насаждает консервативные взгляды или это консерваторы неравнодушны к Fox News? Телеканал запустили в 1996 г., и в последующие пять лет кабельные компании добавляли его в вещательные пакеты безо всякой системы. Экономисты воспользовались неожиданной удачей, продлившейся половину десятилетия, и обнаружили, что избиратели в городах, где транслировался Fox News, на величину от 0,4 до 0,7 процентного пункта чаще голосовали за республиканцев, чем жители городов, которым приходилось смотреть что-то другое[358]. Это достаточно большая разница, которая может изменить результат выборов при близкой популярности кандидатов; к тому же эффект мог усилиться в последующие десятилетия, когда Fox News повсеместно проник на телерынок, благодаря чему его влияние теперь труднее доказать, хотя слабее оно и не стало.
Труднее, но все же возможно. Еще один гениальный ход носит загадочное имя «регрессия инструментальной переменной». Предположим, вы хотите проверить, вызывает ли причина А событие В, и переживаете из-за обычных проблем в виде обратной причинной зависимости (В вызывает А) и мешающего параметра (С вызывает как А, так и В). Далее предположим, что вы отыскали какую-то четвертую переменную, I («инструмент»), которая коррелирует с предполагаемой причиной А, но не может ею вызываться — например, потому, что I предшествует А, а будущее не в силах повлиять на прошлое. Предположим также, что эта незапятнанная переменная к тому же не коррелирует с мешающим параметром С и не может вызывать В непосредственно, а только повлияв на А. Даже если саму А нельзя рандомизировать, у нас есть ее наилучшая альтернатива, I. Если I, свободный от подозрений заменитель А, будет коррелировать с В, это значит, что А вызывает В.
Какое отношение это имеет к Fox News? Еще один подарок социологам — знаменитая американская лень. Американцы терпеть не могут выходить из машин, разбавлять водой суповые концентраты и переключаться на телеканалы с двузначными номерами. Чем ниже номер канала, тем шире его аудитория. Кабельные компании присваивают телеканалам номера случайным образом (нумерация определяется только тем, когда кабельная компания заключила договор с телевещательной, и никоим образом не зависит от демографических характеристик аудитории). Низкий номер (I) может сподвигнуть людей смотреть Fox News (А), а просмотр Fox News то ли может, то ли не может заставить их голосовать за республиканцев (В), но вот ни консервативные взгляды (С), ни голосование за республиканцев (В) не может заставить любимый некоторыми телеканал получить номер пониже. Как и ожидалось, если сопоставить данные по кабельным рынкам, то чем ниже номер канала Fox News относительно других новостных телеканалов, тем выше в этом районе процент голосующих за республиканцев[359].
От корреляции к причинности без экспериментов
Когда специалисты по анализу данных обнаруживают разрыв регрессии или инструментальную переменную, это для них просто праздник, хотя чаще им приходится вытягивать какую ни на есть причинность из привычной путаницы корреляций. Но не стоит опускать руки: для каждого из недугов причинного вывода существуют свои паллиативные средства. Они не так хороши, как обаяние рандомизированности, но зачастую это лучшее, что можно сделать в мире, который создавался не ради удобства ученых.
Проще всего избавиться от обратной причинной зависимости — благодаря железному закону, который не дает разгуляться писателям-фантастам и сценаристам, сочиняющим истории о путешествиях во времени вроде фильма «Назад в будущее» (Back to the Future, 1985): будущее не может влиять на прошлое. Предположим, у вас есть гипотеза «демократия является причиной мира, но не наоборот» и вы хотите ее проверить. Во-первых, в поисках причинно-следственной связи нужно избежать ошибки «все или ничего» и копнуть чуть глубже популярного, но неверного утверждения, будто «демократии никогда не воюют друг с другом» (исключений масса)[360]. Гипотеза, точнее соответствующая реальности, гласит, что страны, более демократичные
Но предположим, что каждая переменная измеряется
Грамотный статистик умеет призвать к порядку и мешающие параметры. Если вы интересуетесь новостями науки, то наверняка читали об исследователях, «удерживающих на постоянном уровне» или «статистически контролирующих» какой-нибудь мешающий параметр. Самый простой способ сделать это называется мэтчингом[362]. Связь демократии и мира загрязнена массой мешающих параметров: тут и благосостояние, и образование, и торговля, и членство в международных организациях. Давайте рассмотрим один из них, благосостояние; его можно измерить как ВВП на душу населения. Предположим, что каждой демократической стране в нашей выборке мы сопоставили автократию с тем же уровнем ВВП на душу населения. Если мы сравним средние индексы миролюбия для демократий со средними индексами для их автократических двойников, мы измерим влияние демократии на мир, удерживая благосостояние на постоянном уровне. Логика мэтчинга очевидна, но для применения этого метода требуется большой набор кандидатов, из которого можно было бы выбирать подходящие пары; с каждым новым мешающим параметром он должен быть все больше. Это может сработать для эпидемиологического исследования с десятками тысяч участников, но не для политологического исследования в мире, где всего 195 государств.