Книги

Цифры врут. Как не дать статистике обмануть себя

22
18
20
22
24
26
28
30

В случае с дождем и мокрым асфальтом зависимость абсолютно очевидна – как и в случае, что еще важнее, с курением и раком легких, где причина предшествует следствию, реакция зависит от дозы и есть внятное теоретическое обоснование, а эффект настолько велик, что его нельзя игнорировать. Однако в других ситуациях – без такой явной обусловленности – наблюдательные исследования мало подходят для выявления причинно-следственной связи. Так как же определить, служит ли одно причиной другого?

В идеале нужно провести так называемое рандомизированное контролируемое исследование (РКИ).

Что под ним понимается? Вернемся к знакомому примеру: помогает ли эта книга лучше понимать статистику? На этот раз мы не будем искать людей, которые удосужились прочесть ее, а дадим им книгу намеренно. Возьмем, например, тысячу человек. Сначала они сдадут тест по статистике. Потом мы произвольно разобьем их на две группы. Первой дадим читать эту книгу, второй – книгу-плацебо, которая выглядит точно так же, только статистика в ней изложена неверно. (Если вы нашли в этой книге ошибки, возможно, вам попалось плацебо.)

После того как все прочитали свои экземпляры, мы снова проведем тест и посмотрим, повысился ли средний балл в какой-либо группе (или даже в обеих). Если «Цифры врут» действительно повышают уровень знаний читателей, то можно ожидать, что в первой группе увеличится средний балл.

Контрольная группа позволяет провести рассуждение от обратного, как бы заглянуть в альтернативную вселенную. Если мы просто проведем тест до и после прочтения «Цифр…» и заметим улучшения, то, возможно, книга действительно помогла повысить балл. Но это может значить и то, что все испытуемые одновременно прошли онлайн-курсы по статистике. Или что чтение вообще любой книги улучшает знание математики. Или что участие в эксперименте меняет поведение людей. Поэтому и собирается контрольная группа – чтобы проверить, что будет с теми, кто не прочитает нашу книгу.[15]

Конечно, не всегда получается провести РКИ. Иногда это просто нереализуемо, а иногда и вовсе неэтично: нельзя исследовать воздействие табакокурения на детях, выдавая пяти сотням детей по пачке Embassy No. 1 в день в течение десяти лет и сравнивая результаты с контрольной группой, потому что это неприемлемо. И нельзя затевать войны в случайным образом выбранных странах, чтобы исследовать влияние вооруженных конфликтов на экономику. В подобных ситуациях помогают «естественные» эксперименты – в них нужные для исследования группы выделяются случайным образом с другими целями.

Например, в одном известном исследовании изучалось, влияет ли военная служба на заработки в течение жизни. Однако люди, выбирающие армейскую жизнь, отличаются от тех, кто этого не делает, поэтому их нельзя было просто сравнивать. К счастью (по крайней мере, для исследователей), в 1970 году, во время Вьетнамской войны, в США еще набирали призывников. Тогда это сделали с помощью лотереи, транслировавшейся по телевизору в прямом эфире, – шары вынимали из барабана, как при игре в лото. Так сформировалась экспериментальная (мужчины, которых призвали) и контрольная (мужчины, которых не призвали) группы. Исследование показало, что бывшие солдаты за свою жизнь зарабатывали в среднем на 15 % меньше.[16]

Большинство наблюдательных исследований не относятся ни к РКИ, ни к рандомизированным или квазирандомизированным естественным экспериментам. Поэтому они могут показать лишь, меняются ли две или более переменных примерно в одно и то же время. Так можно увидеть корреляцию, но не причинно-следственную связь – это объяснит вам любой зануда из соцсетей.

А вот в публикациях СМИ эта разница часто игнорируется. Так, в одной статье рассматривалось, как освещались в прессе 77 наблюдательных исследований (то есть не являющихся РКИ и потому непригодных для обнаружения причинно-следственной связи). Оказалось, что результаты почти половины из них подавались журналистами как утверждения о наличии причинно-следственной связи. Например, в газете писали, что «дневной сон помогает дошкольникам учиться лучше», хотя в научной статье отмечалась лишь корреляция.

* * *

Вернемся к газировке. Думаю, вы не удивитесь, узнав, что это исследование было наблюдательным: ученые не давали пяти сотням подростков «Айрн-Брю»[17], а пятистам – диетическую «Райбину»[18], чтобы посмотреть, какая группа с большей вероятностью станет колошматить прохожих. Они просто проверили, есть ли связь между числом выпитых банок и уровнем агрессии.

Так что мы не знаем, провоцирует ли потребление напитков насилие или же насилие – потребление напитков (звучит, конечно, малоправдоподобно, но, возможно, уличные драки вызывают жажду). Или – как в примере из главы 7 – есть еще какая-то переменная, связанная с этими двумя. В упомянутом исследовании отмечено, что контролировались различные параметры, при этом авторы высказывают предположение, что «прямая причинно-следственная связь возможна», однако не менее вероятно «наличие неких неучтенных факторов, которые ведут и к потреблению газированных напитков, и к проявлению насилия». Хотя они и учитывали ряд факторов – пол, возраст, потребление алкоголя и другие, – их исследование все равно не может указывать на причинную связь. Так что журналисты не имели оснований объявлять, что газированные напитки вызывают насилие, раз в самом исследовании такого вывода не было.

Мы не утверждаем, что все РКИ идеальны – в них тоже все может пойти наперекосяк по целому ряду практических обстоятельств, да и в методике есть целый комплекс проблем. Тем не менее такие исследования дают наиболее эффективный способ выявления причинной связи.

Для читателей есть очень простое базовое правило: если исследование, упомянутое в новостях, не относится к категории РКИ, остерегайтесь утверждений о наличии причинной связи. Несмотря на самые убедительные доводы в пользу того, что связь носит причинно-следственный характер, исследование вряд ли это подтвердит, если не проводилась рандомизация.

Вам нет необходимости читать эту врезку, но, если вы хотите больше узнать о причинно-следственных связях, можете ее не пропускать.

Иногда для установления причинно-следственной связи с помощью наблюдательных исследований ученые прибегают к хитрому приему – методу инструментальных переменных. Представьте, что вы экономист и хотите вычислить, как экономический рост влияет на войну в Африке. Конфликт, безусловно, может снизить экономический рост, замедлив торговлю, инвестиции и бизнес. Но тут есть и оборотная сторона. Вполне может оказаться, что замедление экономического роста повысит вероятность конфликта: учитывая массы озлобленных, оставшихся без работы людей, легко поверить, что насилия станет больше.

Как опознать причину и следствие, если вы видите, что войны и экономические кризисы идут рука об руку?

Если, как вам кажется, А служит причиной B, а выясняется, что B – причина или одна из причин A, это называется обратной причинностью. Возможно, все еще сложнее: А служит причиной B, а B в свою очередь является причиной A, и возникает петля обратной связи. Ситуация с насилием и экономическим ростом – яркая иллюстрация этого. И если такое происходит, то это влияет на ваши измерения точно так же, как искажающий фактор.

Так как же понять направление причинной связи? A → B, или B → A, или петля? Один из способов – воспользоваться инструментальной переменной, которая коррелирует с одним из двух показателей. В случае с насилием и экономическим ростом такой инструментальной переменной может служить количество осадков.

В одном исследовании 2004 года пытались выяснить, приводит ли замедление роста экономики к войне. Оказалось, что 5 %-ное снижение экономических показателей вело к 12 %-ному увеличению вероятности войны в следующем году. При этом, как отметили авторы исследования, хотя война и начиналась после кризиса, это не доказывает причинной связи. Вдруг граждане, чувствуя растущую напряженность, стали иначе вести себя, что и отразилось на экономике.

Тогда исследователи решили посмотреть на количество осадков. Это может показаться странным, но в аграрных странах погода влияет на экономику: засуха может привести к катастрофе, а чем в среднем обильнее осадки, тем выше экономический рост. А вот с войной осадки, предположительно, связаны слабо – только через экономику. Поэтому если в годы с повышенным числом осадков войн меньше, то можно предположить, что экономическая ситуация действительно влияет на вероятность конфликта, а через нее на войну (и только так) влияет дождь.