Книги

Рациональность. Что это, почему нам ее не хватает и чем она важна

22
18
20
22
24
26
28
30

Корреляция — это зависимость одной переменной от другой: зная величину первой, можно предсказать и величину второй — хотя бы приблизительно. («Предсказать» в данном случае значит «предположить», а не «напророчить»; можно предсказать, каким окажется рост родителей, зная рост их детей, и наоборот.) Графически корреляцию часто отображают диаграммой рассеяния. В той, что приведена ниже, каждая точка — это страна: чем правее расположена точка, тем выше среднедушевой ВВП, а чем она выше — тем выше оценка жителями страны своей удовлетворенности жизнью. (Среднедушевой ВВП отмерен на логарифмической шкале, чтобы компенсировать убывающую предельную полезность денег, которую мы обсудили в главе 6.)[334]

Корреляция заметна невооруженным глазом: точки разбросаны вдоль диагонали — серой пунктирной линии, едва заметной за общим роем. Каждая точка насажена на стрелку, которая представляет собой микродиаграмму рассеяния для населения этой страны. Макро- и микродиаграммы показывают, что счастье коррелирует с доходом — как для жителей отдельных стран (стрелки), так и по всем странам в целом (точки). И я понимаю, что вас так и тянет предположить, как минимум предварительно, что богатство делает человека счастливым.

Откуда взялись стрелки, пронизывающие точки, и пунктирная серая линия? И как нам преобразовать зрительное впечатление, будто рой точек вытянулся вдоль диагонали, в нечто более объективное, чтобы мы по глупости не увидели закономерности в любой кучке рассыпанных зубочисток?

В таких случаях применяется математический метод под названием регрессия — безотказная рабочая лошадка эпидемиологии и социальных наук. Посмотрите на диаграмму рассеяния ниже. Представьте себе, что любая единица данных — это гвоздь и мы соединяем каждый из них с жестким стержнем, используя резиновые ленты.

Допустим, эти ленты растягиваются только строго вверх или вниз, но не по диагонали и чем сильнее вы их растягиваете, тем больше их сопротивление. Закрепив все ленты, отпустите стрежень, позволив ему успокоиться.

Стержень замрет в таком положении, при котором минимальна сумма квадратов расстояний от каждого гвоздя до той точки на стержне, с которой его связывает лента. Это положение и есть прямая регрессии, которая выражает линейную зависимость между двумя переменными — у, значения которой откладываются по вертикальной оси, и х, значения которой, соответственно, откладываются по оси горизонтальной. Длина ленты, связывающей каждый из гвоздей со стержнем, называется отклонением — это характерная для конкретного измерения упрямая доля значения величины у, которую невозможно предсказать на основании соответствующего значения величины х. Вернемся к графику, связывающему уровень счастья с уровнем дохода. Если бы доход точно предсказывал уровень счастья, каждая точка лежала бы строго на сером пунктире прямой регрессии, но с реальными данными такого никогда не происходит. Некоторые точки парят высоко над пунктирной линией (у них высокие положительные отклонения регрессии), например Ямайка, Венесуэла, Коста-Рика и Дания. Если не учитывать погрешность измерений и прочие источники шума, такое несовпадение демонстрирует, что в 2006 г. (когда собирались данные) люди в этих странах ощущали себя более счастливыми, чем можно было бы ожидать, исходя из их дохода, — может, благодаря какой-то другой благоприятной характеристике страны, например прекрасному климату или богатой культуре. Есть точки, лежащие ниже линии, например Того, Болгария и Гонконг, — видимо, что-то в этих странах делает людей немного более несчастными, чем мы могли бы предположить, если ориентироваться на их доход.

Кроме того, отклонения регрессии позволяют нам количественно выразить степень корреляции переменных: чем короче ленты (больше скошенность кластера вправо вверх или вправо вниз), тем ближе точки к прямой и тем выше корреляция. С помощью несложных вычислений отклонения можно перевести в число r — коэффициент корреляции, меняющийся от –1 до 1. При r = –1 (не показано на рисунке) точки выстроены строго по диагонали, протянувшейся из верхнего левого угла в нижний правый; меньшие отрицательные значения соответствуют ситуации, когда точки все хаотичнее рассыпаны вокруг той же диагонали; при r = 0 точки — это беспорядочный рой мошек; при положительных значениях точки группируются вдоль другой диагонали, которая теперь тянется из нижнего левого угла в верхний правый; и, наконец, при r = 1 точки идеально ложатся на эту диагональ.

Хотя в скандалах вокруг корреляции и причинности виноватыми обычно считают тех, кто принимает первое за второе, зачастую проблема фундаментальнее: выходит так, что и корреляции-то не установлено. Не удивлюсь, если у туркменов, глодающих кости, зубы не крепче, чем у всех остальных (r = 0). Но не одним лишь президентам бывших советских республик не удается показать не только причинно-следственную связь, но и корреляцию. В 2020 г. Джефф Безос хвастал: «Все мои самые удачные решения и в бизнесе, и в жизни принимались сердцем, чутьем, по наитию… а не в результате анализа», что предполагает, что не анализ, а сердце и чутье подсказывают нам лучшие решения[335]. Но Джефф, увы, не сообщил, как он принимал все свои худшие решения в бизнесе и в жизни — тоже сердцем, чутьем и по наитию? Как и не уточнил, превосходит ли суммарное число хороших интуитивных и плохих аналитических решений суммарное число плохих интуитивных и хороших аналитических.

Иллюзорную корреляцию, как называется это когнитивное искажение, первыми обнаружили психологи Лоран и Джин Чэпмен в своей знаменитой серии экспериментов. Ученых заинтересовал вопрос, почему психотерапевты до сих пор массово используют пятна Роршаха и методику «Нарисуй человека», несмотря на то что ни одно из проведенных исследований не показало корреляции между результатами этих тестов и симптомами психических заболеваний. Коварные экспериментаторы попарно соединили истории болезни психиатрических больных с нарисованными ими человечками, хотя на самом деле истории были липовыми, а пары — случайными. Затем они попросили группу студентов отыскать в результатах какую-нибудь закономерность[336]. Студенты, поддавшись собственным стереотипам, ошибочно предположили, что широкоплечих человечков рисовали гипермаскулинные пациенты, глазастых — параноики и так далее; они называли именно те взаимосвязи, которые «наблюдают» в своих пациентах профессиональные диагносты — и так же безо всякой связи с реальностью.

Наши житейские представления переполнены иллюзорными корреляциями вроде того «факта», что отделения скорой помощи перегружены в полнолуния[337]. Опасность совершить подобную ошибку особенно высока, если в качестве единиц анализа (точек в диаграмме рассеяния) используются месяцы и годы. Дело в том, что значения многих переменных растут и падают с течением времени. Скучающий студент юридического факультета Тайлер Виген написал программу, которая ищет в сети массивы данных с бессмысленными корреляциями, — просто чтобы продемонстрировать, как велико их число. Количество убийств при помощи горячих предметов или пара, например, хорошо коррелирует с возрастом обладательницы титула «Мисс Америка», а уровень разводов в штате Мэн колеблется вместе с уровнем потребления маргарина в США[338].

Регрессия к среднему

Слово «регрессия» стало общепринятым обозначением корреляционного анализа, но связаны они не напрямую. Первоначально этот термин относился к особому, сопряженному с корреляцией явлению — регрессии к среднему. Этот повсеместно распространенный, но, на первый взгляд, парадоксальный феномен открыл викторианский ученый-универсал Фрэнсис Гальтон (1822–1911), который сопоставил рост детей со средним ростом родителей («средним по родителям», то есть со средним арифметическим ростов отца и матери), в обоих случаях внося поправку на среднюю разницу в росте мужчин и женщин. Гальтон обнаружил, что «если средний родительский показатель выше посредственного, дети обычно ниже родителей, если же средний родительский показатель ниже посредственного, дети обычно выше родителей»[339]. Это до сих пор так, причем в отношении не только роста детей и родителей, но и коэффициента интеллекта детей и родителей и, если уж на то пошло, любых двух не идеально коррелирующих переменных. Экстремальное значение одной из них будет, как правило, соответствовать не-так-чтобы-экстремальному значению другой.

Это не значит, что высокие родители производят на свет все более низкорослое потомство, и наоборот, так что однажды все дети мира выровняются по одной и той же отметке на косяке, и не видать нам больше ни жокеев, ни баскетболистов. Не стоит и ожидать, что IQ человечества сойдется на посредственных ста баллах, а гении и глупцы вымрут без следа. Вопреки регрессии к среднему человечество не скатывается ко всеобщей посредственности; дело в том, что хвосты распределения постоянно пополняются редкими очень высокими детьми родителей выше среднего и очень низкорослыми отпрысками родителей ниже среднего.

Регрессия к среднему — чисто статистический феномен, следствие особенности, присущей нормальным распределениям: чем сильнее величина отличается от среднего, тем реже она встречается. Отсюда следует, что, если значение переменной действительно исключительно велико или мало, значение любой другой сопоставленной с ней переменной (например, рост ребенка родителей-гигантов) вряд ли будет таким же странным, или продолжит полосу везения, или оседлает ту же удачу, или потерпит то же фиаско, или еще раз угодит в идеальный шторм — скорей всего, оно скатится к заурядности. В случае роста или коэффициента интеллекта все будет определяться уникальным сочетанием родительских генов, влияния среды и биологических случайностей. Какие-то из составляющих этого сочетания дети унаследуют, но в точности оно не воспроизводится никогда. (И наоборот: так как регрессия — статистический, а не причинный феномен, характеристики родителей точно так же регрессируют к среднему относительно детей.)

Если графически отобразить соотношение двух коррелирующих величин, имеющих нормальное распределение, диаграмма рассеяния будет похожа на наклоненный мяч для регби. На рисунке ниже представлен гипотетический массив данных, подобный собранному Гальтоном: рост родителей (среднее по каждой паре) и рост их взрослых детей (скорректированный так, чтобы рост сыновей и дочерей можно было откладывать на одной оси).

Серая диагональ, пересекающая координатную плоскость под углом 45°, показывает, какую картину мы наблюдали бы, если бы дети уникальных родителей были такими же уникальными. Черная прямая регрессии — то, как обстоят дела в реальности. Если вы посмотрите на крайние значения, скажем на родителей, средний показатель роста которых превышает 6 футов (182 см), вы обнаружите, что точки, обозначающие их потомство, в основном сосредоточены ниже диагонали в 45°, в чем легко убедиться, проведя правую вертикальную пунктирную линию до прямой регрессии, повернув налево и проведя горизонтальную пунктирную линию до вертикальной оси, в которую она утыкается чуть выше отметки 5 футов 9 дюймов (175 см), — эти дети ниже своих родителей. Если же посмотреть на родителей, чей средний рост 5 футов (152 см, левая вертикальная пунктирная линия), вы увидите, что точки, обозначающие их детей, в основном сосредоточены выше серой линии, а повернув налево от прямой регрессии, вы уткнетесь в отметку 5 футов 3 дюйма (160 см), а значит, эти дети своих родителей переросли.

Регрессия к среднему наблюдается, если две переменные не полностью коррелируют, а это значит, что мы сталкиваемся с ней буквально на каждом шагу. И тем не менее Тверски и Канеман показали, что люди, как правило, ничего не знают об этом феномене — показанного ниже шутника из комикса Frank and Ernest можно не учитывать{30},[340].

Необычные явления притягивают внимание людей, но им невдомек, что любая связанная с ними характеристика вряд ли будет настолько же необычной — и они пускаются{31} выдумывать нелепые объяснения тому, что, по сути, представляет собой статистическую закономерность.

Печальным примером этого можно считать иллюзию, будто критика эффективнее похвалы, а наказание — награды[341]. Мы ругаем школьника за двойку, но какое бы неудачное стечение обстоятельств ни обрекло его на провал в прошлый раз, вряд ли оно повторится при следующей попытке, поэтому ребенок как пить дать исправится, а мы будем думать, что наказание сработало. Мы хвалим его за пятерку, но снаряд дважды в одну воронку не падает, и поэтому он вряд ли возьмет ту же высоту в следующий раз, а мы будем думать, что похвала его только портит.

Неосведомленность о регрессии к среднему создает почву и для многих других иллюзий. Спортивные болельщики ломают головы, почему «дебютант года» обязательно сталкивается с «кризисом второго сезона» и почему атлет, чей портрет однажды попал на обложку известного спортивного журнала, в дальнейшем обречен жить с «проклятием Sports Illustrated». (Излишняя самоуверенность? Завышенные ожидания? Звездная болезнь?) Но если человека чествуют за неделю или год невероятной удачи, вряд ли звезды сойдутся таким образом два раза подряд, так что ему — или ей — остается только дрейфовать к среднему. (И если неудачливая команда после замены тренера показывает хорошую игру, это тоже ровным счетом ничего не значит.) После того как новость о серии ужасных преступлений разлетится по всем газетам, политики начинают активно заниматься деятельностью полицейского спецназа, закупками новых технических средств, табличками «Соседского дозора» и прочими эффектными мерами — и, естественно, через пару месяцев уже поздравляют себя со снижением уровня преступности. Психотерапевты, независимо от школы разговорной терапии, также могут незаслуженно приписывать себе победу над болезнью, полечив пациента, явившегося к ним с жесточайшим приступом депрессии или тревожности.