Корреляция — это зависимость одной переменной от другой: зная величину первой, можно предсказать и величину второй — хотя бы приблизительно. («Предсказать» в данном случае значит «предположить», а не «напророчить»; можно предсказать, каким окажется рост родителей, зная рост их детей, и наоборот.) Графически корреляцию часто отображают
Корреляция заметна невооруженным глазом: точки разбросаны вдоль диагонали — серой пунктирной линии, едва заметной за общим роем. Каждая точка насажена на стрелку, которая представляет собой микродиаграмму рассеяния для населения этой страны. Макро- и микродиаграммы показывают, что счастье коррелирует с доходом — как для жителей отдельных стран (стрелки), так и по всем странам в целом (точки). И я понимаю, что вас так и тянет предположить, как минимум предварительно, что богатство делает человека счастливым.
Откуда взялись стрелки, пронизывающие точки, и пунктирная серая линия? И как нам преобразовать зрительное впечатление, будто рой точек вытянулся вдоль диагонали, в нечто более объективное, чтобы мы по глупости не увидели закономерности в любой кучке рассыпанных зубочисток?
В таких случаях применяется математический метод под названием
Допустим, эти ленты растягиваются только строго вверх или вниз, но не по диагонали и чем сильнее вы их растягиваете, тем больше их сопротивление. Закрепив все ленты, отпустите стрежень, позволив ему успокоиться.
Стержень замрет в таком положении, при котором минимальна сумма квадратов расстояний от каждого гвоздя до той точки на стержне, с которой его связывает лента. Это положение и есть прямая регрессии, которая выражает линейную зависимость между двумя переменными —
Кроме того, отклонения регрессии позволяют нам количественно выразить
Хотя в скандалах вокруг корреляции и причинности виноватыми обычно считают тех, кто принимает первое за второе, зачастую проблема фундаментальнее: выходит так, что и корреляции-то не установлено. Не удивлюсь, если у туркменов, глодающих кости, зубы не крепче, чем у всех остальных (r = 0). Но не одним лишь президентам бывших советских республик не удается показать не только причинно-следственную связь, но и корреляцию. В 2020 г. Джефф Безос хвастал: «Все мои самые удачные решения и в бизнесе, и в жизни принимались сердцем, чутьем, по наитию… а не в результате анализа», что предполагает, что не анализ, а сердце и чутье подсказывают нам лучшие решения[335]. Но Джефф, увы, не сообщил, как он принимал все свои худшие решения в бизнесе и в жизни — тоже сердцем, чутьем и по наитию? Как и не уточнил, превосходит ли суммарное число хороших интуитивных и плохих аналитических решений суммарное число плохих интуитивных и хороших аналитических.
Иллюзорную корреляцию, как называется это когнитивное искажение, первыми обнаружили психологи Лоран и Джин Чэпмен в своей знаменитой серии экспериментов. Ученых заинтересовал вопрос, почему психотерапевты до сих пор массово используют пятна Роршаха и методику «Нарисуй человека», несмотря на то что ни одно из проведенных исследований не показало корреляции между результатами этих тестов и симптомами психических заболеваний. Коварные экспериментаторы попарно соединили истории болезни психиатрических больных с нарисованными ими человечками, хотя на самом деле истории были липовыми, а пары — случайными. Затем они попросили группу студентов отыскать в результатах какую-нибудь закономерность[336]. Студенты, поддавшись собственным стереотипам, ошибочно предположили, что широкоплечих человечков рисовали гипермаскулинные пациенты, глазастых — параноики и так далее; они называли именно те взаимосвязи, которые «наблюдают» в своих пациентах профессиональные диагносты — и так же безо всякой связи с реальностью.
Наши житейские представления переполнены иллюзорными корреляциями вроде того «факта», что отделения скорой помощи перегружены в полнолуния[337]. Опасность совершить подобную ошибку особенно высока, если в качестве единиц анализа (точек в диаграмме рассеяния) используются месяцы и годы. Дело в том, что значения многих переменных растут и падают с течением времени. Скучающий студент юридического факультета Тайлер Виген написал программу, которая ищет в сети массивы данных с бессмысленными корреляциями, — просто чтобы продемонстрировать, как велико их число. Количество убийств при помощи горячих предметов или пара, например, хорошо коррелирует с возрастом обладательницы титула «Мисс Америка», а уровень разводов в штате Мэн колеблется вместе с уровнем потребления маргарина в США[338].
Регрессия к среднему
Слово «регрессия» стало общепринятым обозначением корреляционного анализа, но связаны они не напрямую. Первоначально этот термин относился к особому, сопряженному с корреляцией явлению — регрессии к среднему. Этот повсеместно распространенный, но, на первый взгляд, парадоксальный феномен открыл викторианский ученый-универсал Фрэнсис Гальтон (1822–1911), который сопоставил рост детей со средним ростом родителей («средним по родителям», то есть со средним арифметическим ростов отца и матери), в обоих случаях внося поправку на среднюю разницу в росте мужчин и женщин. Гальтон обнаружил, что «если средний родительский показатель выше посредственного, дети обычно ниже родителей, если же средний родительский показатель ниже посредственного, дети обычно выше родителей»[339]. Это до сих пор так, причем в отношении не только роста детей и родителей, но и коэффициента интеллекта детей и родителей и, если уж на то пошло, любых двух не идеально коррелирующих переменных. Экстремальное значение одной из них будет, как правило, соответствовать не-так-чтобы-экстремальному значению другой.
Это не значит, что высокие родители производят на свет все более низкорослое потомство, и наоборот, так что однажды все дети мира выровняются по одной и той же отметке на косяке, и не видать нам больше ни жокеев, ни баскетболистов. Не стоит и ожидать, что IQ человечества сойдется на посредственных ста баллах, а гении и глупцы вымрут без следа. Вопреки регрессии к среднему человечество не скатывается ко всеобщей посредственности; дело в том, что хвосты распределения постоянно пополняются редкими очень высокими детьми родителей выше среднего и очень низкорослыми отпрысками родителей ниже среднего.
Регрессия к среднему — чисто
Если графически отобразить соотношение двух коррелирующих величин, имеющих нормальное распределение, диаграмма рассеяния будет похожа на наклоненный мяч для регби. На рисунке ниже представлен гипотетический массив данных, подобный собранному Гальтоном: рост родителей (среднее по каждой паре) и рост их взрослых детей (скорректированный так, чтобы рост сыновей и дочерей можно было откладывать на одной оси).
Серая диагональ, пересекающая координатную плоскость под углом 45°, показывает, какую картину мы наблюдали бы, если бы дети уникальных родителей были такими же уникальными. Черная прямая регрессии — то, как обстоят дела в реальности. Если вы посмотрите на крайние значения, скажем на родителей, средний показатель роста которых превышает 6 футов (182 см), вы обнаружите, что точки, обозначающие их потомство, в основном сосредоточены ниже диагонали в 45°, в чем легко убедиться, проведя правую вертикальную пунктирную линию до прямой регрессии, повернув налево и проведя горизонтальную пунктирную линию до вертикальной оси, в которую она утыкается чуть выше отметки 5 футов 9 дюймов (175 см), — эти дети ниже своих родителей. Если же посмотреть на родителей, чей средний рост 5 футов (152 см, левая вертикальная пунктирная линия), вы увидите, что точки, обозначающие их детей, в основном сосредоточены выше серой линии, а повернув налево от прямой регрессии, вы уткнетесь в отметку 5 футов 3 дюйма (160 см), а значит, эти дети своих родителей переросли.
Регрессия к среднему наблюдается, если две переменные не полностью коррелируют, а это значит, что мы сталкиваемся с ней буквально на каждом шагу. И тем не менее Тверски и Канеман показали, что люди, как правило, ничего не знают об этом феномене — показанного ниже шутника из комикса Frank and Ernest можно не учитывать{30},[340].
Необычные явления притягивают внимание людей, но им невдомек, что любая связанная с ними характеристика вряд ли будет настолько же необычной — и они пускаются{31} выдумывать нелепые объяснения тому, что, по сути, представляет собой статистическую закономерность.
Печальным примером этого можно считать иллюзию, будто критика эффективнее похвалы, а наказание — награды[341]. Мы ругаем школьника за двойку, но какое бы неудачное стечение обстоятельств ни обрекло его на провал в прошлый раз, вряд ли оно повторится при следующей попытке, поэтому ребенок как пить дать исправится, а мы будем думать, что наказание сработало. Мы хвалим его за пятерку, но снаряд дважды в одну воронку не падает, и поэтому он вряд ли возьмет ту же высоту в следующий раз, а мы будем думать, что похвала его только портит.
Неосведомленность о регрессии к среднему создает почву и для многих других иллюзий. Спортивные болельщики ломают головы, почему «дебютант года» обязательно сталкивается с «кризисом второго сезона» и почему атлет, чей портрет однажды попал на обложку известного спортивного журнала, в дальнейшем обречен жить с «проклятием