Эталонный пример байесовского мышления — постановка медицинского диагноза. Предположим, что в среднем по популяции частота рака груди у женщин составляет 1 %. Предположим, что чувствительность анализа на рак груди (доля истинно положительных результатов) составляет 90 %. Предположим, что доля ложноположительных результатов данного анализа равна 9 %. Некая женщина получила положительный результат анализа. Каковы шансы, что у нее рак груди?
Участвовавшие в исследовании врачи, ознакомившись с этими цифрами, чаще всего давали ответ в диапазоне от 80 до 90 %[217]. Правило Байеса позволяет вычислить верный ответ: 9 %. Да-да, профессионалы, которым мы вверяем свою жизнь, не справляются с простейшей задачей интерпретации результатов анализа, причем ошибаются по-крупному. Они убеждены, что у пациентки рак с вероятностью почти 90 %, хотя на самом деле с вероятностью 90 % рака у нее нет. Представьте вашу эмоциональную реакцию на первую цифру, а потом — на вторую и подумайте, как бы вы в тех и других обстоятельствах оценивали свои перспективы. Вот почему любому человеку не помешает как следует разобраться в теореме Байеса.
Чтобы принять сопряженное с риском решение, необходимо оценить шансы («Есть ли у меня рак?») и взвесить последствия каждого из вариантов («Если у меня рак, а я не буду лечиться, я умру; если же у меня нет рака, а я соглашусь на хирургическое вмешательство, мне придется испытать боль и подвергнуться ненужной уродующей операции»). В главах 6 и 7 мы порассуждаем о том, как надо принимать решения с учетом их последствий, если нам известны вероятности; но в любом случае начинать нужно с вычисления самих вероятностей: какова вероятность, что некое обстоятельство истинно в свете имеющихся доказательств?
Как бы ни пугало вас слово «теорема», правило Байеса не очень сложно, и, как мы убедимся в конце главы, его вполне можно прочувствовать интуитивно. Величайшая догадка его преподобия Томаса Байеса (1701–1761) состоит в следующем: уровень доверия гипотезе можно количественно выразить в виде вероятности. (Это субъективистское понимание слова «вероятность», с которым мы познакомились в предыдущей главе.) Пусть Р(гипотеза) — это вероятность гипотезы, другими словами, степень нашей уверенности в ее истинности. (Если говорить о медицинском диагнозе, гипотеза — это утверждение, что пациент болен.) Очевидно, что доверие любой идее должно основываться на доказательствах. Языком теории вероятности можно сказать, что доверие должно
Усвоив этот теоретический момент, вы разберетесь и с правилом Байеса, поскольку это всего лишь формула вычисления условной вероятности, знакомая нам из предыдущей главы, примененная к уверенности и доказательству. Мы помним, что вероятность А при условии В равна вероятности (А и В), деленной на вероятность В. Следовательно, вероятность гипотезы с учетом имеющихся данных (которая нам и нужна) — это вероятность конъюнкции гипотезы и данных (скажем, пациентка больна
Что это значит? Вспомним, что Р(гипотеза|данные), левая часть равенства, — это апостериорная вероятность — степень доверия гипотезе, уточненная после изучения доказательств. Например, уверенность в диагнозе после того, как стал известен результат анализа.
Р(гипотеза) в правой части равенства — это
Р(данные|гипотеза) — это
И наконец, Р(данные) — это полная вероятность появления данных во всех случаях, независимо от того, верна гипотеза или неверна. Ее иногда называют маргинальной вероятностью — не потому, что она незначительна, но потому, что суммарный итог по каждой строке (или столбцу) принято было записывать на полях (от margin, «поле страницы»), то есть это суммарная вероятность получения данных при условии, что гипотеза верна, и при условии, что она неверна. Легче запомнить другой термин — «распространенность данных». В случае медицинского диагноза это доля
Заменив алгебраическое равенство удобной для запоминания схемой, получаем:
В переводе с языка математики это звучит следующим образом: «Степень доверия гипотезе после изучения данных должна быть равна априорной уверенности в гипотезе, умноженной на правдоподобие появления данных при условии, что гипотеза верна, и деленной на суммарную распространенность данных при всех условиях».
В обычной жизни это работает так. Вам стал известен новый факт; как должна измениться ваша уверенность в гипотезе? Во-первых, доверяйте ей сильнее, если с самого начала она была неплохо обоснована, внушала доверие или походила на правду, то есть если высока ее априорная вероятность (первый множитель в числителе). Как неустанно твердят студентам-медикам преподаватели, если за окном раздается стук копыт, это, скорее всего, лошадь, а не зебра. Если пациент жалуется на боли в мышцах, скорее всего, у него грипп, а не болезнь куру (редкое заболевание, распространенное среди представителей племени форе в Новой Гвинее), даже если симптомы согласуются как с тем, так и с другим заболеванием.
Во-вторых, доверяйте гипотезе больше, если подобные данные встречаются особенно часто, когда она верна, то есть если высоко правдоподобие данных (второй множитель в числителе). Если к вам обращается пациент с кожей голубого оттенка, разумно будет предположить у него метгемоглобинемию, известную как болезнь голубой кожи; пятнистую лихорадку Скалистых гор разумно заподозрить у пациента из района Скалистых гор, который является на прием с сыпью и повышенной температурой.
В-третьих,
Давайте посмотрим, как это работает с цифрами. Вернемся к примеру с онкологическим диагнозом. Частота, с которой заболевание встречается в популяции, 1 %, это наша априорная вероятность: Р(гипотеза) = 0,01. Чувствительность теста — это правдоподобие положительного результата анализа при условии, что пациент болен: Р(данные|гипотеза) = 0,9. Общая распространенность положительного результата анализа равна сумме вероятностей верного попадания для тех, кто действительно болен (90 % от 1 %, или 0,009), и ложной тревоги для тех, кто на самом деле здоров (9 % от 99 %, или 0,0891), что дает нам число 0,0981, которое мы округлим до 0,1. Подставив значения переменных в правило Байеса, получим 0,01 × 0,9 / 0,1, что равно 0,09.
Так почему же доктора (и, будем честны, большинство из нас) заблуждаются? Почему мы думаем, что у пациентки практически наверняка злокачественная опухоль, когда на самом деле ее практически наверняка нет?
Игнорирование базовой оценки и эвристика репрезентативности
Канеман и Тверски поняли, где мы чаще всего спотыкаемся, пытаясь мыслить по-байесовски: мы игнорируем
Исследователи пошли еще дальше и предположили, что мы вообще не мыслим по-байесовски. Вместо этого мы оцениваем вероятность принадлежности некоего случая к категории по его
Тверски и Канеман продемонстрировали пренебрежение базовой оценкой в лабораторном эксперименте: они рассказывали испытуемым об автомобильной аварии, виновник которой, водитель такси, сбил ночью человека и скрылся с места происшествия. В городе два таксопарка: «Зеленое такси», владеющее 85 % автомобилей, и «Синее такси», которому принадлежит 15 % машин (это базовые оценки, то есть априорные вероятности). Свидетель утверждает, что человека сбило синее такси, а тесты показывают, что при слабой освещенности он верно идентифицирует цвета в 80 % случаев (это правдоподобие данных, а именно вероятность истинности его свидетельства с учетом реального цвета такси). Какова вероятность, что в ДТП участвовала машина «Синего такси»? Согласно правилу Байеса, верный ответ — 0,41. Среднее арифметическое ответов в эксперименте оказалось равным 0,8, что почти в два раза выше. Респонденты излишне серьезно, практически на веру, принимали правдоподобие и почти не учитывали базовую оценку[221].