Теперь новости поменялись местами: мы почти не кричим «волки» из-за ложных тревог (это плюс), но пропускаем большую часть сигналов (это минус). В двух крайних случаях, раз от разу бездумно отвечая «да», мы всегда будем правы при наличии сигнала и всегда ошибаться при регистрации шума — и наоборот, если станем каждый раз говорить «нет».
Это вроде бы очевидно, но путать критерий принятия решения с точностью, обращая внимание либо только на сигналы, либо только на шум, — на удивление распространенное заблуждение. Предположим, экзаменатор по отдельности анализирует ответы на тест типа «да или нет»: сначала только ответы «да», а потом только ответы «нет». Сам он уверен, что таким образом узнает, что людям удается лучше — соглашаться с истинными или отвергать ложные высказывания, но на самом деле он видит лишь то, какого рода люди сами тестируемые: склонны ли они соглашаться чаще, чем не соглашаться, или наоборот. Я пришел в ужас, когда врач решил проверить остроту моего слуха тестом, состоявшим из серии звуковых сигналов, громкость которых последовательно повышалась от недоступных уху до четко различимых, и попросил меня поднять палец вверх, когда я наконец что-нибудь услышу. Это была не проверка моего слуха. Это была проверка на нетерпеливость и на готовность рискнуть в тот момент, когда я не могу с уверенностью сказать, что слышу на самом деле — звуковой сигнал или звон в ушах. Теория обнаружения сигнала подсказывает множество способов, как организовывать подобные проверки правильно: можно, например, штрафовать респондентов за ложные тревоги, заставлять их говорить «да» в конкретной доле случаев, просить их оценивать степень своей уверенности, не ограничиваясь поднятым вверх пальцем, или же предлагать тесты с несколькими вариантами ответов вместо тестов «да или нет».
Издержки и выгоды, установка критерия
Что должен делать рациональный наблюдатель, мучительно балансирующий между верными попаданиями и ложными тревогами (или промахами и правильными отрицаниями)? Если на мгновение предположить, что нам не суждено усовершенствовать ни свое восприятие, ни измерительные инструменты и от досадного наложения колоколообразных кривых никуда не деться, ответ вытекает из теории ожидаемой полезности (глава 6): все зависит от выгод обоих типов верных решений и издержек обоих типов ошибок[290].
Давайте вернемся к примеру, с которого мы начали знакомство с теорией обнаружения сигнала, а именно как отличить приближающийся бомбардировщик от помех на радаре. В таблице описаны четыре варианта развития событий; строки соответствуют состояниям реального мира, столбцы — реакциям оператора радара, а в ячейках перечислены исходы.
Решая, какое значение присвоить критерию принятия решений, ответственное лицо должно рассмотреть совокупные издержки (ожидаемую полезность) каждого столбца[291]. Ответ «да» спасет город, когда тот действительно в опасности (верное попадание), и это огромное преимущество; если же городу ничего не угрожает (ложная тревога), издержки придется понести умеренные, включая затраты на подъем в воздух истребителей-перехватчиков, а также панику среди сограждан и рост международной напряженности. Ответ «нет» в случае реальной атаки поставит город под удар (промах), и это страшная цена, зато сохранит благословенный мир и покой, если город никто не атакует (правильное отрицание). Если подбить баланс, то нам здесь, видимо, нужен низкий (то есть довольно чувствительный) критерий принятия решения: сколько-то дней, в которые истребителям придется без нужды бороздить воздушное пространство, — невысокая плата за тот единственный раз, когда они спасут город от бомбежки.
При других издержках и расчет будет другим. Предположим, ответив «да», мы должны будем не поднять в воздух истребители, но ударить ядерными ракетами по городам противника, гарантированно развязав Третью мировую войну. В этом случае катастрофическая цена ложной тревоги требует абсолютной уверенности в нападении, а это означает, что критерий принятия решения должен быть очень, очень высоким.
Неплохо также учесть базовые оценки частоты наличия бомбардировщиков и чаек, вызывающих светлые пятна на радаре (Байесовы априорные вероятности). Если чайки встречаются часто, а бомбардировщики — редко, разумно будет повысить критерий (не сразу хвататься за оружие), и наоборот.
Как мы уже обсудили в предыдущей главе, с такой же дилеммой можно столкнуться и в частной жизни, решая, соглашаться ли на операцию при неоднозначных результатах онкологического скрининга:
Так какое же значение должен присвоить критерию принятия решений рациональный агент — «идеальный наблюдатель», как его называют на языке теории обнаружения сигнала? Ответ: такое, которое максимизирует ожидаемую полезность[292]. В лаборатории, где экспериментатор контролирует число испытаний со звуком (сигнал) и без него (шум), поощряет участника за верные попадания и правильные отрицания и штрафует его за промахи или ложные тревоги, подсчитать полезность несложно. В этом случае гипотетический участник, который желает заработать как можно больше, устанавливает критерий согласно следующей формуле, где стоимость — это выплата или штраф:
Точная формула не так важна; достаточно заметить, что стоит в числителе, а что в знаменателе дроби и какие величины расположены справа, а какие слева от знака минус. Идеальный наблюдатель повышает критерий (прежде чем сказать «да», требует более веских доказательств) в той мере, что шум вероятнее сигнала (низкая априорная вероятность). Это здравый смысл: если сигналы редки, говорить «да» стоит не так часто. Повысить планку наблюдателю следует и в том случае, если выплата за верное попадание ниже (или выплата за правильное отрицание выше), а штраф за ложную тревогу — выше (или, соответственно, штраф за промах ниже). Здесь опять говорит элементарный здравый смысл: если ложная тревога наказывается крупным штрафом, вам нужно с осторожностью произносить свои «да», но, если верное попадание позволяет сорвать куш, вы будете щедрее. Участники лабораторных экспериментов интуитивно нащупывали оптимальную линию поведения.
Когда дело касается вопросов жизни и смерти, страдания и уродующих операций или же спасения и гибели цивилизации, оценить издержки в цифрах, понятно, куда сложнее. Но, отказавшись от вычислений, мы не сделаем эти дилеммы менее мучительными, а вот взвешивая исходы, записанные в четырех ячейках таблицы, — пусть при этом и придется очень грубо оценивать, какие из издержек чудовищны, а какие более или менее терпимы, — мы можем начать принимать более последовательные и оправданные решения.
Чувствительность и критерий принятия решения
Компромиссы между промахами и ложными тревогами мучительны и способны заставить с пессимизмом взирать на судьбу человечества. Неужели мы, смертные, обречены вечно выбирать между ужасными издержками ошибочного бездействия (город разрушен, опухоль растет) и кошмарными издержками ошибочного действия (губительное обострение ситуации, уродующая операция)? Теория обнаружения сигнала утверждает, что это так, но она же и подсказывает, как смягчить трагизм ситуации. Мы можем изменить условия компромисса, если увеличим чувствительность наблюдений. Издержки в задаче обнаружения сигнала зависят от двух параметров: в какой точке мы установили порог отсечения (критерий принятия решения, готовность схватиться за оружие, или β) и как далеко разнесены кривые распределения сигнала и шума; этот последний параметр называется мерой чувствительности и обозначается символом
Представьте, что нам удалось усовершенствовать радар так, что он не замечает чаек, или в худшем случае показывает их как слабый «снег» на экране, тогда как бомбардировщики отображаются четкими яркими пятнами. В таком случае колоколообразные кривые шума и сигнала будут разнесены в разные стороны (нижний график). А это, в свою очередь, значит, что вне зависимости от того, где вы установили порог отсечения, у вас будет меньше как промахов, так и ложных тревог.
Соответственно, согласно законам арифметики, повысится доля верных попаданий и правильных отрицаний. Перемещение порога отсечения вправо и влево заставляет мучительно выбирать между ошибками разного рода, но разнесение кривых друг от друга (приборы поточнее, аналитические системы почувствительнее, экспертиза понадежнее) — это безусловное благо, сокращающее долю ошибок обоих типов. Сталкиваясь с непростыми задачами обнаружения сигнала, мы всегда должны стремиться к повышению чувствительности, что подводит нас к обсуждению одной из важнейших областей применения этой теории.
Обнаружение сигнала в зале суда
Расследование правонарушений — это тоже задача обнаружения сигнала. Судье, присяжным или дисциплинарной комиссии представляют доказательства возможной виновности подсудимого. Доказательства могут быть разной степени убедительности, а представленная доказательная база могла возникнуть как вследствие преступления обвиняемого (сигнал), так и по иной причине, например преступление совершил кто-то другой или преступления вообще не было (шум).
Кривые распределения силы доказательств накладываются друг на друга сильнее, чем многие думают. С появлением ДНК-типирования (огромный скачок чувствительности) обнаружилось, что массу невинных людей осудили на тюремное заключение и даже на смерть на основании доказательств, которые с равной вероятностью могли быть вызваны как сигналом, так и шумом. Самое проблематичное в этом смысле доказательство — показания очевидца: исследования Элизабет Лофтус и других когнитивных психологов свидетельствуют, что люди постоянно и с полной уверенностью рассказывают, как видели вещи, которых никогда не случалось[294]. К тому же большая часть якобы научных и высокотехнологичных методов, демонстрируемых в детективных сериалах вроде «C. S. I.: место преступления» (CSI: Crime Scene Investigation), никогда должным образом не проверялась, хотя самопровозглашенные эксперты, со всей свойственной им самоуверенностью и предвзятостью подтверждения, активно их продвигают. В числе таких методов — криминалистическая экспертиза пуль, следов от укусов, волокон, волос, отпечатков обуви, следов шин, следов от инструментов, почерка, разлета капель крови, следов горючих веществ и даже отпечатков пальцев[295]. ДНК-типирование — самый надежный криминалистический метод, но и здесь не стоит забывать о разнице между предрасположенностью и частотой: определенный процент генетических доказательств всегда испорчен из-за загрязнения образцов, перепутанных этикеток и прочих человеческих ошибок.
Присяжные, столкнувшись с полными шума доказательствами, должны применить критерий принятия решения и вернуться в зал заседаний с вердиктом «да» или «нет». Матрица решений жюри характеризуется особыми издержками и выгодами, измеренными в единицах целесообразности и морали: злодеев либо уберут с улиц, либо позволят им и дальше паразитировать на окружающих — правосудие как абстрактная ценность будет либо совершено, либо попрано.