Как мы видели при обсуждении запретных базовых оценок (глава 5), никто не будет мириться с системой правосудия, которая зиждется исключительно на утилитарной оценке издержек и выгод для общества; мы настаиваем на справедливости по отношению к каждому отдельному человеку. Так как же, учитывая, что присяжные не всеведущи, отыскать компромисс между несоизмеримыми бедами ложного осуждения и ошибочного оправдания? Или, если говорить языком теории обнаружения сигнала, какое значение присвоить критерию принятия решений?
Стандартный подход состоит в том, чтобы приписывать высокие моральные издержки ложным тревогам. Как выразился юрист Уильям Блэкстон (1723–1789), формулируя названный позже в его честь принцип, «лучше отпустить на свободу десять виновных, чем обречь на страдания одного невинного». Поэтому присяжные в уголовных процессах руководствуются «презумпцией невиновности» и вправе вынести обвинительный приговор, только если подозреваемый «виновен без каких-либо разумных сомнений» (высокое значение критерия принятия решения β). Они не могут признать подсудимого виновным на основе простого «наличия более веских доказательств» — как еще говорят, «пятьдесят процентов плюс перышко».
Конечно, пропорция Блэкстона (10 к 1) произвольна, но ее перекос в сторону оправдания в высшей степени оправдан. В демократической системе свобода — состояние по умолчанию, а принуждение со стороны властей — тягостное исключение, которое должно удовлетворять высоким требованиям обоснованности, особенно учитывая чудовищную мощь государства и постоянный соблазн ею злоупотребить. Наказание невиновного, особенно наказание смертью, отягощает нашу совесть совсем не так, как если виновный уходит от ответственности. Справедливую власть от власти террора отличает прежде всего система, которая не обрекает людей на погибель, когда ей заблагорассудится.
Как и при любом определении критерия принятия решения, значение критерия, основанное на принципе Блэкстона, зависит от оценки стоимости четырех возможных исходов, которую можно и оспорить. После трагедии 11 сентября администрация президента Джорджа Буша посчитала, что катастрофические издержки крупного террористического акта оправдывают «допросы с пристрастием» (собственно, пытки) и перевешивают моральные издержки добытых такими средствами самооговоров[296]. В 2011 г. Министерство образования США спровоцировало гневную реакцию общественности, выпустив новый циркуляр (ныне отмененный), предписывающий колледжам наказывать учащихся, обвиненных в сексуальных домогательствах, на основании одних только «более веских доказательств»[297]. Некоторые из сторонников подобных мер признавали, что это непростой компромисс, но утверждали, что сексуальные домогательства настолько гнусны, что сколькими-то невиновными можно и пожертвовать[298].
На такие вопросы о моральных издержках нет «правильного» ответа, но, желая убедиться, что наши методы соответствуют нашим ценностям, их стоит обдумывать в парадигме теории обнаружения сигнала. Предположим, мы хотим, чтобы доля несправедливо осужденных, как и доля ошибочно оправданных, не превышала 1 %. Предположим также, что присяжные — идеальные наблюдатели, оптимальным образом применяющие теорию обнаружения сигнала. Насколько убедительными должны быть доказательства, чтобы была достигнута поставленная цель? Точнее, насколько велико должно быть
Психологи Хэл Аркес и Барбара Меллерс подсчитали: чтобы удовлетворять этим требованиям,
Значит ли это, что наше высоконравственное стремление к справедливости обгоняет наше умение доказывать виновность? Почти наверняка. Аркес и Меллерс решили проверить на группе студентов, к какой же справедливости мы на самом деле стремимся. Студенты решили, что справедливое общество должно осуждать не более 5 % невиновных и выпускать на свободу не более 8 % виновных. Опрос группы судей показал, что и они считают примерно так же. (Определить, жестче эти требования принципа Блэкстона или мягче, невозможно, поскольку нам неизвестно, какая доля подсудимых виновна на самом деле.) Чтобы соответствовать такому стандарту,
Насколько это реально? Аркес и Меллерс перелопатили литературу, посвященную чувствительности различных тестов и методик, и нашли ответ: не очень. Когда испытуемых просят отличить лжецов от правдорубов,
Предположим, что типичное качество доказательства в зале суда характеризуется
Надо сказать, что судебная система умеет заключать сделки с дьяволом и повыгоднее. Большинство уголовных дел до суда вообще не доходит: они рассыпаются из-за слабости доказательной базы или заканчиваются досудебным соглашением (наилучший вариант), потому что собранные улики настолько убедительны. Тем не менее мышление в парадигме теории обнаружения сигнала способно направить наши споры о судебной системе в сторону большей справедливости. Сейчас гражданские активисты в большинстве своем ничего не знают о компромиссе между верными попаданиями и ложными тревогами и считают несправедливые обвинительные приговоры чем-то немыслимыми — как если бы присяжные были непогрешимы. Поэтому многие поборники справедливости выступают за снижение критерия принятия решения. Поместите за решетку больше преступников! Верьте женщинам безоговорочно! Следите за террористами и изолируйте их, прежде чем они нанесут удар! Тот, кто забрал чужую жизнь, должен лишиться собственной! Но математика неумолима: понижение критерия способно лишь заменить один вид неправосудия другим. Все эти призывы можно переформулировать. Упрячьте за решетку больше невиновных! Осудите за изнасилование больше непричастных! Изолируйте от общества безобидных недорослей, сболтнувших лишнего в социальных сетях! Казните больше случайных людей![301] Конечно, одним изменением формулировок доводы не опровергнешь. В какие-то периоды система действительно может лучше защищать интересы подсудимых в ущерб интересам их вероятных жертв — или наоборот — и требовать реформирования. Но если отнюдь не всезнающие люди все же хотят иметь систему правосудия, им придется смириться и с печальной неизбежностью наказания невиновных.
Однако, если не забывать о горьких компромиссах, неизбежных при отделении сигнала от шума, справедливости в мире станет больше. Помня о них, мы вынуждены признать, насколько чудовищны суровые наказания, особенно смертная казнь и длительные тюремные сроки. Это не просто жестокость по отношению к преступившим закон — все эти кары неизбежно падут и на головы невиновных. И эти же компромиссы напоминают нам, что к настоящей справедливости ведет увеличение чувствительности системы, а не закрепление свойственных ей перекосов: нам нужны более гуманные методики допросов обвиняемых и опросов свидетелей, более точная криминологическая экспертиза, ограничители прокурорского рвения и другие механизмы, защищающие правосудие от ошибок обоего рода.
Обнаружение сигнала и статистическая значимость
Компромисс между верными попаданиями и ложными тревогами — неотъемлемая часть любого решения, основанного на ненадежных данных, а это значит, что он присущ всякому человеческому суждению. Я расскажу еще об одном — о том, как определить, позволяют ли какие-то эмпирические данные сделать вывод об истинности гипотезы. В этой области теория обнаружения сигнала оборачивается теорией статистических решений[302].
Читатели, интересующиеся наукой, наслышаны о «статистической значимости», поскольку ее нередко упоминают в новостях, повествующих об открытиях в области медицины, эпидемиологии и общественных наук. В основе этого понятия лежит примерно та же математика, на которой зиждется теория обнаружения сигнала; первопроходцами здесь были статистики Ежи Нейман (1894–1981) и Эгон Пирсон (1895–1980). Поняв, как связаны эти две идеи, вы сможете избежать ошибок, которые регулярно совершают даже ученые. Всех студентов-статистиков предупреждают, что «статистическая значимость» — это техническая концепция, которую не стоит путать со «значимостью» в привычном понимании чего-то «важного» или «достойного внимания». Тем не менее многие не до конца понимают, что же это такое.
Предположим, исследовательница проводит какие-то наблюдения и преобразует результаты наблюдений в данные, отражающие эффект, который ее интересует, например разницу симптомов в группе, которой давали лекарство, и в группе, получавшей плацебо, или разницу в речевых навыках мальчиков и девочек, или повышение экзаменационных оценок у студентов, посещавших дополнительные занятия. Если это число равно нулю, значит, эффекта нет; если оно больше нуля — возможно, пора кричать «эврика». Но из людей выходят плохие подопытные кролики, в данных полно шума, и, если среднее оказывается выше нуля, это может означать как какое-то реальное изменение, так и ошибку отбора, чистую случайность. Давайте снова поднимемся на уровень восприятия бога и начертим кривые распределения результатов, которые исследовательница получит, если в реальности ничего не происходит (это называется «нулевая гипотеза»), и результатов, которые она получит, если что-то — эффект определенной величины — все же происходит. Эти кривые накладываются друг на друга — вот что делает науку таким непростым занятием. Картина должна показаться вам знакомой:
Нулевая гипотеза — это шум, альтернативная гипотеза — сигнал. Величина эффекта — что-то вроде чувствительности: она определяет, насколько легко отделить сигнал от шума. Прежде чем открывать шампанское, исследовательница должна применить к полученным результатам некий критерий, который еще называют критической величиной. Не преодолев критической величины, она не может опровергнуть нулевую гипотезу и примется заливать горе; если же она ее преодолела, значит, нулевая гипотеза опровергнута и можно праздновать, объявив эффект «статистически значимым».
Но где поместить эту критическую величину? Исследовательница вынуждена искать баланс между двумя типами ошибок. Если она опровергнет верную нулевую гипотезу — это ложная тревога, или, в терминах теории статистических решений, ошибка первого рода. Если же ей не удастся опровергнуть ложную нулевую гипотезу — это промах, или ошибка второго рода. Ни то ни другое не сулит ничего хорошего. Ошибка первого рода привносит ложные факты в совокупность научного знания. Ошибка второго рода — это перевод денег и усилий. Она случается, когда «мощность метода» (доля верных попаданий, или 1 минус доля ошибок второго рода) недостаточна для обнаружения эффекта.
Давным-давно — кем и когда, точно неизвестно — было решено, что ошибки первого рода («обнаружение» эффекта там, где его нет) наносят особенно сильный вред научному знанию, которое может выдержать только определенную их долю — если быть точным, не более 5 % от всех исследований, в которых нулевая гипотеза была верна. Отсюда и возникла общепринятая практика: ученые должны устанавливать такую критическую величину, которая гарантирует, что вероятность опровержения нулевой гипотезы в случаях, когда она верна, составляет менее 5 %; вот оно, вожделенное «p < 0,05». (Может, кто-то и задумывался о необходимости учитывать и издержки ошибок второго рода, как это принято в теории обнаружения сигнала, но по некой туманной исторической причине этого так и не случилось.)
Вот что такое «статистическая значимость» — это способ ограничить долю ложных заявлений об открытиях произвольно выбранным верхним пределом. Предположим, вы получили статистически значимый результат при p < 0,05. Значит ли это, что вы вправе сделать перечисленные ниже выводы?
• Вероятность, что нулевая гипотеза верна, составляет менее 0,05.