Книги

Цифры врут. Как не дать статистике обмануть себя

22
18
20
22
24
26
28
30

P(A)

Если есть еще одно событие, которое произошло до A (обозначим его B), то вероятность записывается так:

P(A|B)

Здесь вертикальная линия обозначает «при условии». P(A|B) попросту значит «вероятность A при условии, что B уже произошло». Так что P(A|B) для «выпадения туза при условии, что одного туза вы уже из колоды удалили», равна 3/51, или примерно 0,06.

С помощью одних обозначений это трудно объяснить, поэтому давайте рассмотрим пример. В таких случаях обычно вспоминают медицинские обследования. Представим, что некоторый анализ крови позволяет выявить очень редкое, но смертельное нейродегенеративное заболевание на начальной стадии. Анализ крайне точный.

Важно отметить, что существует два вида точности. Первый – насколько вероятно определить наличие заболевания у того, у кого оно есть, – это доля истинно положительных случаев, которые тест идентифицировал верно, или чувствительность. Второй – насколько вероятно определить отсутствие заболевания у того, у кого его нет, – доля истинно отрицательных случаев, которые тест правильно идентифицировал, или специфичность. Будем считать, что у нас оба показателя составляют 99 %.

Важно отметить, что заболевание очень редкое. Предположим, оно встречается у одного человека из десяти тысяч. Это наша априорная вероятность.

Итак, вы берете анализы у миллиона человек. Из каждых десяти тысяч один болен, итого сто больных. Ваш анализ покажет, что 99 из них больны. Пока всё в порядке.

И он правильно выявит 989 901 человека, у которых заболевания нет. По-прежнему все идет неплохо.

Но есть одна загвоздка. Несмотря на то что анализ верен в 99 % случаев, он тем не менее покажет наличие смертельного заболевания у 9999 здоровых людей. Из тех 10 098 человек, у которых анализ выявит болезнь, на самом деле больны 99, то есть менее 1 %. Если бы вы стали принимать результаты за чистую монету и говорили каждому с положительным результатом, что он болен, то вы бы ошибались в 99 случаях из 100, напрасно пугая людей и, возможно, посылая их на ненужные, инвазивные и рискованные медицинские процедуры.

Не зная априорной вероятности, вы не можете знать значения положительного теста. Оно не скажет вам, с какой вероятностью у вас то заболевание, которое выявляет анализ. Поэтому сообщение о 95 %-ной точности бессмысленно.

Это не воображаемая проблема, интересная только ученым. В одном метаанализе (как вы помните из главы 7, это публикация, где собраны сведения о нескольких разных исследованиях) показано, что 60 % женщин, ежегодно проходящих маммографию в течение десяти лет, хотя бы один раз получают ложноположительный результат. В ходе исследования, изучавшего мужчин, которые были направлены на биопсию и ректальное исследование после положительного результата теста на рак простаты, обнаружилось, что у 70 % из них результат был ложноположительным. Согласно одной публикации, некий пренатальный тест на выявление хромосомных нарушений у плода – а они встречаются очень редко, – специфичность которого якобы составляла до 99 %, а ложноположительные результаты получались в 0,1 % случаев, на самом деле давал ложноположительные значения в 45–94 % случаев.

Хотя результаты этих тестов не указывают на окончательный диагноз – пациентов с положительными результатами затем тщательно обследуют, – они испугают многих людей, у которых в результате не окажется рака или родится здоровый ребенок.

И проблема не ограничивается медицинскими анализами. Она может иметь серьезные последствия и в юридических вопросах. Хорошо известная и частая судебная ошибка – ошибка прокурора – по сути сводится к непониманию теоремы Байеса.

В 1990 году Эндрю Дина – отчасти на основании ДНК-экспертизы – приговорили к 16 годам тюремного заключения за изнасилование. Выступавший на стороне обвинения судебный эксперт сказал, что вероятность принадлежности ДНК другому человеку составляла один на три миллиона.

Но как отметил главный судья лорд Тейлор при пересмотре дела, здесь смешались два разных вопроса: насколько вероятно, что ДНК невиновного человека совпадет с образцом, и насколько вероятно, что человек невиновен, если его ДНК совпала с образцом? Ошибка прокурора заключается в том, что эти два вопроса считаются одинаковыми.

Можно рассуждать точно так же, как и с анализом крови. Если у вас нет других доказательств – а это маловероятно – и вы просто наугад выбрали подозреваемого из всего населения Великобритании, которое в то время составляло около 60 млн, априорная вероятность, что этот человек и есть искомый убийца, составляет одну шестидесятимиллионную. Если протестировать все 60 млн человек, то убийца будет выявлен правильно, но при этом еще у 20 невиновных будут ложноположительные результаты. Поэтому, даже если вероятность такого результата при тестировании невиновного человека составляет всего одну трехмиллионную, вероятность того, что любой случайный человек, получивший положительный результат, окажется невиновным, составляет более 95 %.

В реальной жизни обвиняемые не выбираются случайным образом; обычно есть и другие доказательства, а это значит, что априорная вероятность больше одной шестидесятимиллионной. Но, как и в случае с анализом крови, знание вероятности ложноположительного результата тестирования ДНК не подтверждает виновность: нужна еще априорная вероятность, какая-то оценка вероятности того, что этот человек виновен.

В декабре 1993-го апелляционный суд отменил приговор Дина, объявив его необоснованным, потому что и судья, и судебный эксперт стали жертвами ошибки прокурора. (Впоследствии, в ходе пересмотра судебного дела, он все равно был осужден.)

Точно так же трагическое дело Салли Кларк, осужденной в 1998 году за убийство своих детей, обернулось ошибкой прокурора из-за свидетельских показаний эксперта. Он сказал, что вероятность гибели от синдрома внезапной детской смерти (СВДС) двух младенцев в одной семье составляет 1:73 млн. При этом он не учел априорную вероятность человека оказаться двойным убийцей, которая еще меньше. (Там были и другие проблемы: эксперт не учел, что, если в семье уже был один случай СВДС, вероятность второго увеличивается.) Дело Кларк тоже было пересмотрено – в 2003 году.