Глава 4
Смещенные выборки
В апреле 2020-го
В предыдущей главе мы видели, как выборки небольшого объема, случайно оказавшись неудачными, искажают результаты. Вывод же о перекусах делался на основе опроса онлайн-банка Raisin, в котором участвовало две тысячи человек. Звучит убедительно?
Только вот исследование может оказаться недостоверным и по другим причинам. Самая очевидная – выборка не представляет население в целом.
Ранее мы проводили мысленный эксперимент – вычисляли средний рост населения, измеряя случайных прохожих. А теперь представьте, что вы делаете это на съезде баскетболистов, – и мимо вас – внезапно – дефилируют толпы двухметровых людей. Средний рост в вашей выборке резко подскочит, хотя для населения в целом останется неизменным.
Такая выборка называется смещенной, или предвзятой. Обычно так говорят о людях: судья предвзято относится к моей команде; СМИ предвзято подходят к моей любимой политической партии. Статистическая предвзятость – про то же самое. Представьте, что вы проводите опрос – «Назовите лучший футбольный клуб за всю историю Англии?» – сначала на Энфилд-Роуд, а потом на Сэр Мэтт Басби-Уэй. Вы получите совершенно разные результаты, потому что у вас будут совершенно разные выборки. [7][8]
Вред от смещенных выборок отличается от вреда маленьких. При выборе небольших групп случайным образом вы, по крайней мере, при увеличении размеров выборки приближаетесь к точному результату. А при смещенных выборках этого не происходит – будет расти лишь ваша уверенность в неверном результате.
Например, в преддверии общенациональных выборов 2019 года Джереми Корбин, тогдашний лидер лейбористской партии, и Борис Джонсон, премьер-министр и лидер тори, провели теледебаты.
После этого компания YouGov, специалист по политопросам, выяснила, что среди телезрителей мнения о том, кто же был убедительнее, разделились почти поровну: 48 % считали, что Джонсон, 46 % – Корбин и еще 7 % не могли определить победителя. (Да, в сумме получается 101 %. Так бывает, если округлять числа до ближайшего целого.)
Это вызвало споры в интернете. В одном вирусном твите (более 15 000 лайков на настоящий момент) упоминалось, что результаты других опросов резко отличались от данных YouGov[9] (см. рисунок на следующей странице).
Четыре из пяти опросов показали, что Корбин явно выиграл дебаты. У единственного, давшего иной результат, объем выборки был в несколько раз меньше, чем у каждого из остальных. Тем не менее только его и цитировали на всех новостных каналах. Говорит ли это о предвзятом отношении СМИ к Корбину?
Скорее, это пример смещенных выборок. Те четыре опроса проводились в твиттере. Обычно это – просто безобидное развлечение (полуфинал мировой лиги чипсов: Monster Munch Pickled Onion против Walkers Cheese & Onion и т. д.). Но иногда вопросы бывают политическими.[10]
Беда в том, что твиттер не представляет всего населения. Соцсетью пользуется 17 % британцев, и среди них, согласно опросу 2017 года, больше молодежи, женщин и представителей среднего класса, чем в целом по стране. А молодежь, женщины и средний класс чаще голосуют за лейбористов. (Ну и, конечно, те, кто увидел эти опросы и поучаствовал в них, не представляют твиттер в целом.)
Большее число опрошенных делу не помогло бы. Проблема сохранилась бы, ведь выборка оставалась бы нерепрезентативной. Даже миллион человек – это все равно опрос пользователей твиттера, а не населения страны. Вы бы получили только более точное значение неверного ответа.
Репрезентативную выборку вообще получить очень трудно. Опрашивая людей в твиттере, вы не узнаете мнения тех, кто им не пользуется. То же самое верно и во всех других случаях. Если проводить опрос в интернете, вы упустите из виду тех, у кого его нет; если на улице, то не охватите тех, кто сидит дома. Раньше при проведении политических опросов было принято обзванивать респондентов, потому что стационарные телефоны стояли почти у каждого и так можно было без труда получить случайную выборку – просто выбирая номера случайным образом. Но в наше время этот способ даст сильно смещенную выборку, потому что те, у кого есть домашние телефоны (и кто отвечает на звонки с неизвестных номеров), отличаются от тех, у кого их нет.[11]
Есть способы, которые отчасти помогают обходить подобные трудности при выборе респондентов. Но идеала достичь невозможно: никого нельзя заставить участвовать в опросе, поэтому вам никогда не удастся полноценно представить тех, кто их ненавидит. Так что приходится идти обходным путем – снабжать результаты весами.
Представьте, что, согласно переписи, и мужчины, и женщины составляют по 50 % населения. Вы проводите опрос, стараясь получить максимально репрезентативную выборку. Из вашей тысячи респондентов 400 – женщины и 600 – мужчины. Вы задаете вопрос: «Нравится ли вам сериал „Анатомия страсти“?» Оказывается, что 400 человек его любят, а 600 – нет. Можно было бы решить, что «Анатомии страсти» симпатизирует 40 % населения. Но, уточнив данные, вы обнаруживаете гендерный перекос: сериал нравится 100 % женщин и 0 % мужчин.
Вы получили 40 % потому, что ваша выборка не репрезентативна для населения страны в целом. К счастью, это легко исправить. Достаточно присвоить результатам веса. Вы знаете, что в вашей выборке женщин всего 40 %, хотя должно быть 50 %. И поскольку 50 на 25 % больше 40, увеличиваете 400 ответов «да» на 25 % и получаете 500.
С мужчинами делаете то же самое. В вашей выборке их 60 %, а в несмещенной должно быть 50 %. 50 составляет 0,833… от 60, следовательно, здесь вес составит 0,833…