Как разоблачить статистику

Не все статистические данные можно проверить с той же степенью надёжности, какую гарантирует химический анализ или какое-то другое действо, осуществляемое в стенах лаборатории. Но что мешает вам прощупать подозрительные данные с помощью пяти простых вопросов? Ответив на них, вы оградите себя от невероятной массы сведений, которые не содержат и крупицы правды.

1. Кто это говорит?

Первое, на что следует обратить внимание, — это предвзятость статданных. Вдруг они исходят от научно-исследовательской лаборатории, которой требуется подтвердить какую-нибудь теорию или сохранить репутацию? А ещё ей просто могли за это заплатить. Или сведения представила газета, чья цель — интересная статья. А может, источником стал профсоюз или руководство компании и на кону стоит размер заработной платы персонала.

Присмотритесь: нет ли сознательного искажения сведений? Один из приёмов — откровенно лживое утверждение; другой — когда утверждение сформулировано туманно, но не хуже вводит в заблуждение, а уличить автора в обмане не представляется возможным. Это может быть и подбор благоприятных фактов при одновременном сокрытии неблагоприятных. Иногда намеренно подменяют точку отсчёта. Такое практикуется, когда для одного сравнения за основу берётся какой-то один год, а для другого сравнения — другой год, более подходящий. Бывают случаи, когда специально выбирают ненадлежащий статистический показатель: например, среднее арифметическое там, где медиана была бы более показательной (и, вероятно, чересчур показательной). Этот трюк маскируют, называя приведённый показатель «средним» — без уточнения, какой это вид среднего.

Присматривайтесь внимательно, возможна ли непреднамеренная предвзятость данных. Зачастую это куда опаснее. Именно такого рода предвзятость в 1928 г. сыграла злую шутку со многими статистиками и экономистами, когда, пробравшись в их графики и диаграммы, «помогла» им доказать вещи совершенно невероятные. Дефекты в структуре экономики они на радостях прошляпили, зато привели самые разнообразные свидетельства, причём подкреплённые статистическими выкладками, дабы продемонстрировать, что страна вступила в полосу процветания.

Когда упоминается «какое-надо-имя», удостоверьтесь, что авторитет его обладателя действительно стоит за данной информацией, а не просто приплетается ради пущей убедительности.

2. Откуда ему это известно?

Приглядывайтесь, нет ли свидетельств тому, что выборка смещённая, то есть отобрана ненадлежащим образом или сформировалась сама собой. Задайте себе вопрос: достаточно ли велика выборка, чтобы на её основе сделать сколько-нибудь надёжный вывод?

Аналогичным способом поступайте в случае, когда сообщается о корреляции: достаточно ли она велика, чтобы что-то означать? Достаточно ли случаев рассмотрено, чтобы выявленная корреляционная зависимость имела хоть какую-то значимость? Как неподготовленный читатель, вы лишены возможности применить какие-либо критерии значимости или составить себе однозначное суждение о степени адекватности выборки. Но что касается множества публикуемых данных, вы способны оценить с первого взгляда — возможно, довольно долгого и пристального, — что количество рассмотренных случаев явно недостаточно, чтобы убедить в чём-либо человека думающего.

3. Чего не хватает?

Далеко не всегда сообщают, сколько случаев было взято для изучения. Отсутствия такой цифры достаточно, чтобы бросить тень подозрения на все сообщение в целом, особенно если оно исходит от заинтересованного источника. Точно так же не следует принимать слишком серьёзно информацию о корреляции между двумя величинами, если не указана степень достоверности этого показателя (вероятная ошибка, стандартная ошибка).

Будьте начеку, если вам называют среднее без уточнения его вида, во всех случаях, когда можно заподозрить, что среднее арифметическое и медиана существенно различаются.

Множество цифр утрачивают всякий смысл из-за неправомерных сравнений. Так, статья в журнале Look, касаясь темы синдрома Дауна, сообщает, что «как показало одно исследование, в 2800 случаях более половины матерей были 35 лет или старше». Чтобы данная информация имела для вас хоть какой-то смысл, вы должны иметь общее представление, в каком возрастном диапазоне женщины в массе своей рожают детей.

Бывает и так, что в источнике приводятся проценты, а стоящие за ними исходные цифры отсутствуют, и это тоже способно ввести в заблуждение. Давным-давно, когда Университет Джонса Хопкинса только начал принимать девушек, некто, не испытывавший особых восторгов по поводу совместного обучения, обнародовал данные, ставшие для многих потрясением: оказывается, 33 % (1/3) студенток университета повыходили замуж за преподавателей! Однако исходные цифры позволяли точнее оценить картину «бедствия». На тот момент в списке учащихся числились три девушки-студентки, и одна из них действительно вышла замуж за преподавателя.

В некоторых случаях не называют фактор, который и спровоцировал перемены. Подобное замалчивание позволяет создать впечатление, что перемены обусловил другой фактор, более желательный для целей тех, кто эти данные обнародует. В каком-то году были опубликованы цифры, призванные продемонстрировать, что дела у данного бизнеса идут в гору: особо подчёркивалось, что в апреле объём розничных продаж превысил прошлогодний. Что «позабыли» упомянуть авторы сообщения, так это что в прошлом году Пасха приходилась на март, а в рассматриваемом году была в апреле.

4. Не подменён ли объект исследования?

Когда изучаете статистические показатели, особенно внимательно следите, не произошло ли подмены в процессе перехода от исходных данных к выводам. Прискорбно часто бывает, что исследуют одно, а, сообщая результаты, называют это другим.

Рост зарегистрированных случаев заболевания не всегда то же самое, что рост самих случаев заболевания. Если кандидат выходит в победители по данным «соломенных опросов», это не всегда то же самое, что результат самих выборов. Если «типичная представительная группа» аудитории издания назвала в качестве предпочтительных статьи на международные темы, это ещё не доказывает, что эти люди непременно будут читать подобные статьи.

Количество случаев заражения энцефалитом в Калифорнийской долине за 1952 г. оказалось втрое выше, чем в самом неблагоприятном году из предыдущих. Многие встревоженные жители поспешили отправить своих детей куда-нибудь подальше. Но когда все данные были сведены воедино, они не показали сколько-нибудь существенного роста смертности от летаргического энцефалита. Причиной тревожной статистики послужило следующее: значительные силы сотрудников органов здравоохранения штата и федерального ведомства были привлечены, чтобы найти решение проблемы в долгосрочном плане, и в результате их усилий было зарегистрировано и учтено множество случаев лёгкой формы заболевания, каковые в прошлые годы не фиксировались и, возможно, даже не были выявлены.

После того как перепись населения показала, что в 1935 г. в США стало на полмиллиона больше ферм, чем пятью годами раньше, многие усмотрели в этом тенденцию к возвращению на фермы. Однако два этих подсчёта имели в виду далеко не одно и то же. За те пять лет само определение фермерского хозяйства, которым руководствовалось Бюро переписи населения США, изменилось, и в итоге при новой переписи к категории фермерских были отнесены как минимум 300 000 хозяйств, которые, согласно действовавшему в 1930 г. определению, таковыми не считались и потому учтены не были.

Порой возникают и настоящие нелепости, если цифры основываются на том, что говорят сами люди, — даже когда речь идёт об объективных вроде бы фактах. Так, перепись населения выявила большее количество людей в возрасте, скажем, 35 лет, чем тех, кому 34 и 36. В подобных случаях картина искажается оттого, что кто-то из членов семьи, сообщая о возрасте домочадцев и не будучи в нём точно уверенным, часто следует привычке округлять года до величины, кратной пяти. Один из способов обойти подобные ошибки — просить, чтобы респонденты называли не возраст, а дату рождения.

Разновидность приёма «после — значит вследствие» в связке с какой-нибудь пафосной бессмыслицей представляет собой ещё один способ незаметно подменить объект. Изменение чего-либо наряду с чем-либо другим преподносят как перемены вследствие. Журнал Electrical World однажды предложил вниманию читателей составную диаграмму к редакционной статье под названием «Какое значение для Америки имеет электричество». Глядя на диаграмму, вы могли бы заключить, что по мере увеличения «электрической мощности на фабриках» росла и «средняя почасовая заработная плата». А «среднее число рабочих часов за неделю» сокращалось. Все три явления представляют собой долгосрочные тенденции, и нет никаких свидетельств, позволяющих утверждать, что любая из трёх тенденций стала причиной любой другой.

А кроме того, полно и тех, кто сделал что-то первым. Почти каждый может заявить, что стал самым первым в чём-нибудь, если не слишком конкретизирует, в чём именно. Так, в конце 1952 г. две нью-йоркские газеты оспаривали друг у друга пальму первенства в рекламировании продовольственных товаров. И каждая была до известной степени права. В обоснование своих претензий газета World-Telegraph объясняла, что лидирует по рекламе с полным охватом, то есть помещает её во всех своих выпусках, и что засчитывается только этот параметр и никакой другой. Её соперник, газета Journal-American, настаивала, что принимать во внимание следует общее число строк в размещаемых рекламных объявлениях, а по этому показателю она, безусловно, держит первое место. Перед нами та самая уловка, применяемая в погоне за первенством в чём угодно, которая побуждает радиокомментатора в новостях о погоде именовать обычный летний денёк не иначе, как «самым жарким вторым июня с 1949 г.».

Подмена объекта исследования затрудняет сопоставление расходов, когда вы размышляете, выгоднее ли вам взять ссуду для приобретения крупной вещи или совершить покупку в рассрочку. Когда вам называют ставку 6 %, она и воспринимается как 6 % — хотя в действительности всё может обстоять совсем иначе.

Иногда, чтобы подменить объект интереса, практикуют семантический подход. Вот пример подобного со страниц журнала BusinessWeek:
Бухгалтеры пришли к выводу, что слово «излишки» выглядит отвратительно. Они предлагают исключить его из балансовых отчётов корпораций. Комитет по учётным процедурам Американского института бухгалтеров советует: «…используйте описательные термины, такие как “нераспределённая прибыль” или “удорожание основных средств”».

5. Есть ли в этом смысл?

Такой вопрос почти всегда поставит на место много возомнившего о себе статистика, если все его маловразумительные построения основаны на недоказанном исходном допущении. Возможно, вам приходилось слышать о формуле удобочитаемости Рудольфа Флеша. Считается, что она позволяет измерить, насколько лёгок для прочтения изложенный прозой текст, при помощи таких простых и объективных параметров, как длина слов и предложений. Эта идея весьма привлекательна, как и прочие подобные ухищрения, придуманные для того, чтобы свести нечто трудноуловимое к цифрам и подменить суждения чистой арифметикой. Во всяком случае формула Флеша пришлась ко двору тем, кто даёт работу авторам (например, издателям газет), пусть даже многие литераторы от неё не в восторге. Формула Флеша строится на допущении, что такие параметры, как длина слов, и определяют удобочитаемость текста.

Некто по имени Роберт Дюфор взялся проверить формулу Флеша на некоторых литературных произведениях, которые оказались у него под рукой. Как свидетельствуют его вычисления, «Легенда о сонной лощине» Вашингтона Ирвинга читается в полтора раза труднее, чем «Государство» Платона. А роман Синклера Льюиса «Кэсс Тимберлейн» — труднее, чем эссе Жака Маритена «О духовной ценности искусства». В общем, та же история.

Уже при первом взгляде многие статистические данные внушают подозрения насчёт истинности. И всё же публика принимает их, поскольку магия цифр на какое-то время заставляет умолкнуть здравый смысл. Леонард Энджел в своей статье для журнала Harper’s приводит несколько тому примеров из области медицины.

Примером служат подсчёты знаменитого уролога, согласно которым в США отмечается 8 миллионов случаев рака предстательной железы — этого было бы вполне достаточно, чтобы на каждого мужчину в возрасте наибольшей восприимчивости к этому заболеванию приходилось бы по 1,1 карциномы предстательной железы! Другой пример: видный невропатолог высчитал, что каждый двенадцатый американец страдает мигренями, а поскольку мигрени — причина трети случаев хронических головных болей, это должно было бы означать, что четверть из нас мучаются от изнурительных головных болей, чреватых потерей трудоспособности.

Убедительность точных цифр — ещё один фактор, порой вступающий в противоречие со здравым смыслом. Согласно исследованию, о котором писали нью-йоркские газеты, работающей женщине, проживающей со своей семьёй, еженедельно требуется 40,13 $. Любой, у кого при чтении газет не атрофируется здравый смысл, способен сообразить, что расходы на поддержание души в теле невозможно рассчитать с точностью до последнего цента. И всё равно трудно устоять перед чертовским соблазном уверовать в эту цифру, ведь сама точность этих 40,13 $ намекает на солидную осведомлённость источника и внушает больше уважения, чем формулировка «около 40 $».

В подобном же смысле полезны и экстраполяции, особенно в той форме пророчеств, что называют прогнозированием тенденций. Но разглядывая прогнозные данные или построенные на их основе диаграммы, крепко помните об одной вещи: тенденция вплоть до сегодняшнего дня вполне может быть фактом реальности, а что касается перспектив на будущее, то они не больше, чем догадки на базе прошлого опыта и имеющихся знаний. К тому же подразумевается, что прогнозы могут реализоваться только «при прочих равных условиях» и «сохранении нынешних тенденций». Почему-то эти «прочие условия» не желают оставаться равными и всё норовят измениться.

Рассмотрим тенденцию развития телевидения. В период 1947–1952 гг. число телевизоров в домах американцев возросло почти на 10 000 %. Попробуйте спроектировать эту тенденцию на следующие пять лет, и у вас получится, что в ближайшем будущем страну заполонят — страшно подумать! — миллиарда два телевизоров. Если вам неймётся выставить себя в ещё более глупом свете, можно за базовый год принять не 1947-й, а какой-нибудь предшествующий, и вы запросто «докажете», что в скором времени у каждой американской семьи будет не по сорок, а по сорок тысяч телевизоров.

Использованные материалы:
Дарелл Хафф «Как лгать при помощи статистики»

Источник

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.