Maxim Mironov (mmironov) wrote,
Maxim Mironov
mmironov

Categories:

Единая Россия врет, но не так сильно, как нам кажется.



Неделю назад я опубликовал гипотезу, что оценки фальсификаций голосов в пользу ЕР могут быть сильно завышены (http://mmironov.livejournal.com/12627.html). Вчера ФБК опубликовало исследование (https://navalny.com/p/5084/), результаты которого фактически подтверждает эту гипотезу. С одной стороны, оценка голосов за ЕР в 42%, опубликованная ФБК, очень близка к оценке Шпилькина – 40% (http://podmoskovnik.livejournal.com/175574.html). Разницу можно списать на статистическую погрешность. Однако давайте разберемся с этой статистической погрешностью, а также другими данными, опубликованными в статье ФБК, подробней.

Начнем с формулирования гипотез.
Нулевая гипотеза (H0), что истинное значение голосов за ЕР было 40%
Альтернативная гипотеза (H1), что оценка фальсификаций была завышена, то есть истинное значение голосов за ЕР было больше 40%

Если истинная вероятность проголосовать за ЕР была 0.4, то среднее по 1000 наблюдений должно быть распределено примерно нормально со средним значением 0.4 и стандартным отклонением 0.01549. Давайте тестировать гипотезу на 5% уровне, то есть очертим интервал, в который данная случайная величина должна попасть с 95% вероятностью. Так как наша альтернативная гипотеза «больше чем,  что-то», нам нужна односторонняя нормальная квантиль, которая равна 1.6448. Если мы умножим ее на стандартное отклонение, получаем 0.01549*1.6448=2.548%. Получается, что при выборке из 1000 наблюдений и истинной вероятности проголосовать за ЕР равной 0.4, с 95% вероятностью среднее число голосов за ЕР должно быть в интервале от 0 до 42.548%. Если среднее число голосов окажется больше, чем 42.548%, то мы отвергнем нулевую гипотезу в пользу альтернативной (оценка фальсификаций завышена).

Оценка ФБК в 42% попадает в интервал от 0% до 42.548%, то есть мы не можем отвергнуть гипотезу, что оценки фальсификаций Шпилькина некорректны. Однако в таблице ФБК есть еще одна строчка: «не скажу», и напротив нее стоит процент 34%. То есть 34% людей отказались отвечать на вопрос, за кого они проголосовали. Социологи ФБК считают, что никто из этих людей не проголосовал за ЕР, так как избиратель ЕР горд за свой выбор и не стесняется его произнести. Поэтому рейтинг голосования за ЕР, который они публикуют, близок к реальному. Возможно, они правы, и, действительно, 100% людей, кто ответил «не скажу» проголосовали за какую-то оппозиционную партию. У меня, однако, есть некоторые наблюдения, которые говорят, что это предположение может нарушаться. Во-первых, многие кандидаты от ЕР не хотят ассоциировать себя с ЕР (вспомните хотя бы мэрскую кампанию Собянина, который шел самовыдвиженцем). Если лидеры ЕР стесняются своей партией, то почему избиратель ЕР не может стесняться своего выбора? (это как порнофильмы – многие смотрят, но попробуйте провести на эту тему опрос). Во-вторых, посмотрите на результаты опроса Левада-центра за три недели до выборов. Общероссийский рейтинг ЕР был 31% (http://www.levada.ru/2016/09/01/gotovnost-golosovat-i-predvybornye-rejtingi/). Многие из тех, кто за три недели до выборов «не определился» вполне соответствуют «не скажу» в опросе ФБК (у опроса Левады нет «не скажу», а есть «Не знаю, за какую партию стал(а) бы голосовать» и «Не знаю, стал(а) бы голосовать или нет»)  Мы видим, что значительная часть людей, которые не говорили о своем выборе, пошли и проголосовали за ЕР (даже если основываться на консервативной оценке в 40%). Если мы допустим, что хотя бы 2% из тех 34%, которые сказали «не скажу», на самом деле проголосовали за ЕР, то скорректированный процент голосов за ЕР будет 42%+2%*0.34=42.68%, и это значение уже не попадает в доверительный интервал от 0% до 42.548%. То есть мы можем отвергнуть гипотезу Н0 (о корректной оценке фальсификаций) если всего лишь 2% из тех, кто отказался назвать свой выбор, проголосовали за ЕР.

Теперь давайте построим таблицу чувствительности, чтобы попробовать оценить изменения оценки голосов за ЕР в зависимости от относительной скрытности сторонников ЕР:

Скрытность сторонников других партий относительно сторонников ЕР Добавочные голоса ЕР, от тех, кто сказал "не скажу" Скорректированная оценка ФБК голосов за ЕР T-stat, что скорректированная оценка ФБК >40% P-value, что скорректированная оценка ФБК >40%
Такая, же как у  ЕР 14.280% 56.280% 10.51 0.000
В 2 раза более скрытные, чем ЕР 9.038% 51.038% 7.12 0.000
В 5 раз более скрытные, чем ЕР 4.301% 46.301% 4.07 0.000
В 10 раз более скрытные, чем ЕР 2.296% 44.296% 2.77 0.003
В 20 раз более скрытные, чем ЕР 1.188% 43.188% 2.06 0.020
В 50 раз более скрытные, чем ЕР 0.485% 42.485% 1.60 0.054

Из этой таблицы следует, что если сторонники ЕР такие же скрытные, как сторонники оппозиции, то скорректированный процент ЕР, согласно данным ФБК должен быть 56.28%. Если оппозиционеры в 2 раза более скрытные,  чем ЕР, то 51.038%, и так далее. Мы видим, что для того, чтобы попасть в наш уровень доверия от 0 до 42.548%, оппозиционеры должны быть как минимум в 50 раз более скрытные, чем сторонники ЕР. Если оппозиционеры «всего лишь» в 10 раз более скрытные, чем сторонники ЕР, то мы уже можем отвергнуть гипотезу о корректности оценок фальсификаций (Н0) с вероятностью 99%.

 Насколько предположение, что оппозиционеры в 50 раз (и более) скрытны, имеет под собой реальные основания? Я не знаю. Однако лично мне кажется, что сторонники оппозиции могут быть более скрытны в несколько раз, но не в 20 или 50 (даже при 20-кратном отличии, гипотеза Н0 отвергается). Из этого следует два возможных вывода: либо оценка фальсификаций Шпилькина завышены, либо социальная служба ФБК завысила рейтинг ЕР.


P.S.
Я не учитываю в расчетах ошибку оценки Шпилькина голосов за ЕР в 40%. Во-первых, у меня нет доступа к его модели и я не могу ее оценить. Во-вторых (и более важно), его база данных включает 86646 участков, которые учитывают порядка 50 миллионов избирателей. То есть ошибка его оценки должна быть очень мала и не может существенным образом изменить вышеприведенные результаты.




Subscribe

Recent Posts from This Journal

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 13 comments

Recent Posts from This Journal