Maxim Mironov (mmironov) wrote,
Maxim Mironov
mmironov

Categories:

Гаусс бы такого не одобрил

На прошлых выборах российские политические аналитики выучили слово «Гаусс». Надеюсь, что после этих выборов они выучат еще одно слово - «эндогенность». Весь анализ фальсификаций российских выборов построен на предположении, что участки, на которых происходили фальсификации, принципиально не отличаются от участков, где фальсификаций не было. Поэтому, если мы вычтем «аномальные» голоса на участках с фальсификациями, то мы можем оценить и честную явку, и честные голоса по каждой партии. Однако если у нас есть основания полагать, что фальсификации происходят на участках определенного типа, которые отличаются от остальных участков, то подобный метод оценки уже ведет к смещенным оценкам, которые не стремятся к своим истинным значениям даже при большом количестве наблюдений. Эта проблема в эконометрике известна как эндогенность.

В первой части этой статьи я обсужу, какие предпосылки используемых оценочных моделей могут нарушаться. Во второй я покажу, что данные нарушения могут привести к завышенным оценкам фальсификаций. В третьей части я расскажу, какие методы можно использовать, чтобы получить корректные оценки. Так как качество электоральной статистики в России за последние 10-15 лет очень сомнительно, я буду часто ссылаться на опыт США. Эту страну я выбрал по нескольким причинам. Во-первых, она больше всего похоже на Россию – президентская республика, федерация из 50 регионов, большой разброс в доходах между штатами, 6 часовых поясов. Во-вторых, я неплохо знаком с этой страной – прожил там несколько лет и объездил вдоль и поперек (посетил порядка 40 штатов).

Анализ предпосылок

Предпосылка об однородности предпочтений честно сформулирована Сергеем Шпилькиным в интервью Новой Газете: «Российское общество весьма однородно: оно находится в однородном информационном поле, созданном телевизором, и мало различается по воспитанию и образованию … Исключение — условный «московский образованный класс» — это довольно узкая прослойка, которая в разной степени представлена в Москве, Санкт-Петербурге и некоторых других городах». (http://www.novayagazeta.ru/politics/74630.html). Из нее следует, что распределение голосов по УИКам должно быть похоже на нормальное распределение (или распределение Гаусса). Насколько это предположение состоятельно? Обратимся к опыту США:

красные штаты поддерживают Трампа, синие – Клинтон, серые – колеблются. Как видно, западное побережье и север восточного – за Клинтон, центральные штаты в основной своей массе за Трампа, причем разница в поддержке довольно значительна. К примеру, в Калифорнии рейтинг Трампа сейчас 32%, Клинтон - 51.3%, а в Арканзасе (откуда родом муж Клинтон, и где он был губернатором) – рейтинг Трампа 56%, а Клинтон - 31.5%. Можем ли мы ожидать подобного разброса предпочтений внутри России? Разница по ВРП на душу населения между самым богатым субъектом США округом Колумбия (по сути это Вашингтон с пригородами) и самым бедным – штатом Миссисипи - составляет примерно 5 раз. Если убрать очевидный выброс - округ Колумбия, то разница Миссисипи с самым богатым штатом (Делавер) сократится до 3-х раз.  В России разница между самым богатым субъектом, Ненецким Автономным округом, и самым бедным – городом Севастополь, составляет почти 100 раз (данные за 2014 г.). Если мы даже уберем самые богатые (НАО, ЯНАО, ХМАО, Сахалинскую область, Чукотский АО, Москва) и самые бедные (Кабардино-Балкария, Ингушетия, Чечня, Крым, Севастополь) регионы, то разница между Якутией и Ивановской областью по ВРП на душу населения составит около 5 раз. Итого, разброс доходов внутри России между субъектами существенно больше, чем в США, поэтому мы можем также ожидать существенных различий в политических предпочтениях. Я не хочу вступать в дискуссию по поводу разницы цен, она, безусловно, несколько сглаживает различия. Однако в США также жизнь в богатых субъектах (Калифорния, Нью-Йорк, Вашингтон) существенно дороже, чем жизнь в Оклахоме, Арканзасе или Миссисипи.

Можно ли предсказать, какие субъекты будут больше поддерживать Путина и ЕР? Обратимся опять же к опыту США. Трампа многие сравнивают с Путиным. Он публично назвал Путина своим кумиром. Russia Today, особо не стесняясь, топит за Трампа. Он позволяет себе неполиткорректные шутки. Избиратели Трампа – red necks (аналог «ватники» на местном жаргоне). Про его сторонников снимают смешные ролики, которые показывают их интеллектуальный уровень (например https://youtu.be/eFQhw3VVToQ?t=215). Богатые штаты (Округ Колумбия, Нью-Йорк, Делавер, Массачусетс, Коннектитут,Нью-Джерси, Орегон, Вашингтон, Калифорния) поддерживают Клинтон. Бедные штаты (Арканзас, Миссисипи, Оклахома, Кентуки, Западная Вирджиния, Теннеси, Южная Каролина, Айдахо) – Трампа. Есть исключения из этого правила - Аляска, Техас, Нью-Мексико, и некоторые другие штаты, однако отрицательная корреляция между доходом и поддержкой Трампа ярко выражена. Поэтому мы вполне можем ожидать, что бедные субъекты будут оказывать куда большую поддержку Путину (как российскому аналогу Трампа), чем богатые. Иными словами, даже без всяких фальсификаций, поддержка ЕР на Северном Кавказе вполне может быть в два раза выше, чем в Москве (рейтинг Трампа между Арканзасом и Калифорнией отличается в 1.8 раз).
Но, может, несмотря на значительные различия среди штатов, внутри российских регионов таких различий нет? К примеру, российский политолог Дмитрий Орешкин, считает, что между избирателями Алтайского края, Новосибирской, Томской, Кемеровской областей и Хакасии нет особой разницы (http://echo.msk.ru/blog/oreshkin/1842936-echo/) К своему стыду, по России я путешествовал намного меньше, чем США, но в Новосибирске прожил большую часть своей жизни. По делам своего бизнеса часто ездил на Алтай. В Кузбассе тоже несколько раз приходилось бывать. Могу сказать, что между поведением избирателей Кемеровской и Новосибирской областей – принципиальное отличие. В 1995 г. на выборах губернатора в Новосибирской обрасти, Индинок набрал 22.8%, Муха – 18.1% и был второй тур. В 1997 г. Аман Тулеев на выборах губернатора Кемеровской области набрал 94.5%. Причем все мои знакомые из Кемерово или Новокузнецка, с которыми я общался, говорили, что они голосовали за Тулеева, то есть даже если фальсификации были, все равно поддержка Тулеева в Кузбассе была очень высока, хотя в Новосибирской области тогда шла жесткая борьба между различными политиками. Алтайский край был скорее ближе к Новосибирской области. В 1996 г. Суриков набрал 46.9%, Коршунов - 43.4%. Выборы президента 1996 тоже разделили Россию. Бедные и депрессивные регионы в основной своей массе поддержали Зюганова, богатые – Ельцина:

Поэтому и из опыта США, и из голосования 90-х (когда выборы были относительно свободными), следует, что предпосылка об однородности электоральных предпочтений, скорее всего, не состоятельна.

Вторая важная предпосылка, на которую опираются аналитики, это некоррелированность между явкой и голосами за Единую Россию. Известный график, на который все ссылаются, построен фактически из предположения, что все излишние голоса, обнаруженные на участках с аномальной явкой, являются приписками:


{C}

Насколько предположение, что поддержка ЕР и явка некоррелирована, корректно? Предположим, что против ЕР голосует молодежь, а за ЕР – люди более старшего возраста. Данные показывают, что явка среди людей до 30 лет существенно ниже, чем явка среди тех, кто старше 50. Предположим, у нас есть два участка. На одном большинство молодежь, на другом, большинство тех, кому за 50. Где будет больше явка? Там, где больше представителей старшего поколения. Где будет больше голосов (в процентах) за ЕР? Тоже на участках, где больше живет тех, кому за 50. Я взял пример с возрастом как условный. Если мы вообще предположим, что избиратель ЕР более дисциплинирован (то есть среди них явка больше), то мы получим положительную корреляцию между явкой и процентом голосования за ЕР. Помимо возраста, это может быть много других характеристик. Например, считается, что сельские жители больше склонны участвовать в выборах (для них это более весомое событие в жизни, чем для жителей крупных городов). Они также являются более консервативными и у них помимо телевизора меньше доступ к альтернативным источникам информации (независимые СМИ, интернет). Поэтому они менее склонны поддерживать оппозицию, чем жители крупных городов. Итого, получаем положительную корреляцию между голосами за ЕР и явкой. Положительная корреляция может наблюдаться и благодаря «специфическим участкам». Представьте, у вас есть участок, где проголосовало близко к 100%. Какие это могут быть участки? Скорей всего, где голосуют люди подневольные – например, войсковая часть, курсанты, еще какое-нибудь заведение подобного типа. Какой процент за ЕР мы ожидаем на таких участках? Вполне реально наблюдать голоса за ЕР 90% и выше, причем без всяких вбросов. Просто Родина сказала «надо», комсомол ответил «есть». Насколько гипотеза о положительной корреляции голосовании за ЕР и явке подтверждается эмпирически? Так как достоверных данных за последние 15 лет не существует, мы опять же вынуждены обратиться к данным в 90-ые годы. Большинство «особенных» регионов, которые сейчас показывают аномально высокие результаты за ЕР, в 90-ые показывали относительно высокую явку. К примеру, Мордовия 1998 г (здесь и далее выборы главы субъекта) – явка 75.6%. Ингушетия 1998 – 64.4%, Башкортостан 1998 – 78.8%, Тыва 1997 – 70.9%, Татарстан 1996 – 77.8%, тогда как подавляющее большинство других регионов показывали явку от 30% до 60%. Итак, исторические эмпирические данные позволяют заключить, что гипотеза о положительной корреляции за ЕР и явкой имеет право на существование.

Третья предпосылка, на которую опираются в подсчете фальсификаций, это что основной метод фальсификаций – это вброс, то есть все остальные партии страдают одинаково. Исходя из этой предпосылки, получается следующий пересчет голосов по партиям (http://podmoskovnik.livejournal.com/175574.html):

                          Официальный   Реальный

КПРФ                                13.42%          17.56%

ЛДПР                               13.24%          17.32%

СпРос                                 6.18%            8.09%

Яблоко                               1.94%            2.54%

Парнас                               0.72%            0.94%

Коммунисты России         2.31%            3.02%

Если фальсификации были путем вбросов, или перерисовка протоколов в пользу ЕР имела случайный характер (или как вариант перекладывание бюллетеней из пачки в пачки), то есть когда-то больше отняли у Парнас, когда-то у КПРФ и т.д., то подобный метод использовать можно – оценка будет состоятельна. Однако есть серьезные основания полагать, что это может быть не совсем верно. К примеру, Petrachkova(2016) на основании эксперимента Enikolopov et al. (2013) проведенного во время выборов в Госдуму 2011 г., показала, что у Яблока отняли 30% голосов, у СР 21% голосов, у ЛДПР 20% у Коммунистов 16%, то есть у Яблока отняли почти в 2 раза больше голосов, чем у коммунистов и в 1.5 раза больше, чем у СР и ЛДПР. Почему у Яблока отняли существенно больше голосов? Возможно, с точки зрения минимизации скандалов, проще отнимать голоса у партий, у которых нет шансов пройти в Госдуму. Я не знаю, как дела обстоят по всей России, но как минимум в Москве предпосылка, что все оппозиционные партии страдают одинаково не работала. Если мы предположим, что на этих выборах у Яблока тоже отняли голосов в 2 раза больше, чем у остальных (как в Москве в 2011 г.), то Яблоко вполне могло преодолеть 3% барьер.

Единственное наблюдение, которое не допускает двойного толкования, это всплески на определенных цифрах. К примеру, всплеск на 62.2% в Саратовской области – это очевидно фальсификация. Зазубрины на других цифрах тоже. Однако наличие зазубрин не дает достаточных данных, чтобы оценить размер фальсификаций. Это может быть с 50% до 62%, с 40% до 62% или даже с 30% до 62%.

Как нарушения предпосылок изменяют оценку нарушений?

Предположим, что у нас есть два типа регионов – слабо поддерживающие ЕР (условно назовем их богатые) и сильно поддерживающие ЕР (назовем их бедными). В богатых регионах ЕР поддерживают 30%-40% населения, в бедных 60%-70% (разброс поддержки Трампа в штатах позволяет предположить, что разница в 30% между российскими регионами вполне вероятна). Тогда, если мы построим распределение голосов по участкам на гистограмме, то будет два горба – один горб побольше в районе 35% и один поменьше, в районе 65% (35% горб будет побольше, потому что все-таки богатых регионов у нас больше, только Москва и Петербург по населению с лихвой покрывают все бедные «особые» регионы). То есть даже в отсутствии фальсификаций при неоднородных предпочтениях возможно два горба, и горб в 65% ни в коем случае не свидетельствует о наличии фальсификаций. Если у вас есть три типа регионов – бедные, богатые и средние, то будет три горба, и опять же, не потому что, были какие-то фальсификации.

Теперь рассмотрим вариант с фальсификациями. Представьте, что вы хитроумный единороссовский политтехнолог и хотите осуществить вброс. В каких регионах вы предпочтете докидывать голоса, в регионах со слабой поддержкой, или с сильной поддержкой? То, что происходит, когда докидывают голоса в регионе со слабой поддержкой, мы все наблюдали 5 лет назад. Москвичам не понравилось. Поэтому рациональный политтехнолог добросит голоса скорее в регионах с сильной поддержкой, условно говоря, вместо 65% нарисует 95%, а не будет испытывать терпение тех, где ЕР набирает всего треть голосов.

Тогда мы смотрим на график и видим два горба – один на 35%, другой на 95%. Очевидно, что 95% - это фальсификат. Получение честно таких результатов нереально, даже в российских условиях. Тогда аналитик смотрит, сколько голосов получила ЕР на участках без фальсификата – это 35% (ведь пика 65% никто не видит, потому что путем вбросов его сместили в сторону 95%). И он делает вывод, что разница между официальной и реальной поддержкой ЕР составляет 60% (95%-35%). На самом деле, эта разница 30%, но ее померить никак невозможно, потому что «горб» в 65% пропадает - именно в этой области происходят активные вбросы.

Если явка и голоса за ЕР вдобавок положительно коррелируют, то проблема усугубляется. Предположим, у нас есть два участка, к каждому приписано по 1000 избирателей. На первом участке явка 30% и процент поддержки 35%, на втором участке явка 50% и процент за ЕР 65% (остальные голоса отданы другим партиям)

Итого.       Первый участок – пришло 300 человек, 105 проголосовало за ЕР

        Второй участок – пришло 500 человек, 325 проголосовало за ЕР.

Предположим, что едросовский политтехнолог решил вбросить 400 голосов за ЕР на втором участке. Тогда на этом участке будет 900 проголосовавших, 725 за ЕР, явка 90% из них 80.5% за ЕР. Исследователь не знает, сколько на самом деле проголосовало на втором участке. Он видит, что на честном участке была явка 30% и 35% за ЕР, там, где очевидно были фальсификации – явка 90% из них 80.5% за ЕР. Теперь предположим, что исследователь делает предположение, что предпочтения избирателей однородные, то есть истинный процент голосов за ЕР на второй участке должен быть такой же, как на первом. Тогда, на втором участке должно было быть вброшено 630 голосов за ЕР. Общее количество проголосовавших 270 (900-630), и количество голосов за ЕР - 95 (725-630). Тогда мы получаем «очищенную» явку в 27% (что не сильно отличается от 30%), и такой же процент голосов за ЕР – 35%. Итак, если мы предположим, что предпочтения однородны, мы получим оценку вброса за ЕР в 630 голосов, тогда как истинный вброс был 400, то есть наша оценка фальсификаций общего числа голосов завышена в 1.6 раз. «По-честному» явка была завышена на 40% (90%-50%), а анализ выдает на 63% (90%-27%), уровень фальсификаций в пользу ЕР был 15.5% (80.5%-65%), а анализ выдал 45.5% (80.5%-35%).

Я ни в коем случае не ставлю под сомнение наличие фальсификаций. Они, безусловно, были. Однако если мы допустим, что предпочтения избирателей неоднородны и/или есть корреляция между голосами за ЕР и явкой, то с большой вероятностью мы получим завышенные оценки фальсификаций.

Как получить состоятельные оценки?

Существует три основных метода, которые позволяют исправить описанные мной проблемы: метод инструментальных переменных, натуральный эксперимент и эксперимент.

Я не вижу, как применить инструментальные переменные к данной задаче, поэтому не буду вдаваться в детальное описание этого метода. Что такое натуральный эксперимент было наглядно продемонстрировано британским корреспондентом Reuters (см. описание этого кейса, например, здесь http://kireev.livejournal.com/1303660.html). В результате натурального эксперимента можно сравнить результаты голосования на участке, куда случайно забрел наблюдатель, с другими участками, и сделать вывод о фальсификации. Однако достаточного количества заблудившихся корреспондентов на всю Россию не напасешься. Поэтому, чтобы систематически измерить размер фальсификаций, нужно проводить эксперимент.

Enikolopov et al (2013) описывают подобный эксперимент, когда они случайным образом расставили наблюдателей на УИКах во время выборов в Госдуму 2011 г. В общей сложности наблюдатели были расставлены примерно на 5% участков. Они показали, что на участках, где были наблюдатели и не было нарушений, было однопиковое распределение голосов за ЕР. Однако там, где не было наблюдателей, есть ярко выраженный второй горб в голосах за ЕР. Они оценили, что ЕР в Москве приписали 11.5% голосов.

Желательно подобный эксперимент повторить для всей России. Следующие федеральные выборы будут уже через полтора года (если президентские выборы, конечно, не перенесут на 2017 г.). Для измерения общего уровня фальсификаций по России достаточно взять 50 крупнейших субъектов (где проживает 87% населения). Чтобы оценить уровень фальсификаций на уровне субъекта федерации, достаточно в каждый субъект направить в среднем 20 наблюдателей, итого 1000 человек. Если в каждый субъект в среднем направить по 60 наблюдателей (3000 всего), то можно оценить уровень фальсификаций внутри каждого субъекта – по разным районам. Важно наблюдателей расставить случайным образом, согласно определенным правилам, чтобы никто (включая наблюдателей) до последнего момента не знал, где они будут стоять. Бюджет такого проекта можно оценить от 150 тыс. долларов (20 наблюдателей на субъект) до 400 тыс. долларов (60 наблюдателей на субъект). В России уже есть достаточное число натренированных наблюдателей и бюджеты подобного порядка тоже вполне подъемные для гражданского общества.

Почему это важно? Чтобы после будущих выборов была какая-то объективная картина, каков уровень настоящей поддержки властей, каков уровень настоящей явки, фальсификаций, голосования за оппозиционные партии, и т.д. Для чего это нужно? Для планирования будущих кампаний. У оппозиции ресурсы очень ограничены, и тратить их имеет смысл только там, где уровень поддержки властей относительно невысок. Я уверен, что если бы у оппозиции была объективная электоральная статистика, то они бы не сунулись в Кострому и не потерпели бы сокрушительного поражения. Если продолжать следовать парадигме «у нас все голоса украли, на самом деле нас население любит, нужно только организовать наблюдение», подобные унизительные поражения будут продолжаться вновь и вновь. Чтобы победить ЕР на ее поле, нужно сначала понять какова конфигурация «ее поля». А для этого нужно понимание объективной электоральной поддержки.

Этот пост ни в коем случае не ставит целью принизить заслуги Сергея Шпилькина и других ученых, которые работают над этой проблемой. На самом деле это их большая заслуга, что данные цифры, графики и концепты нашли путь к широкой общественности. Это, скорее, приглашение к диалогу. Возможно, у Сергея Шпилькина, Александра Киреева и других ученых есть идеи, как решить обозначенные мной проблемы (или доказать, что их не существует). Хотелось бы, чтобы диалог о фальсификациях и реальной поддержке ЕР направился в конструктивное русло, а не ограничивался эмоциональными постами «наш избиратель не пришел», «поддержка ЕР повсеместно падает», «скоро грянет буря», и т.д.


Ссылки

Enikolopov R., Korovkin V., Petrova M., Sonin K., Zakharov A., 2013, Field experiment estimate of electoral fraud in Russian parliamentary elections, Proceedings of the National Academy of Sciences, 110(2), pp.448-452

Petrachkova A., 2016, Where observers are more effective? Evidence from Russia. Working paper




Subscribe

  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 54 comments