Jak se v Kocourkově dělá náhodný (prezidentský) výběr

Způsob výběru vzorků, na nichž vnitro kontrolovalo podpisy, vzbudil zvídavost matematiků. Závěr: Je to výběr nanejvýš pochybný.

 | na serveru Lidovky.cz | aktuální zprávy foto: © ČESKÁ POZICE, Richard CortésČeská pozice

Při kontrole petičních podpisů pro kandidáty na volbu prezidenta mělo ministerstvo vnitra posoudit jejich přípustnost pomocí náhodně vybraných vzorků. Z dostupných informací je ale možno s úspěchem pochybovat o tom, že tento výběr byl opravdu náhodný, se všemi důsledky, které z toho plynou. Analýza Vladimíra Meiera.

Ještě se ani pořádně nerozjela volební kampaň, a už tu máme první skandály, na které jsme samotné kandidáty na prezidenta ještě ani nepotřebovali; úředníci ministerstva vnitra to všechno obstarají sami. Zatím odmítli tři kandidáty, Janu Bobošíkovou, Vladimíra Dlouhého a Tomia Okamuru, na základě nejasně formulovaného zákona a jeho nesmyslného výkladu. Už se ale rýsuje další aféra: rozsáhlá odůvodnění, proč tito tři kandidáti nesplnili podmínky registrace, obsahují data, která si protiřečí a ze kterých se dá usuzovat, že zde aplikace zákona o prezidentské volbě byla přinejmenším nestandardní, a že tudíž tyto výsledky nemusejí být vůbec platné. Odmítnutí kandidáti se ostatně všichni odvolali a čekají na rozhodnutí Nejvyššího správního soudu.

Algoritmus sem, algoritmus tam

O celé záležitosti se toho už napsalo tolik, že zde nebudu rozvádět všechny detaily, ale soustředím se jen na to podstatné. Rozhodnutí ministerstva vnitra obsahují postup, který úřad uplatnil při kontrole podpisových archů podle zákona č. 275/2012 Sb. Ten ukládá nejdřív vyloučit neúplné podpisy a podpisy vyškrtnuté samotným navrhovatelem a ze zbytku provést náhodný výběr 8500 podpisů k další kontrole. Úředníci to provedli podle vlastního popisu takto:

  • Každý podpisový arch dostal vlastní unikátní číslo, které vypadá například jako 14000195 (14 je tady předčíslí, které identifikuje kandidáta, a zbytek je číslo jeho archu).
  • Za použití tzv. lineárního kongruentního generátoru náhodných čísel (LCG) se pak vygenerovala řada (pseudo)náhodných čísel a archy s těmito čísly byly přidávány do vzorku tak dlouho, než se takto nashromáždilo právě 8500 „validních záznamů“, tedy podpisů určených ke kontrole.
  • Všechna rozhodnutí ministerstva vnitra obsahují přesný a totožný popis algoritmu, kterým se náhodná čísla měla vybírat. Tím ovšem mně a řadě dalších zainteresovaných odborníků ministerstvo dalo možnost postup jeho úředníků přezkoumat a my jsme se jí hned chopili už jen proto, že naše zvídavost byla vybuzena jejich kreativním přístupem ke sčítání procent (úředníci ministerstva mají, jak se říká, průměrné IQ 160 – polovina jich má 90 a druhá 70).

Čísla podpisových archů uvedená v rozhodnutích ministerstva neodpovídají popsanému algoritmu pro výběr náhodných číselDodejme, že výběr podpisů do kontrolovaného vzorku má zásadní důležitost pro rozhodnutí o registraci kandidáta. Kdyby nebyl reprodukovatelný, může to znamenat, že dotyčný úředník vybral podpisy tak, jak se mu zrovna líbilo, třeba že schválně vybíral neplatné podpisy, a tím způsobil odmítnutí jemu nesympatického kandidáta.

Bohužel se ukazuje, že právě k něčemu takovému zde nejspíš došlo, protože čísla podpisových archů uvedená ve všech rozhodnutích ministerstva neodpovídají popsanému algoritmu pro výběr náhodných čísel, a to ani tehdy, když ho interpretujeme velmi liberálně. Následující popis je sice poněkud technického rázu, ale jeho závěr bude jistě i pro laika pochopitelný.

Zde je algoritmus výběru, jak ho popisuje ministerstvo vnitra:

Nechť N označuje počet všech petičních archů dané petice a konstanty a, c, m jsou nastaveny takto:

  • a = 11035115245
  • c = 12345
  • m = 231

Definujme dále p0 := [N/2] a r0 := [m/N.p0]. Posloupnost {pn}n=1 pořadových čísel archů, které budou postupně zařazovány do výběru kontrolního vzorku, je pak dána mocí vztahů:

  • rn := (a . rn-1 + c) mod m
  • pn := [N/m.rn]

Výraz [A] přitom znamená celou část z desetinného čísla A, mod je zbytek při celočíselném dělení.

A hned tu máme několik problémů:

  • Konstanta 11035115245 zvolená pro proměnnou a je velmi pravděpodobně chybná. V popisu různých LCG můžeme vidět, že se běžně používá 1103515245, takže tu zřejmě došlo k chybnému přepisu buď až při přepisování rozhodnutí, nebo dokonce už při programování LCG. 11035115245 navíc nesplňuje podmínku a < m, která se někdy pro LCG uvádí.
  • Udaná posloupnost generuje čísla od 0 do N-1, a ne od 1 do N, takže poslední arch nemůže být nikdy vybrán, naopak arch s číslem 0, který neexistuje, by vybrán být mohl, ledaže by archy byly číslované od 0, ale naše závěry to vylučují (viz Pokyny ke zpracování podpisového archu vyvěšené na stránkách ministerstva vnitra, kde se praví: „Každý podpisový arch je překladatelem petice opatřen po sesbírání všech podpisových archů číslem podpisového archu. Tato čísla tvoří jednu číselnou řadu pro celou petici a předkladatel ji připojuje ke kandidátní listině seřazenou vzestupně počínaje číslem 1“).
  • Tento algoritmus generuje čísla archů, ne čísla jednotlivých podpisů. Vybírají se tedy celé archy, a nikoli podpisy, ačkoli zákon říká: „Ministerstvo vnitra ověří správnost údajů na peticích namátkově na náhodně vybraném vzorku údajů u 8500 občanů podepsaných na každé petici.“ Výběr celých archů nemůže být považován za namátkový výběr jednotlivých údajů občanů, protože když budeme považovat výběr prvního podpisu na archu za náhodný, ostatní podpisy už z něj nutně vyplývají, a na tom není nic náhodného. Ministerstvo použilo skupinový výběr (cluster sampling). Vybrané vzorky pak nejsou nezávislé, protože všechny podpisy na jednom archu byly sesbírány jedním členem kandidátova týmu, a mohou tedy být stejným způsobem ovlivněné. V datech je například nad očekávání vysoké množství archů bez jediného platného podpisu, ty mají pak mnohem větší pravděpodobnost být „náhodně“ vybrané společně.
  • Druhý vzorek, který úředníci museli vybrat u všech kandidátů, neměl s prvním vzorkem společné žádné archy, je to i uvedeno v rozhodnutích. Z toho ovšem plyne, že tento výběr už vůbec nebyl náhodný, protože v něm některé archy nebyly apriori zastoupeny. Zákon sice praví „(...) provede kontrolu u dalšího vzorku stejného rozsahu“, to se ale dá interpretovat jakkoli, jako u té záležitosti s procenty.
Sherlock Holmes by se divil

Při pokusu o rekonstrukci úřednického náhodného výběru jsme vyzkoušeli obě konstanty a (ministerskou 11035115245 a běžně používanou 1103515245) a rovněž jsme vyzkoušeli jak generování od 0, tak i přičtení 1 či dalších konstant ke každému číslu, aby se generovala čísla ve správném rozsahu. Podobně jako Tomáš Pecina jsme ale dospěli k závěru, že tento algoritmus ani žádná jeho netriviální variace nevysvětluje, jak byly vybrány podpisové archy, které jsou uvedeny u jednotlivých kandidátů, vyjma Jany Bobošíkové, u které jsme naopak našli zajímavé souvislosti.

Postupovali jsme tak, že jsme pro každého kandidáta shromáždili všechna čísla archů, která jsou uvedena v jeho rozhodnutí v prvním a druhém vzorku, a prohnali je zveřejněným algoritmem.

Následně jsme spočítali počet archů, které použitý algoritmus nemohl vybrat (jednoduše proto, že při aplikaci téhož postupu, jak ho dle svých vyjádření použilo ministerstvo vnitra, bychom měli dostat řadu stejných, byť „náhodně“ vybraných čísel archů jako ministerští úředníci).

To jsme udělali tak, že jsme pomocí algoritmu generovali náhodná čísla a pak je ze seznamu archů, které byly prokazatelně vybrány ke kontrole, vyškrtávali. Zde je výsledná tabulka:

Počet nevysvětlených archů (těch, které použitý algoritmus nemohl vybrat):

Kandidát
JBJFMZTFTOVDVFZR
Vzorek
1212121212121212
Algoritmus
Originál ministerstva vnitra (konstanta a = 11035115245)
334368467463393383287300499501484487313309213224
Zvýšení o 1
140147469465375378283294512496485468319315232227
Dtto + přidání sousedních archů
00395446310327231230402427357382271274190148
Opravená konstanta (a = 1103515245)
325370465523384398291294500564479509307321218186
Dtto + zvýšení o 1
320381469510383394280292514564472530306321227193

Vysvětlivky: JB – Jana Bobošíková, JF – Jan Fischer, MZ – Miloš Zeman, TF – Taťana Fischerová, TO – Tomio Okamura, VD – Vladimír Dlouhý, VF – Vladimír Franz, ZR – Zuzana Roithová

V první řádce (Originál ministerstva vnitra) je postup tak, jak je popsán v ministerských rozhodnutích. Je vidět, že velký počet archů, které vybrány byly, nemohly být touto metodou vybrány.

Ve druhé řádce je tentýž postup, ale každé vygenerované číslo bylo zvýšeno o 1 tak, aby bylo v rozsahu [1,N] a ne [0,N-1]. Tady vidíme, že se to většiny kandidátů nijak nedotklo, ale u Jany Bobošíkové se počet nevysvětlených archů rapidně snížil, u ní jsme tedy byli na dobré cestě. Zkoumali jsme ještě nejrůznější jiné metody a variace, ale žádná z nich se u nikoho z kandidátů neprojevila.

Když si ale nyní představíme, jak tento „náhodný výběr“ probíhal, tak to bylo asi tak, že počítačový program vygeneroval řadu čísel a úředníci postupně nacházeli příslušné archy mezi všemi ostatními, vytáhli je ze svazku a přesunuli stranou. Co když si ale přitom prohlédli i sousední archy, jestli tam náhodou není nějaký podpis, který vypadá podezřele, a když ano, tak ho také vybrali? Výsledek této zkoušky je ve třetím řádku: ke každému vygenerovanému číslu si nevyškrtneme jen tento arch, ale i oba sousední, jestliže se vyskytovaly v těch, které ministerstvo vybralo.

Co když si ale úředníci prohlédli i sousední archy, jestli tam náhodou není nějaký podpis, který vypadá podezřele, a když ano, tak ho také vybrali?A je to trefa do černého – u Jany Bobošíkové to vysvětluje všechny archy, které ministerstvo vybralo! Je sice možné namítnout, že tento postup vygeneruje tolik čísel, že je s nimi možno potvrdit libovolný výběr, ale není tomu tak. Jednak to viditelně nepomohlo u ostatních kandidátů, a jednak by musel podobný efekt nastat i tehdy, kdybychom nevybrali přímo sousední archy, ale třeba ty, které jsou od vybraného archu vzdálené o dva, tři nebo více archů. To ale není ten případ, jakmile se vzdálíme od vybraného archu, počet nevysvětlených archů je zase okolo 100.

Pro úplnost je na čtvrtém řádku stejný algoritmus, ale s opravenou konstantou a (1103515245) a na dalším řádku ještě tentýž algoritmus rovněž zvýšený o 1. Nic z toho a ani žádné další variace nepřinesly žádný výsledek. Abychom tento závěr ještě potvrdili, znázornili jsme si graficky čísla, která je daný algoritmus schopen generovat, a v nich jsme označili archy vybrané ministerstvem. V případě, že by algoritmus byl správný, ale spouštěl by se s jinými počátečními hodnotami p0 nebo r0, musel by na jeho grafu být vidět souvislý pás vybraných náhodných čísel, jako je to u druhého vzorku Jany Bobošíkové:

Jana Bobošíková

Naproti tomu stejný graf například pro první vzorek Jana Fischera vypadá takto:

Jan Fischer

Chce to nové sčítání

Je tedy poměrně jasné, že ověřování ostatních kandidátů probíhalo úplně jiným způsobem. Buď úředníci použili nějaký jiný generátor náhodných čísel, nebo jim tato procedura už u prvního kandidáta v abecedě přišla natolik komplikovaná, že archy ostatních kandidátů prostě nějak vybrali, třeba tak, že zalovili mezi archy a vybrali, co jim přišlo pod ruku.

U Jany Bobošíkové vše nasvědčuje tomu, že výběr archů byl proveden generátorem náhodných čísel, ale potom byl ovlivněn vybírajícími úředníkyTo je ovšem poměrně překvapivé zjištění, které by mělo stačit Nejvyššímu správnímu soudu, aby zrušil všechna rozhodnutí ministerstva vnitra o registraci kandidátů a nařídil nové sčítání. U Jany Bobošíkové všechno nasvědčuje tomu, že výběr archů byl sice proveden pomocí generátoru náhodných čísel, ale potom byl ovlivněn vybírajícími úředníky. U ostatních kandidátů je přinejmenším dokázáno, že odůvodnění, jak bylo popsáno v rozhodnutích, je nepravdivé a celé rozhodnutí je tímto automaticky zpochybněno.

Při této analýze jsme ještě zjistili různé zajímavé okolnosti týkající se toho, jak jednotliví kandidáti sbírali podpisy, například Tomio Okamura dodal přinejmenším dva identické archy (16005150 a 16007681), Jana Bobošíková má na rozdíl od ostatních kandidátů komplikovanou strukturu duplikátních podpisů, čtyři kandidáti mají nečekaně vysoký počet archů, na nichž jsou všechny podpisy neplatné (čti vymyšlené), a tak dále.

Naše hlavní zjištění je však toto: úředníci Ministerstvo vnitra opět posunuli laťku nastavenou registrem vozidel, výplatou sociálních dávek, kontrolou nezákonného prodeje alkoholu a ostatními novodobými výkony naší státní správy.

Počet příspěvků: 26, poslední 25.12.2012 02:12 Zobrazuji posledních 26 příspěvků.