Wróżenie z fusów

28.3.2017 - 13 minut czytania - 2568 słów [Statystyka] , [tl;dr]

tl;dr: pod pozorem pisania o polityce opowiadam o przedziałach ufności (czyli kapeluszach), korelacji i lokalnej regresji wielomianowej (loess). I odpowiadam na pytanie, czy Schetynie rośnie, i dlaczego, oraz czy Razem wejdzie. Z góry przepraszam za chaos i błędy – zacząłem pisać notkę bardzo dawno temu, i teraz na chybcika skończyłem je na seminarium…

“Rośniemy w siłę!” - twierdzi Platforma Obywatelska. “PO jest w natarciu” twierdzi Tygodnik Powszechny, bo “rosną jej sondaże”. Członkowie Razem z mojej bańki cieszą się, że “Razem wejdzie do Sejmu”. Wszystko opiera się na opublikowanych niedawno sondażach, a te są przekonujące:

Wygląda nieźle, prawda? W każdym razie, o ile nie obejrzy się tych badań w kontekście wszystkich sondaży przeprowadzonych przez ostatnie półtora roku:

Dane ze 122 sondaży wyborczych od 1.7.2015 do 17.3.2017. Linie przerywane odpowiadają wynikom wyborów.

Ups. Jak widać, wyniki sondaży są bardzo zmienne, i ciężko dostrzec jakiś systematyczny trend. Co więcej, wygląda na to, że wkrótce po wyborach wszystkie partie zajęły mniej lub bardziej stałe miejsce w sondażach, wokół którego oscylują. To co w końcu z tym PO, wzrosło im, czy nie? Czy sondaże to tylko wróżenie z fusów, a nagroda za przewidzenie wyniku wyborów słusznie nazywa się Złotym Pucharem Pytii?

Na szczęście z pomocą może nam przyjść statystyka.

Sondaże są oparte zazwyczaj na dobrowolnej odpowiedzi około tysiąca zapytanych mniej lub bardziej losowo wybranych osób. Te wszystkie założenia prawie na pewno nie są idealnie spełnione – dowód na to, że nie są, będzie za chwilę.

Zacznijmy jednak od tego, że nawet, jeśli osoby te są naprawde losowo wybrane, i nawet, jeśli wszystkie udzielone odpowiedzi w doskonały sposób odzwierciedlają decyzję, jaka dana osoba podjęła by przy urnie, to wyniki sondażu będą obarczone pewnym losowym błędem. Gdy rzucimy tysiąc razy doskonale wyważoną, uczciwą monetą, nie oczekujemy, że otrzymamy dokładnie 500 reszek i 500 orłów, prawda¹? Czasem będzie trochę więcej orłów, a czasem reszek. Czasem trafi nam się wśród respondentów większa proporcja wyborców PO niż wśród wszystkich głosujących, a czasem mniejsza. Ile i jak często, może nam powiedzieć statystyka, albo prosta symulacja. Poniższy obrazek powstał przy założeniu, że prawdziwe poparcie dla poszczególnych partii jest dokładnie takie, jak wskazuje jeden z nowszych z sondaży (PO - 27%, PiS - 29% itd.). Program symulacji sto razy wybrał losowo 1000 respondentów, i oto wyniki:

Nie ma aż takiej zmienności jak na pierwszym obrazku, ale widać, że wahania sięgają trzech punktów procentowych – w obie strony. Kiedy patrzymy na słupki sondaży, warto więc przypomnieć sobie pojęcie przedziału ufności.

Przedział ufności to kapelusz². Już tłumaczę.

Na ziemi leży moneta. Rzucamy na nią kapeluszem. Wynik rzutu jest jednoznaczny: albo, z pewnym prawdopodobieństwem, nakryliśmy kapeluszem monetę, albo nam się to nie udało. Ta moneta to poparcie, które uzyskalibyśmy przeprowadzając prawdziwe wybory (nazwijmy sobie ją “PPP”, “prawdziwie prawdziwe preferencje”). Przeprowadzając sondaż, z pewnym prawdopodobieństwem trafimy blisko prawdziwej wartości PPP. 95%-owy przedział ufności to taki specjalny kapelusz, którym udaje nam się nakryć monetę w 95% przypadków. Jeśli przeprowadzimy 100 sondaży, to przedział ufności gwarantuje nam³, że średnio w 95 z nich PPP będzie w obrębie 95%-owego przedziału ufności. Jednak w przypadku konkretnego sondażu albo trafiliśmy kapeluszem, albo nie, tak że mówienie o prawdopodobieństwie nie ma sensu⁴.

Wiem, że to trochę zagmatwane, i może dlatego nigdy wraz sondażami nie podawane są przedziały ufności. Co oznacza, że przedział ufności wyniósł 27-33%? Że z prawdopodobieństwem 95% trafiliśmy tym sondażem tak, że prawdziwa wartość leży gdzieś w tym przedziale. Ale czy leży bliżej średniej, czy dalej – tego nie możemy wiedzieć.

Przedział ufności dla proporcji (czyli wyników sondaży) można policzyć, ale na potrzeby czytania sondaży warto zapamiętać, że przy badaniu 1000 respondentów:

Dla poparcia rzędu 30-40%: 95%-owy przedział ufności wynosi ok. 3pp w górę i w dół
20-30%: ok. 2.5pp
10-15%: ok. 2pp
3-5%: ok. 1pp

Jeśli więc poparcie jakiejś partii wyniosło, powiedzmy, 27%, to należy sobie to przetłumaczyć na “24.5 – 29.5”. A jeśli 5%, to tak naprawdę myślmy “4-6%”. To jest minimum niepewności, które zawsze powinniśmy uwzględnić czytając sondaże. Poparcie z sondażu może wzrosnąć lub spaść o 6% i nie będzie w tym niczego niezgodnego z hipotezą, że prawdziwe poparcie się nie zmieniło!

Co gorsza, powyżej (i poniżej też) widać, że nawet takie oszacowanie błędu nie oddaje sprawiedliwości rzeczywistemu rozrzutowi sondaży. Tak naprawdę jest większy, niż przewidują to proste przedziały ufności. Z czego to wynika? Najwyraźniej nie są spełnione założenia: sondaże nie są zależne, próba najprawdopodobniej nie całkiem losowa i tak dalej. Albo PPP zmienia się szybciej, niż by się to wydawało.

Tak naprawdę najbardziej interesuje nas jednak zmiana poparcia w czasie: rośnie, czy maleje? Przybyło, czy ubyło? W statystyce najprostszym sposobem modelowania zmiany jakiejś wartości (np. poparcia) w zależności od drugiej (np. czasu) jest regresja liniowa. Niestety, regresja liniowa zakłada, że poparcie jednostajnie rośnie albo maleje. To oczywiście nie jest prawda, dlatego zastosujemy dalekiego kuzyna regresji liniowej – lokalną regresję wielomianową. W szczególności metodę znaną jako LOESS. Zamiast opisywać tutaj szczegóły, pokażę, jak to wygląda w praktyce:

Po lewej są same pojedyncze sondaże (dla jednej z partii), po prawej – również krzywa loess (ciemnoniebieska linia pośrodku) z przedziałami ufności (ciemniejsze pole) i przedziałami prognozy (jaśniejsze pole).

…prognoz? Ugh, zapomniałem wyjaśnić. Otóż są dwie sprawy. Po pierwsze, mamy jakieś (nieznane) prawdziwe preferencje (PPP), które poznać możemy jedynie przeprowadzając prawdziwe wybory. Przedział ufności gwarantuje³ nam, że PPP leży w 95% wypadków w obrębie tego ciemnego pasa pośrodku. Ale prawdziwy sondaż jest wypadkową dwóch składników: PPP oraz przypadku (na który składają się losowanie 1000 respondentów i ewentualne inne błędy). Dlatego nawet jeśli PPP jest w obrębie tego ciemnego pasa, kolejny sondaż, który przeprowadzamy – niekoniecznie. Po to jest przedział prognozy: w nim będzie zawartych 95% przeprowadzanych konkretnych sondaży.

Teraz możemy spojrzeć na wszystkie partie. Żeby uprościć nieco obrazek, dzielę go na trzy części: pisopo.nton u góry, potem jedne płotki, potem drugie płotki:

Pierwszy wniosek z powyższego: co prawda PO rzeczywiście rośnie w siłę, ale dzieje się to wyłącznie kosztem .N! Nie ma oznak, żeby poparcie dla PiS znacząco malało; być może ostatnie sondaże są rzeczywiście pierwszymi oznakami zmiany, ale na razie nie odstają zbytnio od dotychczasowego przedziału prognoz.

To, że PO i .N wymieniają się głosującymi i jeden zyskuje, gdy drugi traci, najlepiej widać na obrazku przedstawiającym korelację (lewy panel):

Oczywiście, każda partia której poparcie zmienia się w czasie będzie silnie korelować z każdą inną partią, której poparcie również zmienia się w czasie (bo obie zależą od czasu). Dlatego powyżej na obrazku po prawej przedstawiam korelację wartości resztowych z modelu zależnego od czasu. Innymi słowy, odejmuję od danych tę ich część, która zależy od czasu; reszta nie koreluje z czasem – a mimo to .N nadal koreluje z PO.

Jeszcze śmieszniej będzie, jak sobie obejrzymy Ponton, czyli PO + .N:

Nie, PiS nie wygrał przez Razem, które odebrało głosy SLD. PiS wygrał dzięki Ryszardowi Petru, który odebrał głosy PO (albo vice versa). Inna sprawa, że o ile PO nie pokazuje negatywnej korelacji z PiS, o tyle .N i PiS są silnie negatywnie skorelowane (korelacja wartości resztowych dla PiS / .N wynosi -0.53). Tutaj aż się prosi bardziej złożona analiza wyjaśniająca, gdzie przyczyna, a gdzie skutek (to się da zrobić w takiej sytuacji), ale nie mam na to czasu.

Co do innych partii: Razem jest dość stabilnie poniżej swojego wyniku wyborczego, niemniej jednak słabo bo słabo, ale idzie w górę (reszty nie omawiam, bo mnie nie interesuje). Może dojdzie. Koreluje pozytywnie z Korwinem, nie koreluje z SLD, ale koreluje negatywnie z PiSem (sondaże z silniejszym PiSem pokazują słabsze Razem, i vice versa), co mogłoby sugerować, że aby zyskać, Razem powinno przede wszystkim celować w przeciągnięcie wyborców PiSu (but it’s complicated).

Jeszcze dwie rzeczy są ciekawe. Na poniższym obrazku bynajmniej nie ma pokazanych dwóch partii: wszystkie punkty to wyniki z różnych sondaży dla tej samej partii – .N po lewej, PiSu po prawej. Dwa kolory natomiast oznaczają dwie różne instytucje, które przeprowadzały sondaż:

Fascynujące! Niezależnie od tego, czy wynika to ze spizgu, czy po prostu różnic w przyjętej metodologii badawczej, istnieje wyraźny, systematyczny trend odróżniający te dwie grupy sondaży. Natomiast trend znika w okolicy wyborów. Może mieć to też wpływ na korelacje, które liczyłem powyżej (nie sprawdzałem tego).

Druga sprawa: na obrazkach powyżej widać wyraźną nieciągłość w okolicy wyborów. Po pierwsze, sondaże konwergują bardzo silnie blisko PPP w dzień wyborów (oznaczonego na obrazku za pomocą linii przerywanych). Innymi słowy, idąc od lewej, zmniejsza się wariancja wyników sondaży. Po drugie, sondaże po prawej stronie (po wyborach) ulegają często dość gwałtownej zmianie. Dlatego regresja nie trafia w PPP (można temu zaradzić, ale ten tekst jest wystarczająco długi i bez tego).

Teraz ja się będę bawił we wróżenie z fusów.

Otóż hipoteza, którą utworzyłem na podstawie powyższej zabawy jest taka: sondaże dobrze oddają rzeczywistość tylko w okresie przedwyborczym, gdy ludzie naprawdę poświęcają trochę czasu, żeby zastanowić się, na kogo głosować. W tej chwili mają na głowy inne sprawy niż brazylijski serial polityczny w telewizji, dlatego spytani, odpowiedzą (przynajmniej niektórzy z nich) mniej lub bardziej losowo, co im w danej chwili przyjdzie do głowy. Jutro może odpowiedzą zupełnie co innego, bo właśnie zobaczyli w telewizji, że kochanka kota Kaczyńskiego pojechała pontonem na wczasy do Chorwacji blokować mównicę Donalda Tuska.

Dlatego poza okresem tuż przed wyborami sondaże wahają się bardzo znacznie – bardziej, niż wynika to z obliczonych przedziałów ufności, a wahania zależą silnie od przyjętej metodologii. PPP nie jest więc jakąś stałą wartością w populacji, ale samo w sobie jest zmienną losową, której parametry zależą od tego, gdzie na osi czasu się znajdujemy.

Taką hipotezę można sprawdzić – po pierwsze, można poczekać do następnych wyborów i zobaczyć, czy moje przewidywania są słuszne. Poza tym można sprawdzić jak to wygląda w innych krajach. Have fun!

¹ zwłaszcza, jeśli rzucamy jednoeurówką ² nie pamiętam, gdzie przeczytałem tę metaforę, ale jest bardzo dobra. ³ przy spełnionych pewnych założeniach, np. o losowości próby ⁴ w tzw. frekwentystycznym rozumieniu świata. W bajezjańskim prawdopodobieństwo jest miarą naszej subiektywnej informacji, więc taka interpretacja ma sens.

Komentarze

Komentarz: gszczepa, 2017-03-28 19:11:56:

To jest ten wpis o statystyce na który czekałem od momentu wpisu o medianie ;-)

“że aby zyskać, Razem powinno przede wszystkim celować w przeciągnięcie wyborców PiSu (but it’s complicated).”

Co ma sens.

Co za tym idzie mam taką koncepcję żeby wybierać dwa parlamenty, jeden z kompetencjami w dziedzinie ideolo, drugi soc-ekono. Bardzo by nam to poprawiło politykę.

Komentarz: Karol, 2017-04-04 06:51:24:

Bardzo fajny artykuł. Wyważony pomiędzy teorią a praktyką. Zwykle jak ktoś się za bardzo zacznie zagłębiać w założenia i teorię to można dojść do wniosku, że badania w ogóle nie mają sensu :P Sporo pracy zostało włożone i wychwycono ciekawe korelacje ;) Zastanawiam się tylko czy zwężenie przedziału ufności przed wyborami jest wynikiem zmniejszenia rozrzutu, czy raczej zwiększenia ilości sondaży ;P Więcej takich ciekawych artykułów!

Komentarz: January, 2017-04-04 07:04:52:

Dobre pytanie. Zamierzam wrócić do tej kwestii przy następnych wyborach; postawiłem swoją hipotezę, będzie okazja, żeby ją przetestować. Natomiast chwilowo przyjrzałem się wynikom niemieckich sondaży, i tu też jest ciekawie – bo mam wrażenie, że zmienność tu jest dużo mniejsza niż w Polsce.

Komentarz: junoxe, 2017-04-04 11:46:57:

“Wiem, że to trochę zagmatwane, i może dlatego nigdy wraz sondażami nie podawane są przedziały ufności. Co oznacza, że przedział ufności wyniósł 25-35%? Że z prawdopodobieństwem 95% trafiliśmy tym sondażem tak, że prawdziwa wartość leży gdzieś w tym przedziale. Ale czy leży bliżej średniej, czy dalej — tego nie możemy wiedzieć.”

Czy, aby na pewno powinny się tam znaleźc liczby 25-35%? Że tyle wynosi przedział ufności?

Komentarz: January, 2017-04-04 11:55:49:

Nah, tylko przykład; to zależy od liczby badanych. Taki akurat przedział ufności będzie dla 250 badanych. Dla 1000 osób podaję niżej – troszkę poniżej 3% w każdą stronę, 0.272 - 0.330. Dla 10000 – 0.29 - 0.31. CI dla proporcji wynosi +-Q * SE, gdzie SE to błąd standardowy - sqrt(p*(1-p)/n), a Q to kwantyl rozkładu normalnego na poziomie (1-alpha/2), gdzie alpha=1-0.95=0.05. Dla 95% przedziału ufności i 1000 osób, Q=1.96, czyli CI=0.3 +- 1.96sqrt(0.30.7/1000)=0.3 +- 0.028, czyli 30% +- 2.8%

Komentarz: junoxe, 2017-04-04 11:57:14:

Bardzo śmieszne. :)

Komentarz: junoxe, 2017-04-04 12:00:44:

To poniżej to skumałem. Zafiksowałem się, że mówimy o przedziale ufności rzędu 95%, a poparcie partii właśnie w okolicach 30% i myślałem, że to jakaś pomyłka. Generalnie muszę przeczytać Twój wpis o statystyce, jak zawsze, 2-3 razy. :) Bom noga. Ale się staram.

Komentarz: January, 2017-04-04 14:43:45:

Nie, jeśli musisz dwa razy, to znaczy że ja źle tłumaczę. Obliczenia dodałem bardziej jako dupochron niż co innego; ale bottom line jest taki, że im mniejsza próba, tym większy rozrzut (i przedział ufności). EDIT: zmieniłem na 27-33, żeby unikać zamieszania.

Komentarz: junoxe, 2017-04-04 14:51:54:

@January

Tak. Akurat dobrane liczby mnie wprowadziły w błąd.
Nie. Ja generalnie miałem kłopot z przedziałami ufności/nieufności i to kolejne moje pytanie na tym blogu. Poprzednie Twoje tłumaczenie było dla mnie dopiero vague. Przykład kapelusza jest OK. No i hej, ale zrozumienie jest jakimś wysiłkiem, więc samo się nie nauczy. Dzięki.

Komentarz: Luca, 2017-04-09 18:14:55:

Wpis klawy jak cholera – nareszcie jakieś kompetentne omówienie sondaży z naszego grajdołka. Więcej w tym wartościowej treści niż są w stanie wygenerować z siebie gadające głowy ględzące przez tydzień (miesiąc?) na kanałach informacyjnych.

A po zasłużonym podlizie bezczelna prośba: Czy byłbyś w stanie polecić jakiś zacny podręcznik (względnie zestaw) do statystyki, który mógłby pomóc nietotalnemu ignorantowi zapoznać się bliżej z tematem?

Komentarz: January, 2017-04-11 09:51:33:

Strasznie się cieszę z takich komentarzy! Dziękuję!

Jeśli chodzi o podręczniki, to nie znam dobrze rynku. Ale jest jedna książeczka, którą polecę: podręcznik statystyki dla przyrodników autorstwa Adama Łomnickiego. Tutaj muszę uciec w dygresję.

Kursy statystyki Łomnickiego prowadzone były z założeniem, że kursanci potrafią co najwyżej radzić sobie z algebrą na poziomie szkoły podstawowej. Dlatego wyjaśnienia pojęć statystycznych były czysto intuicyjne, i matematyki było w nich co kot napłakał. Kursy mimo to wymagały dużej pracy. Po pierwsze, na każdy wykład zadawana była lektura. Część tej lektury to były wydruki rozdziałów podręcznika, który wtedy Łomnicki jeszcze pisał; jako studenci, mieliśmy prawo i obowiązek wypożyczać je w bibliotece i nanosić na nie swoje uwagi, pytania i komentarze. Dlatego mogę z czystym sumieniem stwierdzić, że w powstawaniu podręcznika miałem swój udział.

Oprócz tego na każdych zajęciach był albo czterdziestominutowy test, albo odbiór zadania domowego. Na testach dopuszczalne były ściągi – “małe, żółte książeczki”, które musiały być podpisane (żeby nie ściągać od innych), ale na których wolno było pisać, co się chciało. Moja książeczka do tego czasu stoi nad biurkiem…

Zadania nigdy nie sprowadzały się do abstrakcyjnych rachunków. Typowe zadanie zaczynało się od “Idź do lasu i zmierz pierśnice stu drzew w następujących grupach…”. Natomiast należało przedstawić wszystkie pośrednie etapy obliczeń. Teoria była taka, żeby nie uprzywilejowywać studentów, którzy nie mają dostępu do kalkulatora naukowego (do obliczeń statystycznych wtedy się je jeszcze często stosowało). W praktyce oznaczało to wyrobienia dobrej intuicji, co mówi nam suma kwadratów i podobne pośrednie wielkości (mnie to nudziło, więc napisałem program na komputer Amstrad, który liczył wszystko i wypisywał na drukarce igłowej pośrednie etapy obliczeń, co w efekcie kosztowało mnie o wiele więcej czasu).

Podręcznik Łomnickiego tłumaczy podstawowe testy statystyczne (chi², Student, ANOVA, regresja liniowa) i podstawy statystyki frekwentystycznej w konwencji Neymana-Pearsona. Czytając go, trzeba pamiętać, że statystyka na tym się nie kończy, i część rzeczy, które Łomnicki jasno i klarownie tłumaczy, w rzeczywistości potrafi być dużo bardziej skomplikowana.

Jest jeszcze inny klasyczny podręcznik – “Biometry” Sokala (nie tego) i Rohlfa, o bardzo podobnych założeniach (m.in. pokazująca wszystkie etapy pośrednie obliczeń) i ograniczająca się do bardzo klasycznej frekwentystycznej statystyki. Też z niego jeszcze korzystam.

Komentarz: January, 2017-04-11 09:52:23:

P.S. Tu jest link: https://ksiegarnia.pwn.pl/Wprowadzenie-do-statystyki-dla-przyrodnikow,68448954,p.html

Komentarz: Luca, 2017-04-22 10:54:13:

Pięknie dziękuję za wskazanie pozycji i raportuję, że książka nabyta.

Original post