Statystyczna mapa sejmu

1.10.2011 - 23 minut czytania - 4878 słów [Misc] , [tl;dr]

Podczas VI kadencji Sejmu RP było ponad osiem tysięcy głosowań. Prawie każdy z posłów głosował wiele tysięcy razy, swoimi głosowaniami manifestując poglądy swoje, swojego klubu albo grupy swoich politycznych współpracowników. Zebrałem dane o głosowaniach każdego posła i poddałem je prostej statystycznej analizie. Chodziło mi przede wszystkim o trzy pytania:

jakie grupy wyznaczają głosowania, czy odzwierciedlają przynależność partyjną, czy może też inne rzeczy
czy badając głosowania można dostrzec zmiany zachodzące w obrębie partii, albo powstawanie nowych partii?
którzy posłowie zbliżają się swymi głosowaniami do partii, do których nie należą

Tekst jest tl;dr, ale na końcu jest film i trochę pornografii. Niestety, oglądanie większości obrazków ma sens jedynie w powiększeniu, więc proszę klikać jeślik to zehce po rady.

Zebrane dane potraktowałem analizą PCA (komponentów głównych), która ma jedną wadę i jedną zaletę. Wada PCA to konieczność używania danych numerycznych (a nie np. kategorycznych). Nie można też w łatwy sposób oznaczyć nieobecności posła. Zaleta jest taka, że chodzi o jedną z najprostszych metod wielowariancyjnych, niemalże – trick obliczeniowy, i prawie każdy, kto miał do czynienia ze statystyką, zetknął się już z tą metodą.

Pierwsze wyniki

Wyniki analizy PCA dla wszystkich posłów i wszystkich głosowań wyglądają tak:

Każdy punkt / symbol to jeden poseł. Osie to tzw. komponenty główne – sztucznie utworzone “wypadkowe” głosowań, które zawierają większość różnic między posłami. I tak, oś pozioma, czyli komponenta pierwsza (PC1), opisuje głównie różnice między koalicją rządzącą (niebieski: PO, zielony: PSL) a PiSem (ciemnoszary). Oś pionowa (PC2) opisuje różnice między obozem lewicy (LiD, a później SLD et consortes, różne odcienie czerwonego) a całą resztą. Bardzo ładnie widać różnice między partiami i trzy główne bieguny polskiej polityki: koalicja, opozycja narodowo-konserwatywna i lewica.

Wnioski z tej ilustracji:

wyraźne trzy bieguny polityki, niebieski, czarny i czerwony
w ogólności i pomijając pewne niewygodne założenia, koalicja rządząca różni się zarówno od PiSu, jak i lewicy, nie widać np. “frakcji Gowina i Niesiołowskiego”.
(autotematyczny) prościutka analiza PCA umożliwia wizualizacje politycznego rozkładu sił w Sejmie – utworzenie “politycznej mapy” sejmu ciekawszej niż jednowymiarowy rozkład prawica-lewica.

Komponentów jest więcej, a każdy kolejny ma mniejsze znaczenie. I tak na przykład na poniższej ilustracji trzecia i czwarta komponenta opisują odpowiednio różnice między PJN a grupą złożoną z lewicy, PiS i PO, oraz (PC4) różnice między PSL-em (zielone punkty) a resztą posłów.

Czyli – PSL także tworzy własny biegun, a raczej – biegunek (głosując w niektórych głosowaniach inaczej niż wszystkie pozostałe partie).

Noale

Tutaj trzeba jeszcze zauważyć kilka rzeczy. Po pierwsze, liczne nieobecności wielu polityków – zwłaszcza rządowych i liderów partii – wpływają na ich pozycję na diagramie. Powyżej te same dwa diagramy, lecz tym razem wielkość symbolu odpowiada liczbie nieobecności danego posła:

Na diagramie pokazującym składowe PC1 i PC2 widać, że posłowie z dużą liczbą nieobecności grupują się razem. Wynika to po części z mojego lenistwa – zamiast kombinować, zastąpiłem każdą nieobecność posła zerem, które w moim zestawie danych oznacza wstrzymanie się od głosu. Niestety, bardzo ciężko zrobić to inaczej, a chciałem zachować w obliczeniach prostotę. Pewnym rozwiązaniem jest ustalanie limitu nieobecności – co jednak prowadzi do tego, że pewne osoby (np. Donald Tusk albo posłowie, którzy pełnili swą funkcję tylko przez część kadencji) nie pojawiają się na niektórych wykresach. W kolejnych wykresach będę stosował tę metodę progu nieobecności.

Druga sprawa to dyscyplina klubowa. Ktoś może powiedzieć: jak możemy zauważyć rożnice w obrębie partii, skoro głosowania, które w PCA okażą się “najważniejsze”, to zarazem takie, w których w obrębie jednej partii posłowie głosowali unisono? To źle lub dobrze, zależnie od tego, czy interesujemy się różnicami w obrębie partii, czy różnicami pomiędzy partiami. Jeśli interesują nas różnice w obrębie partii, to można np. zastosować PCA tylko do jednej partii (i wtedy mogą wyjść różnice, jedną czy dwie omówię za chwilę), chociaż lepiej byłoby zaprząc jakieś bardziej złożone metody statystyczne – na co nie mam czasu. Niestety, głosowań, w których któraś z głównych partii nie głosowałaby niemal jednomyślnie jest bardzo mało.

Przy okazji – z ponad ośmu tysięcy głosowań usunąłem podczas wstępnej obróbki danych ponad połowę, w której Sejm głosował niemal jednomyślnie (mniej niż 20 głosów odbiegających od sejmowej większości).

Struktura klubów: PiS

OK, a czy w ogóle widać rozdziały wewnątrz klubów? Trochę tak. Poniżej ilustracja analizy PCA dla klubu PiS w przeciągu ostatnich 200 głosowań. Usunąłem posłów, którzy byli nieobecni więcej niż 20 razy (wskutek czego pozostaje 100 posłów PiS).

Niestety (nie “polityczne niestety”, tylko niestety wzięte analitycznie) – ten podział wynika z ledwie przygarści głosowań i nie widać go w innych okresach. Na przykład, analizując głosowania między kwietniem a lipcem 2011, widać inny podział:

Też widać dwie grupy, ale to nie są te same grupy, co poprzednio. Okazuje się, że o tym grupowaniu decyduje głównie (choć nie wyłącznie) głosowanie z 09-06-2011, godz. 19:21. Frakcja ok. 30 posłów PiS głosowała przeciw, tak jak rząd i lewica. O co chodziło w tym głosowaniu? Nie mam pojęcia. Należałoby w tym miejscu systematycznie przejść przez całą kadencję szukając takich podziałów, i dla każdego z nich sprawdzić (i) w jakim okresie się utrzymuje oraz (ii) jakie głosowania poróżniły posłów. Chociaż interpretacja wyników i ich drobiazgowe sprawdzanie to najważniejsza część każdej takiej analizy, to równocześnie jest to część najbardziej pracochłonna. Za darmo – nie da rady.

Natomiast możemy zrobić dwie rzeczy. Pierwsza, to przyjrzeć się posłom, którzy odstają od silnego “centrum” partii w perspektywie całej kadencji. Znowu zacznę od PiS, wykluczając posłów o dużej liczbie nieobecności.

Co nam to mówi? Ano, na przykład, że posłanka Beata Kempa to nie jest samo centrum PiS (możnaby sprawdzić, w jakich głosowaniach odbiegała od reszty, ale duh).

Kla(j)strujmy

Druga sprawa, to zrobić analize klastrów – czyli narysować drzewko, w którym posłowie są blisko siebie, jeśli głosują podobnie. Na poniższej ilustracji zrobiłem klastrowanie wszystkich posłów PiS (bez względu na nieobecności). Na początek, i żeby sprawdzić metodę, dodałem też osoby, które obecnie są w PJN. Oprócz tego usunąłem głosowania, w których ten zestaw posłów głosował w 80% lub więcej “za” albo “przeciw” – zostało mniej niż 500 głosowań.

Kolorowe liczby oznaczają pewność (osiągniętą dzięki metodzie zwanej bootstrapem) jaką mamy co do konkretnego klastra (“grupy”); zielony i czerwony to dwa różne oszacowania tej pewności; im liczba bliższa 100, tym pewność większa. Wyraźnie widzimy, że posłowie PJN tworzą oddzielny klaster (grupa po prawej), w którym są również posłowie dawnej “Polski Plus” (Selin, Ujazdowski, Polaczek), obecnie PiS. A teraz to samo, ale bez PJN:

Widać wyraźną grupę (klaster po prawej) z Ziobrą, nieodłącznym Kurskim i Zytą Gilowską (są tam też Wassermann, Zyta Gilowska i śp Gosiewski).Kaczyński ma własny klaster, do którego należą Mariusz Błaszczak, Krzysztof Tchórzewski, Marek Kuchciński, Beata Mazurek, Małgorzata Sadurska i parę innych osób. Trzeba jednak ostrożnie, bo i tu nieobecności mogą być decydujące; na przykład, Zyta Gilowska głosowała ledwie parę razy, więc jej głosowania (użyte do porównania jej z innymi osobami) są raczej mało reprezentatywne. Poza tym pojawiają się posłowie, którzy odeszli Sejmu w trakcie kadencji. Jeśli wziąć pod uwagę tylko posłów, którzy do końca kadencji byli w Sejmie i klubie PiS, to klaster jednak Zyty Gilowskiej nadal istnieje (chociaż bez Gilowskiej, Ziobry i Kurskiego).

Struktura klubów: PO

Zacząłem od PiSu, ale jak to jest w obecnym PO? Na początek trzeba wyłączyć posła Arłukowicza, który przez większość kadencji głosował jak lewica, i w związku z tym zaburza analizę. Jednak jak się poszpera, to i w tym przypadku widać dwie “frakcje”. Poniżej PCA dla ostatnich 500 głosowań, komponenty PC3 i PC4.

Ten podział jest jednak stosunkowo nowy. Buszując po danych, odkryć możemy inne podziały, ale ciężko powiedzieć, by były bardzo stabilne.

W analizie klastrów dla całej kadencji nie widać wyraźnych grup, poza spadochroniarzami z PJN (Kluzik-Rostkowska, Kilian, Tomczak). Jeśli uwzględnimy tylko osoby, które były w PO zarówno podczas pierwszego, jak i ostatniego głosowania, i uwzględnimy tylko te głosowania, w których co najwyżej 80% posłów PO głosowało “za” lub “przeciw”, to otrzymamy poniższy diagram:

Widać, że nie ma jakichś znaczniejszych frakcji, a już na pewno ciężko mówić o “skrzydle Gowina”.

Struktura klubów: lewica

Klastry: jeśli zbadać posłów, których najnowszą afiliacją jest “SLD”, “SDPL” albo “Lewica”, to widać wyraźnie, że “SDPL” odstaje od reszty, natomiast Lewica Olejniczaka wpisuje się we frakcję SLD:

Pomijając SDPL, które trochę bruździ w analizie, oraz “Lewicy”, bo ich już nie ma (a liczne pozorne nieobecności mogą wywoływać artefakty), pozostaje bardzo klarowny obraz kto z kim w SLD:

Jak widać, bootstrapy (focus on czerwone cyferki) są bardzo przyzwoite, da się wyróżnić parę grup (ciekawe, jak bardzo podobnie głosują Kalisz i Napieralski).

Analiza PCA nie daje nam ładnych odpowiedzi, ale potwierdza wnioski z analizy klastrów (np. że Balicki i Widacki odstają od reszty):

Zmiany w czasie

Kolejny interesujący wątek to pozycje zajmowane przez poszczególnych posłów. Dla każdego z 520 posłów w moim zestawie danych utworzyłem ilustrację ukazującą jak – wedle głosowań – każdy poseł głosował w przeciągu całej kadencji i podczas ostatnich 200 głosowań, a także – które osoby głosowały podobnie. Pełny wykaz jest tutaj. Niestety, obraz dla niektórych posłów jest zatarty przez nieobecności przy głosowaniach – stąd makabryczny diagram przedstawiający głosowania posła Gosiewskiego w jesieni 2011. Dla posłów związanych z dużymi partiami ten obrazek jest mało ciekawy; natomiast warto się przyjrzeć posłom z małych ugrupowań albo “niezależnym”.

Przykład: pani posłanka Ciemniak z SDPL, która w ostatnich głosowaniach “weszła” do koalicji rządzącej. Grażyna Ciemniak została wybrana w 2007 z listy LiDu, ale z niejasnych powodów pierwsze głosowanie, w którym wzięła udział jako “niezależna” jeszcze (bo LiD się rozpadł) jest dopiero na jesieni 2009. Potem wstąpiła do SLD. Poniżej trzy obrazki, które ilustrują systematyczną drogę Grażyny Ciemniak z obozu lewicy do obozu koalicji. Od góry do dołu: lato 2009, zima 2010/2011 i jesień 2011.

I rzeczywiście. W wyborach 2011 Grażyna Ciemniak startuje z listy PO. Natomiast ani Bartosz Arłukowicz, ani Grzegorz Pisalski takiej drogi nie odbyli, zaczęli głosować tak jak PO dopiero wtedy, gdy do PO przeszli.

Film! Film!

Wreszcie – ostatnia sprawa. Otóż do tej pory pokazywałem dane zebrane z niemal całej VI kadencji Sejmu (konkretnie do połowy września 2011). Ale jeszcze ciekawiej przyjrzeć się jak zmieniał się obraz na politycznej mapie sejmu w ciągu kadencji. Oto cztery obrazki, każdy powstał w oparciu o dwieście głosowań. Obrazki przedstawiają polityczną mapę sejmu na początku kadencji, po katastrofie smoleńskiej, po wyborach prezydenckich, i na jesieni 2011. Kolory i symbole odpowiadają obecnym afiliacjom posłanek i posłów. W każdym przedziale dopuściłem 25% nieobecności.

Początek kadencji: lewica stoi tam, gdzie stoi PiS. Przynajmniej, jeśli idzie o PC1:

Katastrofą smoleńska: lewica przeniosła się na środek osi koalicja-PiS.

Po wyborze Komorowskiego na prezydenta widać nie tylko wstępny podział w PiS (którego rezultatem jest PJN), ale też podział w PO i między PO a PSL:

Trochę później: PJN w samym środeczku, oddzieliło się od PiS, ale jeszcze nie jest w PO.

Warto spojrzeć na trzecią komponentę powyższej ilustracji: PJN faktycznie tworzy wyrazisty “czwarty biegun”, głosując (w niektórych sprawach) inaczej niż wszystkie pozostałe partie.

Ostatnie 200 głosowań: lewica dystansuje się coraz bardziej od reszty.

Wszystko razem w animacji (próg nieobecności 33%, co pozostawia jakichś 400 posłów i posłanek; każdy kadr to dwieście głosowań):

[youtube=http://www.youtube.com/watch?v=x3KvLMpTGNc]

Na koniec jeszcze jeden filmik i jeszcze jeden wniosek. W poniższym filmiku afiliacje posłów, reprezentujące ich kolory i symbole odpowiadają ich afiliacjom z czasu, którego dotyczy dany kadr. Widać na tym filmie bardzo wyraźnie jedną rzecz: dopiero w momencie, gdy jakaś grupa tworzy nowy klub, wyrywa się głosowaniami z poprzedniego klubu i zyskuje własną tożsamość. Tak jest w przypadku różnych formacji lewicy na początku filmu, tak jest z Polską Plus, i z PJN pod koniec.

[youtube=http://www.youtube.com/watch?v=HJsbPJx_Jb4]

Co to oznacza? Że płonne są nadzieje na to, że jakaś mniejszościowa frakcja w którymś z klubów jest w stanie myśleć i działać niezależnie od większości w tym klubie. Być może tak jest w konkretnych, kluczowych głosowaniach; być może przez pracę na posiedzeniach klubu; ale w szerszej perspektywie to klubowa większość narzuca głosowanie. Jeśli myślicie, że w obrębie PO dojdzie do głosu czy to centrolewica, czy to Gowin, to chyba się mylicie.

Pornografia.

Obiecałem pornografię. Jaki blog, taka pornografia. Proszę: oto kopulacja jaszczurek.

Trochę o metodach:

PCA, czyli principal component analysis, analiza komponentów głównych, to bardzo podstawowa metoda analiz wielowariancyjnych. Wyobraźcie sobie fajkę (taką do palenia tytoniu fajkowego). Jeśli zrobicie zdjęcie fajki od przodu, to widać tylko główkę, a nie widać cybucha i ustnika. Żeby zobaczyć i główkę, i cybuch, i ustnik, trzeba popatrzeć na fajkę z boku. PCA jest metodą, która właśnie to umożliwia: znalezienie takiego kąta, z którego patrzymy na jakiś zestaw danych, żeby zobaczyć możliwie wiele różnic. Umożliwia to redukcję wymiarów: fajka jest trójwymiarowa, jej zdjęcie – dwuwymiarowe. PCA znajduje nam taki kąt zrobienia zdjęcia, żeby to zdjęcie dostarczało nam jak najwięcej informacji o fajce. Tyle, że w wypadku głosowań nie mamy do czynienia z obiektem trójwymiarowym, a 8407-wymiarowym, bo było 8407 (czy jakoś podobnie) głosowań.

Brzmi skomplikowanie, ale matematycznie jest to dość proste (jak na statystykę) przekształcenie. Gdzie poprzednio były głosowania, teraz są “komponenty główne” (principal components, PC), posortowane od tej komponenty, która opisuje najwięcej zmienności między zestawami danych, do tej, która opisuje jej najmniej. W przykładzie z fajką, PC1 będzie odpowiadać linii od główki do cybucha, a PC2 – linię prostopadłą do PC1, a idącą wzdłuż cybucha. Razem wyznaczą płaszczyznę optymalnego “zdjęcia” fajki.

Klastrowanie.

Do analizy klastrów używam pakietu pvclust, który umożliwia bootstrapping danych, najlepszą moim zdaniem metodę sprawdzania jakości tworzonych klastrów. Bootstrapping to bardzo ogólna technika statystyczna. Nazwa wzięła się z angielskiego idiomu “pull oneself by the bootstraps”, czyli wyciągnąć się samemu (z błota np.) za szlufki od butów (albo jak Münchhausen za harcap). Chodzi o to, że istotność statystyczną pewnego zestawu danych badamy losując wiele razy pewne podzbiory tego zestawu i sprawdzając, jak interesująca nas wielkość (np. średnia albo podział na klastry) zmienia się przy każdym losowaniu. Powiedzmy, że zmierzyliśmy wzrost grupy stu osób i chcemy wiedzieć, jaki jest rozrzut (wariancja) średniego wzrostu w tej grupie. Można do tego podejść przy pomocy klasycznego estymatora rozkładu średniej, a można przy pomocy bootstrapów: brać losowe próbki z całego zestawu, liczyć średni wzrost w danej próbce, a potem sprawdzać, jaki jest rozrzut policzonych średnich. Ma to jedną olbrzymią zaletę: działa zawsze, niezależnie od rozkładu (w przypadku wzrostu mamy “dobrze zachowującą się” statystykę, normalną i wszystko; w przypadku podziału na klastry – cholera wie co) i wybranej statystyki.

EDIT: dane wykorzystane do analizy można ściągnąć tutaj.

Komentarze

Komentarz: miskidomleka, 2011-10-01 13:21:55:

Bardzo piękne, choć dla mnie trochę bolesne, bo właśnie męczę odpowiedzi recenzentom, którzy czepiają się moich drzewek hierarchicznych i klasterków (z k-means pochodzących) ;-).

A czemu chciało Ci się tyle roboty włożyć w POLITYKÓW????

I jeszcze prośba - jak byś najprościej, tak prostemu biologowi, opowiedział różnicę między PCA a ICA?

Komentarz: pinkunicorn, 2011-10-01 13:27:25:

piękne, będę miał lekturę na pociąg :)

Korekta obywatelska: “więc proszę klikać jeślik to zehce po rady” -> “więc proszę klikać, jeśli kto zechce porady'

Komentarz: miskidomleka, 2011-10-01 13:39:40:

Jeszcze mam więcej pytań:

Jak kwantyfikowałeś głosowania, czy 1, -1, 0 dla T, N, W?
(związane z 1) jak wygląda odporność PCA na rozkłady nieciągłe i nie-normalne?
Możesz pokazać scree plot dla głównej analizy?

Komentarz: niedofizyk, 2011-10-01 15:56:10:

Ja poproszę współrzędne PC1 i PC2. Bardzo mnie ciekawi, jaką wagę mają które głosowania, to może nam wiele powiedzieć o stosunku rzeczywistości politycznej do programu partii ;)

Komentarz: anuszka, 2011-10-01 16:01:01:

Łaaał… Mocne. Gratuluję.

Mnie brakuje jednej rzeczy. Czym są te dwie komponenty główne? Przecież to można ustalić.

No bo tak: Każdy poseł to wektor w przestrzeni 8407-wymiarowej. Każda oś współrzędnych w tej przestrzeni to głosowanie nad jakąś sprawą. Teraz to co PCA robi, to przekręcenie układu współrzędnych. Nowe osie wskazują w takich kierunkach, żeby widać było największy rozrzut pomiędzy wszystkimi wektorami (posłami). Czyli te nowe osie można opisać pewnymi wektorami w tym starym układzie współrzędnych. Dwie najważniejsze komponenty to dwa wektory zawierające 8407 liczb. Te liczby to wagi, z jakimi poszczególne głosownia przyczyniają się do różnic między posłami. Należałoby sprawdzić, które z tych wag są największe - czyli nad czym konkretnie były głosowania niosce największe wagi.

Poprawcie mnie, jeśli czegoś tu nie zrozumiałam.

Komentarz: anuszka, 2011-10-01 16:01:48:

Widzę, że w międzyczasie niedofizyk napisał to samo. :-)

Komentarz: Przechodzień, 2011-10-01 16:12:23:

@ pinkunicorn to było zamierzone, wzięło się z leźników.

Komentarz: anuszka, 2011-10-01 16:49:48:

Rysunek z obecnościami daje trywialny wniosek, że najbardziej nieobecni grupują się najbliżej środka, no bo mieli najwięcej zer. To grupowanie to jest artefakt. Wynika z tego, że gdyby nie nieobecności, wykres byłby bardziej spolaryzowany.

Komentarz: Johnny76, 2011-10-01 16:55:41:

Z najbardziej na prawo wysuniętego klastra w PiS-e żyje już tylko Tadeusz Cymański (deceased: Gęsicka, Wasserman, Gosiewski i Putra). Ponadto z klastra Ziobry nie doczekali kadencji Zając, Szczygło i Religa. Ileż teorii spiskowych można byłoby z tego wyhodować.

Komentarz: anuszka, 2011-10-01 17:14:48:

Jeszcze jedna propozycja: Ponieważ widać trzy bieguny, to bardzo a propos byłby rysunek trójwymiarowy z komponentami 1,2,3. Z pobieżnego przyjrzenia się twoim 2-wymiarowym rzutom wnioskuję, że będzie tak: Trzy skrzydełka czerwone, czarne i niebiesko-zielone leżeć będą na jednej płaszczyźnie (xy), natomiast tylko w grupie niebiesko-zielonej pojawią się dodatkowe 2 skrzydełka równoległe do płaszczyzny xy, mianowicie nad nią i pod nią. Takie potrójne rozszczepienie w koalicji rządzącej. Bardzo jestem ciekawa, co ono oznacza.

Komentarz: telemach, 2011-10-01 18:07:50:

Niesamowite. Tyle pracy, tyle pracy.

Komentarz: ztrewq, 2011-10-01 18:39:55:

@telemach, @miskidomleka: e, nie było aż tyle pracy, bo tych narzędzi używam na codzień. Praca to by się zaczęła przy interpretacji analizy. Policzyć byleco można i w godzinę, zrozumieć co się policzyło czasem zajmuje parę miesięcy (przynajmniej u mnie).

Komentarz: ztrewq, 2011-10-01 18:41:28:

um, nie, nie zrobiłem błędu :-)

Komentarz: inzmru, 2011-10-01 18:50:48:

Ja bym PC3 zinterpretował tak, że różnica PO-PiS widoczna na PC1 jest naturalną różnicą koalicja-opozycja (sprzeczności interesów), natomiast na PC3 widać ów słynny POPiS. Pokrywające się centra i symetryczne skrzydła, właściwie równo wymieszane z PO i PiSu. Współrzędne PC3 byłby ciekawe, bo (zgaduję) pokazywałyby właśnie podział ideologiczny, a nie “pozycji władzy”.

Komentarz: ztrewq, 2011-10-01 19:02:49:

Zaraz odpowiem na inne, teraz tu: ad 1: tak, ale przy robieniu obrazków czasami odwracałem osie, żeby np. nie skakało przy filmiku. ad 2: ja wiem? Nie wiem. Byłem prostym biologiem wcześniej niż Ty :-) Ale mam do PCA spore zaufanie biorące się z tego, że jest to proste przekształcenie matematyczne, i mam z nią doświadczenie o wiele większe niż z innymi metodami. Ad 3: proszę:

I jeszcze loadings:

Komentarz: ztrewq, 2011-10-01 19:21:52:

No tu właśnie mały problem, patrz odpowiedź dla miskidomleka powyżej. Tak bardzo wiele głosowań ma wagę, że ciężko powiedzieć (w PC1, niebieska linia na obrazku loadings powyżej, ponad 3000 głosowań ma tę samą niemal wagę). Na dodatek – jasne, pewne głosowania są “wyraziste” (np. jakieś wotum nieufności albo przyjęcie w całości jakiegoś rządowego sprawozdania). Inne opisane są jako “przyjęcie szóstej poprawki senatu” – co ja mam kurna z tego rozumieć?

Ale proszę: http://hell.pl/january/poslowie/pc1.html http://hell.pl/january/poslowie/pc2.html http://hell.pl/january/poslowie/pc3.html

Komentarz: ztrewq, 2011-10-01 19:22:26:

Wszystko prawidłowe, patrz odpowiedź dla niedofizyka.

Komentarz: ztrewq, 2011-10-01 19:23:10:

Nie do końca – na filmie i niektórych innych wykresach masz pca dla zestawu z usuniętymi nieobecnościami.

Komentarz: ztrewq, 2011-10-01 19:26:57:

Z tym, że nie osiem tysięcy coś, bo ponad połowę odrzuciłem – głosowania były niemal unisono.

Komentarz: ztrewq, 2011-10-01 19:28:23:

No właśnie bo nie, bo PC3 to jest głównie nieobecności (patrz plot poniżej). A w centrum grupuje się z POPiSem także lewica i PSL.

Komentarz: RobertP, 2011-10-01 19:32:06:

Ciekawe jak to się ma, do tego co robią na politologii? Bo (trzymając się bardzo daleko od tej dziedziny) mam wrażenie, że to coś w rodzaju komentatorów sportowych + gdybologia.

Komentarz: ztrewq, 2011-10-01 19:33:45:

Zrobię w wolnej chwili plot 3D, ale wydaje mi się, że PC3 w głównej analizie to po prostu nieobecności. Po ich zlikwidowaniu (o ile pamiętam) PC4 wpada na miejsce PC3, i w osi z pojawia się PSL jako “biegunek”.

Komentarz: ztrewq, 2011-10-01 19:34:32:

Patrz odpowiedź miskidomleka. Robiłem tę analizę czekając na wyniki innych analiz i w wolnych chwilach :-)

Komentarz: miskidomleka, 2011-10-01 19:56:08:

Ja bardzie myślałem o wyciągnięciu tych danych - czyżby ta częśc była prosta, czyżby były dostępne w czytelnej maszynowo postaci?

Komentarz: miskidomleka, 2011-10-01 21:02:36:

Nie żebym narzekał, ale w Twojej dziedzinie scree plot robi się na wartościach wariancji, a nie na % całkowitej wariancji?

Przyszło mi jeszce do głowy, że gdybyś był wtedy porzucił wordpressa i przeniósł się na bloxa, byłbyś teraz na głównej portalu gazeta.pl pod tytułem “Polski naukowiec udowadnia, że PiS… (kliknij żeby przeczytać)”

Komentarz: anuszka, 2011-10-02 07:07:49:

Myslenie o twojej analizie to pyszna zabawa. Wymyslilam 2 sposoby na usuniecie problemu nieobecnosci: Polegalyby one na oszacowaniu prawdopodobnego wyniku glosowania gdyby posel byl obecny.

Znalezc inny wektor, w ktorym wyniki wszystkich glosowan (odliczajac nieobecnosci) sa najblizsze w sensie najmniejszych kwadratow do naszego wektora. Nastepnie w miejsce gdzie w naszym wektorze jest nieobecnosc, wstawic wynik glosowania z tamtego wektora plus (minus) blad. Blad trzeba zdefiniowac jako liczbe proporcjonalna do wielkosc o jaka te dwa wektory roznia sie od siebie sredniokwadratowo. Czyli po prostu znalezc posla o najbardziej zblizonych pogladach i wstawic jego wynik glosowania minus poprawka statystyczna na ewentualna roznice pogladow.
Prostszy sposob. W miejsce nieobecnosci wstawic usredniony wynik glosowania obecnych poslow z tego samego klubu.

Czyli w 1. zakladamy, ze nieobecny posel bylby prawdopodobnie glosowal podobnie jak kolega najblizszy mu pogladami, a w 2. zakladamy, ze bylby glosowal jak przecietna w jego klubie.

Komentarz: anuszka, 2011-10-02 07:40:04:

@miskidomleka, PCA vs. ICA Ja nigdy się tym nie zajmowałam, ale prosto rozumiem to tak, że PCA znajduje układ współrzędnych, w którym, gdy wziąć pierwsze dwie współrzędne, to w tych kierunkach wszystkie wektory najbardziej odstają od średniej (w sensie wariancji).

Natomiast ICA zakłada, że wektory zawierają zmieszne ze sobą dane z kilku niezależnych statystycznie źródeł. I należy znaleźć takie przekształcenie, żeby te dane z powrotem odmieszać. Tzn. żeby wtedy zawartość każdego wektora była maksymalnie nieskorelowana z zawartością pozostałych wektorów.

Różnica jest taka, że w PCA wektory mogą od siebie odstawać, ale ich współrzędne mogą i tak być skorelowane.

Komentarz: ztrewq, 2011-10-02 08:07:15:

Nie ukrywam, że rozważałem możliwość (i), oraz (ii), ale tę drugą tylko w przypadku analiz wewnątrz klubu. Problem jest taki, że trzeba bardzo uważać, żeby nie wprowadzić skrzywienia (bias) do swoich danych a priori. Obie metody taki bias wprowadzą – robimy założenia już przed analizą na temat tego, czego właściwie chcielibyśmy się z analizy dowiedzieć. Wprowadzenie “0” dla nieobecności ma tę zaletę, że posłowie częściej głosują na “tak” bądź na “nie” niż na “wstrzymać się” (jakieś 2% głosów), więc stosunkowo łatwo zauważamy artefakt.

Możliwe rozwiązania są jeszcze takie:

zastąpić losową wartością o rozkładzie zgodnym z rozkładem głosowań wszystkich posłów przez wszystkie kadencje. Efektem też będą artefakty, ale losowe, i trudniejsze do zauważenia.
zastosować jakąś metodę korekcji – a jest ich sporo. Niestety, działają najlepiej w “ładnych” przypadkach, gdy rozkład brakujących danych jest “sympatyczny”. W naszym wypadku jest bardziej skomplikowanie: niektórzy posłowie (np. Donald Tusk) mają dużo nieobecności, bo rzadko zjawiają się w Sejmie. Inni mają dużo “pozornych” nieobecności, bo np. pełnili funkcję przez część kadencji. Poza tym, liczba nieobecności na posła jest bardzo różna i ma rozkład mniej więcej wykładniczy.
zastosować inną metodę.

Jedna z rzeczy, które chciałem zrobić – a nie zrobiłem przez brak czasu – to zastosowanie jakiegoś algorytmu uczącego (supervised machine learning), konkretnie random forests, bo po pierwsze, ten algorytm umożliwia zastosowanie większej liczby poziomów odpowiedzi, w przeciwieństwie np. do SVM, a po drugie – łatwo interpretować wyniki (np. które głosowania decydują o różnicach między partiami, co np. w przypadku sieci neuronowych jest bardzo trudne).

Komentarz: kwik, 2011-10-02 09:14:25:

Nieobecność posła przy wygranych głosowaniach nie ma znaczenia, ale w przypadku przegranych jest szkodliwa, bo przecież jego za mogłoby zneutralizować jedno opozycyjne przeciw. Oczywiście przy wyraźnie przegranych nieobecność znowu traci znaczenie.

Nieobecność na minimalnie przegranych głosowaniach z wyraźnym stanowiskiem klubowym można więc traktować jako głos na nie, albo jakieś ułamkowe nie.

Komentarz: anuszka, 2011-10-02 09:19:07:

A, jest przeciez inny sposob, najbardziej naturalny. Wektory z zerami sa krotsze. Zatem trzeba je znormalizowac. Co sie tlumaczy tak, ze w przypadku poslow z nieobecnosciami wieksza wage dla ich pogladow przypisujemy tym glosowaniom, na ktorych byli.

Komentarz: anuszka, 2011-10-02 09:23:57:

Zalezy, co chcemy interpretowac. Np. moj pomysl z normalizacja wektorow (patrz wyzej) jest najbardziej naturalny, gdy badamy poglady poslow. Natomiast twoj zaklada, ze badamy polityczna skutecznosc glosowan.

Komentarz: ztrewq, 2011-10-02 14:51:52:

“Różnica jest taka, że w PCA wektory mogą od siebie odstawać, ale ich współrzędne mogą i tak być skorelowane”

Nie, w PCA komponenty też są ortogonalne.

Ja rozumiem różnicę między ICA a PCA tak: PCA to jest po prostu przekształceniem układu współrzędnych, zero statystyki tak naprawdę. ICA to model statystyczny, który – tak jak piszesz – zakłada istnienie niezależnych ukrytych zmiennych losowych (odpowiadających komponentom w PCA). Owe zmienne losowe mogą mieć dowolne rozkłady, z czym radzimy sobie dzięki centralnemu twierdzeniu granicznemu. Zwolennicy ICA twierdzą, że ICA radzi sobie lepiej w wypadku “dziwnych” rozkładów. Nie dane mi było jednak stwierdzenie wyższości ICA w praktyce.

Komentarz: ztrewq, 2011-10-02 14:55:11:

Hm, muszę się nad tym zastanowić.

Komentarz: ztrewq, 2011-10-02 14:56:31:

Tak. I nie. Tak, bo prawda, co piszesz. Nie, bo to jest znowu niebezpieczeństwo wkładania jakichś założeń a priori do analizy, a to jest w sumie to, czego się w takim wypadku najbardziej boję.

Komentarz: ztrewq, 2011-10-02 15:01:00:

@kwik:

Aha; jeszcze jedno. Nie sprawdzałem, ale wydaje mi się, że w całym mnóstwie głosowań nie tyle obowiązała dyscyplina klubowa, co pęd owczy; większość posłów głosuje po prostu tak, jak inni z klubu. Sęk w tym, że coś takiego spychałoby nam w środek klubu te osoby, które poza tym (przy głosowaniach, na których były obecne) trochę od niego odstają.

Komentarz: kwik, 2011-10-02 16:11:16:

W sumie trochę wszystko jedno czy dyscyplina klubowa, owczy pęd czy zdrowy instynkt samozachowawczy, z reguły chyba brak odważnych głosujących wbrew, czy nawet wstrzymujących się od głosu gdy macierzysta partia chciałaby inaczej. Traktowanie nieobecności jako nieznaczących jest maksymalnie naiwnym podejściem, choć być może słusznym. Owszem, trzeba uważać żeby nie przechytrzyć, z drugiej strony jednak system oceniający musi być sprytniejszy od ocenianych. Jeśli np. jest w partii skrzydło wyrażające własne zdanie przez unikanie pewnych głosowań, to system nie może być na to ślepy. A piję tu chyba do niedawnego głosowania w sprawie projektu ustawy całkowicie zakazującej przerywania ciąży, odrzuconego przewagą tylko pięciu głosów.

Komentarz: miskidomleka, 2011-10-02 17:03:24:

No właśnie u nas niedawno miał prezentację student, który użył ICA w analizie danych fMRI, i twierdził że w ICA komponenty nie muszą być ortogonalne. Niestety wiedza studenta ograniczała się na temat techniki ograniczała się do “program pozwala to zrobić” + “inni publikują takie rzeczy z ICA nie PCA” + " w centrum imagingu powiedzieli mi że lepiej ICA” + wikipedia.

Chyba będę musiał gdzieś solidnie doczytać.

Komentarz: andsol, 2011-10-02 23:21:21:

Tak, jednak mimo skromnych zastrzeżeń, widzę tu dużo ciężkiej pracy. Ale twarde, oparte na paruletniej historii wnioski mówią, że warto było. Tyle, że to smutne. Że są tam wierni kibice klubów a nie myślący ludzie, ważący kwestie w mózgach i sumieniach.

Komentarz: utilitymonsta, 2011-10-03 01:11:06:

To robią po politologii ci wybrańcy, co się dostaną do telewizora na stanowisko “eksperta”. Same studia do głównie wkuwanie i zapominanie nudnych przepisików, po których większość musi sobie znaleźć uczciwą robotę (info od znajomego politologa).

Komentarz: ztrewq, 2011-10-03 08:52:56:

Myślę, że to niekoniecznie nawet jest aż tak tragicznie, myślę, że można to wyjaśnić prościej i nie uciekając się do głupoty. Jak masz do odwalenia ileśtam-dziesiąt głosowań w ciągu dnia, plus pracę w komisjach czy inne obowiązki, to chyba nie jesteś w stanie przygotować się w pełni i merytorycznie do każdego głosowania, tym bardziej, że czasem wymagałoby to wpierw ukończenia studiów prawniczych i ekonomicznych. Polegasz więc na zdaniu koleżanki czy kolegi z klubu, którzy się na tym znają lepiej niż Ty, i których nie podejrzewasz o złą wolę. To w gruncie rzeczy racjonalne działanie.

Komentarz: Zbigniew Braniecki (@zbraniecki), 2011-10-03 09:18:50:

po pierwsze, czapki z glow. Swietna robota!

Po drugie. Czy moglbys opublikowac pliki danych zrodlowych? Od dluzszego czasu sobie obiecuje ze napisze konwerter danych z sejmu do plikow SPSSa i wystawie publicznie zeby kazdy mogl analizowac, ale na razie tego nie zrobilem.

Bardzo chcialbym przebadac spojnosc glosowania wewnatrz partii i moze nawet pokusic sie o analize czynnikowa glosowan… a moze sam to zrobisz? :)

Komentarz: anuszka, 2011-10-03 09:40:38:

Ups, wygląda na to, że tutaj jest filtr antylinkowy. Zajrzyjcie na bloga Jarosława Flisa. Ten politolog chyba umie liczyć.

Komentarz: anuszka, 2011-10-03 10:04:06:

OK. Czyli analizowałeś ok. 4000 głosowań.

PC1 ma prawie jednakowe wagi dla ok. 3000 głosowań. To znaczy, że prawie każda sprawa poddana pod głosowanie jednakowo przyczyniała się do różnic pomiędzy posłami. Jeśli dobrze to rozumiem, to by znaczyło, że podział w osi PC1 jest rzeczywiście podziałem na koalicję rządzącą i opozycję - gdzie koalicja głosuje na tak, to opozycja na nie, niezależnie od tego, jaka to jest sprawa.

PC2 ma już bardziej wyraźną grupę głosowań ważniejszych. Oczywiście bardzo czasochłonne byłoby przeanalizowanie, czego dotyczyły. Jednak taki intuicyjny wgląd - co zwróciło moją uwagę, to: Gdy wyszukuję w twoich plikach słowo “Kościoła”, to w PC1 pojawia się ono na szarym końcu, z bardzo małą wagą, natomiast w PC2 pojawia się na samej górze. Czyżby PC2 była osią podziałów światopoglądowych?

Natomiast w PC3 rzuca się w oczy wysoka pozycja słowa “finansów”.

To oczywiście żadna ścisła analiza, tylko takie proste spostrzeżenia.

Komentarz: ztrewq, 2011-10-04 09:53:56:

Kurde, strasznie ciekawe – no to byłby to świetny moment, żeby wprowadzić jakąś analizę słów kluczowych (np. enrichment analysis konkretnych haseł). Czasu brak, czasu.

Komentarz: anuszka, 2011-10-04 15:22:19:

Heh, dzięki tobie wreszcie mam pretekst, żeby poczytać o tych waszych narzędziach. :-)

Komentarz: January, 2011-10-04 18:53:16:

Dodałem linka na końcu postu – miłej zabawy!

Komentarz: » Zbiór danych opisujący głosowania posłów VI kadencji SmarterPoland, 2011-10-05 04:32:07:

[…] interesująca analizę danych o głosowaniach posłów VI kadencji. Link do tego wpisu jest tutaj: http://biokompost.wordpress.com/2011/10/01/statystyczna-mapa-sejmu/. Znajdziecie na tym blogu kilka interesujących wizualizacji, głównie badających na ile podobnie […]

Original post