Muzyka odmładza
- 3 minut czytania - 567 słów [Nauka] , [Statystyka] , [tl;dr](takie znalazłem w draftach z czerwca 2012, położę tu. brakuje drugiej części, tj. o tym, kiedy można olać poprawkę na wielokrotne testowanie)
Grupa naukowców z uniwersytetu w Pensylwanii pokazała, jak wielki wpływ może mieć muzyka na …nasz wiek. W pierwszym eksperymencie grupie studentów puszczano piosenki dla dzieci. Skonfrontowani z dziecięcymi piosenkami studenci czuli się starzej. W drugim eksperymencie, odwrotnie, puszczano studentom piosenki dotyczące starości (takie jak “When I’m Sixty Four” Beatlesów). Tu wręcz okazało się, że po wysłuchaniu piosenek średnia wieku studentów jest niższa niż w grupie kontrolnej!
Praca ukazała się w prestiżowym czasopiśmie “Psychological Science”.
Tak mogłoby wyglądać doniesienie prasowe oparte o pracę “False - Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant” (pomijając to, że byłoby lepiej napisane). Wszystko powyżej to prawda, ale kluczem do sukcesu naukowców z Pennstate była nieprawidłowa metodologia. Artykuł Simmonsa i kolegów pokazuje, jak przy pomocy powszechnie przyjętych praktyk byle co może okazać się statystycznie istotne. Na przykład różnica wieku w grupach eksperymentalnych (która oczywiście nie mogła wziąć się ze słuchania muzyki).
Kiedy przeprowadza się test statystyczny, zawsze jest szansa, że przez przypadek zauważymy różnicę między grupami eksperymentalnymi, choć w istocie takiej różnicy nie ma. Testy statystyczne są tak robione, żeby takie pechowe wypadki zdarzały się stosunkowo rzadko. Obierając próg istotności statystycznej na 0.05, oczekujemy, że średnio w jednym eksperymencie na dwadzieścia przeprowadzonych zauważymy coś pozornie istotnego statystycznie, choć w rzeczywistości różnicy nie będzie. Tego typu błąd nazywa się w statystyce błędem pierwszego rodzaju, a jego wynikiem są “wyniki fałszywie dodatnie” (false positives).
Niestety, to jest jak ruska ruletka z dwudziestokomorowym rewolwerem: każde wykonanie testu statystycznego może oznaczać kulę w ciemię; a jeśli eksperyment wykonujemy wiele razy, to prędzej czy później sami skończymy jako statystyka.
Gorzej: często w jednym eksperymencie mierzy się wiele rzeczy, i dla każdej z nich, oraz dla ich kombinacji przeprowadza się testy statystyczne. Zdarza się tak, że gdy test nie wykazał istotności statystycznej, naukowcy stwierdzają, że grupa eksperymentalna była za mała, dodają więc kolejne obserwacje i znowu testują. A każdy taki test to kolejna scena z Christopherem Walkenem:
[caption id=“attachment_3214” align=“aligncenter” width=“462”] Naukowcze!
Zanim przeprowadzisz kolejny test statystyczny, spójrz w oczy Christophera Walkena![/caption]
Simmons et al. przeprowadzili – oprócz swojej żartobliwej demonstracji – szereg symulacji komputerowych pokazujących, jaki wpływ mają tego typu praktyki na uzyskiwanie false positives; okazało się, że dramatyczny. Rewolwer dwudziestokomorowy zamienia się w dziesięciokomorowy, sześciokomorowy, a nawet – w pewnych sytuacjach – w taki, w którym na sześć komór tylko dwie są puste. Prawdopodobieństwo uzyskania jakiegoś pozornie istotnego statystycznie wyniku w oparciu o losowe dane jest wtedy większe niż 1/2!
Tak właśnie było w przypadku wyników eksperymentu z muzyką. Autorzy nie cofnęli się przed niczym: badali mnóstwo zależności, kiedy wyniki wychodziły nieistotne – eksperymentowali dalej póki nie osiągnęli istotności; przeprowadzali nieuzasadnione korektury; dodatkowe pomiary i szczegóły pominęli w opisie eksperymentu… ale wszystko należało do zabiegów, które są często stosowane w pracach naukowych. Na poniższym obrazku boldem jest to, co napisali w pierwszej części pracy, opisując swój eksperyment. Reszta tekstu to to, co wg autorów powinno się było znaleźć w opisie eksperymentu.
Autorem korespondencyjnym pracy jest Uri Simonsohn. Uri Simonsohn ostatnio dostał się na łamy Nature i Science, bo przy pomocy statystyki (tu inny link) zrujnował karierę oszustowi.
Literatura
Joseph P. Simmons,, Leif D. Nelson,, & Uri Simonsohn (2011). False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant Psychological Science DOI: 10.1177/0956797611417632