Detektywi od danych
- 9 minut czytania - 1863 słów [Nauka]tl;dr: Simmonson i koledzy z blogu Data Colada przez analizę opublikowanych danych przyłapują naukowe sławy na sprytnym oszustwie. Sprytnym? Um, nie do końca. Oszustwa (yep, więcej niż jedno) były przeprowadzone w sposób amatorski i dość prymitywny.
Dan Ariely jest jednym z najsłynniejszych specjalistów od psychologii i zachowań. Napisał kilka książek, między innymi osławioną “Predictably Irrational” - niewątpliwie jest to jedna z najlepszych książek popularnonaukowych o psychologii, jakie czytałem. Pisuje regularnie do New York Timesa, występuje, gra, bawi i uczy.
Jedno z najciekawszych badań, jakich był współautorem, dotyczyło uczciwości - jakie czynniki wpływają na to, że jesteśmy mniej lub bardziej uczciwi. Zrobiono nawet film dokumentalny poświęconym jego badaniom (nie)uczciwości.
Tyle, że sam Ariely, jak się okazuje, nie za bardzo jest uczciwy.
Jak właściwie można sprawdzić, czy ktoś jest uczciwy? Inaczej: jak stworzyć sytuację, w której uczestnicy eksperymentu myślą, że nikt nie może się dowiedzieć o ich oszustwie, ale mimo to można sprawdzić, czy byli uczciwi? Ariely miał kilka świetnych pomysłów.
Jeden z jego eksperymentów wyglądał tak, że badani mieli rozwiązywać puzzle. Wyniki zapisywali na kartce, którą następnie wkładali do niszczarki, by później ustnie powiedzieć eksperymentatorom, ile puzzli udało im się rozwiązać. Uczestnicy eksperymentu nie wiedzieli jednak, że niszczarka była spreparowana: nie niszczyła kartek, dzięki czemu eksperymentatorzy mogli sprawdzić, jakich naprawdę udzielili odpowiedzi - i czy oszukiwali.
Jakiś czas później, Mark Zimbelman usiłował powtórzyć eksperyment. Niestety, mimo zniszczenia kilku niszczarek, nie udało mu się przerobić niszczarki tak, by wciągała papier, ale go nie niszczyła. Skontaktował się więc z Arielym, który wyjaśnił1, że operacja była bardzo prosta, wyłamali niszczarce zęby śrubokrętem.
Tyle że bezzębne niszczarki nie potrafią wciągać papieru - bo ich zasada działania opiera się na zębach, które jednocześnie wciągają papier i go tną2. Zimbelmana wyjaśnienie Ariely’ego nie przekonało, nie był jednak w stanie niczego udowodnić.
Nie były to jedyne problemy Ariely’ego. W 2012 Ariely i troje innych badaczy opublikowali w PNAS słynny artykuł o nieuczciwości (Shu et al. 2012). Podczas eksperymentu badającego uczciwość uczestnicy musieli wypełnić zeznanie podatkowe i podpisać deklarację, że nie oszukiwali. Na deklaracji było miejsce na podpis, albo - w jednej z grup - na dole, albo na górze. Wyniki szeregu eksperymentów wskazywały wyraźnie, że ci, którzy takie deklaracje podpisują na górze oszukują rzadziej, niż ci, którzy podpisują je na dole. Czyli: jeśli wypełniasz formularz pamiętając, że podpisałeś deklarację, wypełniasz go uczciwiej.
Artykuł wywołał sensację, był cytowany ponad pięćset razy. Ba! Podobno nawet rządowe agencje amerykańskie zmieniły swoje formularze, wymagając podpisu na samej górze. Tyle tylko, że nikomu nie udało się eksperymentów Ariely’ego powtórzyć. Potrzeba było aż sześciu niezależnych eksperymentów z prawie siedmioma tysiącami uczestników, żeby w PNAS ukazał się artykuł dementujący badania Ariely’ego - nb był to również artykuł Ariely’ego.
Na tym sprawa mogłaby się zakończyć, a Ariely wyszedłby na uczciwego badacza, który przyznaje się do błędu, gdyby nie trio Simmonsohn, Nelson i Simmons.
Uri Simmonsohn, Leif Nelson i Joe Simmons wspólnie prowadzą arcyciekawego bloga data colada. Na blogu opisują różności związane z błędnymi analizami danych i fałszowaniem wyników, ale nas tu interesują notki dotyczące pracy Ariely’ego z 2012 roku. Pokazują, w jaki sposób autorom udało się przyłapać autorów i autorki na gorącym uczynku.
I to dwa razy.
W jednej z części pracy z 2012 opisano następujący eksperyment. Poproszono amerykańską agencję ubezpieczeniową samochodów, żeby użytkownikom dawała do podpisania formularz, na którym podawali liczbę przejechanych mil i podpisem zaświadczali swoją prawdomówność. Od liczby przejechanych mil zależy oczywiście wysokość stawki ubezpieczeniowej. W pracy z 2012 podano, że podpisujący u dołu podawali średnio 10% więcej przejechanych mil niż ci, którzy podpisywali u góry. Dla porównania użyto też danych podanych przez tych samych ubezpieczycieli w przeszłości.
Fajno. Pierwsza rzecz, którą zauważyli autorzy data colady był dziwny rozkład danych. Oczekujemy, że większość ubezpieczonych będzie miała mniej więcej przeciętną liczbę przejechanych mil, a przejeżdżających wyjątkowo dużo albo wyjątkowo mało będzie stosunkowo niewielu. Zamiast oczekiwanego, skośno-normalnego rozkładu (po lewej na obrazku u dołu), rozkład był jednak całkowicie jednostajny (po prawej). Tyle samo osób przejechało rocznie 100, 1000 czy 50 tysięcy mil. Po francusku brzmi to: le what the fuck.
Co więcej: kiedy wpisujesz liczbę przejechanych mil czy kilometrów do formularza z ubezpieczalni, zawsze wpisujesz ją z dokładnością do jednego kilometra? No właśnie. Wiele z nas poda przybliżoną wartość, dajmy na to, pięć tysięcy a nie 5432. Rzeczywiście, intuicja nas nie myli: w tej samej pracy, w danych podawanych w przeszłości dokładnie tak to wyglądało - częstość występowania cyfry 0 na ostatnim miejscu podawanej liczby była znacznie wyższa niż dla innych cyfr.
Ale nie w zestawie danych który dotyczył kluczowych wyników. Tam wszystkie liczby są podane z pełną dokładnością, co w połączeniu z jednostajnym rozkładem sugeruje użycie generatora liczb losowych. Głupie, bardzo głupie użycie generatora liczb losowych. Pierwsza z brzegu studentka czy student z mojego kursu R potrafiłaby zrobić to lepiej.
To jeszcze nie koniec. Ten zestaw danych z przeszłości też był zmanipulowany. Okazało się, że połowa danych była wyciągnięta z palca… um, z generatora liczb losowych. Trio detektywów zauważyło, że w arkuszu Excela równiutka połowa wierszy jest sformatowana innym fontem (połowa Cambria, połowa Calibri). Udało się dopasować wiersze do siebie. Każdy wiersz w Cambrii miał odpowiednika w Calibri. Wygląda na to, że każdy wiersz w Cambrii skopiowano, po czym dodano do niego losową wartość od 0 do 1000 mil. Dlatego wiersze w Cambrii mają zawsze dokładność do ostatniej cyfry, a te w Calibri (które są niezmanipulowane) często kończą się na zerze (bo ubezpieczony podawał przybliżenie).
Jedyną osobą, która miała kontakt z agencją ubezpieczeniową, i która przekazała plik w Excelu zawierający już owe manipulacje współautorkom był sam Dan Ariely.
Praca Ariely’ego została wycofana przez PNAS w 2021 bezpośrednio w wyniku notki Simmonsohna, Nelsona i Simmonsa. To jednak wciąż nie koniec całej historii.
Niedawno na data colada pojawiła się seria kolejnych notek, tym razem poświęconych Francesce Gino, profesorce z Harvard Business School. Gino, podobnie jak Ariely, jest gwiazdą TED-ów, autorką poczytnych książek, no słowem naukową celebrytką. Autorzy data colady wzięli na warsztat szereg jej prac. W czterech z nich znaleźli ewidentną manipulację danych, a pierwsza z nich to praca Ariely’ego z 2012, której Gini jest współautorką.
Gini samodzielnie przeprowadziła jeden z eksperymentów w pracy z 2012. Simmonsohn, Nelson i Simmons przeanalizowali pliki w Excelu dostarczone przez Gino. I one były manipulowane, ale w inny sposób.
Chodziło o eksperyment, w którym uczestnicy mieli rozwiązywać puzzle. Za każde rozwiązanie otrzymywali 1$, ale liczbę rozwiązanych puzzli podawali eksperymentatorom sami. Musieli też podpisać formularz zaświadczający uczciwość podanej liczby rozwiązań, albo na górze, albo na dole. Ci, którzy podpisywali na górze żądali mniej pieniędzy za rozwiązania niż ci, którzy podpisali na dole.
Dane Gino były zmanipulowane - przesuwano wyniki pomiędzy grupami. Ślady tych przesunięć udało się odkryć, bo po pierwsze, rzędy w Excelu były częściowo posortowane, a częściowo nie. Takiego efektu nie da się łatwo uzyskać. Albo dane są nieposortowane, albo są posortowane; jeśli jednak mamy ciąg 1, 2, 3, 4, 9, 5, 6, 7, 8, 10, to prawdopodobnie ktoś najpierw go posortował, a potem przesunął 9 do piątego rzędu. Po drugie, oryginalne sortowanie zachowało się części pliku w Excelu3. Plik zawierał bowiem równania (formuły), których kolejność wykonania nie zmieni się, jeśli przesuniemy rząd na inne miejsce.
I teraz clou: te obserwacje, które zostały przesunięte, zawierały ekstremalne wartości wspierające wyniki przeprowadzonego badania. Jeśli niepasująca do sortowania obserwacja była w grupie podpisujących na górze, to wynik był zawsze poniżej trzech rozwiązanych puzzli ($3). Jeśli niepasująca do sortowania obserwacja była wśród podpisujących na dole, to wynik zawsze był powyżej ok. 20$.
Oszustwo w danych Gino było całkowicie niezależne od oszustwa w danych Ariely’ego. Jak napisali Simmonsohn, Nelson i Simmons,
Dwie osoby niezależnie sfałszowały dane do dwóch różnych badań w artykule poświęconym uczciwości4.
Obecnie Gino oficjalnie jest na urlopie, Harvard Business School prowadzi śledztwo, a jej profesura nie jest pokazywana na stronach uczelni.
Dla mnie wnioski płynące z tych historii są dosyć przerażające. Z wielu powodów.
Po pierwsze, dokonano ewidentnych manipulacji, które w sposób zupełnie trywialny można było ukryć. Pierwszą rzeczą, którą sprawdza się przy generowaniu losowych danych które mają przypominać prawdziwe5 jest porównanie ich rozkładu z rozkładem prawdziwych danych. Usunięcie formatowania czy ponowne przesortowanie są trywialne czy w R6, czy w Excelu. Zdziwiłbym się, gdyby ktokolwiek choć trochę rozgarnięty uciekał się do tak prymitywnych manipulacji w przyszłości.
Dalej, gdyby do artykułu nie dołączono danych, tylko np. standardową formułkę “dane mogą być udostępnione na prośbę innych badaczy”, odkrycie oszustwa byłoby znacznie utrudnione.
No i przede wszystkim: gdyby nie chodziło o pierwszoligowy artykuł z górnej półki, który odbił się szerokim echem w nauce i poza nią, szansa, że oszustwo wyszłoby na jaw byłaby niewielka.
I to jeszcze nie wszystko. Replikacja badania w psychologii jest stosunkowo tania, głównie chodzi o koszty personalne i zapłatę dla uczestników, a czasem nawet i nie tyle. Nie wiem, jakie to koszty, nie chce mi się sprawdzać, ale podejrzewam że nawet dla dużych badań zamkną się w kilkunastu, może kilkudziesięciu tysiącach dolarów.
Replikacja badania w biologii czy medycynie, zwłaszcza badań klinicznych, to koszta zupełnie nieporównywalne. Same koszta materiałów, analiz, wyposażenia to nierzadko setki tysięcy albo miliony, zwłaszcza jeśli chodzi o badania z górnej półki. Nie da się ich ot tak powtórzyć. Wyniki analiz to często gigantyczne zestawy danych, które dają spore pole do trudnych w wykryciu manipulacji.
Ostatnia sprawa. Jakoś nie bardzo wierzę w to, że Ariely czy Gino zbudowali swoje kariery wyłącznie na oszustwach, zresztą część ich badań udało się pomyślnie powtórzyć. Ale od tego momentu cokolwiek co opublikowali będzie przez specjalistów traktowane z rezerwą. Być może w ten sposób złamali nawet kariery swoich doktorantów czy postdoczek.
A teraz cebula na torcie. Artykuł z 2012 został w 2021 oficjalnie wycofany przez PNAS. Od początku 2022 był jednak cytowany ponad sześćdziesiąt razy. Jasne, część z tych cytowań to prace dotyczące nieuczciwości Ariely’ego i Gino, a w każdym razie wspominające o tym, że praca została wycofana, ale pobieżna lektura cytujących prac sugeruje, że wiele, jeśli nie większość z nich cytuje wycofaną pracę w dobrej wierze. Od czasu ukazania się artykułu Ariely’ego odwołującego wnioski z pierwszego artykułu (Kristal et al. 2020), też cytowano go tylko trochę ponad sześćdziesiąt razy.
Innymi słowy, artykuł zawierający błędne wyniki, które uzyskano przez fałszowanie danych żyje własnym życiem i nadal sieje nieprawdę mimo skandalu i wycofania go przez wydawcę.
Literatura:
- Shu LL, Mazar N, Gino F, Ariely D, Bazerman MH. Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end. Proceedings of the National Academy of Sciences. 2012 Sep 18;109(38):15197-200.
- Kristal AS, Whillans AV, Bazerman MH, Gino F, Shu LL, Mazar N, Ariely D. Signing at the beginning versus at the end does not decrease dishonesty. Proceedings of the National Academy of Sciences. 2020 Mar 31;117(13):7103-7.
Also, mnie osobiście wydaje się, że takie zęby dałoby się śrubokrętem może nadgiąć, ale raczej nie wyłamać. A najprawdopodobniej skutkiem próby wyłamania ich śrubokrętęm byłyby conajwyżej rany kłute, cięte i szarpane. ↩︎
W formacie xlsx Excelowy plik to naprawdę kolekcja wielu plików w XML, zzipowana i z końcówką zmienioną z .zip na .xlsx. ↩︎
“Two different people independently faked data for two different studies in a paper about dishonesty.” (data colada) ↩︎
Jest wiele użytecznych zastosowań takich danych, np. badanie jakiejś planowanej metody analizy danych zanim zostaną zebrane w całości prawdziwe dane. ↩︎
Większości problemów nie dałoby się wykryć, gdyby oszuści robili analizy w R. ↩︎