Co to jest wartość p?
- 9 minut czytania - 1810 słów [Nauka] , [Statystyka]tl;dr: Nie da się czytać publikacji naukowych nie rozumiejąc, co to jest wartość p. Studentom na wykładach tłumaczę, że wartość p to przede wszystkim część języka nauki. Chociaż pojęcie to jest nieintuicyjne i powiązane z wieloma kontrowersjami, trzeba je rozumieć. W tej notce staram się własnymi słowami opisać, o co w tym chodzi. To jest dość nudny tekst, ale chcę go mieć pod ręką. A przy okazji opowiem Wam, jakie pytanie zadaję wszystkim starającym się o pracę, z którymi przyszło mi rozmawiać.
W nauce bardzo często przeprowadzamy testy statystyczne. W najprostszym wypadku porównujemy dwie grupy - np. pacjentów, którym podano lek z pacjentami, którym podano placebo - i pytamy, czy grupy się różnią. Klasyczny test statystyczny może nam w tym pomóc, głównie przez wyliczenie wartości p. Jest to pewne prawdopodobieństwo, i jeśli jest ono odpowiednio małe, to podejmiemy decyzję, że grupy się różnią. To się nazywa istotnością statystyczną.
Kiedy rozmawiam z osobami ubiegającymi się o pracę, zawsze zadaję jedno pytanie: co to jest ta wartość p? Nie dlatego, że chcę sprawdzić ich wiedzę, albo móc się przyczepić do błędnej odpowiedzi, raczej jako początek rozmowy o statystyce i jej roli w badaniach naukowych. To świetny papierek lakmusowy na wiele spraw jednocześnie: jak ktoś myśli, jak się komunikuje, czy potrafi się przyznać do niewiedzy albo braku zainteresowania, jaką ma intuicję.
Jak na razie, po tych wszystkich latach, ani jedna osoba nie odpowiedziała w 100% prawidłowo1. Wśród odpowiedzi znalazły się stwierdzenia:
- nie umiem powiedzieć, nie pamiętam (duży plus za otwartość)
- jest to prawdopodobieństwo, że mamy rację (kolosalny błąd, i w dodatku prowadzący na manowce)
- jest to prawdopodobieństwo, że się mylimy (duży błąd)
- jest to prawdopodobieństwo, że grupy się nie różnią (duży błąd)
- prawdopodobieństwo uzyskania naszych wyników w sposób losowy (bliższe prawdy, ale też błąd)
- prawdopodobieństwo uzyskania naszych wyników bez robienia założeń (to samo)
- jest to prawdopodobieństwo uzyskania naszych wyników zakładając, że grupy się nie różnią (prawie prawidłowo, uznajemy, ale i tak błąd)
O co chodzi?
Weźmy pierwszy z brzegu eksperyment. Porównujemy dwie grupy pacjentów. Jednym podano placebo, drugim jakiś nowy środek na odchudzanie. Po trzech miesiącach ważymy jednych i drugich. Różnica średnich wynosi dwa kilogramy, ale czy to znaczy, że środek działa?
Jeśli porównujemy ze sobą dwie grupy, to prawie zawsze wyniki nie będą całkowicie identyczne. Pytanie jednak brzmi: czy różnice między grupami mają znaczenie (biologiczne, medyczne)? Czy są dziełem przypadku? Jakie jest prawdopodobieństwo, że się różnią? Jakie jest prawdopodobieństwo, że mylimy się sądząc, że są różne? Jakie jest prawdopodobieństwo, że nie zauważyliśmy różnic, chociaż grupy faktycznie się różnią?
Mam złą wiadomość. Na żadne z tych pytań klasyczna statystyka niestety nie udzieli odpowiedzi2. Testy statystyczne odpowiadają na pytanie, które nas znacznie mniej interesuje, a w dodatku - jest znacznie mniej intuicyjne. Pytanie to brzmi3:
Załóżmy, że
- pomiary spełniają pewne ściśle określone założenia statystyczne (np. mają rozkład normalny, są niezależne itp itd)
- pomiary (niebieskie i czerwone na rysunku poniżej) pochodzą z tej samej populacji (“fioletowej”), tzn. grupy tak naprawdę się nie różnią, nawet jeśli “niebieskie” i “czerwone” pomiary są różne,
to
- jakie będzie prawdopodobieństwo uzyskania zaobserwowanych przez nas różnic albo różnic jeszcze większych?
Jeśli to prawdopodobieństwo (czyli właśnie wartość p) będzie małe, to odrzucamy hipotezę zerową - podejmujemy decyzję, że grupy się różnią.
Innymi słowy, hipotetycznie pytamy, czy gdyby w rzeczywistości nie było różnic między placebo a środkiem na odchudzanie, to z jakim prawdopodobieństwem podjęlibyśmy na podstawie pomiarów (błędną) decyzję, że różnice jednak występują?
Zatrzymajcie się tu na chwilę i zastanówcie, bo jak dla mnie to jest totalnie nieintuicyjne.
Prawda? Spróbuję to rozwinąć.
Rzucanie monetą. Bardzo często w nauce statystyki stosuje się taki przykład. Mamy monetę, i chcemy się dowiedzieć, czy jest uczciwa. Wykonujemy 10 rzutów. W 8 przypadkach wypadł orzeł. Wygląda to podejrzanie. Czy to oznacza, że moneta jest nieuczciwa?
Załóżmy, że moneta jest uczciwa (to jest nasza hipoteza zerowa). Prawdopodobieństwo, że wylosujemy 8 orłów jest dane rozkładem dwumianowym. Możemy je policzyć - wynosi coś ok. 0.044. No dobrze, ale gdybyśmy wyrzucili 9 lub 10 orłów, to też byśmy coś podejrzewali. To samo, gdybyśmy wyrzucili 8, 9 lub 10 reszek. Musimy dodać te prawdopodobieństwa!
W sumie wychodzi nam (0.044 + 0.010 + 0.001), czyli ok. 0.055 dla orłów, i tyle samo dla reszek. Razem 0.11. I to jest nasza wartość p. Oznacza ona, że zakładając, że moneta jest uczciwa, średnio raz na dziewięć razy otrzymamy wynik równie albo bardziej “dramatyczny” niż osiem orłów na dziesięć rzutów.
A co, jeśli wypadło 9 orłów? Wtedy wartość p wynosi ok. 0.022. W takim razie odrzucamy hipotezę zerową, że moneta jest uczciwa, i uznajemy, że coś nie tak. Być może popełnimy błąd, bo jeśli moneta jest uczciwa, to średnio raz na pięćdziesiąt razy zdarzy się, że wyrzucimy 9 lub 10 orłów albo reszek.
Kiedy rozwijano statystykę w pierwszej połowie XX w., nie można było używać do obliczeń komputerów. To nakładało na statystyków poważne ograniczenia w tym, co i jak mogą policzyć; metody Monte-Carlo, statystyka bajezjańska i różne inne sprytne pomysły były całkowicie poza zasięgiem.
Karl Pearson, William Gosset (“Student”), Ronald Fisher i inni zaczęli stosować więc inne podejście. Rozumowanie jest takie: policzmy sobie na podstawie danych statystykę, tzn. pewną wartość, której rozkład statystyczny bardzo dobrze znamy (np. statystykę t Studenta albo statystykę χ²). Zakładamy, że wszystkie pomiary pochodzą z tej samej “populacji” (tzn. grupy się nie różnią). To założenie nazywa się właśnie “hipotezą zerową” (albo null hypothesis).
Jeśli hipoteza zerowa jest prawdziwa (grupy się nie różnią), to oczekujemy że nasza statystyka będzie miała pewien określony, łatwy do policzenia rozkład. Np. szansa na to, że do jednej grupy trafią (przypadkiem) same niskie wartości, a do drugiej same wysokie wartości jest bardzo mała. Możemy to policzyć: tzn. możemy obliczyć naszą statystykę i wyliczyć prawdopodobieństwo z jakim statystyka ta będzie miała taką wartość - albo wartość jeszcze bardziej ekstremalną - przy założeniu, że grupy się nie różnią.
Jeśli jednak grupy w rzeczywistości się różnią (tzn. pochodzą z dwóch różnych rozkładów), to all bets are off. Nie wiemy, czy różnią się bardzo, czy nie. Bez komputera nie będziemy mogli nic policzyć. Dlaczego? W bardzo dużym uproszczeniu: jeśli różnica między grupami jest nieznana, to musielibyśmy policzyć naszą statystykę dla każdej możliwej różnicy. Oczywiście, to jest nie do zrobienia, bo tych możliwych różnic jest nieskończenie wiele, ale przy pomocy komputera możemy dokonać przeróżnych szacunków.
Po wykonaniu testu statystycznego możemy powiedzieć: jeśli grupy się nie różnią, to wielokrotnie powtarzając nasz test kliniczny albo nasze doświadczenie uzyskamy taki wynik (albo wynik “jeszcze lepszy”) dajmy na to nie częściej niż raz na dwadzieścia razy (p < 0.05). Może się zdarzyć, że błędnie uznamy że grupy się różnią (odrzucamy prawdziwą hipotezę zerową), ale będziemy błądzić średnio tylko raz na dwadzieścia razy4. Fisher i inni uznali, że to jest do przyjęcia i że taka metoda postępowania uchroni nas przed zbyt częstym odrzuceniem hipotezy zerowej. Prawdopodobnie w najgorszych koszmarach nie wyobrażali sobie pracy naukowej, w której wykonuje się pół miliona testów statystycznych!
Takie klasyczne “frekwentystyczne” testowanie hipotez, w szczególności w wydaniu Neymana-Pearsona (“Neyman-Pearson hypothesis testing framework”) ma wiele ograniczeń. Nie będę tu wchodził w różne bardzo nieprzyjemne szczegóły5, ale istotne są tu trzy sprawy. Po pierwsze, mamy trochę sytuację ze zgubionym zegarkiem i pijakiem, który szuka go pod latarnią, bo tam jaśniej - dostajemy odpowiedź na pytanie, które tak naprawdę nie jest najważniejsze. Dlatego chociaż wartości p są powszechnie stosowane i uważane za użyteczne, to ich użyteczność ma duże ograniczenia, z których stosunkowo niewielu badaczy zdaje sobie sprawę. Mimo to są nierzadko traktowane jako ostateczny wyrok: jest tak a nie inaczej, bo p < 0.05!
Druga sprawa jest taka - musicie mi tu uwierzyć na słowo - że wartości p nic nie mówią na temat konkretnego eksperymentu6. Dostarczają ochrony na dłuższą metę: jeśli będziemy przez całe życie wykonywać testy statystyczne, to - przy pewnych ważnych założeniach - stosunkowo niewiele razy będziemy podejmować błędną decyzję, że grupy się różnią.
Po trzecie to nie jest tak, że hipoteza zerowa nie czyni żadnych założeń na temat populacji, z której pochodzą nasze dane. Wprost przeciwnie: może czynić ich całe mnóstwo - najczęściej przynajmniej to, że pomiary są niezależne, bardzo często, że pochodzą z rozkładu normalnego. I jeśli te założenia nie są spełnione, to wyliczona wartość p jest błędna7.
Ograniczenia wartości p są od dawna doskonale znane statystykom. Parę lat temu amerykańskie stowarzyszenie statystyczne wydało oświadczenie, w którym między innymi napisano, że wartość p “sama w sobie” (w oderwaniu od kontekstu, założeń, wielkości efektu i in.) nie jest dobrą miarą prawdziwości jakiejś hipotezy.
Wiele osób sądzi, że z powodu ograniczeń wartości p w ogóle nie powinno się ich używać, że są wręcz szkodliwe. Prawie wszyscy8 mniej więcej zgadzają się co do tego, że wartości p nie powinny mieć aż takiej dużej roli, jaką się im często przypisuje, i że nie wystarczy, żeby p < 0.05.
To oczywiście nie oznacza, że w takim razie możemy nie przejmować się wartościami p i statystyką, wprost przeciwnie: oprócz lub zamiast wartości p musimy stosować inne, bardziej rygorystyczne kryteria oceny istotności. I pamiętać, że istotność statystyczna to nie to samo, co istotność Bez Przymiotnika: ostateczna decyzja należy do nas, a nie do testu statystycznego.
Ale to już temat na inną notkę.
Niedawno jedna osoba w trakcie rozmowy, udając że się zastanawia, w dość bezczelny sposób wyguglała definicję i przeczytała ją na głos. Niestety, bez zrozumienia, więc pomyliło jej się słowo “większa” z “mniejsza”. ↩︎
Na część z tych pytań może udzielić odpowiedzi statystyka bajezjańska. Na pierwsze pytanie możemy odpowiedzieć tylko my sami. Ostatnie pytanie dotyczy “false negative rate” i odpowiedź na nie przynajmniej możemy czasem oszacować na gruncie klasycznej statystyki, korzystając z analizy mocy. ↩︎
Moja definicja też nie jest tutaj w 100% poprawna. Pytanie nie dotyczy “różnic” tylko statystyki, czyli pewnej wartości, którą obliczamy na podstawie pomiarów - np. statystyki t w teście Studenta albo F w teście ANOVY, i pytamy, jakie jest prawdopodobieństwo uzyskania wartości takiej, jaką uzyskaliśmy albo bardziej ekstremalnej. ↩︎
Hah, tutaj również tak naprawdę może być trochę inaczej. Por. ten artykuł. ↩︎
Na przykład: wartość p nie mówi nam kompletnie nic o różnicach między grupami, jeśli odrzuciliśmy hipotezę zerową, bo została policzona w oparciu o tę hipotezę. Albo: na gruncie klasycznej statystyki albo grupy się różnią, albo nie; prawdopodobieństwo “że się różnią” wynosi więc albo 100%, albo 0%, ale nigdy nic pośrodku. ↩︎
Patrz przypis powyżej. ↩︎
Żeby było śmieszniej, właściwie zawsze założenia nie są spełnione. Np. zakłada się, że wzrost ma rozkład normalny, ale to by oznaczało, że przynajmniej teoretycznie możliwy jest wzrost ujemny albo powyżej czterech metrów. W naturze nic nie ma idealnego rozkładu normalnego. Niemniej w większości wypadków nie będzie to błąd poważny. Natomiast jednym z najważniejszych założeń jest niezależność pomiarów; a to już jest (a) często ignorowane i (b) absolutnie kluczowe. ↩︎
Od samego oświadczenia dużo ciekawsza jest lektura opinii, jakie o oświadczeniu napisała rzesza znamienitych statystyków i statystyczek. Linki znajdziecie tutaj. Bardzo wiele opinii krytykuje oświadczenie; dla jednych oświadczenie idzie zbyt daleko, dla wielu innych nie idzie wystarczająco daleko. Jeszcze inni zarzucają mu, że mija się z celem. Wszyscy jednak są zgodni, że Coś Trzeba Zrobić. ↩︎