Post

Pytanie 19 – wady (i może zalety) wartości „p” 📊

Pytanie 19: Jakie są zalety i wady stosowania poziomu istotności statystycznej jako jedynego kryterium wnioskowania statystycznego?

📚 Wojciszke, B. (2004). Systematycznie modyfikowane autoreplikacje: logika programu badań empirycznych w psychologii. W: J. Brzeziński (red.), Metodologia badań psychologicznych. Wybór tekstów. Warszawa: Wydawnictwo Naukowe PWN.

p – prawdopodobieństwo, że wyniki otrzymaliśmy przez przypadek

istotny statystycznie = istotny teoretycznie

Wartość graniczna p to arbitralnie przyjęte, dopuszczalne ryzyko błędu.

Hmm, na pierwszy rzut, do głowy mi tylko przychodzi, że są same wady. Wartość p nie mówi nam nic o wielkości efektu, a w dodatku można ją hackować (tzw. p-hacking).

Pisząc magisterkę zaobserwowałem, że w praktyce odchodzi się od zapisywania p < 0,05. Jak już, to się zapisuje, że p < 0,01 albo
p = 0,04
p = 0,11

“Każdą, nawet bardzo małą, i z naukowego punktu widzenia bzdurną różnicę między grupami można uznać za istotną statystycznie, gdy tylko porównywalne grupy będą bardzo duże”[^1]

Moim zdaniem, dużo więcej informacji wnosi, czy badanie da się powtórzyć, a nie sama wartość p. Replikacje dramatycznie zmniejszają prawdopodobieństwo przypadku. Przykład z rzutem kośćmi: Wyrzucenie jednej szóstki kostką → 1/6 Wyrzucenie szóstki 4 razy z rzędu → (1/6)⁴ = 1/1296
Podobnie jest z wartością p

Dlatego też nie do końca zgadzam się ze stwierdzeniem, że wartość p wyższa od 0,05 jest nieinformacyjna.

Fiksacja na wartości p może prowadzić do efektu szuflady

To w jaki sposób badacze naciągają wartość p samo w sobie nadawałoby się na badania psychologiczne.

Przy bardzo dużych próbach można uzyskać wyniki o wysokiej istotności statystycznej, ale z bardzo małą siłą efektu, co sprawia, że z naukowego punktu widzenia są bezużyteczne. Tzw. przemocowana próba.

Zalet stosowania wartości p za bardzo nie widzę. Może oprócz tego, że łatwo zrozumieć o co w niej chodzi (chociaż i tak wykładowcy nie potrafią zrozumiale tego wytłumaczyć).

Publikowanie replikacji zarówno udanych, jak i nieudanych zdaje się więc mieć niewiele sensu. Jednakże brak publikacji tego rodzaju badań jest jeszcze mniej sensowny…

„…miernikiem podobieństwa wyników badań … powinien być nie poziom istotności, ale wskaźnik siły efektu…”




[^1]:Jakieś notatki ze studiów