psychologia replikacje, czy psychologia to nauka

Czy psychologia jest bezużyteczna?

…czyli o replikacjach i problemach nauki.

Psychologię wytknięto palcami. Złowrogie spojrzenia rzucane spode łba, kryzys zaufania, wyzywanie ją od najgorszych („Żadna z niej tam nauka, pfff”). I nie ma się co dziwić.

Byliśmy świadkami oszustw na wielką skalę dokonanych przez znanych naukowców. Pojawiły się pierwsze nieudane próby powtórzenia (replikacji) znanych eksperymentów. Zdarzały się nawet dziwaczne publikacje badań nad zdolnościami paranormalnymi w szanujących się czasopismach naukowych.

Psychologia straciła na wiarygodności. I to nie tylko w oczach opinii publicznej, ale i samych naukowców. Zdawało się, że jedyne, co psychologii pozostało, to popaść w dysonans poznawczy i użyć Freudowskich mechanizmów obronnych by wyprzeć swoje grzechy ze świadomości i udawać, że wszystko jest OK.

Stało się jednak coś zupełnie innego.

Wielkie replikacje

Chciałoby się powiedzieć, że nie ma tego złego, co by na dobre nie wyszło. Na skutek kontrowersji, wielu psychologów pochyliło się nad swoją dziedziną i zrobiła gorzki rachunek sumienia. Nie tylko na tym się skończyło. Niektórzy z nich postanowili wziąć sprawę w swoje ręce.

Jednym z nich był psycholog społeczny Brian Nosek.

czy psychologia to nauka, Brian Nosek replikacja
Już miałem kraść bardzo ładne zdjęcie Noska i ekipy z New York Times’a, kiedy znalazłem to wrzucone przez niego na Twittera na cześć zakończenia projektu. Whisky zawsze wygrywa.

Podejście Noska było następujące: wybrać kilka znanych eksperymentów psychologicznych i przeprowadzić je jeszcze raz, trzymając się „przepisu” oryginalnej ekipy badawczej (każdy opublikowany artykuł naukowy taki przepis zawiera). Coś takiego nazywamy replikacją (powtórzeniem). Jest to proces niezwykle ważny, ponieważ pozwala on stwierdzić, jak wiarygodne (lub aktualne) są poprzednie znaleziska. Nosek takich projektów przeprowadził kilka (czytelnicy Neurobigosu pamiętają chociażby pierwszą edycję projektu Many Labs). Teraz przyszedł czas na ten największy.

270-ciu autorów z różnych części świata podjęło się próby zreplikowania 113 eksperymentów psychologicznych z trzech czasopism naukowych. Już wcześniej nieoficjalnie było wiadomo, że wyniki nie będą zbyt optymistyczne – pisałem o tym w moim wcześniejszym wpisie. Ostrzegałem wtedy jednak, że na razie nie ma co wyciągać pochopnych wniosków i ogłaszać psychologii nauką skończoną. Poczekajmy najpierw na publikację w Science, mówiłem.

No i publikacja ciałem się stała. Czy nareszcie możemy oficjalnie potępić psychologię, zedrzeć z niej otoczkę naukowości, a jej “odkrycia” wyrzucić do ubikacji i spuścić wodę śmiejąc się maniakalnie?

Po pierwsze: niekoniecznie. Po drugie: okazuje się, że odpowiedź na to pytanie wcale nie jest najciekawszym aspektem projektu. Jego wyniki przyniosły bowiem kilka lekcji, z których skorzystać mogą nie tylko psychologowie.

Chwila prawdy

Przystępujemy zatem do replikacji… tylko jak właściwie zdecydować, czy replikacja się powiodła? Tak naprawdę to nie ma jednego, uzgodnionego sposobu weryfikacji sukcesu replikacji. Ekipa Noska zdecydowała skupić się więc na pięciu: istotności statystycznej, wartości p, wielkości efektu, subiektywnej ocena ekipy przeprowadzającej replikację oraz meta-analizy wielkości statystycznej. Omówię tylko kilka z nich.

Pierwszy to nieciekawie brzmiący “graniczny poziom istotności” lub po prostu p-wartość. P-wartość (p-value) jest magicznym numerem wypluwanym przez różnego rodzaju testy statystyczne. Wartość p pomaga zdecydować, czy wynik naszego eksperymentu jest cokolwiek wart. Jeśli wartość p będzie poniżej uzgodnionego progu – w psychologii jest to 0.05 – uznaje się, że nasze wyniki nie są dziełem przypadku, a raczej rezultatem działań (manipulacji) eksperymentalnych. Na przykład, całkiem bystry student Józio oblał egzamin nie dlatego, bo akurat miał pecha, ale dlatego, bo okrutny wykładowca bez empatii sterroryzował Józia aurą strachu i szyderczymi uśmieszkami. To właśnie wyniki statystycznie istotnie czasopisma naukowe lubią szczególnie.

I tak, 97% oryginalnych badań miało wyniki statystycznie istotne. Replikacje dały natomiast wynik znacznie mniejszy – 36% wyników zakończyło się wynikiem pozytywnym.

powtarzalność badań w psychologii, badanie Noska, replikacje w psychologii
Porównanie oryginalnych wyników z próbą ich powtórzenia. Replikacja przyniosła znacznie mniej wyników potwierdzających hipotezę. W dodatku, wielkość efektu replikacji także była mniejsza. Wykres (zmodyfikowany przeze mnie) z oryginalnej publikacji. Kliknij, aby powiększyć.

Wokół p-value toczy się jednak wiele dyskusji i według wielu nie są one najlepszym sposobem na sprawdzanie istotności. Dlatego Nosek i spółka przyjrzeli się także wielkości efektu statystycznego (effect size – Nosek i spółka użyli współczynnika korelacji Pearsona, lub r, jakby ktoś pytał). Mówiąc krótko, wielkość efektu wskazuje, jak silnie powiązane są ze sobą badane czynniki. Wynik może maksymalnie osiągnąć wartość 1, co oznaczałoby bardzo silny efekt. Przyjmuje się, że 0.5 to dobry wynik, a 0.1 – bardzo słaby.

Jak się okazało, średnia wielkość efektu (r) badań zreplikowanych była dwa razy mniejsza niż średnia wielkość efektu badań oryginalnych (r = 0.197 dla replikacji kontra r=0.403 dla badań oryginalnych).

Podsumowując – replikacje przyniosły mniej wyników istotnych statystycznie, a średnia siła efektu była dwa razy mniejsza. To właśnie to spowodowało taką burzę wokół projektu Noska. Jednak na tym nie koniec.

Co wpływa na powtarzalność badań?

Tutaj dochodzimy do daych, które osobiście najbardziej mnie zainteresowały. Nosek pokusił się o sprawdzenie, jakie czynniki wpływały na sukces replikacji. Przyglądano się więc nie tylko temu, czy replikacja udała się czy też nie. Dodatkowo zebrano także informacje na temat doświadczenia i stażu ekipy replikującej, subiektywne oceny tego, jak bardzo dany efekt był „zaskakujący”, trudności przeprowadzenia replikacji i kilka innych. Czynniki te skorelowano z wynikiem replikacji by sprawdzić, czy wpływał on na prawdopodobieństwo sukcesu replikacji.

Co ciekawe (i niezwykle ważne), okazało się, że doświadczenie ekipy przeprowadzającej replikację nie miało znaczenia w determinowaniu jej sukcesu. W kręgach psychologów prowadzono zacięte dyskusje na ten temat i mocno sugerowano, że głównym powodem niemożności zreplikowania pewnych badań jest kiepskie ich przeprowadzenie przez ekipę replikacyjną. Nosek upewnił się więc, że ekipy replikacyjne współpracowały blisko z oryginalnymi autorami (tylko dwóch odmówiło propozycję współpracy w projekcie). W połączeniu z rejestracją wstępną trudno więc zinterpretować wynik replikacji jako efekt braku doświadczenia. Z drugiej strony jednak, im trudniejsze badanie do przeprowadzenia, tym mniejsze prawdopodobieństwo jego zreplikowania.

Okazało się, że to siła oryginalnego badania była czynnikiem, który najlepiej przewidywał, czy replikacja się powiedzie. Aż dwie trzecie oryginalnych badań, które miały bardzo dobry wskaźnik p (mniejszy niż 0.001) mieściły się w progu istotności statystycznej po replikacji. Podobnie, większa siła efektu oryginalnego badania była powiązana z większym prawdopodobieństwem pomyślnej replikacji.

Co więcej, im bardziej „zaskakujący” wynik oryginalnego badania, tym mniej prawdopodobne, że zostanie on zreplikowany.

I tutaj, proszę Państwa, leży pies pogrzebany.

Problem z publikacją naukową.

Czynnikiem, który w dużej mierze decyduje o publikacji badań, jest ich oryginalność. Obecny system publikacji kładzie nacisk na publikację artykułów wprowadzających do dziedziny “coś nowego”. Edytorzy największych czasopism po prostu nie są innymi artykułami zbyt zainteresowani. W konsekwencji nieudane eksperymenty lądują zazwyczaj w szufladzie, a replikacje należą do rzadkości.

B8EtYkrCMAEJ4W-

Czasopisma naukowe faworyzują eksperymenty zakończone „sukcesem” – czyli takie, które potwierdziły postawioną przez naukowca hipotezę (wyniki „pozytywne”). Publikacja wyników niepotwierdzających hipotez (wyników ” negatywnych”) jest rzadkością.

Problemem, który pośrednio wyrasta z takiej wybiórczej publikacji (tzw. publication bias), jest naciąganie danych i analiz tak, by wynik eksperymentu dał wynik pozytywny, czy raczej – publikowalny. I nie chodzi nawet o jawne oszustwa, ale o rzeczy subtelniejsze – jak faworyzowanie jednej metody statystycznej nad drugą.

Łatwo sobie wyobrazić, dlaczego coś takiego może stanowić olbrzymi problem.

Być może jakieś badanie zadziałało raz i je publikuję. Tak naprawdę to jednak sto innych nieudanych badań zostało w mojej szufladzie i nigdy ich nie zobaczycie. Konsekwencja tego taka, że opublikowane przeze mnie znalezisko robi wrażenie solidniejszego, niż jest w rzeczywistości. 

Co ważne, replikacja Noska w bardzo prosty sposób poradziła sobie z tym problemem. Dokonano tego za pomocą rejestracji wstępnej – cały protokół przeprowadzenia eksperymentu, łącznie z planowanym sposobem analizy wyników, został przygotowany i zarejestrowany w bazie danych jeszcze przed jego przeprowadzeniem. Wydawać by się mogło, że właśnie w taki sposób powinno przeprowadzać się każde badanie. W rzeczywistości jednak nie jest to powszechną praktyką i aż do czasu wysłania artykułu do publikacji autorzy mają niemal wolną rękę w próbowaniu różnych analiz i odwracania ukradkiem głowy od tych negatywnych wyników. Sens rejestracji wstępnej jest taki, że o wszystkich krokach decydujemy przed eksperymentem, przez co taki rodzaj selektywności jest niemal wyeliminowany.

Problemy psychologii problemami każdej dziedziny.

Inne nauki, wśród nich także nauki ścisłe (ahoj, fizyka!) też nie są bez grzechu – priorytety czasopism naukowych są w końcu podobne, niezależnie od dziedziny.

Poniższy wykres pokazuje uniwersalność problemu selektywnej publikacji – we wszystkich ujętych w nim naukach dominują publikacje wyników pozytywnych. Te negatywne, zamiast do czasopism, trafiają do szuflady. Zupełnie jak moje post-apokaliptyczne opowiadania (czego akurat nie żałuję).

publication bias, selektwyność publikacji naukowych
Wykres powyżej pokazuje proporcję opublikowanych negatywnych i pozytywnych wyników badań z podziałem na nauki ścisłe („hard”) i społczene („soft”), oraz na nauki podstawowe („pure”) i stosowane („applied”). Wykres poniżej pokazuje, że choć psychologia wiedzie obecnie prym w publikacji wyników pozytywnych, to inne nauki, łącznie ze ścisłymi, różnią się od niej tylko marginalnie. Wykresy z tej publikacji w PLOS One.

Wracając do Noska – wynik replikacji potwierdza podejrzenia, że publikacja takich zaskakujących, oryginalnych wyników, na jakie czasopisma naukowe kładą nacisk, wiąże się z publikacją wyników słabo-replikowalnych. Płyną z tego lekcje, które powinni wziąć sobie do serca nie tylko psychologowie.

Epilog, czyli szczęśliwe (?) zakończenie

Nieudana próba replikacji nie oznacza, że cała dziedzina jest do bani. To może wniosek trochę mniej intuicyjny, ale pomyślmy – w nauce chodzi w końcu o akumulację danych. Niepowodzenie replikacji jest tylko częścią tego procesu, który także pomaga nam wzbogacić wiedzę naukową.

Może być w końcu i tak, że pewne opisane przez nas zjawisko dotyczy jedynie tej grupy ludzi, którą akurat przetestowaliśmy. Jeśli replikacja użyła grupy osób o nieco innych charakterystykach, nieudana replikacja mogłaby wtedy oznaczać nie tyle, że poprzednia obserwacja nie była prawdziwa. Być może zjawisko jest powiązane z pewnymi cechami, którymi charakteryzowała się grupa przetestowanych przez nas ludzi? W takim wypadku nazywanie takiej nieudanej replikacji „porażką” jest mylące – skumulowaliśmy w końcu więcej wiedzy o danym efekcie i wskazaliśmy nowe możliwe kierunki badań. Z perspektywy nauki, jest to przeciwieństwo porażki (uwaga – stwierdzenie kontrowersyjne!).

Bardzo trudno jest też powiedzieć, z jakiego wyniku replikacyjnego powinniśmy być tak naprawdę zadowoleni. Czy 36% zreplikownaych badań to słaby wynik? Szczerze powiedziawszy to… nikt nie wie. Bo jakiego wyniku powinniśmy oczekiwać? Nawet, gdyby problem selektywnej publikacji zostałby rozwiązany, a oryginalne badania byłyby doskonałe, prawdopodobnie i tak nie moglibyśmy spodziewać się udanej replikacji każdego z nich.

Wyniki replikacji Noska i spółki są z pewnością rozczarowujące, jednak nie możemy stracić z oczu większego problemu. Jest nim nie tyle niepowodzenie replikacji, co ich brak. Niepowodzenie jest po prostu częścią nauki. Szkoda, tylko że obecny system publikacji nie bierze sobie tego do serca.

brain-40377_1280 roz2

Do poczytania:
Reklamy

5 uwag do wpisu “Czy psychologia jest bezużyteczna?

  1. Problemem nie jest to że wyniki są niepowtarzalne. Prawdziwym problemem jest że tzw. psychologia, nawet jeżeli wyprze się dyrdymałów Freuda, Junga czy Gestalt, oferuje jako wynik (chłe, chłe) ‚naukowy’ te korelacje. Największym osiągnięciem są metody statyczne, które w celu zaliczenia pierwszej pracowni fizyczynej (doświadczenia dla dzieci) na Fizyce trzeba obcykać na pierwszym roku.
    Macie te korelacje i co? I dziura, zero teorii, punkty rozsypane po wykresie. Idziecie na grzyby i wam wychodzi średnio maślak, z silną korelacją do kurki. A już w XVIII wieku ktoś wpadł na pomysł, aby te grzyby ustawić bodaj w jakąś taksonomię. Ale psychologia jest wcześniej, jeszcze w średniowieczu.

  2. Co do tych dyrdymałów Freuda to bym nie przesadzał, fakt, mylił się w wielu sprawach, ale część badań neurobiologiczny pokazuje, że również w wielu sprawach miał racje, np. mechanizmów obronnych, zapewne nie uważał, że są one wynikiem fizycznych zmian w mózgu, aczkolwiek ich występowanie to fakt, Ramachandran jako siedlisko owych mechanizmów wskazuje lewą półkulę, która wdł niego a i innych badaczy zakłamuje rzeczywistość w „różnych” sytuacjach.

  3. Pingback: Post scriptum: Czy (społeczna) psychologia jest bezużyteczna? | NeuroBigos

  4. Marzenie:

    1. Eksperymenty wymyśla ktoś, kto zapewne wygłówkował jakąś hipotezę i tego się obejść nie da… ale nie ma on prawa zasugerować jaka to hipoteza ani nawet czego dotyczy. Spisuje jedynie przebieg eksperymentu.

    2. Niezależny organ specjalizujący się w lingwistyce i redagowaniu tego typu dokumentów weryfikuje, czy treść nie zawiera żadnych poszlak mogących sugerować jakąkolwiek hipotezę.

    3. Dokument przekazywany jest losowo wybranemu zespołowi badaczy, którzy są „robolami” i nie mając o niczym pojęcia wykonują co opisano w protokole.

    4. Zespół badawczy obiektywnie spisuje wszystkie spostrzeżenia, z pominięciem jakichkolwiek sugestii odnośnie subiektywnych interpretacji spostrzeżonych zjawisk.

    5. Organ kontroli obiektywności znów sprawdza, czy wyniki sa zero-jedynkowe i nie zawierają żadnych subiektywnych interpretacji zespołu badającego.

    6. Obiektywne wyniki przekazywane są min. 3 niezależnym zespołom ekspertów z danej dziedziny nauki (komitetom) do interpretacji. Uzyskane interpretacje pozostają tajemnicą przez okres kilku miesięcy.

    7. W tym czasie wyniki zostają upubliczniane online, aby każdy naukowiec na planecie mógł wziąć udział w publicznej dyskusji na ich temat i wysnuć własną interpretację. Dyskutanci moga oddawać głosy na najlepsze propozycje i tworzyć wspólnie najspójniejszą wersję.

    8. 2 najpopularniejsze interpretacje online wraz z interpretacjami niezależnych komitetów publikowane są w czasopismach naukowych i zyskują stasus dorobku nauki. Jednocześnie niezależnie od tego jak bardzo się od siebie różnią, żadna nie może zostać tą oficjalną (a jedynie może być przez poszczególne organizacje czy instytucje preferowana).

    Taki mój mały pomysł na potrójną ślepą próbę i rozwiązanie problemu nienaukowości nauk. Do tego trzeba by chyba faktycznie rządu światowego i ustaleń od górnych. NAjlepiej dotyczących również kryterium tego, jakie są standardy przeprowadzania badań w danej dziedzinie. Np w psychologii absolutny zakaz wysnówania wniosków z palca na podstawie eksperymentów na 12 białych studentach amerykańskich ze średniech klasy społecznej i tej samej miejscowości.. eh. Minimum 5 000 osób, wszystkie przedziały wiekowe, rasy, statusy ekonomiczne, światopoglądy, religie, przekonania kluczowe, płci, orientacje etc….

    …takie sobie marzenie :)

Skomentuj

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Wyloguj / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Wyloguj / Zmień )

Zdjęcie na Facebooku

Komentujesz korzystając z konta Facebook. Wyloguj / Zmień )

Zdjęcie na Google+

Komentujesz korzystając z konta Google+. Wyloguj / Zmień )

Connecting to %s