tiistai 8. maaliskuuta 2016

Reliabiliteetista

Psykometriassa keskitytään siihen minkälainen on hyvä tutkimus. Tämä on tarpeen esimerkiksi mielipidetutkimuksissa jossa yksittäisdata-aineistosta etsitään suuria ilmiöitä. Että vaikka erilaisten testien - kuten persoonallisuusluokitelmien ja älykkyystestien - tapaista jossa yleisestä teoriasta yritetään hakea yhteyttä yksittäistapaukseen eli tiettyyn ihmiseen.

Käytännössä alan perustoiminta voidaan tiivistää varsin karkeasti ideaan. Ideaan joka on ymmärrettävä.

Havaittu testitulos = oikea ilmiö + mittaamiseen liittyvä virhe.

Tätä kautta psykometriassa keskitytään validiteettiin eli siihen että testi mittaa mitä se sanoo mittaavansa. Ja reliabiliteettiin joka koskee enemmän sitä että tulokset ovat toistettavia ja konsistentteja. Nyrkkisääntönä onkin että hyvä psykometrinen testi tunnistetaan siitä että sillä on sekä sekä hyvä validiteetti että reliabiliteetti. Ja tavallaan tämän ulkopuolella on "hyvin vähän mitään".

Keskityn tässä blogauksessa reliabiliteettiin. Siihen miten sitä lähestytään
.

Ensimmäiseksi on oleellista tiedostaa, että se ei ole sama kuin validiteetti. Esimerkiksi voidaan kuvitella että joku mittaa kangasta kuminauhamitalla. Sen kautta syntyy hajontaa koska eri mittaajat eri mittauskerroilla venyttävät nauhaa hieman eri määriä. Ja näin syntyy gaussin käyrä jossa reliabiliteetti on heikko mutta validiteetti on keskimäärin kuitenkin hyvä. Tämän vastineeksi voitaisiin laittaa mitta joka on tehty hyvin standardisoidusta kivisestä mitasta. Se mittaa aina samanmittaisen pätkän. Mutta valitettavasti tämä mitta on tehty siten että se on mitattu väärin. Lopputuloksessa validiteetti on heikko mutta sen reliabiliteetti vahva.

Tieteenfilosofiassa reliabiliteetin kaltainen konsepti tulee vastaan ennen kaikkea konsistenssin ja toistettavuuden kohdalla. Ideana on se, että hyvä koejärjestely voidaan toistaa ja se antaa samoja tuloksia.

Näin ollen yksinkertainen ja usein toistettu tapa testata reliabiliteettia on toistaa sama koejärjestely lyhyen ajan jälkeen (test-retest reliability). Esimerkiksi samaa kyselyä kysytään samoilta henkilöiltä uudestaan ja katsotaan miten samanlaiset tulokset tästä saadaan. Tämä on hyvin näpsäkkä tapa mitata asioita. Paitsi silloin kun mitattavat asiat muuttuvat. Tällöin voidaan joutua tilanteisiin joissa testin reliabiliteetti on itse asiassa hyvä mutta se näyttää huonolta koska itse testattava muuttuja on muuttunut. Tämä on toki erityisen tärkeää esimerkiksi niille ... tiettyihin psykologisiin testeihin ... hurahtaneille joiden testimenettely tuottaa huonon toistettavuuden. He voivat sanoa että se johtuu siitä että ihmiset muuttuvat. Tämä selitys tosin kertoo lähinnä sen että test-retest -mallinen lähestyminen ei ole oikea. Se ei ole argumentti sen puolesta että testin reliabiliteetti olisi hyvä. Se on vain syy miksi juuri tämä yksi reliabiliteetti on väärä tapa mitata sen luotettavuutta.

Toinen tapa lähestyä ongelmaa onkin testata kysymyksiä hieman uusin sanoin (alternate form reliability/paraller form reliability). Tässä nojataan vahvasti synonyymien käyttöön ja järjestykseen. Esimerkiksi kyselystä voidaan käyttää kahta versiota ; Vaikka sellaista jossa kysymykseen on vastaukset niin että vaihtoehdoista ensin on usein ja viimeisenä harvoin. Ja toisessa lomakeversiossa nämä vastauslistat on vain käännetty niin että vaihtoehdoissa harvoin tapahtuvat ovat ensin ja usein tapahtuvat viimeisenä (reliability of response sets). Lisäksi voidaan muotoilla kysymyksiä muutenkin. Esimerkiksi "kerran viikossa" voidaan muuttaa "4 kerraksi kuukaudessa" (reliability of urinary function). Heilahtelut vastauksissa kertovat että testiin vaikuttaa virhelähde. Toisaalta myös itse kysymyksiä voidaan muuttaa synonyymejä käyttäen (reliability of equivalent rewording)
1: Toki tässä on syytä tiedostaa että sanavalintojen on oltava nimenomaan synonyymejä. Asenne-eroja ja sanavarastovaatimuksia yritetään välttää. Koska joskus sanat voidaan ladata asenteellisilla konnotaatioilla ja saada aikaan isoja muutoksia siinä miten ihmiset vastaavat. Mutta tämä ei ole reliabiliteettiongelma. Nämä ladatut käsitteet itse asiassa usein parantavat alternate form reliabilityä. Ladatut sanat tälläisessä tilanteessa heikentävät validiteettia. Tästä on mielestäni hyvä malliesimerkki siinä miten homojen avioliittoa vastustaneet tahot tekivät puhelinkyselyn jonka vastausmallit oli valikoitu asenteellisesti ja näin testi antoi vääristeleviä tuloksia. Tämä ei ollut reliabiliteettiongelma vaan ongelma sen kanssa mitä tämä testi mittasi. Eli onglema oli validiteetissa. Se on kuitenkin hyvin lähellä alternate form reliabilityä, ja jos alternate form reliabilityn toteuttaa huonosti niin se itse asiassa voi johtaa siihen että reliabiliteetti ja validiteetti menevät sekaisin...

Toki asiaa voidaan lähestyä sitenkin että otetaan monenlaisia lähestymistapoja samaan asiaan. Katsotaan miten hyvin samaa asiaa eri näkökulmista lähestyvät testit antavat toisiaan tukevia tuloksia (reliability of internal consistency). Datan luotettavuutta lisätään lisäämällä hieman toisistaan poikkeavilla testitavoilla. Tämä on hieman eri asia kuin katsoa pelkästään synonyymejä. Sitä lähestytään tilastotieteellisesti. Kyseessä on faktorianalyysi jolla haetaan tilastotieteellisesti Cronbachin alfa (Cronbach's α). Se katsoo yksinkertaisesti miten eri mittarit tukevat toisiaan. Miten hyvin ne sopivat yhteiseksi vaa-aksi. Nyrkkisääntönä on että tämän pitäisi olla yli 0.7 jotta mittari olisi reliabiliteetiltaan kelpo testi. Tämä voi olla vierasta niille ... tiettyihin psykologisiin testeihin intoutuneille ... jotka ihmettelevät miksi tälläisiä testejä tehdään vaikka "meidän testimme ei olekaan sellainen".
1: Toki tätä yksinkertaisemminkin asiaa voi lähestyä. Etenkin kyselytestiä tulkitessa tai persoonallisuustestiä luodessa hyviä nyrkkisääntöjä saa ihan sillä että hajottaa kyselyaineiston jakamalla sen tuurilla kahtia. Ja katsomalla miten nämä eri puolet antavat keskenään yhteneviä tuloksia (split-half reliability). Toki tämä tarkoittaa sitä että puolikkaassa luotettavuus saa heilahtelua koska sen otoskoko on pienempi. Mutta ideana onkin katsoa että sopivatko pienet otoskoot yhteen. Matematiikka auttaa asiassa. (Spearman–Brown prediction formula.) Näitä puolikkaita koskee toki sekin että etenkin nykyinen taulukkolaskenta antaa mahdollisuuden pilkkoa aineisto kahtia monellakin eri tavalla ja katsoa miten hyvin nämä kaikki antavat yhteneviä tuloksia. Mutta kun tämä tehdään maksimaalisesti niin itse asiassa se mitä tehdään on se, että lasketaan Cronbachin alfa. Siitä sen kanssa on yksinkertaisesti kyse.

Joskus asiat eivät tietenkään ole sellaisia että ne voitaisiin kvantifioida erityisen hyvin. Tämän vuoksi usein joudutaan hankkimaan tietoa muuta kautta. Tällöin avuksi nousee asiantuntijoiden käyttö. Kun samaa aineistoa kerää ja/tai tulkitsee kaksi aivan eri asiantuntijaa voidaan saada tuloksia aineistosta josta tietoa on vielä vähän tai jonka analysointi vaatii vankkaa näkemystä (interobserver reliability).
1: On toki mielenkiintoista huomata että joskus on tilanteita jossa testijärjestelmän reliabiliteetti vaihtelee hirveästi jos tehdään test-retest -reliabilityä yksittäisillä asiantuntijoilla. Osa saa siis keskenään konsistentimpia tuloksia kuin joku toinen. On selvää että konsistentit tutkijat voivat saada hyvän tai huonon interobserver reliabilityn. ; Heillä voi olla oma lukkiutuma tai erilainen lähestymistapa. Toki voi olla myös niin, että molemmat ovat hyviä. Asiat on siis testatttava erikseen. Selvää tosin on että jos test-retest -reliabilityn taso vaihtuu hirveästi asiantuntijan mukaan niin jotkut interobserver reliabilityt ovat heikkoja ihan sen vuoksi että jos tarkan mittaajan tuloksia vertaiskokeileekin joku tumpula niin ei se ainakaan tuloksia paranna. Onkin hyvä katsoa mitataanko "kaikkia testaajia", "parhaita testaajia" vai mitä.

Ei kommentteja: