maanantai 3. tammikuuta 2011

Valhe, emävalhe, tilastonikkarointi.

Ihmiset eivät jostain syystä pidä tilastotietoa kovinkaan mielenkiintoisena ilmiönä. Silti kaikki vetoavat mielellään tilastoihin. Ja toisaalta huijareiden huomaaminen tuntuu kiinnostavan ihmsiä usein aika paljonkin. Tätä kautta skeptikolle tarjoutuu tietysti tilaisuus yrittää tehdä tilastotieteestä kiinnostavampaa sitä kautta miten meitä voidaan huijata arkielämässä niillä tilastoilla. (Toki kaikenlaisia virheitä voidaan tehdä myös viattoman vahingossa huolimattomuuden tai ymmärtämättömyyden vuoksi. Mutta huijaus on mediaseksikkäämpää.)

Asiallisesti lähestyen tilastotieteessä on kolme vaihetta. On otoksen valinta, eli tietojen kerääminen. Tämän jälkeen on aineiston käsittely. Ja tämän jälkeen on aineiston esittely, presentaatio. Huijaamista voidaan tehdä missä tahansa vaiheissa.

On ehkä mielenkiintoista miettiä sitä, että itse asiassa usein huijaaminen kannattaakin tehdä siten, että tekee väärin vain yhdessä osiossa. Silloin muiden osioiden kohdalla voi kertoa vuolaastikin niiden teosta. Ihmiset huomaavat niiden tarkkuuden ja koko juttu vaikuttaa vakuuttavalta. Siksi ei lienekään yllättävää, että usein tilanne onkin juuri näin. Sitä ei esitetä väärä dataa väärinkäsiteltynä, siinä olisi turhan monta virhettä josta jäädä kiinni.

Otoksessa voidaa tehdä virheitä. Silloin ei napata riittävästi aineistoa. Tai aineistoa ei ole satunnaistettu tai valikoitu muutoin niin, että niiden voisi uskoa vastaavan olennaisesti koko massaa, jolloin puhutaan systemaattisesta virheestä joka vääristää tuloksen. Itse asiassa aineisto voidaan myös keksiä hatusta ja vain väittää että se on todella tehty.

Käsittelyssä on huomattava monenlaisia mutkia. Esimerkiksi:
1: Esimerkiksi jos arvioidaan prosenttiosuuksia, ei kannata mennä ryhmien kokoon liittyvään ansaan. Jos meillä on nyt ryhmä A ja ryhmä B. A:ssa on pieni prosenttiosuus x:iä. Ja A on kooltaan pieni. Ryhmä B on kohtuullisen kokoinen ja siinä on kohtuullinen prosenttiosuus x:iä. Jos ryhmää A suurennetaan rajusti, sen x:än prosenttiosuutta voidaan kasvattaa. Tämä näyttää tasa -arvoistumiselta. Mutta kun ryhmät A ja B lasketaan yhteen, voikin käydä niin että A+B oli ennen muokkailua isompi prosenttiosuus x:iä, kuin jälkeen muutoksen.
2: "Yksi miljoonasta on kontekstissa". Eli jos se, että kahdella ihmisellä on "1:1000000" mahdollisuus jakaa sama DNA profiili, ja ollaan 6 miljoonan suurkaupungissa, tiedetään itse asiassa että kaupungissa on keskimäärin 6 tyyppiä jotka jakavat saman DNA -profiilin. Oikeudessa "yksi miljoonasta" voisi vaikuttaa että syyllisyyden mahdollisuus olisi hyvin pieni. Mutta jos sanotaan "kaupungistamme vain 6 jakaa tälläisen profiilin" tulkinta näyttää tuomitulle leppoisammalta.
3: Tappouhkaustilastoharhan kautta voidaan lähestyä väkivaltarikoksia. Uhkailija toteuttaa uhkauksensa prosentuaalisesti hyvin harvoin. Siksi uhkailu voi tuntua irrelevantilta oikeudessa. Mutta samanaikaisesti voi olla totta tilasto, jonka mukaan uhkailtujen kuoltua murhattuna uhkaaja on yllättävän usein teon takana, sama tilanne näyttää erilaiselta, jos uhkailtu onkin murhattu ja tässä ruoditaan hänen kuolemaansa.
4: False positive -ilmiö, jossa jos haussa on harvinainen tautia testillä joka antaa luotettavasti oikeita hälytyksiä ja antaa joskus harvoin vääriä hälytyksiä johtaa usein tilanteeseen, jossa saatu diagnoosi ei tarkoita juuri mitään: Joukossahan on sekä tunnistettuja sairaita ja väärin tunnistettuja terveitä ja näillä apukeinoilla voidaan melko pienellä vaivalla hakea sellaiset luvut, että ne menevät esimerkiksi tasan.
5: Jalkavirhe. Vaikka ihmiset ovat keskimäärin keskimääräistä tyhmempiä, jalkojen kohdalla useimmilla ihmisillä on keskimääräistä enemmän jalkoja. Koska jalkojen määrä on yleisesti ottaen vakio lukuunottamatta amputoituja mutantteja jotka ovat poikkeuksellisia mutta vaikuttavat jalkojen määrään vain tiettyyn suuntaan. (Ylimääräiset mutanttijalat ovat todella paljon harvinaisempia kuin amputoidut jalat. Joten voitte unohtaa ne.)
6: Korrelaatio ja yhteys eivät ole ihan sama asia. Auringonlasit eivät ehkäise flunssaa, vaikka asioilla on yhteys. Flunssaa sairastetaan talvella ja aurinkolaseja käytetään useimmiten kesällä. Tilastollinen yhteys voidaan taatusti kaivaa.

Yllättävää kyllä presentaatio tarjoaa kenties rajuimmat harhautukset. Esimerkiksi mitta -asteikon käyttäminen vaikuttaa todella paljon. Jos esimerkiksi pystyaseteikolla ei näy nollaa, vaan näytetään vaikkapa vain käyrän yläosia voidaan usein tarkkailla muutosta paremmin ; Muutokset näyttävät dramaattisilta kun valtaosa pylväästä on ikään kuin "piilossa". Tämä leikkaaminen voi harhauttaa luulemaan että erot ovat prosenttiosuuksia.

1: Joskus tosin on kätevää katsoa vain yläosaa, esimerkiksi pörssikursseissa muutokset ovat usein kokonaisuutta tuijottaen pieniä. Niillä pelaajilla on käytössä paljon osakkeita, joten pienistä virroista saadaan aikaan merkittäviä muutoksia. Kysymys onkin siitä onko presentaatio oikeassa kontekstissaan.

Aineistoa voidaan myös "leikata", jolloin vain jokin osa näkyy. Näin esimerkiksi selvästi pitkällä ajalla melko tasaista mutta kuitenkin jonkin verran aaltomaista vaihtelua (on hyviä ja huonoja vuosia jotka kuuluvat alaan) näyttävä yrityksen liikevaihto voidaan saada näyttämään menestyksekkäältä tai tappiota kohti luisuvalta valikoimalla tarkasteltavaksi taktiset "edelliset viisi vuotta".

Esityksessä myös lukemaväli vaikuttaa runsaasti. Jos kaaviolle annetaan pystysuuntaan paljon tilaa, kaaviossa olevat muutokset näyttävät isommilta. Syntyy korkeita kaaria. Jos pystysuuntaan annetaan paljon mittaritilaa, voidaan lasku näyttää vaikka 2 ruutua korkeana suhteessa yhteen vaakasuunnan asteikkoon. Ja toisessa ero on vain 1 ruudun. Ei siksi että romahdus olisi pienempi, vaan siksi että ruudunväli tarkoittaa ensimmäisessä pienempää muutosta. Samaan tapaan vaakatason lukemavälin kasvattaminen tasoittaa aaltoja. Oikeasti aineisto ei muutu mihinkään, vain sen esitystapa.

Itse asiassa asioiden esittäminen onkin luultavasti yksi keskeisin tilastotieteen "väärinkäyttömuoto". Skeptikot tuntuvat usein keskittyvän virhepäätelmiin, jossa on katsannon alla tutkimusmenetelmät. Ne ovatkin toki mukavaa älyllistä leikkiä. Kuitenkin tuntuu että presentaatiota ei korosteta tarpeeksi. Vaikka tällä onkin hyvin suuri vaikutus. Ehkä syynä on se, että skeptikot eivät yleensä jaksa panostaa niin paljoa retoriikkaan. Ehkä he myös optimistisesti luottavat että ihmiset ymmärtävät esitysten sisällön jos se on tehty hyvin. Kuitenkin itsellenikin tilastoesityksissä käy helposti niin, että se miltä se näyttää vaikuttaa yllättävänkin paljon. Tästä kuvasta syntyy ikään kuin ensivaikutelma, jota on vaikeaa pyyhkiä pois.

Ei kommentteja: