tiistai 30. lokakuuta 2012

Tilastoharhailijat

Kuvitellaan että ihmisille muutamia tilastollisia yksityiskohtia. Kuvitellaan että ne kaikki on nostettu samasta aineistosta. Kuvitellaan että kyseessä ei ole arvottu otos, vaan joka ikinen tapaus. Kuvitellaan että kerrotaan että aineisto on "kaikki tunnetut syöpätapaukset koko maassa". Sitten annetaan ne yksityiskohdat jotka ovat seuraavat:
1: Keskiarvoisesti vähiten syöpiä ihmistä kohden on maaseutualueella jossa on vähän ihmisiä.
2: Keskiarvoisesti eniten syöpiä ihmistä kohden on alueella jossa maaseutualueella on vähän ihmisiä.
3: Pahin yksittäinen syöpätapaus on tiivisti asutulla alueella, suurkaupungissa.
4: Keskiarvoisesti eniten syöpiä ihmistä kohden on tiiviisti asutuilla alueilla.

Ovelana sinäkin varmasti keksit muutamia juttuja tästä annetusta materiaalista. Fiksuna keksit hetikin päätelmiä. Mahdollisesti käytät tätä jopa tukena arvokeskustelussa joka käsittelee lääketiedettä ja yhteiskuntaa. Yleensä ihmiset tietävät intuitiollaan että tässä yllä on itse asiassa annettu luotettavaa tietoa ja että sitä olisi prosessoitu tarpeeksi. Tästä syntyy nopeasti tulkintoja.

Yllä oleva aineisto antaa helposti rationaalisen tulkinnan ; Vaikkapa saasteperustaiseen näkemyksen jossa (a) maaseuduilla ollaan terveitä koska siellä ei ole saasteita (b) kuitenkin joillain alueilla voi olla maatalouden myrkkyjä joten sielläkin on saasteita (c) suurkaupungeissa on paljon saasteita joten luonnottoman pahoja syöpiäkin syntyy (d) ja tavallisten syöpien määrä kasvaa saasteiden myötä.

Tilastotieteilijä ja muunlainenkin tieteilijä ei kuitenkaan pidä tämänlaisista tulkinnoista. Ja syynä ei ole se, että tulos olisi epämieluinen. Syynä on se, että ylläoleva rakenne on odotettavissa jos syöpä olisi tauti joka esiintyy tilastollisesti tasaisesti ihmisten kesken. Syynä on otoksen ja tutkittavan ilmiön suhde.

Tavallinen ihminen ei edes ajattele että ylläoleva tilanne olisi otoksen käsitteelle oleellinen. Otoshan tarkoittaa heille sitä, että otetaan osa tutkimusaineistosta ja tästä tehdään keskiarvo joka sitten laajennetaan kaikkiin ihmisiin, niihinkin joihin ei ole vastattu. Jos joka ikinen yksilö on mukana tuloksessa sen ei ajatella olevan otos. Tilastotieteilijä kuitenkin näkee että taustalla on ilmiö jolla on todennäköisyys jota ulkoiset tekijät joko muuttavat tai eivät muuta. Tehtävänä on ratkaista muuttavatko ilmiöt asioita vai eivät.

Kun huomataan että paikkakunta on "otos laajemmasta ilmiöstä", kuten vaikkapa koko maanlaajuisesta syöpätilastosta (tai vielä laajemmin teoreettisesta syöpäilmiöstä josta koko ihmiskunta on reilun kuuden miljardin yksilön otos josta oletuksia laajennetaan syntymättömiin ja tulevaisuuden ihmisiin) tilanne muuttuu.

Tilastotieteilijä nimittäin tietää että otos määrittää luottamusrajat. Luottamusrajat johtuvat siitä että tilastolliset ilmiöt eivät tottele keskiarvoja täsmälliesti vaan niissä on pientä heiluntaa.
1: Ensimmäisenä tärkeänä pääsääntönä on se, että mitä suurempi otos sitä vähemmän heiluntaa. Näin ollen paikat joissa on vähän ihmisiä ovat usein keskiarvoltaan ekstreemimpejä. (1 kolikonheiton tulos antaa aina äärimmäisen tuloksen, neljä kertaa heitetty kolikko osuu harvemmin mutta joskus kuitenkin neljää kruunaa tai neljä klaavaa, ja tuhat kertaa heitetty kolikko on jo tilastoihme.) Näin ollen jos käsitellään tilastoaineistoa on odotettavissa että keskiarvosta eroavimmat tulokset ovat niiltä osilta joilla otoskoko on muita pienempi. Näin pahimmat syöpätilastot ja parhaat syöpätilastot osuvat aivan odotetusti alueille joissa on vähän ihmisiä.
2: Toinen pääsääntö on se, että jos otoskoko kasvaa, sieltä löytyy suurimpia ja pienimpiä yksittäistapauksia. Kun ei puhuta keskiarvoista vaan yksittäisistä, otoskoon kasvu nimen omaan tuo esille ekstreemimpiä yksityiskohtia.
3: Kolmas pääsääntö on se, että vertailussa pitäisi käyttää yhteistä referenssiä. Kun maaseudulla tarkastellaan syövän todennäköisyyttä yksilöä kohden, unohtuu että kaupungissa tilasto oli juuri siinä keskellä. Tämä unohtuu etenkin jos esille nostetaan asukkaat kilometriä kohden : Suurkaupungeissa on niin paljon ihmisiä kilometrillä, että maaseudun syöpätilastojen pitäisi olla todella moninkertaiset verrattuna kaupungin syöpiin jotta niissä olisi saman verran syöpiä neliökilometrejä kohden.

Tämä ei tietysti tarkoita sitä että olisi hylättävä kaikki tilastot jotka toisivat esille sen että maaseudulla keskiarvo syövissä olisi pienempi koska siellä on vähemmän saasteita. Tämä muistuttaa vain siitä että analyysiä ei pidä koskaan tehdä tuonkaltaisten lauselmien kautta. Sen sijaan pitää käyttää tarkkuutta ja katsoa itse numeroita. Otoskoon vaikutus tulosten luotettavuuteen voidaan helpostikin ottaa huomioon ja näiden huomioon ottamisen jälkeen tilastot voidaan vasta lukea.

Ongelmana tilastojen käsittelyssä onkin se, että ensin ihmiset hyppäävät liian helposti tuloksiin joita tilastot eivät tue. Ja kun tästä huomautetaan he epäilevät koko tilastotidettä. Se, mitä heidän pitäisi epäillä on heidän oma arkijärjenkäyttönsä ja intuitionsa rakentamat narraatiot.

Ei kommentteja: