torstai 21. lokakuuta 2010

Todisteenkaltainen.

"Valhe. Emävalhe. tilasto." Näin sanoo ainakin vanha piruilu. Näkemys on sinällään perusteltu, että matematiikkaa käytetään hyvin paljon keskustelun hämmentämisessä. Niistä rakennetaan ikään kuin vankanoloisia perusteluja.

Joskus luvut ja numerot vakuuttavat itsessään, ilman että vakuuttuminen on perusteltua. Luvut eivät silloin viittaa rationaaliseen maailmaan, vaan vakuuttavat psykologian kautta. Se näyttää järjeltä mutta onkin tunnetta. Aina numerot eivät ole tahallisia, joskus tämänlaisia kömmähdyksiä syntyy vahingossa.

Tilastollisen manipuloinnin keinoista oppii ainakin Charles Seifen "Proofiness - The Dark Arts of Mathematical Deception" -teoksesta. Lukaisin sen silmäyksenomaisesti, kirja ei ollut omani.

Kirjan nimi tulee ajatuksesta, jossa asia näyttää ensin perustelulta, kunnes sitä katsoo tarkemmin jolloin se paljastuu joksikin toiseksi. Hän on luokitellut erilaisia yleisiä kompastuksia. Tilastolliset vääristymät, kuten otoksen vääristymä ja muut tulevat kirjassa tutuiksi. Myös riskien väärinarvioinnista ja jopa riskeistä valehtelusta puhutaan jonkin verran.

Joitakin virheitä on nimetty.
1: Disestimation on virhe, joka syntyy kun ei tajuta arvostelussa olevaa epävarmuutta ja sen rajoja. Asioita joilla on luottamusväli aletaan pitää ehdottomina. Tästä on tietysti seurauksena erikoisia virheitä. Seife mainitsee esimerkiksi museon vahtimestarin, joka kertoo että dinosaurus oli 65 000 038 vuotta vanha koska se oli ollut 65 miljoonaa vuotta silloin kun hän oli tullut töihin. Lausuma voi tietysti olla vierailijoiden huvittamiseksi tehty vitsikin, mutta virheen luonne tulee siitä hyvin esiin. Ajoituksessa on kyse arvioinnista, vastaus voi heittää oikeasta jonkin verran.
2: Potemkin numbers taas on asiaan liitetty numero, jonka arvo on täysin hatusta heitetty. Kysymys ei ole arvioinnista, vaan väitteeseen vain liitetään numero. Tästä esimerkkinä on McCarthyn syytös siitä että senaatissa oli kommunisteja. Hän väitti että kommunisteja oli 205. Nämä numerot toimivat; ihmisten on jostain syystä vaikeaa kokea että tuollaista eksaktia väitettä voisi heittää hatusta.
3: Causuistry, jossa yhteensattuma näyttää syy-seuraussuhteelta siksi että ihmiset assosioivat asiat yhteen. Aito korrelaatio korvautuu luulemisella.
4: cherry picking, jossa datasta kerätään vain mieluisa ja epämieluisa unohdetaan.
5: Randumbness, eli ihmiset eivät tunnusta satunnaisuutta vaan näkevät järjestystä täysin satunnaisessakin.

Kirja on näiltä osin melko paljon vanhan kertausta. Kirja kuitenkin keskittyy myös erilaisiin kyselyihin (poll).1 Esimerkiksi verkossa on helppo tehdä äänestyksiä, joten niitä käytetään paljon. Valitettavasti hyvän nettiäänestyksen tekeminen on todella vaikeaa. Journalistit taas eivät ole koulutettuja matemaatikkoja, joten he helposti kirjoittavat asioista hyväntahtoisesti ja perustelua tavoitellen, mutta heidän sanomansa voi olla virheellistä.

Seifen mukaan suurin osa kyselyihin/äänestyksiin perustuvista uutisoinneista suurin ongelma on siinä että ne tunnistavat vain otoksen kokoon liittyvät virherajat. Systemaattiset virheet jäävät huomaamatta. Esimerkiksi jos äänestykseen osallistuu eniten tietynlaisia henkilöitä, on seurauksena tietysti se, että tulos keskittyy heidän puoleensa. Otos ei ole satunnainen, joten mukaan harppaa virheitä.
1 Kirjan loppuosassa on USA:n politiikkaa, joka ei suomalaiseen silmään vaikuttanut kovin kiehtovalta. En siis kerro niistä. Kirjoittajasta tilastolliset virheet ovat demokratian myrkkyä, koska niillä voidaan harhaanjohtaa. Hänen näkemyksensä demokratiasta perustuu rehellisyyteen rakentuu totuudellisen datan päälle.

Ei kommentteja: