maanantai 25. toukokuuta 2009

Rotupohjainen profilointi.

"Scientific American (April 2009)" valotti pikku -uutisella profiloinnista. Siinä nostettiin esiin matemaattisperäinen tulos, jonka mukaan vaikka suurin osa tunnetuista terroristeista ovat ulkomaalaisia, terroristeja ei kannata seuloa rodun mukaan. Tässä on hyvä muistaa se, että tilastomatematiikassa vinoutumat aikaansaavat erikoisia tuloksia. (Itse asiassa juuri linkatussa jutussa on olennaisimmat matemaattiset eväät tämän jutun tajuamiseen.) Idea on melkolailla sama kuin tuossa yllä mainitussa.

Syy perustuu siihen, että terroristeja on todella pieni määrä suhteessa rehellisiin. Jos ihmisiä tarkkaillaan "rodun kannalta satunnaisesti", käy niin että:
1: Saadaan kiinni ulkomaalaisia terroristeja.
___1.1: Saadaan kiinni "vääriä tunnistuksia"(False positive) jossa syytöntä epäillään.
___1.2: Osa on vääriä "turistitunnistuksia" (False negative) jossa syyllistä ei epäillä vaikka pitäisi.
2: Saadaan kiinni kotimaalaisia terroristeja.
___2.1: Saadaan kiinni "vääriä tunnistuksia"(False positive) jossa syytöntä epäillään.
___2.2: Osa on vääriä "turistitunnistuksia" (False negative) jossa syyllistä ei epäillä vaikka pitäisi.

Kun aletaan seulomaan pelkän rodun mukaan, eli aletaan skannaamaan pelkästään tietyn rodun edustajia on selvää että kotimaalaisten terroristien huomaaminen poistuu ja ulkomaalaisten lisääntyy. Tässä tuntuu tietysti siltä että potentiaalisesti syyllisiin keskityttäisiin enemmän. Ongelmana oli se, että laskelman mukaan se johtaa samojen viattomien skannaamiseen toistuvasti, kun taas ulkomaalaisten terroristien kiinnijäämiset kasvavat vain hieman (koska heitä on prosentuaalisesti vähän.) Sen sijaan syyllisten muunlaisten ohipääseminen lisääntyy (koska heitä ei skannata) ja tämä on suurempi määrä (koska vaihtoehdossakin osa ulkomaalaisista skannattaisiin joka tapauksessa).

Laskelmassa esitettiin että teoreettisesti paras suhdeluku voidaan toki laskea tilastollisesti ja tässä voidaan ottaa rotu huomioon. Maksimi on suhdeluvun neliöjuuren kohdalla. Eli jos jokin rotu olisi vaikka 9 kertaa useammin syyllinen, tätä tulisi skannata 3 kertaa enemmän ja jos jokin rotu olisi 4 kertaa useammin syyllinen, tämä tulisi skannata kaksi kertaa useammin. Koska erot ovat pieniä, käytännössä erot ovat niin pieniä että käytännössä rodun huomioon ottaminen ei ole kovin tärkeää.

Tässä laskemisessa ei siis ole otettu edes seuraavia kahta, sinänsä jännittävää piirrettä:
1: Nassim Taleb muistuttaa että rikostilastot perustuvat siihen ketkä jäävät kiinni. Rikostilastoissa on tilastot kiinnijääneistä, ja epäsuorasti voidaan katsoa esimerkiksi kaupan inventaariosta että paljonko on varastettu ilman että siitä on jääty kiinni. Mutta rikokset jotka on tehty ovelasti, niin että rikosta ei ole huomattu, eivät ole tilastoissa. Tämä vääristää. Toki tämä ei ole aivan niin vahva vasta -argumentti kuin voisi kuvitella, koska tässä käsitellään sitä terrorismia joka voidaan huomata. On tavallaan järkevää keskittyä niihin jotka voidaan saada kiinni. Toki tässäkin on se, että se että jokin rikollistyyppi on ennen ollut sellainen että se ei ole jäänyt kiinni, se ei tarkoita että sitä ei voitaisi koskaan saada.
2: Juonikkaat rikolliset reagoivat vastatoimiin. Jo vartijana sitä huomaa miten yksinkertaiset myymälävarkaat reagoivat siihen jos vartija toimii uudella tavalla ja keksivät uusia tapoja kiertää asiaa. Tässä on kyseessä kilpavarustelu. Sama jossa isommat miekat kannustavat isompiin haarniskoihin jotka kannustavat isompiin tai erilaisiin aseisiin ja jotka taas kannustavat erilaisiin suojausjärjestelmiin..

Ei kommentteja: