∀leksanterin ℝatkaisu: Miksi on tarpeen puhuan "informaatiosta" ja "datasta" erikseen?

tiistai 14. lokakuuta 2014

Miksi on tarpeen puhuan "informaatiosta" ja "datasta" erikseen?

Informaatio -sanalla on usein paljon erilaisia intuitiivisia merkityksiä. Ja tämä vaikeuttaa asiasta argumentointia. Tämä on tarpeen esimerkiksi jos mietitään että mitä ylipäätään tarkoittaa informaation tuhoutuminen. Sillä kun ihmiset puhuvat informaatiosta, he eivät välttämättä puhu samasta asiasta kuin matemaatikko. Ei vaikka fysiikan asiaa sivuavat termit otettaisiin mukaan puheeseen. Informaatiolla on monia asiasisältöjä. Ja tässä tekstissä käsittelen samanaikaisesti niistä muutamaa. Ne ovat minusta relevantteja tai kiinnostavia tai ainakin käytettyjä ajatuksia tässä yhteydessä.

Murtamattoman linnakkeen murtaminen?

Asiaa voi lähestyä ottamalla perustaksi kryptografian. Jos meillä on salainen viesti jonka sisällöstä ei ole tietoa ja meillä on ns. "one-time pad" -salaus, jonka salausavain on täysin satunnainen ja sen jälkeen tämä salausavain tuhotaan täydellisesti, meillä on käsissämme merkkijono jonka viestiä ei voi purkaa millään supertietokoneella. ; Tässä salaisuutena on se, että tämä mainitsemani Vernanin salausmenetelmä on ainut tunnettu salaus jota ei voi purkaa.

Tämä on monista hämmentävää. Sillä kryptografiassa katsotaan ilmiselväksi säännöksi että kaiken voi purkaa. Tämä ajatus leviää sen tyylisissä kirjoissa kuin Dan Brownin "Murtamaton linnake". Tämä johtuukin siitä, että Vernanin salaus on käytännössä hankala. Ja siihen on eimatemaattinen ongelma. Se koskee salausavainen haltuunsaamista. Yleisenä haasteena on se, että jotta tämänlainen salausavain voidaan saada viestitettävän haltuun on käytettävä jotain kanavaa. Ja jos tätä kanavaa voi kuunnella, salausavaimen saa melko helposti haltuun. Ja jos on käytössä täysin 100% luotettava keino välittää avain, voitaisiin tätä täysin turvallista kanavaa tietenkin käyttää myös varsinaisen viestin levittämiseen.

Mutta tämä heikkous koskeekin avaimen jakamista eikä salatun viestun dekryptaamista. Se vaatii avaimen purkamisen. Toki tässä on toinenkin haaste. Kryptografian avulla voidaan nimittäin tarttua viestin purkamiseen sen sisältämien eisatunnaisuuksien kautta. Ja tässä on karkeasti kaksi reittiä:
1: Tartutaan säännönmukaisuuteen lopullisessa viestissä. Tästä hyvä esimerkki on Zodiac -murhaajana tunnetun sarjamurhaajan viestit. Niiden purkamiseen liittyy paljon kunniaa joten moni on valehdellut purkaneensa ne. Mutta osa viesteistä on kuitenkin purettu. Ja tässä on käytetty tietona nimenomaan sitä, että murhaaja todennäköisesti käyttäisi "KILL" -sanaa viesteissään. Murhaaja oli ovelasti lisännyt tunnistamisen vaikeutta tekstiin siten että hän käytti yleisille kirjaimille useaa merkkiä. Ja näin niiden jakaumat tasaantuivat ja viestin sisältöä. "KILL" -sanan toistuminen kuitenkin loi viestiin rakennetta joka voitiin tunnistaa. Näin ollen Vernanin salaus voidaan purkaa jos lopullisen viestin sisällöstä tiedetään valmiiksi riittävästi.
2: Itse salausavaimessa voi olla toistuvuuksia. Jos salaa pitkällä salasanalla jonka sisältö on DADADA, se vastaa kahden merkin DA -salausta. Toki toistuvuuden ei tarvitse olla näin yksinkertaista, matemaatikot puhuvat astetta teknisemmästä konseptista, redundanssista, ja sitä löytyy kirjainmerkeistä jotka arkijärjellä "näyttävät satunnaisilta". (Mistä saa hieman koomisen esimerkin Jeffery Shalitin "Recursivity" -blogista.) Tässä haasteena on se, että avaimen täytyy olla täysin satunnainen ; Sillä sattuma tuottaa todennäköisimmin algoritmista kompleksisuutta jossa ei ole redundanssia ja joita ei siksi voi häviöttä pakata. Ja täysin satunnaisen tuottaminen on haasteellista. Esimerkiksi PRNG -algoritmit tuottavat yleensä hyvin satunnaisenoloisia mutta kuitenkin pitkällä tähtäimellä pakattavissa olevia (siis redundanssia sisältäviä) merkkijonoja. Ja tämän vuoksi Vernanin salaus onkin usein käytännön tasolla purettavaa mallia.

Tämä ei tietysti tarkoita että "murtamaton linnake voidaan purkaa". Sillä jos tarjolla on pääsy täysin satunnaiseen kohinaan, salauksia voidaankin ryhtyä tekemään. Ja tässä tapauksessa kävisi todellakin niin että ei voitaisi tietää muuta kuin korkeintaan viestin pituus. Satunnaiskohina kun voi tuottaa minkä tahansa järjestyksen ja jokainen salausmerkkijono on yhtä epätodennäköinen. Lopputulosta ei voi purkaa. Mistä päästään tavallaan siihen erikoisuuteen josta kirjoitin kun selitin Hitlerin näköistä kissaa.

Tärkein kysymys onkin oikeastaan se, voidaanko "informaatiota" tuhota.

Jos asiaa ajatellaan fysiikan kannalta, moni viittaa siihen että informaatiota ei voi tuhota. Tämä on tavallaan hyvin järkevää siinä mielessä että informaatio voidaan käsittää asioiden järjestykseksi. Ja koska aineen ja energian säilymislaki viittaavat siihen että universumissa tietyt asiat vaihtuvat ja muuttuvat mutta eivät tuhoudu, voidaan todellakin sanoa että muutos ei tuota uutta informaatiota koska järjestys vain muuttuu. "Vanha informaatio tuhoutuu ja uutta tulee tilalle saman verran." Molemmissa on sama universumi jonka samat osaset ovat eri järjestyksessä.

Mutta jos asiaa tarkastelee datan kannalta, on selvää että datan määrä voi vaihdella hyvinkin paljon. On selvää että one-time padissamme käytetty salausavain on fysikaalisessa maailmassa ja sen atomit ja energia säilyy. Mutta hyvin harva uskoo että tietosisällön voisi palauttaa ennalleen siitä savupilvestä joka liekehtivästä salausavainsivusta on noussut. Monet termodynamiikan ominaisuudet nähdään nimenomaan entropiaa lisäävinä ja irreversiibeleinä. (Hyvä kuvaus palautumattomuudesta on vertaus makkarakoneesta. On kone jonka toisesta päästä menee aasi ja toisesta päästä tulee makkara, mutta ei ole konetta jonka toiseen päähän laitetaan makkara ja jonka toisesta päästä tulee aasi. Siis jos emme puhu kaksimielisin metaforin aasien seksistä.)

Informaation tuhoutumista pitääkin tätä kautta miettiä sitä kautta onko Laplacen demoni mahdollinen. Joku voisi ajatella että termodynamiikan toisen pääsäännön mukainen hajeasia ei ole samaa kuin kartoittamattomuus. Voitaiisin kuvitella että universumi toimii deterministisesti tiettyjen sääntöjen mukaan siten että jos tiedetään universumin kaikkien hiukkasten asema ja liikesuunta, voitaisiin tietää sen muutokset muina hetkinä. Tämä tarkoittaisi sitä että savusta itse viestin purkaminen ei onnistu vain siksi että ihminen ei ole Laplacen demoni. Tosiasiassa informaatiota ei siis voisi oikeasti tuhota lopullisesti, vain ja ainoastaan ihmisen kykyjen rajat ovat se oikea este joka estää one-time-padin salausavaimen selvittämisen. ; Mutta aika harva fyysikko uskoo Laplacen demonin olevan relevantti. Ja minäkään en näe. Kvanttifysiikkaa kuvaa indeterminismi. Heisenbergin epätarkkuusperiaate yksinkertaisesti estää tietämästä edes yhden partikkelin liikesuunnan ja sijainnin. (Saati koko universumin partikkeleiden.) Tällöin viestin tuhoutuminen voi olla aivan konkreettinen asia. Viestin salausavaimen voi tuhota niin että mitkään Kuninkaan miehet - Olipa kyseessä sitten Jeesuksen tai Aragornin seuraajat - eivät voi Lilleri lalleria parantaa.

Indeterminismi on siitä kiinnostavaa että se tarjoaa myös täysin satunnaisen lähteen. Joten vaikka tietokoneohjelmat ovat vain Pseudo Randon Number Generatoreita, niin kvantti-ilmiöt ja niihin sidotut asiat voisivat toimia aidon satunnaisuuden lähteinä. Jolloin salausavainkin voitaisiin saada täysin satunnaiseksi. Jota Vernanin salaus yhden kerran käytettävällä viestin mittaisella salausavaimella vaati.

Joten kenties onkin turvallista sanoa että muutos ei tuhoa "informaatiota", mutta sen sijaan tietyt kompositiot ja tätä kautta "data" on jotain jonka määrä vaihtelee. Ja jos data sidotaan algoritmiseen kompleksisuuteen, eli siihen miten epätodennäköinen se on ja miten pitkä algoritminen kuvaus sen tuottamiseen tarvitaan, voidaan jopa sanoa varsin turvallisesti että universumin indeterminismi pumppaa maailmaan koko ajan lisää tätä "dataa".

Kenties tämänlaatuinen pikkuriikkinen pyörittely on yllättävän tarpeen.

Ylläkuvaamani "informaation" ja "datan" jaottelu on tarpeen sen takia että muutoin voi olla hankalaa ymmärtää monia asioita. Esimerkiksi kreationistit aivan tosissaan esittävät että "mutaatio ei voi tuottaa informaatiota koska se vain muuttaa järjestystä". Ja samalla ajatella että "geenin kahdentuminen ei voi tuottaa uutta informaatiota koska sisältö pysyy samana". Voidaan ajatella että tässä hypitään käsitesisällöstä toiseen. Että ensin puhutaan "informaatiosta" jossa mutaatio on muutos. Ja jossa "dataa" kuvaa se että informaatio toistaa tietyn algoritmisesti kuvatun sisällön.

Ajatuksen omituisuutta ei ole vaikeaa näyttää. Jos meillä on sana "HAIKALA", sen muuttaminen "HAIKARA":ksi todella muuttaa yhden sanan toiseksi. "HAIKALA" tuhoutuu ja "HAIKARA" ilmestyy. Toisaalta jos kirjoitamme "HAIKALA HAIKALA", se ei tunnu lisäävän mitään olennaista uutta tietoa. (Teknisesti se itse asiassa tuottaa. Kolmogorov -kompleksisuus kasvaa pikkuriikkisen ja tämä voidaan nähdä ajatuksena että toistojen lukumäärä itsessään on tietoa siitä montako toistoa on. Mutta ignoroikaa tämä pikkudetalji.) Mutta jos me teemme ensin muutoksen "HAIKALA HAIKALA" ja sitten teemme muutoksen "HAIKALA HAIKARA" voimme huomata että lähtöasema "HAIKALA" pitää sisällään lisäsanan "HAIKARA" ilman että "HAIKALA" on tuhoutunut prosessissa.

Tämän taikatempun ymmärtäminen voi olla haasteellista, ellei huomaa että "järjestyksen pituus" ja "järjestyksen kompositio" ovat itse asiassa hieman eri asioita. Ja kun "informaatio" -sanaa käyteään yleisterminä nämä menevät helposti sekaisin ja syntyy ekvivokaatioita. Ja siksi oli kenties syytä polttaa yksi salausavain heittämällä se korkeasti radioaktiiviseen säteilyyn.

Ei kommentteja:

Lähetä kommentti