perjantai 16. lokakuuta 2009

Tupla ja kuitti?

Jeffrey Shallitin blogauksessa "Test Your Knowledge of Information Theory" on sivumennen mainittu mielenkiintoinen asia, joka koskee kahdentumista ja sen vaikutusta informaatioon. "if x is a string of symbols, is it possible for xx to contain more information than x?"
Kysymyksiä oli tietysti muitakin. (Mutta ne eivät kuulu tähän aiheeseen.) Myöhemmin paljastuu, että "The answer to each question is "yes"."

Tämähän on siitä hauska asia, että jos meillä on merkkijono "1" ja merkkijono "11111111111" on jälkimmäinen pitkä ja säännönmukainen. Sen ilmaisussa on käytetty paljon bittejä, joten karkeasti se on "pitkä". Toista kautta ajatellen se esittää epätodennäköisen tilan, ja yhdellä tavalla ajatellen informatiivinen. Tässä kahdentuminen lisää informaatiota, kunhan kyse on siitä informaation määrittelystä, johon viittasin aikaisemmin naputellessani "Vegasin noppaihmeistä". Kahdentaminen siis lisää informaatiota. Tämä on tietysti vähän tylsää, arvattavaaa.

Kuitenkin Shallit on toisaalla viitannut myös siihen, että vaikka puhuttaisiin Kolmogorovin kompleksisuudesta, eli algoritmisesta kompleksisuudesta, jonon xx kompleksisuus ylittää jonon x kompleksisuuden äärettömän monella jonolla x. Toisin sanoen, yksinkertainen ohjelma joka kahdentaa merkkijonoja, joka siis tekee x:stä xx:n lisää informaatiota siinä muodossa miten Kolmogorov sen määritteli. Jos kahdentamista sovelletaan tuloksiin uudestaan, voidaan informaatiota kasvattaa tästäkin.

Syynä on tietysti se, että vaikka algoritminen kompleksisuus käsittelee juuri rakenteita, ja suuri toiston määrä tekee merkkijonosta tiivistettävän, toistojen tiivistyksen jälkeen se on kuitenkin kompleksisempi kuin ennen kahdentumista.

Tähän saadaan ymmärrystä hieman "arkiajattelunkin kautta" : Jos meillä on merkkijono, meillä on vain se. Jos me kahdennamme, meidän täytyy tietää mitä kahdennetaan ja montako kertaa. Kahdennettava osuus ei muutu, mutta "montako kertaa" -osuus tarvitaan. Mukana on siis tavallaan tieto siitä että jotain on useampia kappaleita, ja tämä itsessään on informaatiota.

Kielessä itse asiassa tapahtuu hieman samanlainen, ei siis missään mielessä identtisesti sama asia monikkomuodon lisäyksessä. "Kissasta" tulee "Kissoja". "Kissa" "Kissa" ... "Kissa" "Kissa" lyhenee, mutta jäljelle jää se monikon liite. Esimerkki luultavasti selventää hieman sitä mistä on kyse, vaikka korostan että tämä ei ole sitä "ihan oikeaa informatiota", vaan analoginen tilanne.

Toinen "arkielämän kielellisesti" ymmärrettävä asia voi olla vaikkapa se, jonka blogauksessa kommenteissa esitti Kari Tikkanen: "Wholesaler sends 437 Hamlets to a bookstore and there sales(wo)man asks boss: -What is the secret password to contact wholesaler's main computer? Boss:-Calc the number of copies we got.."

Se, mikä tässä on luultavasti hämäävää on se, että merkkijonon pituus kasvaa enemmän kuin kompleksisuus. Kun ihminen näkee pitkän rivin "X":ää, hän todennäköisesti kiinnittää huomiota siihen miten paljon hän voi sitä pakata. Että esim. "10X", onpa lyhyt. On kuitenkin pidempi kuin "X". Pitää katsoa arviota alarajasta (jota ei usein saada tarkasti tietoon, vaan vain ainoastaan arvio). Algoritmista kompleksisuutta arvioitaessa ei tavallaan kiinnosta "paljonko rivissä on tyhjää" vaan paljon se vaatii kun "ilmat on otettu pois".
X ei tässä viittaa mihinkään ihmisten sukupuolikromosomeihin. Päätelmät naisten ja miesten informaatioiden erosta eivät siis ole mitenkään keskiössä.

4 kommenttia:

MrrKAT kirjoitti...

Viimeisin versioni sfnetissä:


ab monistuu ->abababab...ab (343 ab:ta), tämän lähettäminen FBI:lle
auttaa avaamaan amerikkalaisen palestiinalaisen
kreationistiterroristin matkalaukun numerolukon, jonka koodi on 343.
Samaan aikaan toinen kreationisti vakavalla naamalla väittää että
monistaminen
ei tuo yhtään uutta informaatiolisää.

Kuopijon vossikattii naaraa tuommoselle pellelle.


Oli vastaukseni kreationisti markulle joka otsikoi "infromaatiota ei nyhjäistä tyhjästä" ja tukeutui suom. id-sivustoon ja näihin lauseihin:

Laki/itseorganisoituminen saa siis aikaan järjestystä, esimerkiksi “ababababababababab”, muttei informaatiota, kuten “Veikko, lähdin kauppaan”. Tapauksissa, joissa lain väitetään synnyttävän informaatiota, kyse on toistaiseksi vain informaation monistamisesta tai siirtämisestä.
http://www.intelligentdesign.fi/2009/10/07/elaman-koodi-informaatio-ja-suunnittelu-parhaana-selityksena/

Tuomo "Squirrel" Hämäläinen kirjoitti...

Äääh, aina tuota kreationismia. :)

Minusta on kivompi kirjoittaa vain informaatiosta. Kahdentuman tuottama informaatio algoritmisessa kompleksisuudessa rikkoo intuitiota, mutta sen lisääntymistä tapahtuu. Eikä tarvitse miettiä edes sitä onko se "kreationistien informaatiota" vai ei. Kun ei ole aiheena.

Informaatiosta on heillä siis käytössä jokin ihan muu asia, kuin matemaattinen informaatio. Luulen että puhuvat merkityksestä. Ja se ei ole yhtään sitä, mitä informaatioteorian matikka. Puhuvat merkityksistä. Tosiasiassa AAAAAA tai kompleksinen satunnaisjono on "vain rakennetta". Merkitys sen sijaan on sopimuskysymys, ei informaatiota.

Tai kuten joku jossain sanoi: Mikään tietokoneen bittikone ei osaa erottaa merkityksellisiä ulkomaanlauseita arvotuista jonoista. Ellei kieltä tungeta niihin ensin, eli opeteta valmiiksi kaikkia kieliä ja sanoja. (Tosin "äännettävyys" tietysti oikeasti hieman rajaa merkkijonojen maailmaa. Mutta tässäkin otettava huomioon kielen tuottajan rajoitteet.)

Tässä merkityksessä on tietysti kreationistien kannalta se hyvä puoli, että se ei ole rakennetta, joten matikassa sitä ei tosiaan "tuoteta". Ongelma on tietysti siinä, että sitä ei voi myöskään tunnistaa, koska se ei ole sitä rakennepuolta.

Tuomo "Squirrel" Hämäläinen kirjoitti...

Merkityksessähän taas on se kiva piirre, että sitä voidaan lähestyä vaikka sanakirjantunnistamisen kautta. Tosiasiassahan tieto kielestä saadaan oppimalla eri kielen sanoja. Tätä ei voi tehdä olematta joko suoraan tai välillisesti tekemisissä kielen kanssa. (Jopa hieroglyfejen ratkaisu riippui siitä että käytettiin koptia apuna!)

Siksi suunnittelu voitaisiin tunnistaa löytämällä Raamatun lukuun verrattava katkelma. Mutta mitä meillä täytyisi olla, jotta voisimme tunnistaa sen sellaiseksi? Jos vain löydämme korrelaatiosarjan, kyseessä on lainomaisuus. Siksi jos on vaikka kirjattu helmillä ja morsekoodilla maahan, näkyy vain että on jonossa jossa on aukkoja. Aukoissa joko on sääntö tai ei ole sääntöä. Se ei auta tunnistamaan merkitystä.

Kielessä on satunnaisen näköisiä sanoja, jotka on rakenteellisesti komplekseja. Kielessä on tosi toistorakenteisia lauseita (kuten se vanha kunnon suomalainen lause Kokosta), joiden kompleksisuus on pieni mutta lainmukaisuus suuri.

Kivana on tietysti se, että kun kyse on sopimuksesta, eliminointi ei tee mitään ratkaisun kannalta olennaista. Siinä sorkitaan rakennetta, vaikka pitäisi sorkkia "jotain muuta". Sitä ollaan ikään kuin tekemässä sanakirjaa ilman että otetaan kielen puhujiin mitään yhteyttä.

Tuomo "Squirrel" Hämäläinen kirjoitti...

Chu-Carroll vihjasi hauskasti tuohon informaation säilymiseen. Ja sen perustelemiseen ja tapaan, jolla "Informaatioteorian Newton" sitä käyttää.

So why is that not a "conservation of information" law?

Because there's no conserved quantity. In a real conservation law, you have a measured quantity that you start with, and throughout any series of actions or events, you can prove that that quantity never changes. For example, you can look at a physical system in a particular frame of reference and measure the total momentum in the system. Then throughout any series of interactions, you can show that the momentum never changes.

In Dembski's system, can you measure the total information in the system? No. Can you show that the amount of information in the system is the same before and after a search? Not in any meaningful way, no. Can you look at a search function, and ask how much information it encodes from a particular landscape? Not in any meaningful way, no.

To be a little bit concrete: there is no analytic way to look at a search function and quantify how much &lquot;active information&rquot; is embedded in it. It can only be determined retrospectively: run the search in the landscape, determine how well it performed, and then quantify its performance. Looked at from that perspective, it's a (sloppy) re-statement of Kolmogorov-Chaitin information theory: the information contained in a string (or, to use Dembski's scenario, a landscape position) is the shortest program that can generate that string (or a path to that position).

So - Dembski unknowingly rephrased a bit of K-C theory. That's not so bad, right? To manage to redo a bit of work by two of the best mathematicians of the 20th century? Well, if that's what he meant to do, it wouldn't be bad. But it's very bad for Dembski's argument: K-C theory doesn't support Dembski's argument. In fact, in K-C theory, you can't quantify information in a precise way. Beyond some absolutely trivial examples, you can't measure the quantity of information.

Dembski is arguing that information must be conserved, using a framework that in which you can't measure it. And further, it's a framework in which the intuitive notion of information - which is what Dembski is really relying on - has absolutely no connection with the information that's supposedly hidden in the search.


...

"He defines the active information in a system in terms of how that system performs in a search. Then he shows that the amount of information that results from doing the search is equal to the amount of active information in the search algorithm. It's a trick of definitions, obscured by a lot of pointlessly complex math. In essence, it reduces to making a blind assertion: information is conserved; therefore any system that can in any sense produce information must contain that information. But since by the algorithmic definition of information, any system that produces information contains the information it produces, saying that information is conserved is a simple tautology - exactly the kind of statement that Dembski mocks in the beginning of the paper!"

En ymmärrä miksi koko säilymisväitteille pitäisi antaa mitään painoarvoa.