Puolustuspuhe sanapilvelle

sanapilvi

Tekstissä esiintyvien sanojen tiheyksiä kuvaavia sanapilviä on vähitellen alkanut ilmestyä paitsi verkkosivuille myös kalvoesityksiin, printtimediaan ja mainoksiin. Sanapilven avulla pyritään luomaan yhdellä silmäyksellä yleiskuva jonkin tekstin tai tekstikokoelman keskeisestä sisällöstä. Tiedon visualisointimuotona sanapilvet kohtaavat kuitenkin usein kritiikkiä (lue esim. Informaatiomuotoilu-blogin ja Katleena Kortesuon kommentit.)

Kriitikkojen esittämät huomiot ovat sinänsä oikeutettuja: on totta, että sanapilvet voivat antaa harhaanjohtavan kuvan tekstin sisällöstä. On myös totta, ettei tällainen sanojen esiintymistiheyksiin perustuva työkalu vailla kieliopillista prosessointia sovi kovin hyvin suomen kaltaiselle ns. agglutinoivalle kielelle, jossa taivutusmuotoja on joka lähtöön.  Eikä se prosessointikaan, eli kantasanaan palauttaminen, ratkaisisi kaikkia ongelmia.

Kaikesta epätäydellisyydestään huolimatta sanapilvellä on kuitenkin merkittävä rooli juuri nyt, kun big datan ja analytiikan rooli päätöksenteossa kasvaa: sanapilvi on ehdoton edelläkävijä tekstidatan visualisointityökaluna. Onhan se kömpelö ja puutteellinen, mutta sen kautta alamme vähitellen tottua ajatukseen, että tekstikin on dataa, ja siitä on löydettävissä kiinnostavia säännönmukaisuuksia ja poikkeamia. Niiden avulla taas pystymme kenties hahmottamaan markkinoitamme tai asiakkaidemme toiveita entistä paremmin.

Seuraava suuren yleisön tietoisuuteen nouseva työkalu tekstin visualisointiin on varmaan jo monisyisempi. Monipuolisempia tekstinvisualisointityökaluja löytyy toki jo nyt vaikkapa täältä, mutta harva niitä vielä osaa tehokkaasti tulkita, saati käyttää oman datan havainnollistamiseen. Kun näiden työkalujen käytettävyys ja tulkittavuus kasvaa, tilanne muuttuu: viiden vuoden sisällä tekstidatan ja varsinkin datamassojen kuvaaminen kaikenlaisten visualisointien avulla tulee olemaan osa PowerPoint-esitysten vakiovalikoimaa.

Puolustuspuhe sanapilvelle