Sanapilvet ovat moderni (ehkä jo liikaakin käytetty) tapa tiivistää tekstiä. Viime viikolla pääsin taas näkemään yhden suomalaisen konsulttifirman työn hedelmiä, kun he olivat tiivistäneet satojen vastaajien avovastaukset sanapilveen. Facepalm-hetki.
Voi toki olla montaa mieltä siitä, onko tällainen järkevää tiivistämistä, vai häviääkö sanapilven visuaalisuudessa kuitenkin jotain arvokasta. Mutta jos sanapilviä tehdään suomen kielellä, ne pitäisi tehdä oikein.
Sanapilven ideahan on, että mitä useammin tietty sana esiintyy tekstissä, sitä suurempana sana näytetään. Tyypillisesti sanapilvistä poistetaan yleiset täytesanat kuten “ja”, “tai” jne. Sanapilvigeneraattorit tekevät tällaisen siivouksen automaattisesti, mutta vain englannin kielellä. Suomenkielisestä aineistosta siivoaminen on tehtävä itse. Se ei nyt vielä ole ongelma, siinä menee puoli minuuttia kun käsin sen tekee.
Suurempi ongelma on siinä, että suomen kielessä sanoja taivutetaan. Sama sana esiintyy tekstissä lukuisissa eri muodoissa. Englanninkieliset sanapilvikoneet osaavat lähinnä poistaa perässä olevan monikkoässän, mutta siitä ei ole juurikaan iloa suomalaisille.
Lähes poikkeuksetta näkemäni suomenkieliset sanapilvet (joita johdon konsultit tekevät varsin suurella korvauksella) ovat (sanalla sanoen) roskaa. Jotain pitäisi muka päätellä sanojen suuruudesta, mutta kun se sama sama löytyy sitten lukuisissa eri muodoissa siellä pilven seassa, niin mitä tämä visualisointi oikeasti kertoo?
Otetaan esimerkiksi maaliskuinen Valtioneuvoston toimenpideluettelo koronatilanteen hillitsemiseksi. Sanapilvi WordArtilla tehtynä (huom, vaihda fontiksi jokin fontti, joka osaa ääkköset) näyttää tältä, kun siitä poistaa käsin ne yleisimmät täytesanat (ja, tai, että, niin, jne.):
Aikamoista sillisalaattia. Yritetään tehdä parempi.
Perusmuotoistaminen tekstiaineistosta ei ole kovin kivaa työtä käsin tehtäväksi. Onneksi tarvittava kielitiede on kehitetty jo joskus 1980-luvulla ja meillä on nykyisin avoimen lähdekoodin kirjastoja, jotka osaavat perusmuotoistaa sanoja. Voikko lienee hyvä esimerkki. Noheva koodari tekee skriptin alta tunnissa. Mutta jos et ole koodari, niin minäpä otin ja tein perusmuotoistajasta verkkopalvelun. Kas tässä: www.tarmo.fi/perusmuotoon/
Alla sanapilvi samasta aineistosta, jossa sanat on lemmatisoitu eli perusmuotoistettu:
Onko tämä nyt sitten hyödyllisempi sanapilvi? No ainakin se on totuudenmukaisempi visualisointi alkuperäisestä aineistosta.
Tietysti voitaisiin todeta, että tässä aineistossa “Suomi” ja muutama muu sana ovat ikäänkuin asiayhteyden vuoksi itsestäänselvyyksiä. Poistetaan ne ja katsotaan, mitä nousee esiin:
En nyt edelleenkään ole vakuuttunut siitä, että sanapilvi on oikeasti hyödyllinen tapa tiivistää asioita. Se taitaa olla enemmänkin hätäkeino saada muka-kiireiset ihmiset kuvittelemaan, että he ovat sisäistäneet jonkin aineiston olennaiset asiat parissa sekunnissa.
Mutta jos jostain syystä haluat tehdä suomenkielisistä aineistoista sanapilviä, niin perusmuotoista ne sanat ennen pilven polttelua! Käytä vaikka tätä: www.tarmo.fi/perusmuotoon/
Tuija Marstio says
Kiitos Tarmo. Tämä on hyvä työkalu!