Voiko suurista verkkokeskusteluista löytää nousevia aiheita journalistisen työn tueksi? Kehitimme Uutisnenän, joka tunnistaa keskusteluaineistosta poikkeuksellisesti kasvavia termejä ja tarkastelee niiden kontekstia. Kokeilu osoitti, että tällainen analyysi voi toimia hyödyllisenä ensivaiheen seulana, joka auttaa toimittajaa havaitsemaan sekä mediakeskustelun heijastumia että uusia keskustelupiikkejä.
Tekoäly
Johdanto. Tavoitteenamme oli tehdä Uutisnenä-työkalu eli menetelmä, joka tunnistaa suurista keskusteluaineistoista nousevia aiheita ja muita mahdollisia journalistisia signaaleja. Tarkoituksena ei ollut rakentaa valmista toimitustyökalua, vaan kokeilla, voidaanko keskusteludatasta löytää muutoksia, jotka voisivat toimia toimittajalle hyödyllisinä johtolankoina.
Aineisto ja rajaus. Käytimme aineistona Suomi24-keskustelupalstan tutkimuskäyttöön saatavilla olevaa
aineistoa. Rajasimme tarkastelun vuoteen 2022, koska kyseinen vuosi sisälsi useita näkyviä mediatapahtumia, kuten Venäjän hyökkäyksen
Ukrainaan, koronakeskustelun, Sanna Marinin bilekohun ja Haminan mursun. Tämä teki vuodesta hyvän testiaineiston: jos menetelmä toimii, sen pitäisi tunnistaa nämä aiheet. Samalla oli mahdollista tarkastella, mitä nousee esiin niiden ulkopuolelta.
Suomi24 oli testiaineistona kiinnostava myös siksi, ettei se todennäköisesti edusta aivan samaa yleisöä kuin esimerkiksi toimitusten oma sosiaalinen maailma. Siksi se voi tuoda näkyviin puhetapoja, huolia ja mediakritiikkiä, jotka eivät muuten helposti päädy toimitusten näkökenttään.
Työkalut ja työskentelytapa. Analyysin tekemisessä käytimme ennen kaikkea VS Codea, Microsoft PowerShellia ja ChatGPT:tä.
VS Code toimi ympäristönä, jossa skriptejä kirjoitettiin ja muokattiin, ja PowerShellin avulla aineistoa pystyttiin käsittelemään komentoriviltä silloin, kun tiedostot olivat liian suuria tavalliseen avaamiseen. ChatGPT:llä oli työssä keskeinen rooli. Se toimi käytännössä moottorina, joka auttoi muodostamaan ohjelmakoodia, ratkaisemaan teknisiä ongelmia ja jäsentämään analyysin vaiheita.
Vaikka aineistot olivat niin suuria, ettei niitä voinut sellaisinaan syöttää ChatGPT:n sisään käsiteltäviksi, työkalu oli silti erittäin hyödyllinen. Sen suurin hyöty ei ollut itse datan suorassa käsittelyssä vaan siinä, että se auttoi tuottamaan tarvittavat skriptit ja ohjeet aineiston ohjelmalliseen käsittelyyn.
Käytännössä ChatGPT mahdollisti sen, että pystyimme hyödyntämään ohjelmointia ja komentorivityökaluja tavalla, joka olisi muuten vienyt huomattavasti enemmän aikaa.
Työskentely nosti samalla esiin myös kriittisen huomion. Aineistoa onnistuttiin selaamaan, prosessoimaan ja analysoimaan ilman, että ymmärsimme koko ajan kovinkaan hyvin sitä, mitä olimme teknisesti tekemässä. Tämä tuntui oudolta, mutta juuri siksi se on tärkeä osa työn reflektiota.
Tekoälyavusteinen työskentely voi madaltaa merkittävästi teknisen analyysin kynnystä, mutta samalla se voi synnyttää tilanteen, jossa käyttäjä osaa käyttää menetelmää käytännössä paremmin kuin hän ymmärtää sen kaikkia yksityiskohtia.
Tässä innovaatiokokeilussamme tämä ei estänyt tulosten saamista, mutta se muistutti siitä, että menetelmän käyttö ja sen syvällinen hallinta eivät ole sama asia.
Menetelmä. Aineiston koko oli niin suuri, ettei sitä voinut käsitellä tavallisella editoriselailulla. Tämän vuoksi aineistoa lähestyttiin ohjelmallisesti. Siitä poimittiin ensin pieni näyte rakenteen ymmärtämiseksi, minkä jälkeen koko vuoden aineisto käytiin läpi eräajona ja siitä muodostettiin viikkokohtainen indeksi.
Tämän indeksin pohjalta laskettiin nousevia termejä vertaamalla kunkin viikon termimääriä aiempien viikkojen keskiarvoon. Tarkastelun kohteena eivät siis olleet viikon yleisimmät sanat, vaan sanat, joiden käyttö kasvoi poikkeuksellisen paljon suhteessa aiempaan. Tämän jälkeen valituille termeille haettiin alkuperäisestä aineistosta kontekstikatkelmia, jotta voitiin arvioida, mistä nousussa todella oli kyse.
Havainnot. Menetelmä toimi hyvin ensimmäisenä seulana. Se pystyi nostamaan esiin viikkoja, joilla jokin aihe tai termi nousi aineistossa selvästi näkyviin. Pelkkä termi ei kuitenkaan vielä kertonut riittävästi, vaan tulkinta vaati kontekstin tarkistamista.
Hyvä esimerkki tästä oli termi mursu, josta oli heti pääteltävissä, että kyse oli niin sanotusta Haminan mursusta – minkä tulkinnan tekstikontekstikatkelmat vahvistivat.
Samalla tekstikonteksti osoitti, ettei keskustelu koskenut vain itse tapahtumaa, vaan mukana oli myös mediakritiikkiä: keskustelijat pohtivat, miksi mursu sai paljon huomiota samaan aikaan kun esimerkiksi helle aiheutti vanhuksille vakavia ongelmia.
Toinen kiinnostava tapaus oli glossolalia, jonka nousu ei näyttänyt liittyvän suoraan mihinkään isoon mediatapahtumaan. Katkelmien perusteella kyse oli pikemminkin foorumin omasta uskonnollis-teologisesta keskustelupiikistä. Tämä oli tärkeä havainto, koska se osoitti, että aineistosta voi löytyä myös muuta kuin median agendan heijastumia.
Tulosten jäsentyminen. Vuoden 2022 löydökset alkoivat jäsentyä kolmeen koriin:
1. Mediatapahtumien heijastumat, joissa termin nousu liittyi selvästi tunnettuihin uutisaiheisiin.
2. Aidot keskustelupiikit, joissa keskustelu näytti syntyvän enemmän foorumin omasta dynamiikasta kuin journalistisen median uutisagendasta.
3. Ryönä ja artefaktit, joissa nousu perustui mekaaniseen toistoon, outoihin sanakatkelmiin tai muuten heikkolaatuiseen sisältöön.
Tämä jako oli työn tärkein tulos. Se osoitti, että nousevien termien tunnistus toimii hyvänä ensivaiheen seulana, mutta ei vielä sellaisenaan toimituskelpoisena työkaluna. Se löytää muutoksia mutta ei yksin kerro, onko kyse uutiskaiusta, aidosta keskustelupiikistä vai roskasta.
Johtopäätökset. Innovaatiokokeilumme perusteella voidaan sanoa, että suuresta keskusteluaineistosta on mahdollista tunnistaa viikkokohtaisia nousevia termejä ja tarkistaa niiden merkitys kontekstin avulla. Samalla kävi ilmi, että löydökset eivät ole journalistisesti samanarvoisia. Osa heijastaa suoraan median jo näkyviä puheenaiheita, osa näyttää aidolta keskustelupiikiltä ja osa on pelkkää ryönää.
Työn tärkein anti ei siis ollut valmiin työkalun rakentaminen, vaan sen osoittaminen, miten tämänkaltainen työkalu voisi toimia ja mitä ongelmia sen käyttöönottoon liittyy. Uutisnenän suurin potentiaali ei ehkä ole vain uusien aiheiden löytämisessä, vaan myös siinä, että se voi auttaa toimittajaa näkemään, miten tietyt yleisöt reagoivat uutisaiheisiin, kritisoivat mediaa ja tuottavat omia keskustelupiikkejään.
(Raportin tekemiseen on käytetty tekoälyä.)