Voiko tekoäly auttaa suunnittelemaan uutisjuttujen visuaalisia elementtejä jo kirjoitusvaiheessa? Tässä innovaatiokokeilussa testattiin ideaa visuaalisesta apurista, joka ehdottaisi ja tuottaisi juttuihin grafiikoita ja muita rikasteita artikkelin sisällön pohjalta. Kokeilu osoitti, että tekoäly pystyy ideoimaan käyttökelpoisia visuaalisia ratkaisuja mutta niiden toteuttaminen osoittautui teknisesti haastavaksi.
Tekoäly
Tatu Helle, Jere Lindberg, Jenina Salminen
Lähdimme kehittämään tekoälyllä visuaalista apuria, joka auttaa suunnittelemaan ja toteuttamaan jutun visuaalisia elementtejä jo kirjoitusvaiheessa. Apuri suunnittelee ja tekee erilaisia kuvia, videoita, grafiikoita tai muita rikasteita tarpeen mukaan. Se voi ehdottaa, mitkä osat kirjoitetun artikkelin leipätekstistä voi korvata visuaalisilla elementeillä.
Alun perin ajattelimme, että työkalu voisi huomioida myös eri yleisöprofiilit ja auttaa versioimaan sisältöjä niiden mukaan. Huomasimme kuitenkin, että jo pelkkä visuaalisten elementtien suunnittelu ja toteuttaminen tuotti varsin paljon työtä.
Kokeilimme ensin toteuttaa visuaalista apuria maksullisella ChatGPT:n 5.2 -versiolla. Testaamiseen meillä oli käytössä Savon Sanomien vanhoista jutuista koostuva aineisto.
Kokeilussa huomasimme, että ChatGPT pystyi ideoimaan visuaalisia elementtejä varsin luovasti pyyntöjemme mukaisesti. Se keksi toteuttamiskelpoisia ideoita graafisille elementeille valitsemiimme esimerkkijuttuihin, jotka käsittelivät muun muassa korona-ajan tartuntamääriä ja KuPSin pelaajahankintoja. Ideat grafiikoihin tekoäly sai artikkelien sisällön pohjalta.
Ongelmaksi muodostui grafiikoiden toteuttaminen visuaalisessa muodossa. ChatGPT ei kyennyt toteuttamaan valmiita, visuaalisesti järkeviä tuotoksia. Sen tekemät taulukot näyttivät kuin Wordillä tehdyiltä eivätkä tuoneet lisäarvoa juttuihin. Tekoälyn tuottamissa grafiikoissa taas häiritsivät erityisesti niiden sisältämät tekstit, jotka eivät olleet oikeakielistä suomea. Lisäksi tekoäly keksi osan grafiikkojen sisällöistä itse, eivätkä esimerkiksi kaikki luvut olleet peräisin alkuperäisestä artikkelista, vaikka olimme ohjeistaneet käyttämään lähteenä vain aineistoa.
Koska ChatGPT ei soveltunut visuaalisten elementtien toteuttamiseen, vaihdoimme tekoälyohjelmaksi maksullisen Google Gemini 3:n. Geminiä käyttäessämme huomasimme heti, että se on keskustelijana kömpelömpi kuin GhatGPT. Gemini tarvitsi pyyntöjemme toteuttamiseen selkeästi yksityiskohtaisemmat ohjeet, eikä se muistanut hyvin aiemmin keskustelussa esiin tulleita asioita.
Pyysimme Geminiä ideoimaan grafiikkaa juttuun, joka käsitteli kahden jalkapallopelaajan siirtymistä KuPSiin. Työkalu ehdotti jutun grafiikaksi niin sanottuja pelaajakortteja, joista ilmenisi muun muassa pelaajien aiemmat seurat, tilastoja edelliseltä kaudelta ja vahvuudet pelaajina.
ryhmä
Työkalu osasi kaivaa itsenäisesti tarvittavat tiedot alkuperäisen jutun leipätekstistä. Se osasi luoda pelaajakortit pienen painimisen jälkeen, mutta ne olivat aluksi visuaalisesti hyvin pelkistettyjä. Lisäohjeilla saimme kuitenkin korteista kerta kerralta paremman näköisiä. Käskimme esimerkiksi tekoälyä siirtämään tekstin kortin reunaviivojen sisäpuolelle, koska se ei sitä itse ymmärtänyt. Gemini toteutti käskyt ja lopputulos oli mielestämme varsin hyvä.
Yritimme vielä viedä kortin visuaalisuutta eteenpäin Geminin Nano Banana -kuvatyökalulla. Lopputulos ei ollut hyvä: visuaalisuus parani, mutta korttien teksteistä tuli pelkkää siansaksaa. Tämä toistui muissakin kokeiluissamme, olipa kyseessä kartta tai mikä tahansa visuaalinen elementti. Kysyimme työkalulta, mistä tämä johtuu ja se antoi seuraavanlaisen vastauksen:
"Tässä on muutama syy, miksi kuvien tekstit menevät usein pieleen:
- Pikselit vs. kirjaimet: Kuvageneraattori ei ymmärrä aakkosia tai kieltä. Se käsittelee tekstiä visuaalisena kuviona. Se yrittää matkia sitä, miltä suomen kieli tai sanomalehtiotsikko näyttää, mutta lopputulos on usein "lorem ipsumia" muistuttavaa siansaksaa.
- Hienomotorinen epätarkkuus: Vaikka mallit kehittyvät huimaa vauhtia, monimutkaisten merkkiyhdistelmien (kuten "Pohjois-Savo") renderöinti osana kuvaa on laskennallisesti vaikeaa.
- Kuvallinen painotus: Generaattori keskittyy enemmän tunnelmaan, valaistukseen ja asetteluun kuin tekstin oikeinkirjoitukseen."
Loppupäätelmänä toteamme, että Geminin perusversio osaa luoda varsin yksinkertaisia, pelkistettyjä taulukoita ja muita graafeja käyttämällä lähteenä lehtijutun leipätekstiä.
Visuaaliseen luomiseen tarkoitettu Nano Banana -työkalu sen sijaan ei ymmärrä tekstiä, joten sitä ei voi tekstiä sisältävissä elementeissä käyttää. Hienoja kuvia ilman tekstiä se osasi luoda, mutta journalistisissa kuvissa tekoälyn käyttö ei ainakaan vielä ole kovin suotavaa.
Tekoälyn ongelma kokeilussamme oli, että välillä se toimii ja välillä ei. Lopputulosta oli vaikea arvata etukäteen. Tämä johtaa väistämättä siihen, ettei graafikon töitä voi luovuttaa pelkästään tekoälyn vastuulle.
Toisaalta tekoälyn luoman pelaajakortin paras versio oli mielestämme hienompi kuin pelkkä tavallinen tietolaatikko jutussa. Sen vuoksi tekoälystä voisi ainakin joissain tilanteissa olla hyötyä pienissä toimituksissa, joissa ei ole ollenkaan graafikkoa töissä.
Jos tekoälyn visuaaliset kyvyt kehittyisivät tulevaisuudessa, voisi visuaalinen apuri parhaimmillaan olla jopa osa toimitusjärjestelmää. Tällöin tekoäly voisi esimerkiksi antaa jutun kirjoittamisen edetessä automaattisesti ideoita siihen sopivista grafiikoista ja tehdä niistä käyttökelpoisia versioita. Meidän kokeilumme perusteella tällaiseen on vielä matkaa.