Automaattinen sisällönanalyysi: asiasanoitus


Miten automaattinen sisältöanalyysi voisi parantaa Areenan audio- ja videosisältöjen löydettävyyttä ja käyttöä?

Tiimi: Kim Viljanen / Yle, Sami Mattila / Yle, Aalto-yliopisto
Julkaistu 25.1.2017

MITÄ ME YRITIMME SELVITTÄÄ?

Kolmannessa testikokonaisuudessa kokeilimme miten asiasanoitusta voitaisiin tuottaa automaattisesti litteraatiosta tai kuvantunnistuksella kuvapinnasta.

MIKSI SE ON TÄRKEÄÄ TAI MERKITYKSELLISTÄ?

Yle Areenaan julkaistaan vuosittain noin 15 000 tuntia videosisältöä ja 35 000 tuntia audiota. Yhteensä sisältöjä (jakso, klippi, pisteohjelma) on saatavilla kullakin hetkellä noin 150 000 kappaletta. Metatiedon tuottaminen on hidasta ja työlästä, joten siinä joudutaan keskittymään ydinasioihin eikä löydettävyyden maksimointiin.

Kun audiovisuaalinen sisältö on muutettu tekstiksi ja metatiedoksi (kuva 1), voidaan sisällölle tarjota kaikki samat toiminnallisuudet kuin tekstisisällölle: hakua, asiasanoitusta, notifikaatioita aiheen mukaan, automaattisia linkkejä lisätietoihin samasta aiheesta, tiivistelmät, sisällön jako loogisiin kokonaisuuksiin jne. Löydettävyys paranee, palvelu paranee, asiakastyytyväisyys kasvaa.

MITÄ ME KÄYTÄNNÖSSÄ TEIMME?

Syötimme automaattisesti tuotetun litteraation Ylen käyttämään automaattiseen asiasanoituspalveluun, jolla Ylen artikkelisisältö asiasanoitetaan (kuva 2). Järjestelmä tunnisti litteraation perusteella ohjelman pääkäsitteet. Alustavat havainnot tässä olivat, että litteraatiosta on mahdollista luoda koneellisesti sisältöä kuvaavan asiasanoituksen ja se kuvaa hyvin ohjelman sisältöä. Ilmeinen haaste on se, että asiasanoihin voi tällä menetelmällä tulla vain sellaisia aiheita, jotka mainitaan puheessa.

Erityisesti TV-ohjelmissa hyödynnetään usein välineen visuaalisia keinoja, jolloin esimerkiksi haastateltavan nimeä ei lausuta ääneen (nimi näytetään tekstinä ruudussa) tai ohjelman kannalta tärkeä asia käsitellään pelkästään visuaalisin keinoin (esimerkiksi tunnetila, fyysinen objekti, prosessi tai tapahtumapaikka).

Visuaalisten asioiden tunnistamiseen liittyen kokeilimme videokuvan automaattista analysointia, jolloin kone tunnisti mitä kuvassa näkyy. Tunnistaminen tapahtui vertailemalla visuaalista sisältöä julkisesti saatavilla oleviin visuaalisen tunnistuksen kuvatietokantoihin (LSCOM, COCO ja SUN). Kuvasta pystyttiin niiden avulla tunnistamaan hyvin vaihtelevalla tarkkuudella mm. onko kuvassa mies, nainen, lapsi, lentokone, banaani, puutarha tai taidegalleria.

Tekoälyllä kokeiltiin luonnollisen kielen kuvauksen luomista siitä, mitä kuvassa tapahtuu. Tunnistus menee tosin välillä hieman pieleen...
 

MITÄ TÄSSÄ KOKEILUSSA OPIMME?

Kone ei ole täydellinen. Puheentunnistuksen osalta välillä kone tulkitsi puheen väärin tai osa puheesta jäi kokonaan huomaamatta. Haun kannalta automaattinen litteraatio tuntuisi kuitenkin toimivan jo nyt hyvin ja pystyimme osoittamaan, että teknologia on suoraviivaisesti käyttöönotettavissa Yle Areenassa. Ydinkysymys on ei ole niinkään se miten hyvin puheentunnistus toimii vaan missä määrin yleisö haluaa hakea audiovisuaalisia sisältöjä aiheiden perusteella verrattuna ohjelman nimellä tapahtuvaan hakuun.

Joskus automaattisesti tunnistetut segmentit olivat liian lyhyitä ollakseen sisällöllisesti merkittäviä. Sisältöjen automaattinen segmentointi tuntui kuitenkin toimivan hyvin ja sarjan jaksoissa toistuvien osien tunnistaminen oli automatisoitavissa hyvin. Ohjelman sisäinen aiheenmukainen segmentointi vaati ainakin toistaiseksi järjestelmän hienosäätämistä sarjakohtaisesti eli täysi automaatio ei vielä onnistunut.

Automaattisen sisältötunnistuksen virheet eivät ole este, jos tuotettua dataa hyödynnetään ymmärtäen teknologian vahvuudet ja heikkoudet. Esimerkiksi yksinkertaisilla tilastollisilla menetelmillä voidaan suodattaa tunnistetuista sanoista useimmiten esiintyvät, jolloin voidaan olla melko varmoja siitä, että kyllä tuo sana ihan oikeasti esiintyy usein sisällössä. Tähän perustui myös automaattinen asiasanoitus litteraation pohjalta.

Ihmisen rooli ei poistu, mutta se muuttuu. Kone ei varmastikaan tuota täydellistä laatua kaikkiin tarpeisiin lähivuosina, joten ihmistä tarvitaan korjaamaan virhetulkintoja ja tekemään niitä valintoja, joissa intuitio ja vuosikymmenten kokemus takaa paremman laadun sisällöille ja loppukäyttäjille. Koneet toimivat apuvälineinä ihmisten työlle: tehostavat ja mahdollistavat sellaisia sisältöjä ja toimintamuotoja, jotka aiemmin ovat olleet liian kalliita.

Kokeilu toteutettiin yhteistyössä Aalto-yliopiston kanssa. Kim Viljanen työskentelee konseptisuunnittelijana Yle Areenan kehitystiimissä. Sami Mattila toimii löydettävyysasiantuntijana Yle.fi:ssä.