Tekoälyllä Ylen TV- ja radiosisällöt löydettäväksi

Ylen sisältöjä on aina tehty ihmisille, mutta nyt niistä nauttii myös tekoäly. Yle Beta -hankkeessa kokeiltiin miten automaattinen sisältöanalyysi parantaisi Areenan audio- ja videosisältöjen löydettävyyttä ja käyttöä.

Uusimmat kuluttajapalvelut, kuten itseään ajavat autot ja tekstin automaattinen kääntäminen eri kielille, perustuvat tekoälyyn. Tekoäly tarkoittaa yksinkertaistetusti sitä, että tietokone pystyy tekemään sellaisia kognitiivista päättelyä ja ymmärrystä vaativia asioita, joihin ihmistä tarvittiin aiemmin. Tekoälyn läpimurron taustalla on laskentatehon jatkuva kasvu, joka mahdollistaa yhä laajempien tietomassojen analysoinnin tietokoneella ja koneen opettamista “älykkääksi” tietoihin perustuen.

Ylen kannalta kiinnostavaa on muun muassa se miten tekoäly auttaa parantamaan Ylen sisältöjä ja palveluita sekä tehostamaan toimintaa. Seuraavassa kerromme kokeiluista, joita teimme tekoälytekniikoilla Ylen TV- ja radiosisältöihin liittyen loppuvuodesta 2016. Tulokset ovat lupaavia!

Teksti tekee audio- ja videosisällöistä löydettäviä

Löydettävyys internetissä perustuu vahvasti tekstiin. Kun haet hakukoneella, kirjoitat ensin tekstinä hakusanan tai kaksi, jolloin kone kaivaa millisekunneissa esiin luettelon parhaiten hakuusi osuvista sisällöistä. Tulosten hakeminen perustuu monimutkaiseen algoritmiin, jolla hakusanojen ja verkkosivujen tekstisisältöä vertaillaan toisiinsa.

Video- ja audiosisältöjen hakeminen on riippuvaista niihin liitetystä tekstistä ja muusta metatiedosta, esimerkiksi otsikosta, kuvaustekstistä, genrestä ja kansikuvasta. Hyvin usein mediat ovat kuitenkin pullollaan audiovisuaalisessa muodossa olevaa sisältöä, kuten puhetta, musiikkia, ääntä ja kuvaa. Koska tämä sisältö ei ole tekstiä, ei media myöskään löydy tekstiin perustuvilla hakumenetelmillä.

Tähän vastauksen tarjoaa tekoäly. Kone pistetään katsomaan ja kuuntelemaan audiovisuaalisia sisältöjä ja kertomaan mitä sisällöt ovat: mitä niissä puhutaan, mitä niissä näkyy, ketkä ihmiset sisällössä esiintyvät, mitä sisältö käsittelee, mitä sisältö merkitsee. Koska kyse on automaatista, voidaan sisältöanalyysi tehdä kustannustehokkaammin kuin käsityönä. Tämä mahdollistaa hyvinkin laajojen kokoelmien läpikäynnin.

Esimerkiksi Yle Areenaan julkaistaan vuosittain noin 15 000 tuntia videosisältöä ja 35 000 tuntia audiota. Yhteensä sisältöjä (jakso, klippi, pisteohjelma) on saatavilla kullakin hetkellä noin 150 000 kappaletta. Metatiedon tuottaminen on hidasta ja työlästä, joten siinä joudutaan keskittymään ydinasioihin eikä löydettävyyden maksimointiin.

Kun audiovisuaalinen sisältö on muutettu tekstiksi ja metatiedoksi (kuva 1), voidaan sisällölle tarjota kaikki samat toiminnallisuudet kuin tekstisisällölle: hakua, asiasanoitusta, notifikaatioita aiheen mukaan, automaattisia linkkejä lisätietoihin samasta aiheesta, tiivistelmät, sisällön jako loogisiin kokonaisuuksiin jne. Löydettävyys paranee, palvelu paranee, asiakastyytyväisyys kasvaa.

Samansuuntaisesti toimitaan myös muualla. Esimerkiksi Ruotsin SVT julkaisi hiljattain prototyypin, jossa heidän TV-ohjelmien puhesisältöä voi hakea tekstihaulla. BBC puolestaan on kertonut tekoälyn ja puheentunnistuksen olevan online-palveluidensa kilpailukyvyn ydinteknologioita.

Kuva 1: Automaattisen sisältöanalyysin prosessi pääpiirteissään.

Puheesta tekstiksi

Ensimmäisessä testissä annoimme tekoälysovellukselle kuunneltavaksi joukon erilaisia Areena-sisältöjä, tavoitteena puheen automaattinen muuntaminen tekstiksi. Tavoite testille oli yksinkertainen: pystyisikö kone tunnistamaan puheen riittävän hyvin, jotta se voisi auttaa löydettävyyden parantamisessa? Voisiko tekoäly tehdä internet-hakujen näkökulmasta video- ja audiosisällöille saman mikä on arkipäivää tekstimuotoisille sisällöille?

Testisisältö koostui noin 90 radio- ja televisio-ohjelmasta, kuten uutislähetyksistä, makasiiniohjelmista ja keskusteluohjelmista. Valikoimme aineistoksi eri tyyppisiä ohjelmia sekä mahdollisesti koneelle haasteellisia sisältöjä. Aineiston monimuotoisuudella tavoittelimme sitä, että saisimme tuntumaa siihen miten hyvin automaattitunnistus toimi eri tilanteissa.

Puheentunnistuksen prosessi oli seuraava: Areenan yksittäisen TV- tai radio-ohjelman sisältävä mediatiedosto syötettiin puheentunnistimelle, joka muunsi puheen tekstiksi eli litteraatioksi. Litteraatio lisättiin tämän jälkeen kyseisen ohjelman verkkosivulle Areenaan, jotta hakukoneiden indeksointirobotit löytäisivät tekstin (kuva 2). Kun hakukoneet olivat indeksoinneet sisällöt, mahdollistui haku. Todensimme haun toimivan sekä yleisillä hakukoneilla (Google, Bing) että Ylen omalla hakukoneella (kuva 3). Jutun lopusta löydät luettelon ohjelmista, joille automaattinen litteraatio tuotettiin.

Kuva 2: Radio-ohjelman puhe oli muutettu tekstiksi, teksti tulostettiin kyseisen ohjelman ohjelmasivulla Areenassa. Virheitäkin on, mutta pääosin sisältö välittyy oikein. Haku ohjelman puhutun sisällön perusteella onnistuu puheentunnistuksen avulla. Oikealla näkyy puheesta automaattisesti poimitetut asiasanat.

Kuva 3: Ben Furmanin ohjelmassa puheessa mainittu sana “ADHD” löytyi Googlella.

Puheentunnistimena kokeilimme Googlen puheentunnistinta (Google Speech API) sekä Aalto-yliopiston puheentunnistinta. Molemmat toimivat pitkälti yhtä hyvin ja kokeidemme kannalta riittävän hyvin. Areenan sivuille tulostimme Googlen puheentunnistimella tuotetun litteraation.

Litteraatioissa oli jonkun verran virheitä, esimerkiksi yhdyssanoissa, yksittäiset väärin tunnistetut sanat, puhekielen tulkinta. Litteraatioista huomasi helposti, että ne olivat koneen tuottamia. Haun kannalta molemmat olivat kuitenkin riittävällä tasolla. Haku ei vaadi onnistuakseen täydellistä litterointia toimiakseen - oleellista on, että haettava termi löytyy.

Puheentunnistuksessa erot aineistojen selkeydessä korostuivat: se mikä vaatii kuulijalta hieman tarkkaavaisuuden nostamista saattoi olla koneelle lähes mahdotonta. Kiivas keskustelu päällepuhumisineen tai äkillinen puhutun kielen vaihdos ovat tekoälylle haastavia.

Puheen muuttaminen tekstiksi ei kuitenkaan takaa audiovisuaalisten sisältöjen päätymistä automaattisesti hakutulosten kärkeen. Näin erityisesti jos kyse on hyvin yleisesti käytetystä termistä, jolloin samasta hakukonenäkyvyydestä kilpailee moni muu hyvä sisältö. Sen sijaan harvemmin käytetyillä sanoilla tai erikoistermeillä näkyvyys saattaa parantua erittäin paljon, jolloin harvoin haettujen, ns. pitkän hännän yksittäisten sisältöjen näkyvyys paranee. Jos yksittäisiä sisältöjä käytetään enemmän ja julkaisussa olevia sisältöjä on lukumäärältään paljon, voi yhteenlaskettu käyttömäärän kasvu olla erittäin merkittävä. Esimerkiksi Ben Furmanin ohjelmassa puheessa mainittu sana “ADHD” muuttui löydettäväksi ja ohjelma nousi hakutulosten kärkeen Googlella haettassa.

Testin tuloksina voidaan mainita seuraavat: onnistuimme tuottamaan monenlaisista eri audio- ja videosisältöjen puheesta tekstiä, julkaisemaan tämän tekstin automaattisesti kunkin ohjelman omalle sivulle Areenassa, indeksointirobotit pystyivät tallentamaan litteraatiot ja hakujen tekeminen ohjelmassa puhutun perusteella oli mahdollista.

Tuloksien osalta avoimeksi jäi se miten paljon litteraatio lisää medioiden käyttöä. Hakutilastojen perusteella hakumäärät testiaineistona oleville noin 90 ohjelmalle kasvoivat hieman, mutta hakumäärät olivat niin pienet, että hakumäärän kasvu saattoi selittyä myös satunnaisuudella.

Jatkokehityskohteeksi jäi se, että emme tällä kertaa vielä hyödyntäneen litteraation aikakoodia. Tämä mahdollistaisi esimerkiksi sen, että litteraation yksittäistä sanaa klikkaamalla pääsisi vastaavaan kohtaan mediatiedostossa. Tai sen, että kun mediaa soittaa niin litteraatiossa korostettaisiin sitä sanaa, jonka kohdalla kullakin hetkellä ollaan.

Ohjelman rakenteen tunnistaminen

Toisessa kokeilussa testasimme voiko tekoäly tunnistaa ohjelman rakennetta eli segmentoida ohjelman sisällön kannalta loogisiin kokonaisuuksiin. Tämä mahdollistaisi monenlaisia tapoja parantaa ohjelmien käytettävyyttä. Esimerkiksi makasiiniohjelmissa ja uutislähetyksissä käyttäjä voisi hyppiä vähemmän kiinnostavien aiheiden yli tai palata tiettyyn aiheeseen aivan kuten sanomalehteä lukiessa. Segmentit voisi myös julkaista automaattisesti itsenäisinä klippeinä, joka vähentäisi käsityötä ja saattaisi parantaa sisältöjen näkyvyyttä esimerkiksi sosiaalisessa mediassa. Alkutunnarin ja lopputekstien helppo ohittaminen puolestaan mahdollistaisi sarjojen sujuvamman katsomisen ja pitäisi katsojat pidempään sarjan äärellä.

Aineistona kokeessa käytettiin TV-uutislähetyksiä ja A-studion jaksoja, joissa molemmissa ohjelmat koostuvat useista eri toisistaan liittymättömistä aiheista.

Ohjelman rakenne tunnistettiin Valossa AI -teknologian avulla kuvapinnan visuaalisen analysoinnin avulla sekä hyödyntäen ohjelmien tekstitysraitaa. Lopputuloksen arviointia varten tuotettiin yksinkertainen käyttöliittymä, jolla segmentointia pystyi kokeilemaan (kuva 4).

Kokeen tulos oli se, että yhdistämällä kasvojen havainnointi, puhuttujen aiheiden tunnistaminen sekä erilaisten toistuvien visuaalisten elementtien tunnistaminen, saatiin automaattisesti aikaan käyttäjän kannalta hyödyllinen segmentointi.

Yksi havainto oli se, että vertailemalla saman sarjan eri jaksoja toisiinsa, pystyi toistuvat elementit, kuten alkutunnukset, välikkeet ja lopputunnukset, tunnistamaan melko helposti. Tämä jaksojen välinen vertailu vaikuttaisi olevan hyvä yleisperiaate varsin monenlaisiin sarjamuotoisiin audiovisuaalisiin sisältöihin, joita esimerkiksi Yle julkaisee.

Toinen havainto oli se, että visuaalisen tunnistuksen käyttö vaati tekoälyjärjestelmän hienosäätöä kukin sarja erikseen, joten tässä vaiheessa täysin automaattista segmentointia ei pystytty tekemään.

Kuva 4: Kone on automaattisesti tunnistanut uutislähetyksen rakenteen (alkutunnus, yksittäiset aiheet ja lopputunnus). Kuvassa näkyvä tekninen testikäyttöliittymä mahdollisti ohjelman sisällä navigoinnin segmentistä toiseen. Katso videona.

Ohjelman ydinkäsitteiden tunnistaminen puheesta ja kuvasta

Asiasanat ovat näppärä tapa yksilöidä hyvinkin yksityiskohtaisesti tietyn sisällön pääkäsitteet, kuten vaikkapa sisällön aihe ja mitkä henkilöt sisällössä esiintyvät. Asiasanoituksen avulla sisällöt samaa aihetta käsittelevät sisällöt linkittyvät toisiinsa, jolloin käyttäjälle on mahdollista tarjota käsitelähtöisiä haku- ja navigointitoiminnallisuuksia. Näin toimitaan jo nyt Ylen artikkelisisällöissä, jossa esimerkiksi Uutisvahdissa käyttäjä voi valita yksityiskohtaisesti mistä sisällöstä on kiinnostunut ja mistä ei. TV- ja radiosisällöissä näin ei Ylellä toistaiseksi toimita, koska asiasanoitusta ei laajamittaisesti toistaiseksi tehdä.

Kolmannessa testikokonaisuudessa kokeilimme miten asiasanoitusta voitaisiin tuottaa automaattisesti litteraatiosta tai kuvantunnistuksella kuvapinnasta.

Syötimme automaattisesti tuotetun litteraation Ylen käyttämään automaattiseen asiasanoituspalveluun, jolla Ylen artikkelisisältö asiasanoitetaan (kuva 2). Järjestelmä tunnisti litteraation perusteella ohjelman pääkäsitteet. Alustavat havainnot tässä olivat, että litteraatiosta on mahdollista luoda koneellisesti sisältöä kuvaavan asiasanoituksen ja se kuvaa hyvin ohjelman sisältöä. Ilmeinen haaste on se, että asiasanoihin voi tällä menetelmällä tulla vain sellaisia aiheita, jotka mainitaan puheessa.

Erityisesti TV-ohjelmissa hyödynnetään usein välineen visuaalisia keinoja, jolloin esimerkiksi haastateltavan nimeä ei lausuta ääneen (nimi näytetään tekstinä ruudussa) tai ohjelman kannalta tärkeä asia käsitellään pelkästään visuaalisin keinoin (esimerkiksi tunnetila, fyysinen objekti, prosessi tai tapahtumapaikka).

Visuaalisten asioiden tunnistamiseen liittyen kokeilimme videokuvan automaattista analysointia, jolloin kone tunnisti mitä kuvassa näkyy. Tunnistaminen tapahtui vertailemalla visuaalista sisältöä julkisesti saatavilla oleviin visuaalisen tunnistuksen kuvatietokantoihin (LSCOM, COCO ja SUN). Kuvasta pystyttiin niiden avulla tunnistamaan hyvin vaihtelevalla tarkkuudella mm. onko kuvassa mies, nainen, lapsi, lentokone, banaani, puutarha tai taidegalleria (kuvat 5 ja 6).

Kuva 5: Kuvasta on tunnistettu käsitteitä, kuten esine ja käsi.

Kuva 6: Tekoälyllä kokeiltiin luonnollisen kielen kuvauksen luomista siitä, mitä kuvassa tapahtuu. Tunnistus menee tosin välillä hieman pieleen...

Johtopäätökset

Kone ei ole täydellinen. Puheentunnistuksen osalta välillä kone tulkitsi puheen väärin tai osa puheesta jäi kokonaan huomaamatta. Haun kannalta automaattinen litteraatio tuntuisi kuitenkin toimivan jo nyt hyvin ja pystyimme osoittamaan, että teknologia on suoraviivaisesti käyttöönotettavissa Yle Areenassa. Ydinkysymys on ei ole niinkään se miten hyvin puheentunnistus toimii vaan missä määrin yleisö haluaa hakea audiovisuaalisia sisältöjä aiheiden perusteella verrattuna ohjelman nimellä tapahtuvaan hakuun.

Joskus automaattisesti tunnistetut segmentit olivat liian lyhyitä ollakseen sisällöllisesti merkittäviä. Sisältöjen automaattinen segmentointi tuntui kuitenkin toimivan hyvin ja sarjan jaksoissa toistuvien osien tunnistaminen oli automatisoitavissa hyvin. Ohjelman sisäinen aiheenmukainen segmentointi vaati ainakin toistaiseksi järjestelmän hienosäätämistä sarjakohtaisesti eli täysi automaatio ei vielä onnistunut.

Automaattisen sisältötunnistuksen virheet eivät ole este, jos tuotettua dataa hyödynnetään ymmärtäen teknologian vahvuudet ja heikkoudet. Esimerkiksi yksinkertaisilla tilastollisilla menetelmillä voidaan suodattaa tunnistetuista sanoista useimmiten esiintyvät, jolloin voidaan olla melko varmoja siitä, että kyllä tuo sana ihan oikeasti esiintyy usein sisällössä. Tähän perustui myös automaattinen asiasanoitus litteraation pohjalta.

Ihmisen rooli ei poistu, mutta se muuttuu. Kone ei varmastikaan tuota täydellistä laatua kaikkiin tarpeisiin lähivuosina, joten ihmistä tarvitaan korjaamaan virhetulkintoja ja tekemään niitä valintoja, joissa intuitio ja vuosikymmenten kokemus takaa paremman laadun sisällöille ja loppukäyttäjille. Koneet toimivat apuvälineinä ihmisten työlle: tehostavat ja mahdollistavat sellaisia sisältöjä ja toimintamuotoja, jotka aiemmin ovat olleet liian kalliita.

Internet on keinuttanut mediateollisuutta maailmanlaajuisesti kymmeniä vuosia. Seuraavaksi media-alaa ravistelee tekoäly. Tekemämme kokeilut ovat vain pieni esimerkki siitä, mitä tekoäly mahdollistaa.

Kokeilut toteutettiin yhteistyössä Qvik Oy:n, Valossa Labs Oy:n ja Aalto-yliopiston kanssa. Kim Viljanen työskentelee konseptisuunnittelijana Yle Areenan kehitystiimissä. Sami Mattila toimii löydettävyysasiantuntijana Yle.fi:ssä.

Demoja:

  1. Luettelo Areenan ohjelmista, joihin automaattinen litteraatio lisättiin.
  2. Testikäyttöliittymä segmentoidun ohjelman katsomiseen (video).