Automaattinen sisällönanalyysi: puhetta tekstiksi

Miten automaattinen sisältöanalyysi voisi parantaa Areenan audio- ja videosisältöjen löydettävyyttä ja käyttöä?

Tiimi: Kim Viljanen / Yle, Sami Mattila / Yle, Qvik Oy

Julkaistu 25.1.2017

 

MITÄ ME YRITIMME SELVITTÄÄ?

Löydettävyys internetissä perustuu vahvasti tekstiin. Kun haet hakukoneella, kirjoitat ensin tekstinä hakusanan tai kaksi, jolloin kone kaivaa millisekunneissa esiin luettelon parhaiten hakuusi osuvista sisällöistä. Tulosten hakeminen perustuu monimutkaiseen algoritmiin, jolla hakusanojen ja verkkosivujen tekstisisältöä vertaillaan toisiinsa.

Video- ja audiosisältöjen hakeminen on riippuvaista niihin liitetystä tekstistä ja muusta metatiedosta, esimerkiksi otsikosta, kuvaustekstistä, genrestä ja kansikuvasta. Hyvin usein mediat ovat kuitenkin pullollaan audiovisuaalisessa muodossa olevaa sisältöä, kuten puhetta, musiikkia, ääntä ja kuvaa. Koska tämä sisältö ei ole tekstiä, ei media myöskään löydy tekstiin perustuvilla hakumenetelmillä.

Tähän vastauksen tarjoaa tekoäly. Kone pistetään katsomaan ja kuuntelemaan audiovisuaalisia sisältöjä ja kertomaan mitä sisällöt ovat: mitä niissä puhutaan, mitä niissä näkyy, ketkä ihmiset sisällössä esiintyvät, mitä sisältö käsittelee, mitä sisältö merkitsee. Koska kyse on automaatista, voidaan sisältöanalyysi tehdä kustannustehokkaammin kuin käsityönä. Tämä mahdollistaa hyvinkin laajojen kokoelmien läpikäynnin.

 

MIKSI SE ON TÄRKEÄÄ TAI MERKITYKSELLISTÄ?

Yle Areenaan julkaistaan vuosittain noin 15 000 tuntia videosisältöä ja 35 000 tuntia audiota. Yhteensä sisältöjä (jakso, klippi, pisteohjelma) on saatavilla kullakin hetkellä noin 150 000 kappaletta. Metatiedon tuottaminen on hidasta ja työlästä, joten siinä joudutaan keskittymään ydinasioihin eikä löydettävyyden maksimointiin.

Kun audiovisuaalinen sisältö on muutettu tekstiksi ja metatiedoksi (kuva 1), voidaan sisällölle tarjota kaikki samat toiminnallisuudet kuin tekstisisällölle: hakua, asiasanoitusta, notifikaatioita aiheen mukaan, automaattisia linkkejä lisätietoihin samasta aiheesta, tiivistelmät, sisällön jako loogisiin kokonaisuuksiin jne. Löydettävyys paranee, palvelu paranee, asiakastyytyväisyys kasvaa.

 

MITÄ ME KÄYTÄNNÖSSÄ TEIMME?

Ensimmäisessä testissä annoimme tekoälysovellukselle kuunneltavaksi joukon erilaisia Areena-sisältöjä, tavoitteena puheen automaattinen muuntaminen tekstiksi. Tavoite testille oli yksinkertainen: pystyisikö kone tunnistamaan puheen riittävän hyvin, jotta se voisi auttaa löydettävyyden parantamisessa? Voisiko tekoäly tehdä internet-hakujen näkökulmasta video- ja audiosisällöille saman mikä on arkipäivää tekstimuotoisille sisällöille?

Testisisältö koostui noin 90 radio- ja televisio-ohjelmasta, kuten uutislähetyksistä, makasiiniohjelmista ja keskusteluohjelmista. Puheentunnistuksen prosessi oli seuraava: Areenan yksittäisen TV- tai radio-ohjelman sisältävä mediatiedosto syötettiin puheentunnistimelle, joka muunsi puheen tekstiksi eli litteraatioksi. Litteraatio lisättiin tämän jälkeen kyseisen ohjelman verkkosivulle Areenaan, jotta hakukoneiden indeksointirobotit löytäisivät tekstin.

Kun hakukoneet olivat indeksoinneet sisällöt, mahdollistui haku. Todensimme haun toimivan sekä yleisillä hakukoneilla (Google, Bing) että Ylen omalla hakukoneella. 

Puheentunnistimena kokeilimme Googlen puheentunnistinta (Google Speech API) sekä Aalto-yliopiston puheentunnistinta. Molemmat toimivat pitkälti yhtä hyvin ja kokeidemme kannalta riittävän hyvin. Areenan sivuille tulostimme Googlen puheentunnistimella tuotetun litteraation.

 

MITÄ TÄSSÄ KOKEILUSSA OPIMME?

Litteraatioissa oli jonkun verran virheitä, esimerkiksi yhdyssanoissa, yksittäiset väärin tunnistetut sanat, puhekielen tulkinta. Litteraatioista huomasi helposti, että ne olivat koneen tuottamia. Haun kannalta molemmat olivat kuitenkin riittävällä tasolla. Haku ei vaadi onnistuakseen täydellistä litterointia toimiakseen - oleellista on, että haettava termi löytyy.

Puheentunnistuksessa erot aineistojen selkeydessä korostuivat: se mikä vaatii kuulijalta hieman tarkkaavaisuuden nostamista saattoi olla koneelle lähes mahdotonta. Kiivas keskustelu päällepuhumisineen tai äkillinen puhutun kielen vaihdos ovat tekoälylle haastavia.

Puheen muuttaminen tekstiksi ei kuitenkaan takaa audiovisuaalisten sisältöjen päätymistä automaattisesti hakutulosten kärkeen. Näin erityisesti jos kyse on hyvin yleisesti käytetystä termistä, jolloin samasta hakukonenäkyvyydestä kilpailee moni muu hyvä sisältö. Sen sijaan harvemmin käytetyillä sanoilla tai erikoistermeillä näkyvyys saattaa parantua erittäin paljon, jolloin harvoin haettujen, ns. pitkän hännän yksittäisten sisältöjen näkyvyys paranee. Jos yksittäisiä sisältöjä käytetään enemmän ja julkaisussa olevia sisältöjä on lukumäärältään paljon, voi yhteenlaskettu käyttömäärän kasvu olla erittäin merkittävä. Esimerkiksi Ben Furmanin ohjelmassa puheessa mainittu sana “ADHD” muuttui löydettäväksi ja ohjelma nousi hakutulosten kärkeen Googlella haettassa.

Testin tuloksina voidaan mainita seuraavat: onnistuimme tuottamaan monenlaisista eri audio- ja videosisältöjen puheesta tekstiä, julkaisemaan tämän tekstin automaattisesti kunkin ohjelman omalle sivulle Areenassa, indeksointirobotit pystyivät tallentamaan litteraatiot ja hakujen tekeminen ohjelmassa puhutun perusteella oli mahdollista.

Tuloksien osalta avoimeksi jäi se miten paljon litteraatio lisää medioiden käyttöä. Hakutilastojen perusteella hakumäärät testiaineistona oleville noin 90 ohjelmalle kasvoivat hieman, mutta hakumäärät olivat niin pienet, että hakumäärän kasvu saattoi selittyä myös satunnaisuudella.

Jatkokehityskohteeksi jäi se, että emme tällä kertaa vielä hyödyntäneen litteraation aikakoodia. Tämä mahdollistaisi esimerkiksi sen, että litteraation yksittäistä sanaa klikkaamalla pääsisi vastaavaan kohtaan mediatiedostossa. Tai sen, että kun mediaa soittaa niin litteraatiossa korostettaisiin sitä sanaa, jonka kohdalla kullakin hetkellä ollaan.

*

Luettelo Areenan ohjelmista, joihin automaattinen litteraatio lisättiin.