Sisältöjen automaattinen analyysi & Yle

Yle Beta mahdollistaa äänen, kuvan ja tekstin automaattisen analysoinnin kokeilujen jatkamisen Ylellä.

Yle Beta on katsomista hieman kauemmas horisonttiin. Olemme sisältöjen automaattisen analysoinnin osalta yrittäneet Ylellä jo tämän vuoden ajan kiikaroida, mitä mahdollisuuksia sieltä on tulossa äänen, kuvan ja tekstin koneelliseen analysointiin. Olemme tutustuneet menetelmiin sekä luoneet kontakteja ennen kaikkea alan suomalaisiin toimijoihin, tavanneet heitä ja vieneet jo joitain käytännön kokeilujakin heidän kanssaan läpi.

Meitä sisältöjen automaattisessa analysoinnissa kiinnostaa mm.:

  • puheentunnistus: ohjelmatekstityksen tuottaminen, haastattelujen litterointi sekä tekstin tuottaminen audiosta jatkoanalyysia kuten asiasanoitusta varten
  • puhujantunnistus
  • kielentunnistus
  • musiikin- ja musiikkikappaleiden tunnistus
  • kuvantunnistus: sekä still- että liikkuvassa kuvassa näkyvien objektien tunnistus, yhtenä tärkeimmistä henkilöiden tunnistus
  • automaattinen asiasanoitus sekä muu tekstille tehtävä sisältöanalyysi.

 

Ensimmäiset kiikaroinnit horisonttiin

Suuri yhteinen ponnistuksemme oli Ylellä 29.9.2016 järjestetty TUNNISTA JA ANALYSOI!

Missä menee äänen, kuvan ja tekstin automaattinen sisältöanalyysi Suomessa -tilaisuus. Se keräsi Ison Pajan auditorion täyteen kuulijoita ja hyvän joukon kävijöitä yritysten ja tutkimusorganisaatioiden standeille Ison Pajan Kesäkadulle.

 

Miksi panostamme automaattiseen sisältöanalyysiin juuri nyt?


Sisältöjä ei ole olemassa, ellei niitä löydetä ja kuluteta. Sisällöt - varsinkin audiot ja videot - ovat vaikeasti löydettävissä, ellei niistä ole käytettävissä tekstimuotoista sisältömetatietoa eli tietoa joka kertoo, mistä sisällössä on kyse. Resurssit eivät riitä tuon tiedon tuottamiseen ihmistyönä. Toivomme saavamme sisältöjen koneellisen analysoinnin avulla enemmän parempi- ja tasalaatuista sisältömetatietoa. Ja koska kone ei väsy eikä nuku, pystymme toivottavasti myös tehostamaan työtämme. Kun meillä on enemmän oikeanlaista sisältömetatietoa käytettävissä, voimme paremmin tarjota Ylen sisältöjä niiden kuluttajille eri palveluissamme.

Entä miksi nyt? Koska uskomme, että moni asia on ellei nyt, niin ainakin lähitulevaisuudessa mahdollista. Nykyään konekin saadaan nimittäin oppimaan uutta, kunhan sille on tarjolla sopivaa dataa. Ja Ylellähän on valtavat määrät arvokasta dataa - sisällöt ja niistä jo olemassa oleva ihmisten tuottama sisältötieto - jota voidaan käyttää järjestelmien opettamiseen. Kun tuo koneoppiminen ja sen menetelmistä mm. ns. deep learning yhdistyvät koneiden laskentatehon ja käytettävissä olevan datan kasvuun, alamme päästä vauhtiin.

Se, mitä olemme tänä vuonna tehneet, on siis toivottavasti vasta alkua. Vuonna 2017 tarkoituksemme on jatkaa ainakin kolmella eri tavalla: Tämän vuoden kokemusten pohjalta voimme lähteä hakemaan käytännön ratkaisuja niillä osa-alueilla, joilla ratkaisuja on jo tarjolla tai ainakin lähellä. Yle Beta tarjoaa meille puolestaan mahdollisuuden kurkottaa kauemmas horisonttiin. Pystymme toivottavasti tekemään kokeiluja, joilla ei aina vielä välttämättä ratkaista kokonaisuudessaan jotain käytännön haastetta, mutta joista kaikista opimme jotain uutta ja hyödyllistä. Lisäksi tarkoituksemme on laajentaa yhteistyötä, esim. vaihtaa kokemuksia muiden EBU-maiden ja niiden yhteistyökumppaneiden kanssa.

Jaamme kokemuksiamme myös jatkossa täällä Yle Betassa. Tervetuloa katsomaan kanssamme rohkeasti horisonttiin!