Mikä oli alkutilanne eli miksi lähdettiin tekemään PoC-pilottia?
Suuremmilla organisaatioilla voi olla käytössä omat erilliset sovellukset tekstitysten tuottamiseen ja tekstityksen lisääminen esimerkiksi omiin YouTube-videoihin onnistuu kyllä kyseisessä palvelussakin. GPT-Lab-tutkimusryhmä selvitti, voisiko tekstityksen tuottaa myös omalla ratkaisulla ja olisiko tuo ratkaisu mahdollista tuoda myös pienempien organisaatioiden saataville. Entä voisiko tekstityksessä tapahtuaa puheentunnista parantaa kielimallin avulla?
Otsolan kansalaisopisto tuottaa vuosittain lukuisia yleisölle maksuttomia kursseja ja luentoja, ja näistä tapahtumista tuotetaan usein myös videotallenne. Tekstitykseen liittyvästä vaatimuksesta ja sen tuotamiseen tarvittavista lisäresurssien puutteesta johtuen tallenteiden näkyvyys videopalveluissa on ollut rajattua.
Millainen PoC-pilotti tehtiin?
Temotero-hankkeen tuottamassa pilotissa testatiin web-sovellusta. Siinä käyttäjä ensin syöttää tallenteeseen liittyvän aineiston, ajaa käsittelyprosessin, ja saa prosessin vastineena tekstitystiedoston, joka lisätään tallenteen oheen varsinaisella julkaisukanavalla. Sovelluksen toimia ohjataan sovelluksen pääkäyttäjän laatiman työohjeen (promptin) avulla.
OTULA-WHISPER on sovellus, jossa yhdistetään OpenAI:n kehittämä automaattinen puheentunnistusjärjestelmä sekä OpenAI:n kehittämä generatiivinen esikoulutettu kielimalli (GPT). Whisper julkaistiin vuonna 2022 ja sitä on koulutettu satojen tuhansien tuntien ääninäytemateriaaleilla. Suurin osa koulutusaineistosta on englanninkielistä materiaalia, mutta kielitukea löytyy myös 98:lle muulle kielelle (Suomen kieli mukaanluettuna). Pilotissa käytetty versio oli pidemmälle kehitetty faster-whisper. GPT-kielimallin versiona pilotissa käytettiin toteutusaikaan julkaistua 4omni-versiota. Pilotissa käytetty Whisper sijoitettiin tutkimusryhmän käytössä olevaan palvelinympäristöön, jossa sovellusta ajettiin yhden GPU-suorittimen (1xP40) jaettujen resurssien (GPU-syklit) kautta.
Puheentunnistuksessa syntyvä tekstiaineisto käsitellään kielimallin avulla ”järkevään” muotoon. Prosessin aikana tekstistä siivotaan pois tarpeettomat tauot tai sanojen toistot ja tekstin näyttämiseen liittyvät aikaleimat sovitetaan tallenteen toistoon sopiviksi. Lisäominaisuutena sovelluksessa on mahdollista syöttää tallenteeseen liittyvä käsikirjoitus tai muuta sanoja tai termistöä käsittelevää lisätietoa. Kielimalli osaa lisätietojen avulla korjata tekstityksessä olevia nimiä ja termejä ja näin tekstityksestä saadaan hyvinkin laadukas lopputulos. Ennen tallenteen julkaisua käyttäjä voi halutessaan editoida tekstitystä myös käsin.
Millaisia lopputuloksia PoC-pilotista saatiin?
Otsolan kansalaisopisto kokeili sovellusta yhteistyössä vierailevien luennoitsijoidensa kanssa sekä oman kurssille ilmoittautumisen ohjeita tarjoavan tallenteen luomisessa. Videolla esittelijä toimii Tiina Laihomäki, joka toimi myös pilottien aikaa hankkeen yhteyshenkilönä. GPT-Lab-tutkimusryhmän tutkija, Janne Harjamäki, pääsi itsekin mukaan Otsolan kansalaisopiston luennoitsijaksi syksyllä 2024. Myös näiden tekoälyä käsittelevien luentojen tallenteiden tekstitykset on tuotettu samalla sovelluksella.
Tutkimusryhmän testeissä sovellus kykeni suorittamaan puheentunnistuksen huomattavasti kaupallista verrokkiaan nopeammin. Minuutissa voitiin käsitellä noin 10 minuutin tallenne. Tutkijan esityksessä ilmenneet pienet lausuntavirheet tai toistot korjaantuivat tekstityksessä siistityiksi lauseiksi. Alkuperäisen tekstityksen kääntäminen toiselle kielelle oli sekin helposti tehtävissä ChatGPT:n avulla.
Kiitokset Otsolan kansalaisopistolle yhteistyöstä!
