Maailmalla puhekäyttöliittymät ovat olleet jo pitkään arkipäivää, mutta Suomessa vielä tälläkin hetkellä suurin osa viestinnästä tuotetaan peukaloilla. Puhekäyttöliittymä tarvitsee toimiakseen toimivan tekoälyn, joka ymmärtää puhuttua kieltä. Suomi on kielenä kuitenkin niin pieni, ettei massiivinen tuotekehitys ole yksityisille yrityksille liiketaloudellisesti järkevää. Lisäksi suomen kielen lukemattomat päätteet tekevät kielestä monimutkaisemman verrattuna esimerkiksi suoraviivaisempaan englantiin. Päätelaitteet, eli puhelimet, ovat kuitenkin jo pitkään olleet riittävän tehokkaita puheohjauksen käyttämiseen.
Nyt tilanne on lopultakin muuttumassa. Suomi ja suomen kieli pääsevät hyötymään suoraan jättimäisten teknologiayritysten tutkimusryhmien tuloksista.
Varsinkin Google ja Facebook ovat laittaneet paljon paukkuja tekoälymallien kehitykseen, joista erityisesti luonnollisen kielen ymmärtämisessä ja tuottamisessa on viime vuosina saatu isoja läpimurtoja. Jättiläisillä on toki omat intressinsä kehittää malleja, mutta ohjelmakoodi on onneksi avointa. Varsinkin Googlen julkaisema neuroverkkopohjainen BERT-malli paransi luonnollisen kielen käsittelyyn liittyvien tehtävien suorituskykyä. Myös Elon Muskin osallisuudesta kuuluisa OpenAi-yritys tekee aktiivista kehitystä juuri luonnolliseen kieleen liittyen.
Miksi kielen ymmärtäminen on sitten niin vaikeaa?
Ymmärrykseen liittyy kolme keskeistä käsitettä
- 1. Syntaksi => Kieliopin mukainen kieli
- 2. Semantiikka => Sanoilla eri merkitys eri yhteyksissä (esim. kurkku)
- 3. Pragmatiikka => tilanteen vaikutus viestiin (ilmeet ja eleet)
Tekoälyn on nykyään helppo ymmärtää, onko teksti kieliopin mukaista, sillä kieliopissa on tarkat säännöt. Semantiikkaan liittyvä sisällön ymmärtäminen ja tekstin merkittävien sanojen tunnistaminen on aiemmin ollut haastavaa.
Neuroverkkomallit ovat toimineet melko hyvin lyhyillä teksteillä, mutta pitkät tekstit ovat aiheuttaneet haasteita. Pidemmissä teksteissä prosessointiaika on kasvanut ja tarkkuus laskenut. Uusien mallien arkkitehtuuri onkin erilainen, joka mahdollistaa pidemmän tekstin käsittelyn monessa pienessä palassa, joista jokainen pala voidaan käsitellä samanaikaisesti rinnakkaisajona.
Pragmatiikka, eli tilanteen vaikutus viestiin, on vielä tällä hetkellä tekoälylle haaste. Kone ei vielä ymmärrä ironiaa.
Tekoälymallien parantumiseen auttaa myös kasvava datan määrä, jolla malleja voidaan kouluttaa. Uusimpia malleja voidaan kouluttaa internetissä olevalla tekstiaineistolla, esimerkiksi suomen kielen koulutukseen on käytetty Suomi24-foorumilla olevia keskusteluja. Kun datan määrä on riittävä, tekoälylle voidaan luoda malli, joka ymmärtää millainen suomen kieli on.
Opinnäytetyössä (Jukakoski 2021) tutkittiin luonnollisen kielen käsittelyn (engl. natural language processing) teknologista kypsyyttä vuonna 2021. Tarkempi tutkimuksen kohde oli suomen kieli ja NLP-tehtävistä tekstiaineiston luokittelu. Työssä tutustuttiin uusimpiin arkkitehtuureihin, joilla NLP-tehtävien suorituskykyä on saatu nostettua suurin harppauksin viime vuosina.
Kirjoittajat
Miika Jukakoski on LAB-ammattikorkeakoulun opiskelija digitaaliset ratkaisut YAMK-koulutuksessa. Hänellä on useiden vuosien työkokemus ohjelmistokehityksestä. Artikkeli pohjautuu Jukakosken YAMK-opinnäytetyöhön.
Minna Asplund, TkL, toimii LAB-ammattikorkeakoulussa lehtorina sekä koordinaattorina insinööri (ylempi AMK), digitaaliset ratkaisut -koulutuksessa. Hän ohjasi Miika Jukakosken opinnäytetyön.
Lähteet
Jukakoski, M. NLP vuonna 2021, AWS ja tekstin luokittelu. Opinnäytetyö YAMK. LAB-ammattikorkeakoulu. [Viitattu 15.5.2021.] Saatavissa: http://urn.fi/URN:NBN:fi:amk-202105128462
Kuvat
Kuva 1. Possessed Photography. 2018. Asimo robot doing handsign. Unsplash. [Viitattu 15.5.2021.] Saatavissa: https://unsplash.com/photos/g29arbbvPjo
Kuva 2. Gerd Altmann. 2019. Game Bachelor Bachelorette Party. Pixabay. [Viitattu 14.5.2021.] Saatavissa: https://pixabay.com/images/id-4236921