Datan eheys tekoälyprojektissa

Eheällä datalla tarkoitetaan dataa, joka on tarkka, kokonainen ja johdonmukainen (Harward Business School Online, 2021). Datan eheys on kriittisessä osassa tekoälyprojektin onnistumisen kanssa. Tekoälymallit vaativat suuren määrän eheää dataa oppiakseen siitä merkityksellisiä riippuvuuksia. Datan keräysmenetelmät on oltava luotettavia ja niiden luotettavuus pitää pystyä todentamaan.

Tekoäly pitää sisällään koneoppimisen ja syväoppimisen. Koneoppiminen pyrkii löytämään datasta tilastollisen rakenteen, jolla parhaiten esitetään sille syötetty data. Syväoppimismalleja kutsutaan neuroverkoiksi ja sana syvä tulee siitä, että neuroverkossa on monta esityskerrosta, joilla syötettyä dataa esitetään. Esityskerroksien määrä kertoo mallin syvyyden. (Chollet 2021, 4-7)

Kaavio sisäkkäisistä ympyröistä, joista ulommaisessa lukee tekoäly.  Ulommainen ympyrä pitää sisällään ympyrän, jossa lukee koneoppiminen. Keskimmäinen ympyrä puolestaan pitää sisällään ympyrän, jossa lukee syväoppiminen.
Kuva 1 Tekoälyn, koneoppimisen ja syväoppimisen suhteet toisiinsa (Chollet 2021, 2).

Datan merkitys tekoäly algoritmien opiskelussa

Internet on pullollaan erilaisia tutoriaaleja, joissa voidaan harjoitella erilaisten tekoälyalgoritmien käyttöä. Tutoriaaleissa käytettävä data on yleensä suurimmaksi osaksi jo esiprosessoitu valmiiksi, joten opiskelijan tehtäväksi jää datan jakaminen koulutus- ja testidatasetteihin ja käytettävän tekoälyalgoritmin opiskeleminen. Tällä tavalla opiskelija saadaan helposti mukaan tekoäly algoritmien kiehtovaan maailmaan, eikä opiskelija lannistu heti alkumetreillä. Todellisuudessa tekoälyprojekteissa datasettejä ei saada valmiina, vaan ne pitää itse hakea, yhdistää eri tietokannoista ja prosessoida.

Tietomassoista kohti laadukasta dataa

Useimmille yrityksille suuren data määrän tuottaminen ei aiheuta vaikeuksia. Ongelmaksi muodostuu datan huono laatu ja informaation irrallisuus toisistaan. (Precisely Editor 2022.)  Datat voivat sijaita eri paikoissa, eikä niitä välttämättä voida yhdistää luotettavasti.

Tarvittavan datan ollessa eri tietokannoissa datojen välillä pitää olla joku luotettava linkki, millä data voidaan yhdistää. Tekoälysovelluksenkehittäjän pitää myös ymmärtää ratkaistavan ongelman vaikuttajat. Datan haussa kehittäjällä pitää olla ymmärrys mistä ja mitä dataa haetaan sekä miten data on kerätty.

Tekoälyprojektissa käytettävä data pitää olla eheää, muuten tekoälysovellus ei toimi tai se ei toimi niin hyvin, että sen käyttäminen tosielämässä olisi hyödyllistä. Mikään tekoälyalgoritmi ei voi oppia ennustamaan datasta haluttuja arvoja, jos koulutukseen käytettävä data ei ole ratkaistavaan ongelmaan nähden merkityksellistä ja jos data ei sisällä tarpeeksi ennustusvoimaa.

Kun datasta on valittu halutut datakentät, niitä kannattaa analysoida. Tämä syventää kehittäjän ymmärrystä datakenttien vaikutuksesta ja niiden välisistä korrelaatioista. Datan esiprosessoinnissa datasta voidaan poistaa rivit, jotka voidaan tulkita virheellisiksi tai niitä ei haluta lopulliseen datasettiin. Dataan voidaan myös luoda uusia kenttiä yhdistämällä olevassa olevia kenttiä tai aggregoimalla niitä. Datan aggregoinnilla tarkoitetaan tietojen yhdistämistä yhdeksi kokonaisuudeksi esimerkiksi summaamalla. Datan ollessa eheä validin yhdistämisen ja esiprosessoinnin myötä, dataa voidaan hyödyntää tekoälyprojektissa.

Kirjoittajat

Johannes Syvämeri, opiskelee LAB-ammattikorkeakoulussa IoT:stä tekoälyyn -koulutusohjelmassa ja työskentelee ohjelmistoinsinöörinä puutuotetoimialaa palvelevassa yrityksessä.

Minna Asplund, työskentelee LAB-ammattikorkeakoulussa lehtorina ja ohjaavana opettajana insinööri (YAMK) IoT:stä tekoälyyn -koulutuksessa.

Lähteet

Chollet, F. 2021. Deep Learning With Python. Second Edition. Shelter Island NY: Manning publications.

Harward Business School Online. 2021. What Is Data Integrity and Why Does It Matter? Viitattu 11.8.2023. Saatavissa https://online.hbs.edu/blog/post/what-is-data-integrity

Precisely Editor. 2022. The Importance of Data Integrity in the Age of AI/ML. Precisely. Viitattu 30.5.2023. Saatavissa
https://www.precisely.com/blog/data-integrity/the-importance-of-data-integrity-in-the-age-of-ai-ml