Data-analytiikkaa insinööreille

Data-analytiikka on tiedettä, joka analysoi raakadataa, jotta voidaan tehdä johtopäätöksiä mistä tahansa kerätystä datasta. Data-analytiikan tekniikat ja prosessit on voitu digitalisaation edistymisen myötä automatisoida mekaanisiksi prosesseiksi ja algoritmeiksi. Raakadatan, tai oikeastaan voidaan puhua havaintoarvoista, määrä on kasvanut räjähdysmäisesti. Erityisesti dataputken alkupäässä olevien sensoripohjaisten, dataa internetiin lähettävien IoT-laitteiden mukanaan tuomaa havaintoarvojen massaa ei voida syöttää käsin, eivätkä Excel-tiedostotkaan välttämättä enää taivu kaikelle sille havaintoarvojen suurelle määrälle.

Kehittyneet data-analytiikkaohjelmat ovat vapauttaneet insinöörit laskimista ja tarjonneet mahdollisuuden tuottaa vakavasti otettavia, nopeita ja tarkkoja analyyseja. Ja mikä tärkeintä data-analytiikka auttaa yritystä optimoimaan oman suorituskykynsä. Data-analytiikan tuottama lisäarvo on päätöksenteon perusta ennusteiden laatimisen ja riskien arvioimisen muodossa.

Datan analysointi R:llä

Data-analytiikkaa voi tehdä käyttämällä ilmaista, avoimen lähdekoodin R-ohjelmointikieltä, jota käytetään tilastolaskentaan tai grafiikkaan (R Studio 2022).  R tukee useita mallinnustekniikoita, kuten tilastollisia testejä, klusterointia tai aikasarja-analyysiä; myös vaativampien koneoppimisen mallien ja neuroverkkojen rakentelu onnistuu R:llä.  Opiskelijoille analyysityökalun maksuttomuus on tärkeää, mutta vähintään yhtä tärkeää on se, että työkalun käyttö on motivoivaa, jota tukee useampikin seikka. R:n käyttö on suhteellisen helppoa. Käyttöliittymää ei ole monimutkaistettu turhilla painikkeilla tai ikkunoilla ja itse R skriptin kirjoittaminen on vaivatonta, varsinkin jos taustalla on ohjelmoinnin perusteiden hallinta. Tehdyistä toimenpiteistä näkee vasteen välittömästi, ovatpa ne sitten muuttujien arvoja, graafeja tai virheitä. 

Kaikki edellä mainittu vaikutti siihen, että data-analytiikan opetuksen kehittämisessä käyttöön valittiin nimenomaan R. Toisekseen, kun tarkastelee nykyhetken data analyytikoiden tai datatieteilijöiden työpaikkailmoituksia, niissä mainitaan R:n osaaminen PowerBI ja SQL osaamisten rinnalla.

R Studion editorinäkymä, jossa ratkaistuna esimerkkitehtävä. Numeroituja rivejä joilla eriväristä tekstiä ja numeroita hyvin pienellä.
Kuva 1. STACK-esimerkkitehtävän ratkaiseminen R Studion avulla. (Kuva: Minna Asplund)

Harjoitustehtävinä automaattiset STACK-tehtävät

LAB-ammattikorkeakoulun Datan analysointi ja visualisointi -kurssin harjoitustehtäviksi rakennettiin automaattisesti tarkistuvat STACK-tehtävät (Korhonen 2020). Tämä oli ennen kaikkea kurssin opettajien pedagoginen valinta. Opiskelijat saavat STACK-tehtävistä välittömän palautteen – onko ratkaisu oikein vai onko yritettävä uudelleen. Tämä innostaa ja motivoi opiskelijoita tekemään tehtäviä ja saamaan niistä muodostettuja aihekohtaisia tehtäväpaketteja suoritetuiksi.

On myös monia muita syitä, jotka puolsivat STACK-tehtävien käyttöönottoa. Verkko-opetus ja kurssien automatisointi ovat tulevaisuuden trendejä. Lisäksi pienenevät opetusresurssit ja kasvavat ryhmäkoot asettavat vaatimuksia tehtävien automaattisille tarkastuksille. STACK-tehtävät ovat myös helposti käytettävissä uudelleen sekä muokattavissa esimerkiksi tarvittaessa satunnaistamisella yksilöllisiksi tehtäviksi.

Kirjoittajat  

Minna Asplund, TkL, toimii LAB-ammattikorkeakoulussa lehtorina sekä koordinaattorina insinööri (ylempi AMK) IoT:stä tekoälyyn -koulutuksessa Teknologia-yksikössä.  

Erjaleena Koljonen, FM, toimii LAB-ammattikorkeakoulussa matematiikan lehtorina Teknologia-yksikössä.

Lähteet

Korhonen, L. 2021. Pikaopas STACK-tehtävien laadintaan. Oulun yliopisto. Viitattu 25.5.2022. Saatavissa https://esamksupport.samk.fi/ohje/wp-content/uploads/sites/3/2022/03/PikaopasStack43.pdf

R Studio. 2022. About RStudio. Viitattu 25.5.2022. Saatavissa https://www.rstudio.com/about