Aikasarjat ITKO-hankkeessa

Datapohjaisen päätöksenteon analyysit, koneoppiminen ja tekoäly ovat tämän päivän kristallipallo. Hämyinen ja samettiverhoiltu teltta on vaihtunut mystisiin piilotettuihin kerroksiin, hyperparametreihin sekä aktivaatiofunktioihin. Ennustamista tarvitaan, jotta voidaan varautua tulevaan, onpa sitten kyseessä pörssiosakkeen arvon kehittyminen tai tuotteen valmistamiseen tarvittavien komponenttien varastomäärä. Yritysten, julkishallinnon ja koko yhteiskunnan eri toimijoiden tavoiteasetanta perustuu suunnitelmiin, jotta toimiminen kompleksisessa ympäristössä on mahdollista. 

ITKO-hankkeessa dataa päätöksenteon tueksi tuottavat IoT-anturit. IoT-anturidatan käsittelylle on tyypillistä aikasarjamaisuus, jossa fysikaalinen ilmiö tallennetaan digitaaliseen muotoon ja havaintoon liitetään aikaleima. Datan voi tallentaa esim. aikasarjatietokantaan sen visualisoimiseksi. Kun aikasarjoja halutaan käyttää ennustamiseen, on otettava käyttöön analysointityökalu. 

Aikasarjojen perusteita 

Aikasarjoissa on mahdollista nähdä kolme eri komponenttia, jotka ovat trendi (aikasarjan systemaattinen muutos), syklinen vaihtelu kuten suhdanne- ja/tai kausivaihtelu sekä satunnainen vaihtelu (Coghlan 2018, 19). Tarkoituksena on, että nämä komponentit esiintyessään erotellaan eli dekomponoidaan, jotta niiden avulla on mahdollista kuvata aikasarjan käyttäytymistä sekä analysoida sitä. Tällöin aikasarjalla on mahdollista myös tehdä ennustuksia. 

Aikasarjoilla ennustamista voidaan tehdä muutamalla eri menetelmällä. ARIMA (Coghlan 2018, 48; Prado & West 2010, 77) yhdistää kolme eri menetelmää toisiinsa: AutoRegressio, DIfferensointi ja Moving Average eli tasoitus liukuvilla keskiarvoilla. Jotta ARIMA-menetelmää voi käyttää, on aikasarjan oltava stationaarinen, eli siinä ei saa esiintyä trendiä eikä kausivaihtelua, jolloin muuttujan keskiarvo ja varianssi pysyvät suunnilleen vakioina ajan myötä. Epästationaarinen prosessi voidaan saada stationaariseksi differentioimalla. Lisäksi aikasarjan tulee olla stokastinen, eli satunnaisesti generoitunut. Autoregressiivisen ja liukuvan keskiarvon prosessien asteluvut voidaan selvittää analyysityökalun funktioilla. 

Kuva 1. Porvoonjoen kokonaisvirtaama vuosina 2016 – 2019, jossa osittaista kausivaihtelua on havaittavissa. Kuva: Minna Asplund.

ITKO:n datat 

ITKO:ssa dataa saadaan Porvoonjoen antureilta (kuten happipitoisuus, virtauslukema), tehtaaseen sijoitetuilta antureilta (tuotantotietoa) sekä rakennuksiin sijoitetuilta antureilta (kuten lämpötila, ilmankosteus). Kaikissa näissä tapauksissa data näyttäytyy aikasarja-tyyppisenä (kuva 1), sillä jokaiseen tuotettuun havaintoriviin liittyy aikaleima. Rakennusdata päätyy osin jo data pipelinea pitkin InfluxDB-tietokantaan, joka on luonnostaan tarkoitettu aikasarjoille. Visualisointia on rakennettu Grafanan avulla, joten näistä syistä varsinainen ennustaminen on tehtävä muualla. Tällä hetkellä analysointityökaluna on R Studio, johon data tuodaan Excel-taulukkomuodossa ja muunnetaan ohjelmallisesti aikasarjatyyppiseksi jatkokäsittelyä varten. 

Onkin mielenkiintoista nähdä lopulliset data pipelinet toimimassa sekä niihin liitetty koneoppiminen ennustamisineen ja tulosten näyttämisineen, puhumattakaan siitä, että jokaiselle datalle on löydetty sopivat käsittelymenetelmät. 

Kirjoittaja 

Minna Asplund, TkL, työskentelee LAB-ammattikorkeakoulussa ohjelmistotekniikan lehtorina tieto- ja viestintätekniikassa sekä ITKO-hankkeessa koneoppimisen asiantuntijana. 

Lähteet 

Coghlan A. 2018. A Little Book of R For Time Series. Release 0.2. U.K. Cambridge: Parasite Genomics Group, Wellcome Trust Sanger Institute. 

Prado, R. & West, M. 2010. Time Series. Modeling, Computation, and Inference. U.S.A. New York: Chapman & Hall/CRC Press, Taylor & Francis Group. 

Linkit  

Linkki 1. LAB-ammattikorkeakoulu. 2019. ITKO – Yrityslähtöiset IoT-ratkaisut ja koneoppiminen. [Viitattu 28.11.2020]. Saatavissa: https://www.lab.fi/fi/projekti/itko-yrityslahtoiset-iot-ratkaisut-ja-koneoppiminen 

Linkki 2. InfluxDB. 2020. Influxdata. [Viitattu 28.10.2020]. Saatavissa: https://www.influxdata.com/  

Linkki 3. Grafana. 2020. Grafana: The open observability platform. [Viitattu 29.10.2020]. Saatavissa: https://grafana.com/ 

Linkki 4. RStudio. 2020.  Open source & professional software for data science teams. [Viitattu 28.10.2020]. Saatavissa: https://rstudio.com/  

Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *