Synteettisen datan mahdollisuudet

Dataa on saatavilla enemmän kuin koskaan. Yksittäisen ihmisen on arvioitu generoivan dataa päivittäin noin 1.7 megatavun verran (Bulao 2022) ja vauhti on kiihtyvä. Yritykset, tutkimuslaitokset ja valtiolliset organisaatiot hyödyntävät dataa sen saatavuuden vuoksi, mutta myös varastoinnin ja laskentatehon kasvaessa (Manyika ym. 2021). Datasta on muodostunut tärkeä resurssi, jonka avulla pyritään luomaan ymmärrystä ja kilpailuetua erilaisilla markkinoilla.

Datan ongelma

Datan käyttöön esimerkiksi terveys- tai vakuutusalalla liitetään usein huoli yksittäisen datapisteen – ihmisen – yksityisyydensuojasta. Huoli ei ole aiheeton, kuten otsikoihin noussut Psykoterapiakeskus Vastaamoon kohdistunut tietomurto vuonna 2018 osoitti (Rautio 2021). Datankerääjien vastuulle jää huolehtia, että data on kerätty eettisiä periaatteita noudattaen, ja että kerääjä on tehnyt kaikkensa suojellakseen dataa mahdollisilta väärinkäytöksiltä. Tämä ei ole aina helppoa.

Haluttua dataa ei myöskään aina ole saatavilla tarvittavia määriä. Tekoäly- ja koneoppimissovellukset vaativat kymmeniä tuhansia havaintoja kouluttaakseen malleja, joista tutkijat ja yritysjohtajat tekevät johtopäätöksiä. Vaikka dataa peräänkuulutetaan erääksi ratkaisuksi yritysten digitalisaation hyödyntämisessä, ei ole realistista olettaa, että pk-yritys pystyisi tarjoamaan näin kattavaa datamassaa.

Synteettinen data

Eräänä ratkaisuna tarjotaan synteettistä dataa. Synteettinen data määritellään simuloiduksi dataksi, joka noudattaa olemassa olevan datasetin ominaisuuksia (Bernardo 2021). Prosessi voidaan mieltää esimerkiksi tilanteeksi, jossa meillä on iso määrä kuvia ihmisten kasvoista. Kasvojen kuviin voidaan kiinnittää pisteitä, jotka kertovat, missä kohdin kohteen nenä, silmät tai suu sijaitsee. Näistä pisteistä koostunutta datasettiä voidaan syöttää algoritmiin, joka pystyy generoimaan datasetistä löytyneitä säännönmukaisuuksia noudattavan ihmiskasvon, jollaista ei alkuperäisestä kuvasarjasta löydy.

Kuva 1. Simuloitu todellisuus kuvataan usein mustavihreänä koodirivistönä. (Spiske 2018)

Monet liiketoimintatiedon hallintaan keskittyvät ohjelmistot tarjoavat käyttäjilleen erilaisia tekoälyyn perustuvia mallintamis- tai ennustamisratkaisuja. Koska oikeaoppinen mallintaminen tarvitsee suuren määrän dataa, jää näiden ratkaisujen käyttö pk-yrityksissä kuitenkin vähäiseksi saatavilla olevan datan suhteellisen vähyyden takia. Synteettisen datan avulla voidaan ottaa esimerkiksi asiakastietokannasta tai jostain avoimen datan tietokannasta suhteellisen pieni havaintojoukko – noin 1000 havaintoa – ja tuottaa kymmenien tuhansien havaintojen datasetti, joka noudattaa alkuperäisen datan ominaisuuksia (vrt. Salami ym. 2021).

Synteettisesti generoidun datan kanssa ei luonnollisesti tarvitse huolehtia yksityisyydensuojasta tai datahavaintojen mahdollisesta tunnistettavuudesta, joten menetelmä on erityisen luonteva aloille, joilla käsitellään sensitiivistä tietoa. Toinen synteettisen datan positiivinen ominaisuus on se, että varsinaiseen datan keräämiseen ei mene resursseja. Esimerkiksi kattavan puhelinhaastattelun järjestäminen voi helposti maksaa kymmeniä tuhansia euroja. Erityisesti tki-toimintaan painottuvassa korkeakoulumaailmassa synteettinen data ja siihen liittyvä osaaminen voi tuoda suurta lisäarvoa yhteistyöhön entistä datapainotteisemman elinkeino- ja yrityselämän kanssa.

Kirjoittaja

Jaani Väisänen, FT, lehtori, tutkii ja opettaa digitaalista liiketoimintaa LAB-ammattikorkeakoulussa. Hänen yhtenä opetusalanaan on data-analytiikka, ja hän vetää innovaatioiden kokeiluympäristöt -kasvualustaa.

Lähteet

Bernardo, V. 2022. Synthetic Data. Teoksessa Zerdick, T. & Leucci, S. (toim.). TechSonar 2020‒2021 Report. European Data Protection Supervisor. EU. Viitattu 6.5.2022. Saatavissa https://edps.europa.eu/press-publications/publications/techsonar/synthetic-data_en

Bulao, J. 2022. How Much Data Is Created Every Day in 2022? Techjury. Viitattu 6.5.2022. Saatavissa https://techjury.net/blog/how-much-data-is-created-every-day/#gref

Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C. & Byers, A. 2021. Big data: The next frontier for innovation, competition, and productivity. The McKinsey Global Institute. Viitattu 6.5.2022. Saatavissa https://www.mckinsey.com/~/media/mckinsey/business%20functions/mckinsey%20digital/our%20insights/big%20data%20the%20next%20frontier%20for%20innovation/mgi_big_data_exec_summary.pdf

Rautio, M. 2021. Poliisi alkaa pian kuulla Vastaamo-tietomurron tuhansia uhreja – “Ratkaiseva tekijä voi olla jo nurkan takana”, sanoo tutkinnanjohtaja. Yle. Viitattu 6.5.2022. Saatavissa https://yle.fi/uutiset/3-12152682

Salami, M., Oyewusi, W. & Adekanmbi, O. 2021. AFRIGAN: African Fashion Style Generator using Generative Adversarial Networks (GANs). 35th Conference on Neural Information Processing Systems (NeurIPS 2021), Sydney, Australia. Viitattu 6.5.2022. Saatavissa https://www.researchgate.net/profile/Wuraola-Oyewusi/publication/356791939_AFRIGAN_African_Fashion_Style_Generator_using_Generative_Adversarial_NetworksGANs/links/61adf350092e735ae2e68567/AFRIGAN-African-Fashion-Style-Generator-using-Generative-Adversarial-NetworksGANs.pdf

Spiske, M. 2018. Unsplash. Viitattu 13.5.2022. Saatavissa https://unsplash.com/photos/iar-afB0QQw