Láng-Ritter et al. (2025) esittävät, että maailman väkiluku saattaa olla arvioitu väärin. He havaitsivat, että patojen rakennusprojektien alta on siirretty systemaattisesti odotettua enemmän ihmisiä uusille alueille. Tämän pohjalta he päättelivät, että asutuskeskusten ulkopuolella asuu paljon ihmisiä, jotka jäävät väestölaskennan ulkopuolelle. Tämä on ongelma siksi, että he jäävät näin myös päätöksenteon ulkopuolelle ja siksi heille ei ole tarjolla palveluita samaan tapaan kuin kaupungeissa asuville.
Samaan aikaan virheelle saattaa olla muitakin syitä. Ehkä alueelle saapuu joukko ihmisiä, jotka väittävät tarvitsevansa taloudellista apua muuttamiseen tai ehkä itse pato on houkutellut uusia ihmisiä alueelle työn tai liiketoimintamahdollisuuksien vuoksi. Datan pohjalta päätelmien tekemisen suhteen pitäisi olla siis hyvin varovainen.
Euroopassa GDPR säätelee datan omistajuutta sekä käyttösääntöjä ja tekoälylaki säätelee käyttötarkoituksia, mutta koska lakien pohjana on suojaaminen, ne pohjautuvat tiettyjen toimintatapojen rajoittamiseen ja oikeuksien antamiseen. Ne eivät ota kantaa siihen, miten dataa pitää käyttää, jotta siitä saadaan paras hyöty irti. Tämä ei ole myöskään vain tehokkuuskysymys, vaan kuten yllä olevasta esimerkistä näkyy, jos dataa tulkitaan väärin, sillä saattaa olla kauaskantavia vaikutuksia.
VALVE (LAB 2025) on LABin, LUTin ja Lappeenrannan kaupungin yhteinen projekti, jonka tarkoituksena on auttaa Etelä-Karjalan yrityksiä vastuullisuuteen liittyvissä asioissa. Digitaaliset työkalut tuovat mukanaan myös uusia vastuullisuuskysymyksiä.
Data muuttuu helposti misinformaatioksi
Kenny (2015) varoitti eri musiikin lajien vaarallisuudesta. Keräämällä yhteen iät, joissa eri lajien edustajat kuolivat, hän huomasi, että uudempien suuntausten edustajat (punk, metalli, hip hop, rap) ovat kuolleet selvästi nuorempina kuin vanhempien suuntausten.
Bergstrom ja West (2020, 126–127) kuitenkin nostavat esiin, että yksinkertainen visuaalinen esitys ei osaa ottaa huomioon genrejen ikää. Vuonna 2015 oli kulunut vasta noin 40 vuotta hip hopin syntymästä. Jos nämä ensimmäiset artistit olivat 20-vuotiaita aloittaessaan, he eivät olleet vielä edes saavuttaneet keskimääräistä elinikää, joten eliniänodotus perustuu täysin ihmisiin, jotka ovat kuolleet poikkeuksellisen aikaisin. Vaikka Kenny nostaa esiin vastauksessaan, että käsitteli asiaa tarkemmin alkuperäisessä julkaisussa (Bergstrom & West 2017), hän oli valmis julkaisemaan harhaanjohtavan kuvan keskustelun herättämisen nimissä.
Esimerkkejä datan ongelmallisista tulkinnoista löytyy loputtomasti eri konteksteissa, kuten tekoälyjen käyttö rangaistusten määrittelyssä (Angwin et al. 2016), ennakoivassa poliisitoiminnassa (Gilbertson 2020) ja flunssan leviämisen seuraamisessa (Kugler 2016).

Mistä virheet tulevat?
Moni on sisäistänyt ajatuksen siitä, että data on arvokasta ja sitä kannattaa hyödyntää. Heillä saattaa myös olla jonkinlaista ymmärrystä menetelmistä. Datan käsittely valitulla menetelmällä saattaa näyttää helpolta, mutta tämä ei takaa, että data on validia tai menetelmä on oikea. Tuloksia ei myöskään usein verifioida millään tavalla.
Datan käsittely esimerkiksi kielimallien avulla on yleistynyt, mutta tässä on monia ongelmia. Jos dataa on paljon, kielimallin kyky käsitellä sitä heikkenee ja se joutuu hylkäämään tai tiivistämään asioita, jolloin se saattaa unohtaa keskeistä tietoa. Saattaa myös olla, että kielimalli ei tunnista alatekstiä.
Monissa edellä mainituissa esimerkeissä (Kenny 2015; Gilbertson 2020; Angwin et al. 2016) näkyy myös ennakkoasenteet. Dataa ei käytetä jonkin tietyn asian parempaan ymmärtämiseen, vaan tukemaan valittua näkökulmaa.
Dataa ja sen käyttöä ymmärretään hyvin, mutta sen yleistyessä monet toimijat lähtevät datan analysointiin ilman riittävää osaamista. Tämä on tyypillistä nykyiselle bisneskulttuurille, jossa nähdään tärkeänä päästä mukaan jokaiseen trendiin ennen kuin itse teknologia tai siihen liittyvät käytännöt ovat kypsyneet riittävästi.
Kirjoittaja
Aki Vainio työskentelee LAB-ammattikorkeakoulussa tietojenkäsittelyn lehtorina. Hän on datassa se rivi, joka joudutaan siivoamaan pois liian uskomattomana.

Lähteet
Angwin, J., Larson, J., Mattu, S. & Kirchner, L. 2016. Machine Bias. ProPublica. Viitattu 12.6.2025. Saatavissa https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
Bergstrom, C.T. & West, J.D. 2017. Case Study – Musicians and Mortality. Calling Bullshit. Viitatttu 12.6.2025. Saatavissa https://callingbullshit.org/case_studies/case_study_musician_mortality.html
Bergstrom, C.T. & West, J.D. 2020. Calling Bullsh*t – The Art of Scepticism in a Data-Driven World. London, UK: Allen Lane.
geralt. 2018. Altmann, G. Network, Web, Skyline royalty-free stock illustration. Pixabay. Viitattu 17.6.2025. Saatavissa https://pixabay.com/illustrations/network-web-skyline-pixel-data-3443547/
Gilbertson, A. 2020. Data-informed predictive policing was heralded as less biased. Is it?. Mic. Viitattu 12.6.2025. Saatavissa https://www.mic.com/impact/data-informed-predictive-policing-was-heralded-as-less-biased-is-it-31975660
Kenny, D.T. 2015. Music to die for: how genre affects popular musicians’ life expectancy. The Conversation. Viitattu 12.6.2025. Saatavissa https://theconversation.com/music-to-die-for-how-genre-affects-popular-musicians-life-expectancy-36660
Kugler, L. 2016. What Happens When Big Data Blunders?. Communications of the ACM. Viitattu 12.6.2025. Saatavissa https://cacm.acm.org/news/what-happens-when-big-data-blunders/
LAB. 2025. VALVE – Vastuullisuusosaamista ja -verkostoja Etelä-Karjalaan. Hanke. LAB-ammattikorkeakoulu. Viitattu 20.3.2025. Saatavissa https://lab.fi/fi/projekti/valve-vastuullisuusosaamista-ja-verkostoja-etela-karjalaan
Láng-Ritter, J., Keskinen, M. & Tenkanen, H. 2025. Global gridded population datasets systematically underrepresent rural population. Nat Commun 16, 2170 (2025). Viitattu 20.3.2025. Saatavissa https://doi.org/10.1038/s41467-025-56906-7