Terveystietojen metatietokuvaukset parantavat datan löydettävyyttä

Suomessa syntyy nykyään valtava määrä digitaalista terveydenhuollon dataa. Terveydenhuollon palveluntuottajat sekä julkisella että yksityisellä sektorilla tallentavat jo laajasti reseptitietoja Kanta Reseptikeskukseen ja terveystietoja Potilastietovarantoon (Kanta 2025). Monilla terveysdatan parissa toimivilla organisaatioilla on myös omia tietokantoja ja -altaita, joihin terveystietoja kerätään. Kerättyä dataa hyödynnetään sekä ensisijaisessa että toissijaisessa käytössä ja hyödyntämistä halutaan edelleen laajentaa ja tehostaa.

Terveystietojen toissijainen käyttö

Ensisijaista käyttöä on tietojen käyttö siihen tarkoitukseen, jota varten ne on alun perin kerätty, terveydenhuollossa siis potilaan hoitaminen. Toissijaista käyttöä tai toisiokäyttöä on kaikki muu hyödyntäminen, kuten tutkimus, tilastointi, tiedolla johtaminen, innovointitoiminta ja erilaiset viranomaisten tehtävät. (Findata 2025.) Toissijaisen käytön kohteet vaihtelevat sairauksien tai hoidon tutkimuksesta palvelujen toimivuuden ja vaikuttavuuden arviointiin. Laajat tietoaineistot kiinnostavat myös, kun halutaan kouluttaa tekoäly avuksi sairauksien tunnistamiseen tai hoitamiseen. Sähköinen terveysdata voikin tarjota potilaiden hoidon sujuvoitumisen lisäksi laajoja hyötyjä toisiokäytön kautta.

Sosiaali- ja terveystietojen toissijaista käyttöä ohjaa toisiolaki (Laki sosiaali- ja terveystietojen toissijaisesta käytöstä 552/2019). Lain tavoite on ollut helpottaa sosiaali- ja terveystietojen toisiohyödyntämistä mahdollistamalla usean rekisterinpitäjän tietojen hakeminen toisiokäyttöön yhdellä tietolupaviranomaisen, Findatan, käsittelemällä lupahakemuksella. Samalla datan löydettävyyttä on haluttu parantaa ja toisiolaki velvoittaakin tietoja hallinnoivat tahot kuvaamaan tietovarantojensa metatiedot THL:n ja Findatan ylläpitämään julkiseen verkkopalveluun, Aineistokatalogiin. Metatieto kuvaa tietoaineiston kontekstia, sisältöä, rakennetta ja elinkaarta (Tieteen termipankki 2024). Konkreettisesti kuvaustyötä ohjaa Findatan antama määräys, joka sisältää aineistojen kuvaamisen periaatteet, rakenteen ja käsitteet (Findata 2021).

Aineistokuvausten kehittäminen ja tulevaisuus

Aineistokatalogissa on jo suuri määrä eri tahojen aineistokuvauksia ja sisältö laajenee jatkuvasti. Kannan ensihoitotietojen kuvaus julkaistiin marraskuussa 2024 ja sen myötä kyseiset tiedot ovat myös haettavissa toisiokäyttöön. Kuvauksessa ensihoitotiedot on jaettu useaan datasettiin, jotta rakenne on selkeämpi ja tiedot löydettävämpiä.

[Alt-teksti: Datasettejä edustavat laatikot vasemmalta oikealle: Ensihoitotehtävä, Potilaan yleistiedot, Havainnot potilaasta, Fysiologiset mittaukset, Toimenpiteet ja Elvytys. Jokaisessa laatikossa on ilmoitettu datasetin muuttujien määrä (22, 17, 26, 17, 20, 32) sekä linkki itse datasettiin.]
Kuva 1. Ensihoito-aineiston datasettejä Aineistokatalogissa. (Aineistokatalogi 2025)

Nykänen (2025) laati opinnäytetyönään ensihoitotietojen aineistokuvauksen. Yhtenä keskeisenä näkökulmana on kuvausten asiakaslähtöisyys, joka muodostuu ymmärrettävyydestä, rakenteen loogisuudesta ja eri kuvausten välisestä yhteneväisyydestä. Aineistokuvauksista annettu määräys ohjaakin erityisesti rakennetta ja yhteneväisyyttä.

Tammikuussa 2025 EU:n neuvosto hyväksyi Eurooppalaisen terveystietoalue -asetuksen (EHDS, European Health Data Space), joka laajentaa terveystietojen hyödyntämistä sekä ensisijaisen että toissijaisen käytön osalta koko Euroopan unionin laajuiseksi. (Sosiaali- ja terveysministeriö 2025.) Tämä tuo lisää vaatimuksia myös aineistokuvauksille.

Toissijaisen hyödyntämisen helpottamiseksi perustetaan EU:n yhteinen datakatalogi, johon EHDS-asetuksen alaiset tietoaineistot tulee kuvata. Tätä varten on kehitteillä HealthDCAT-AP -metatietostandardi, joka on laajennos DCAT-standardista (Schutte ym. 2024). DCAT (Data Catalog Vocabulary) on kehitetty alun perin julkisten organisaatioiden datakatalogien verkkojulkaisemiseen. Se tarjoaa sanaston, luokkia ja ominaisuuksia, joiden avulla eri kontekstien data voidaan kuvata yhtenevästi, koneluettavasti ja järjestelmien välillä yhteen toimivasti. (W3C 2024.) HealthDCAT-AP lisää standardiin terveystiedoille olennaisia metatietoja (Schutte ym. 2024).

HealthDCAT-AP:n myötä terveystietojen aineistokuvauksista tulee jatkossa entistä yhtenäisempiä. Tämä asettaa todennäköisesti joitain muutostarpeita nyt kansallisesti kuvatuille aineistoille, mutta parantaa edelleen datan löydettävyyttä ja sitä kautta hyödyntämistä EU:n laajuisesti.

Kirjoittajat

Leena Nykänen on LAB-ammattikorkeakoulun tieto- ja viestintätekniikan opiskelija. Hän toimii Kelassa tietoaineistojen toisiokäytön parissa. Työssään hän vastaa Kannan potilastietoaineistojen kuvaamisesta Aineistokatalogiin.

Matti Welin toimii yliopettajana LAB-ammattikorkeakoulussa tieto- ja viestintätekniikan koulutusvastuussa. Hän toimii myös Ditra-tutkimusryhmässä (Digital Transformation In Health And Safety) IT-, ML- ja AI- asiantuntijana.

Lähteet

Aineistokatalogi. 2025. Kanta Potilastiedot: Ensihoito. Aineistokuvaus. Viitattu 26.3.2025. Saatavissa https://urn.fi/URN:NBN:fi:thl:ak:03fefba8-d4cb-48fa-a296-5910be425cf0

Findata. 2021. Sosiaali- ja terveysalan tietolupaviranomaisen määräys: Aineistokuvausten tietosisällöt, käsitteet ja tietorakenteet. Viitattu 25.3.2025. Saatavissa https://www.findata.fi/wp-content/uploads/2021/02/db401a0d-findata-maarays-1-2021-aineistokuvausten-tietosisallot-kasitteet-ja-tietorakenteet.pdf

Findata. 2025. Mikä on sosiaali- ja terveystietojen ensisijaisen ja toissijaisen käytön ero? Viitattu 25.3.2025.  Saatavissa https://findata.fi/faq/mika-on-sosiaali-ja-terveystietojen-ensisijaisen-ja-toissijaisen-kayton-ero/

Kanta. 2025. Tilastot. Viitattu 25.3.2025. Saatavissa https://www.kanta.fi/tilastot

Laki sosiaali- ja terveystietojen toissijaisesta käytöstä 552/2019. Finlex. Viitattu 26.3.2025. Saatavissa https://www.finlex.fi/fi/lainsaadanto/saadoskokoelma/2019/552 

Nykänen, L. 2025. Ensihoitotietojen aineistokuvaus. Tietomallin vaikutus asiakaslähtöiseen toisiokäyttöaineistojen kuvaamiseen. Opinnäytetyö. LAB-ammattikorkeakoulu. Viitattu 26.3.2025. Saatavissa https://urn.fi/URN:NBN:fi:amk-202503214695

Schutte, N., Barros, B., Derycke, P. & Vande Catsyne, C.-A. 2024. M5.1 Draft guideline on data description. Guideline for health data holders on their duties regarding data description. Viitattu 25.3.2025. Saatavissa https://tehdas.eu/public-consultations/

Sosiaali- ja terveysministeriö. 2025. Uusi EU-asetus antaa kansalaisille paremmat mahdollisuudet hallita omia terveystietojaan. Tiedote. Viitattu 24.3.2025. Saatavissa https://vm.fi/-/1271139/uusi-eu-asetus-antaa-kansalaisille-paremmat-mahdollisuudet-hallita-omia-terveystietojaan

Tieteen termipankki. 2024. Avoin tiede: metatieto. Viitattu 2.4.2025. Saatavissa https://tieteentermipankki.fi/wiki/Avoin_tiede:metatieto   

VOCAB-DCAT-3. 2024. Data Catalog Vocabulary (DCAT) – Version 3. W3C. Viitattu 25.3.2025. Saatavissa https://www.w3.org/TR/vocab-dcat-3/