Terveydenhuollon tekoälykeskustelu alkaa usein väärästä kohdasta. Ensin puhutaan mallista: mitä se ennustaa, millaisen päätöksenteon tuen se mahdollistaa ja kuinka nopeasti siitä saadaan pilotti. Dataan palataan vasta myöhemmin, usein siinä vaiheessa kun ratkaisu ei toimi odotetulla tavalla.

Ongelma ei yleensä ole siinä, etteikö malleja olisi saatavilla. Niitä on. Todellinen kysymys on, voidaanko mallille annettavaan tietoon luottaa.

Terveydenhuollon data syntyy hajanaisessa ympäristössä. Potilastietojärjestelmät, erillisjärjestelmät, paikalliset kirjaamiskäytännöt, kansalliset koodistot ja raportointia varten rakennetut tietoputket muodostavat kokonaisuuden, joka ei luontaisesti tuota yhtenäistä tietopohjaa. Sama kliininen ilmiö voi näkyä eri järjestelmissä eri koodeilla, eri tarkkuudella ja eri merkityksessä. Tällöin kyse ei ole vain teknisestä yhteensopivuudesta, vaan tiedon sisällöllisestä ymmärrettävyydestä.

Inviniten tuore julkaisu Semanttinen tietopohja ratkaisee terveydenhuollon tekoälyn skaalautumisen nostaa esiin juuri tämän kysymyksen. Tekoälyn hyödyntäminen ei ratkea pelkästään algoritmeilla ja laskentateholla, vaan sillä, miten terveydenhuollon tietotuotanto on rakennettu, omistettu ja johdettu.

Monessa organisaatiossa datatuotanto on kehittynyt vuosien aikana raportointi- ja käyttötapaus kerrallaan. Yksittäiseen tarpeeseen on rakennettu tietoputki, sen päälle raportti, sen rinnalle toinen ratkaisu ja myöhemmin kolmas. Lopputuloksena syntyy ympäristö, jossa käsittelylogiikka on hajallaan eri skripteissä, raporttikerroksissa, integraatioissa ja asiantuntijoiden muistissa.

Tällainen ympäristö voi toimia jonkin aikaa, mutta se ei ole vakaa perusta tekoälyn tuotantokäytölle. Kun kirjaamiskäytäntö muuttuu, muutosta ei välttämättä saada hallitusti kaikkiin kohtiin. Kun henkilö vaihtaa tehtävää, osa tietotuotannon logiikasta katoaa. Kun datassa on virhe, se havaitaan usein vasta raportoinnin tai analyysin loppuvaiheessa. Tämä tekee kehittämisestä hidasta ja ylläpidosta raskasta.

Data as Software -ajattelun lähtökohta on, että terveydenhuollon tietotuotantoa pitäisi johtaa ohjelmistokehityksen kaltaisena tuotantona. Data ei ole raportoinnin sivutuote, vaan kriittinen osa palvelujen, johtamisen, tutkimuksen ja tekoälyn toimintakykyä.

Käytännössä tämä tarkoittaa, että tietotuotannolla on oltava omistajuus, dokumentaatio, testaus, versionhallinta, muutoshallinta ja selkeä arkkitehtuuri. Tiedon merkitys ei saa olla yksittäisen asiantuntijan tulkinnan varassa. Sen on oltava kuvattu, testattavissa ja hallittavissa.

Erityisen tärkeä on semanttinen harmonisointi. Terveydenhuollossa ei riitä, että data saadaan teknisesti siirrettyä järjestelmästä toiseen. On ymmärrettävä, mitä tieto tarkoittaa. Diagnoosit, toimenpiteet, lääkitykset, laboratoriotulokset ja hoitoprosessin vaiheet eivät ole vain kenttiä tietokannassa. Ne ovat kliinisiä käsitteitä, joiden merkitys vaikuttaa suoraan siihen, millaisia johtopäätöksiä datasta voidaan tehdä.

Jos tätä merkitystä ei yhdenmukaisteta, tekoäly voi oppia järjestelmien, kirjaamiskäytäntöjen ja paikallisten prosessien eroja sen sijaan, että se oppisi kliinisesti olennaisia ilmiöitä. Silloin mallin suorituskyky voi näyttää rajatussa pilotissa hyvältä, mutta ratkaisu ei kestä siirtoa toiseen ympäristöön tai laajempaan käyttöön.

Julkaisussa esitetään, että terveydenhuollon tietoarkkitehtuuriin tarvitaan selkeä semanttinen kerros. Sen tehtävä on muuntaa heterogeeninen lähdedata yhtenäisiksi ja kliinisesti mielekkäiksi käsitteiksi ennen kuin tietoa käytetään tekoälyn, analytiikan tai päätöksenteon pohjana. Tämä ei ole irrallinen tekninen lisäosa, vaan edellytys sille, että tietopohja skaalautuu.

Samasta syystä myös data- ja tekoälyhankintojen pitäisi muuttua. Hankinnoissa tulisi arvioida myös semanttista laatua, datakontrakteja, versionhallintaa, dokumentaatiota ja tuotantokelpoisuutta. Muuten ostetaan helposti ratkaisuja, jotka näyttävät toimivilta esittelyssä mutta jäävät kiinni arjen tietopohjan ongelmiin.

Suomella on tässä asiassa hyvä lähtökohta. Kansalliset rekisterit, koodistot, suhteellisen yhtenäinen sote-rakenne ja vahva tutkimusperinne tarjoavat pohjan, jota monessa maassa ei ole. Hyvä lähtökohta ei kuitenkaan vielä tarkoita toimivaa kokonaisuutta. Etu realisoituu vasta, kun tietotuotanto rakennetaan pysyväksi kyvykkyydeksi.

Terveydenhuollon tekoäly ei tarvitse vain lisää pilotteja. Se tarvitsee tietopohjan, joka kestää kliinisen käytön, auditoinnin, muutokset ja tuotantoympäristön vaatimukset.

Siksi keskustelu tekoälyn skaalautumisesta pitäisi aloittaa vähemmän näyttävästä mutta ratkaisevammasta kysymyksestä: miten data tuotetaan, mitä se tarkoittaa ja kuka vastaa siitä?

Lataa Invinite Insights-julkaisu:

Lataa Invinite Insights-julkaisu

Tekoäly ei skaalaudu terveydenhuollossa ilman semanttista tietopohjaa

Embrace Infinite Innovation

Tekoäly ei skaalaudu terveydenhuollossa ilman semanttista tietopohjaa

Invinite at the Finnish Health Data Hackathon 2026: Data as Software in Practice

Embrace Infinite Innovation