27. jan. 2026

Diagnostisk nøyaktighet: KI vs. menneskelig observasjon

Diagnostisk KI omtales ofte som «mer presis enn mennesket», særlig når verktøy analyserer røntgen og markerer mulige funn. I tannhelse kan dette være relevant i alt fra karies- og bentapsvurdering til strukturering av observasjoner i journal.

Samtidig oppstår uklarhet fordi «nøyaktighet» brukes som et enkelt kvalitetsstempel, mens det i praksis er et sett av måter å måle ytelse på – under bestemte forutsetninger, med bestemte data og bestemte referansestandarder. Det gjør sammenligningen mellom KI og menneskelig observasjon mer krevende enn mange forventer.

Denne artikkelen forklarer hva diagnostisk nøyaktighet faktisk innebærer, hvor ansvar og risiko oppstår når KI sammenlignes med (og brukes sammen med) klinikere, og hvilke styringsgrep som bør være på plass for å sikre at «god nøyaktighet» også blir trygg drift.

Hva menes med KI-bruk i tannhelse?

I tannhelse brukes KI typisk som beslutningsstøtte i situasjoner der klinikeren tolker informasjon med variasjon og usikkerhet: bildediagnostikk, vurdering av progresjon over tid, triagering og dokumentasjon. KI kan for eksempel:

markere områder på røntgen som kan være karies, bentap eller andre avvik
foreslå målinger eller graderinger basert på radiografiske mønstre
bidra til mer standardisert rapportering eller struktur i dokumentasjon

Når man vurderer «diagnostisk nøyaktighet», handler det sjelden om ett tall. Ytelsen beskrives gjerne med mål som sensitivitet og spesifisitet (evne til å fange opp henholdsvis tilstedeværelse og fravær av et funn), og disse bør normalt ses i sammenheng – ikke isolert.

I tillegg må man være presis på hva som sammenlignes:

KI alene mot en referansestandard
menneske alene mot samme standard
menneske med KI-støtte (assistanse) mot menneske uten støtte (reader studies)

Det siste er ofte det mest praksisnære spørsmålet for klinikkeiere: om KI faktisk forbedrer beslutninger og dokumentasjon i en reell arbeidsflyt – ikke bare om modellen scorer høyt på et testsett.

Hvor oppstår ansvarsspørsmålet?

Ansvarsspørsmålet oppstår der nøyaktighetstall møter klinisk bruk og styring. Typiske knutepunkt er:

Valg av referansestandard og «fasit»
Diagnostiske studier bygger på en definert «ground truth». I tannhelse kan fasit være ekspertpanel, konsensus eller klinisk oppfølging. Men menneskelig tolkning har ofte betydelig variasjon. Studier av radiografiske målinger viser at interobserver- og intraobserver-variasjon påvirkes av forhold som bildekvalitet og grad av funn, og at reliabilitet kan forbedres gjennom flere uavhengige vurderinger.
Konsekvensen er at «KI vs. menneske» ikke alltid er en ren konkurranse – ofte sammenlignes begge mot en fasit som i seg selv har usikkerhet.
Generaliserbarhet: når ytelse flyttes fra test til drift
Mange KI-modeller fungerer godt på data som ligner trenings- og testgrunnlaget, men faller i ytelse når bildeutstyr, populasjon eller dokumentasjonspraksis endres. Dette er en sentral grunn til at ekstern validering vektlegges, og at man bør teste på data fra institusjoner som skiller seg fra treningskildene.
Hva som faktisk forbedres: nøyaktighet vs. klinisk nytte
En modell kan øke sensitivitet, men samtidig øke falske positive (og dermed unødvendig oppfølging). Eller den kan være «nøyaktig» på gjennomsnitt, men svak i bestemte situasjoner (for eksempel tidliglesjoner, lav bildekvalitet eller restaureringer som skaper artefakter). Systematiske oversikter innen dental bildeanalyse beskriver ofte lovende resultater, men også at studie- og rapporteringskvalitet varierer og kan være lav.
Arbeidsflyt og menneskelig atferd
Selv et godt verktøy kan skape risiko dersom klinikere blir overavhengige, eller dersom KI-output presenteres på en måte som påvirker vurderingen uforholdsmessig. Dette er et styringsspørsmål: hvor i prosessen KI vises, hvilke kontrollpunkt som finnes, og hvordan uenighet håndteres og dokumenteres.
Endringer over tid
Oppdateringer av modell, terskler eller integrasjoner kan endre nøyaktighet. Uten endringskontroll og monitorering er det vanskelig å vite om «nøyaktigheten» man anskaffet, er den man faktisk drifter.

Vanlige misforståelser

«KI er mer nøyaktig enn mennesker»

KI kan prestere svært godt på avgrensede oppgaver, og noen studier rapporterer høy ytelse. Samtidig er «nøyaktighet» alltid knyttet til data, definisjon av funn og referansestandard. I dental caries-detektering peker systematiske oversikter på lovende tall, men også på begrensninger i studie- og rapporteringskvalitet.

«Menneskelig vurdering er alltid tryggere»

Mennesker varierer. Radiografisk tolkning og måling påvirkes av erfaring, tidspress, bildekvalitet og grad av funn, og studier viser interobserver-variabilitet.
Det betyr ikke at KI er «svaret», men at styring bør bygge på at både menneske og teknologi har feiltyper som må håndteres.

«Et høyt nøyaktighetstall betyr at verktøyet er klart for drift»

Høy ytelse i en studie er ikke det samme som kontroll i praksis. Myndighetsnære kilder peker på at ekstern validering historisk har vært sjelden i publiserte diagnostiske KI-studier, og at validering på nye institusjonsdata er viktig for å sikre robusthet.

«Dette løses med en enkel pilot»

Pilot er nyttig, men utilstrekkelig alene dersom den ikke inkluderer tydelige akseptkriterier, test av feilsituasjoner, dokumentert overstyring og plan for monitorering etter oppskalering. En «pilot» som bare viser at verktøyet fungerer teknisk, sier lite om klinisk effekt og risiko i drift.

Hva bør være på plass i praksis?

For klinikkeiere handler «diagnostisk nøyaktighet» om å etablere kontroll på tre nivåer: måling, bruk og drift. Følgende bør normalt være på plass før KI brukes som diagnostisk støtte i ordinær praksis:

Kartlagt faktisk KI-bruk i virksomheten
Hva brukes KI til, på hvilke bilder, i hvilke prosesser – og hva er eksplisitt utenfor (avgrensning).
Tydelige roller, ansvar og beslutningsmyndighet
Hvem er systemeier, hvem har faglig ansvar for bruken, hvem forvalter konfigurasjon og tilgang, og hvem kan stanse bruk ved avvik.
Definerte ytelsesmål og akseptkriterier
Hvilke mål er relevante (sensitivitet/spesifisitet, feiltypologi, situasjoner med lav tillit), og hva er «godt nok» for den aktuelle bruken. Sensitivitet og spesifisitet bør vurderes samlet og i lys av praktiske konsekvenser.
Lokal og ekstern validering der det er relevant
Test på egne eller sammenlignbare data, og vurder behovet for ekstern validering for å håndtere variasjon i utstyr og populasjon.
Menneskelig kontroll og mulighet for overstyring
Klare kontrollpunkt i arbeidsflyten: når KI alltid skal dobbeltsjekkes, hvordan uenighet håndteres, og hvordan overstyring dokumenteres.
Dokumentasjon og sporbarhet
Versjon, konfigurasjon, tiltenkt bruk, testgrunnlag, endringslogg og rutiner for avvik. I tillegg: hvordan man kan forklare resultatet og begrensningene ved behov (pasient, internkontroll, tilsyn).
Monitorering i drift
Løpende stikkprøver og kvalitetsoppfølging som fanger opp ytelsesendringer, feilbruk og endringer i arbeidsmønster – særlig ved oppdateringer eller nye integrasjoner.

Målet er ikke å «bevise at KI er best», men å gjøre nøyaktighet praktisk styrbar: kjent feiltypologi, dokumenterte kontroller og tydelig ansvar.

Acteras rolle i dette

Actera er etablert for å gi tannhelsevirksomheter struktur rundt ansvarlig bruk av KI.

Vi jobber ikke med teknologiutvikling eller kliniske beslutninger, men med styringsstruktur, ansvarslinjer og dokumentasjon – slik at KI kan brukes på en trygg, forutsigbar og etterprøvbar måte.

Avsluttende betraktning

Sammenligningen mellom KI og menneskelig observasjon blir ofte fremstilt som et kappløp, men i klinisk drift er det sjelden det mest relevante perspektivet. Spørsmålet er hvordan nøyaktighet måles, hva den betyr i praksis, og hvordan virksomheten beholder kontroll når verktøyet påvirker vurdering og dokumentasjon.

Når referansestandard, validering, arbeidsflyt og monitorering er tydelig styrt, kan KI bli en stabil støtte. Uten denne strukturen kan «høy nøyaktighet» forbli et tall uten reell operativ verdi.

Hva gjelder idag?

EU AI Act sine deployer-krav for høyrisiko-KI er utsatt til desember 2027. Kravene til AI-literacy, transparens, pasientinformasjon og journalføring gjelder allerede i dag.

Be om en vurdering

Artikkel 4 - AI-literacy.

Ansatte som bruker KI må ha tilstrekkelig kompetanse. I kraft siden februar 2025.

Artikkel 50 - transparens ved generativ KI.

Pasient skal informeres når generativ KI brukes i kommunikasjon eller dokumentasjon. Gjelder fra desember 2026.

Helsepersonellovens forklaringsplikt.

Pasient har rett til å forstå hva som inngår i behandlingen — også når KI er involvert.

Pasientjournalloven og GDPR.

Behandling av personopplysninger med KI krever rettslig grunnlag, dokumentasjon og menneskelig kontroll.

Helsetilsynets løpende tilsyn med journalføring

Gjelder uavhengig av AI Act.

Hva gjelder idag?

EU AI Act sine deployer-krav for høyrisiko-KI er utsatt til desember 2027. Kravene til AI-literacy, transparens, pasientinformasjon og journalføring gjelder allerede i dag.

Be om en vurdering