Prompt injection er en sikkerhedssårbarhed i generativ AI, hvor en bruger forsøger at påvirke en sprogmodels svar med skjulte eller manipulerende instruktioner. Målet kan være at få modellen til at ignorere sine oprindelige retningslinjer, omgå sikkerhedsfiltre eller udlevere oplysninger, den ikke burde dele. Fænomenet rammer især store sprogmodeller, chatbots og AI-agenter, der behandler tekst som kommandoer.
Hvordan prompt injection virker
Problemet opstår, fordi en sprogmodel læser tekst som input uden altid at kunne skelne klart mellem harmløse spørgsmål og ondsindede instrukser. En angriber kan for eksempel skrive, at modellen skal "ignorere alle tidligere instruktioner" eller udgive sig for at være systemadministrator. Hvis AI-systemet følger den nye besked, kan det ændre sin adfærd på en måde, udvikleren ikke havde tænkt.
Prompt injection kan også gemmes i dokumenter, e-mails, websites eller andre datakilder, som en AI-agent læser automatisk. Hvis en AI-assistent for eksempel skal opsummere en webside, kan siden indeholde skjult tekst, der forsøger at styre assistentens svar. Derfor handler truslen ikke kun om, hvad brugeren skriver direkte i chatten, men også om de oplysninger, modellen henter fra omverdenen.