prompt injection - Ordbog

Prompt injection er en sikkerhedssårbarhed i generativ AI, hvor en bruger forsøger at påvirke en sprogmodels svar med skjulte eller manipulerende instruktioner. Målet kan være at få modellen til at ignorere sine oprindelige retningslinjer, omgå sikkerhedsfiltre eller udlevere oplysninger, den ikke burde dele. Fænomenet rammer især store sprogmodeller, chatbots og AI-agenter, der behandler tekst som kommandoer.

Hvordan prompt injection virker

Problemet opstår, fordi en sprogmodel læser tekst som input uden altid at kunne skelne klart mellem harmløse spørgsmål og ondsindede instrukser. En angriber kan for eksempel skrive, at modellen skal "ignorere alle tidligere instruktioner" eller udgive sig for at være systemadministrator. Hvis AI-systemet følger den nye besked, kan det ændre sin adfærd på en måde, udvikleren ikke havde tænkt.

Prompt injection kan også gemmes i dokumenter, e-mails, websites eller andre datakilder, som en AI-agent læser automatisk. Hvis en AI-assistent for eksempel skal opsummere en webside, kan siden indeholde skjult tekst, der forsøger at styre assistentens svar. Derfor handler truslen ikke kun om, hvad brugeren skriver direkte i chatten, men også om de oplysninger, modellen henter fra omverdenen.

Hvorfor det er en vigtig sikkerhedsudfordring

Prompt injection bliver ofte beskrevet som en ny type cyberangreb, fordi den udnytter AI-systemers måde at forstå sprog på. Risikoen er især stor, når AI kobles til følsomme data, interne dokumenter eller eksterne værktøjer. I sådanne tilfælde kan et manipuleret input i værste fald føre til datalæk, forkerte handlinger eller brud på virksomhedens sikkerhedspolitik.

Forsvar mod prompt injection kræver derfor mere end gode svar fra modellen. Udviklere bruger blandt andet adgangskontrol, filtrering af input, test af angrebsscenarier og begrænsning af, hvilke handlinger en AI-agent må udføre. Begrebet er vigtigt i den aktuelle nyhedsdækning, fordi flere virksomheder og myndigheder tager generativ AI i brug, samtidig med at sikkerhedsrisiciene bliver tydeligere.