distillationangreb - Ordbog

Et distillationangreb er en metode, hvor en aktør sender meget store mængder forespørgsler til en AI-model for at observere dens svar og derefter bygge en ny model, der efterligner den. Formålet er ikke nødvendigvis at stjæle den oprindelige kode, men at udvinde modelens adfærd, prioriteringer og praktiske knowhow. Ordet bruges som en overført reference til "distillation", altså at udtrække essensen af noget, ikke til den kemiske proces.

Hvordan et distillationangreb fungerer

I praksis foregår angrebet ofte gennem automatiserede spørgsmål, prompts eller API-kald. Angriberen indsamler store mængder input og output fra en avanceret model og bruger disse data til at træne en anden model. Hvis processen lykkes, kan den nye model komme tæt på originalens måde at svare på, løse lignende opgaver og afspejle visse sikkerhedsregler eller svagheder.

Det gør distillationangreb relevante i debatten om AI-sikkerhed og immaterielle rettigheder. En model kan være dyr og tidskrævende at udvikle, og derfor kan systematisk efterligning være en måde at omgå omkostningerne på. Samtidig kan angrebet også bruges til at kortlægge, hvordan en model reagerer på følsomme emner, og dermed afsløre, hvor dens beskyttelse er stærk eller svag.

Hvorfor det er et problem

For virksomheder og institutioner kan distillationangreb betyde tab af konkurrencefordel, fordi unik modeladfærd i praksis kan kopieres. For brugere kan det også være et sikkerhedsproblem, hvis en efterlignet model viderefører fejl, skævheder eller risikable svarmønstre uden den oprindelige leverandørs kontrolmekanismer.

Et eksempel kan være, at en mindre aktør systematisk tester en stor sprogmodel med tusindvis af variationer af de samme spørgsmål for at genskabe dens stil og problemløsning. Resultatet behøver ikke være identisk for at være værdifuldt.

Begrebet er vigtigt i aktuelle nyheder, fordi det ligger i krydsfeltet mellem AI-kapløb, ophavsret, cybersikkerhed og regulering af store modeller.