Træningsdata er de oplysninger, som en AI-model eller anden maskinlæringsmodel lærer ud fra. Det kan være tekst, billeder, lyd, tal eller andre typer data, som bruges til at finde mønstre og sammenhænge. Modellen bruger disse eksempler til gradvist at justere sine interne regler, så den senere kan løse opgaver på nye data, den ikke har set før.
Hvad bruges træningsdata til?
Træningsdata er fundamentet for, hvordan en model opfører sig. Hvis man vil bygge et system, der kan genkende katte på billeder, skal modellen typisk trænes på mange eksempler på katte og andre motiver. Hvis man vil udvikle en sprogmodel, bruges store mængder tekst til at lære grammatik, ordforråd og typiske sammenhænge mellem ord.
Kvaliteten af træningsdata er afgørende. Er dataene mangelfulde, skæve eller fyldt med fejl, vil modellen ofte lære de samme problemer. Det kan føre til upræcise svar, diskriminerende resultater eller misforståelser. Derfor arbejder udviklere ofte med at rense data, mærke dem korrekt og sikre, at de dækker opgaven bredt nok.
Hvorfor er træningsdata omdiskuteret?
Det er også vigtigt at skelne mellem træningsdata og de data, en model møder efter lancering. Træningsdata bruges til at forme modellen, mens nye input bruges, når modellen allerede er i drift.