Scraping, ofte kaldet web scraping, er en metode til automatisk at hente data fra websites eller andre digitale kilder ved hjælp af software. I stedet for at et menneske manuelt læser en side og kopierer oplysninger, gør et program arbejdet hurtigt og systematisk. Scraping kan bruges til at indsamle alt fra overskrifter og produktdata til kontaktoplysninger, kommentarer eller offentligt tilgængelige dokumenter.
Hvordan scraping fungerer
Når nogen scraper en hjemmeside, besøger et program siden, læser dens indhold og udtrækker bestemte oplysninger i et struktureret format. Det kan for eksempel være titler, datoer, brødtekst eller links. Dataene gemmes derefter i en database, et regneark eller et analyseværktøj.
Teknikken bruges i mange lovlige sammenhænge. Medier og analysefirmaer kan følge nyhedsstrømme på tværs af mange kilder. Virksomheder kan overvåge konkurrenters offentlige information. Forskere kan indsamle store mængder tekst til undersøgelser af sprog, adfærd eller politiske tendenser. På den måde er scraping et værktøj til at skabe overblik i store datamængder.
Muligheder og problemer
Der er også en teknisk side. Aggressiv scraping kan belaste websites, hvis mange automatiske forespørgsler sendes på kort tid. Derfor bruger mange platforme beskyttelse som login-krav, hastighedsbegrænsning eller robotregler.