Flagstat er et værktøj i Samtools, der bruges i bioinformatik til hurtigt at opsummere indholdet af en SAM- eller BAM-fil. Værktøjet læser de såkaldte flag, altså kodede markeringer på hver sekvenslæsning, og beregner statistik over blandt andet hvor mange læsninger der er kortlagt, parret korrekt, duplikerede eller ikke-kortlagte. Det giver et hurtigt overblik over kvaliteten af et sekventeringsdatasæt og resultatet af en alignering.
Hvad viser flagstat?
Når forskere sekventerer DNA eller RNA, bliver de mange korte læsninger typisk matchet mod et referencegenom. I den proces får hver læsning et flag, som beskriver dens status. Det kan for eksempel være, om læsningen er mappet, om dens makker i et par også er mappet, eller om den er markeret som sekundær eller duplikeret.
Flagstat gennemgår hele filen og tæller, hvor mange læsninger der falder i forskellige kategorier. Resultatet bruges ofte som et første kvalitetscheck. Hvis en meget stor andel af læsningerne for eksempel ikke kan mappes til referencegenomet, kan det pege på problemer med prøven, sekventeringen eller den valgte reference. Hvis mange læsninger er markeret som duplikater, kan det tyde på tekniske skævheder i bibliotekforberedelsen.
Hvorfor bruges det i praksis?
I laboratorier og analysepipelines er flagstat populært, fordi det er hurtigt og let at fortolke. Det bruges ofte tidligt i et analyseforløb, før mere detaljerede undersøgelser går i gang. En bioinformatiker kan for eksempel sammenligne flagstat-resultater mellem flere prøver for at se, om én prøve skiller sig negativt ud.