Professor i hidtil fortroligt brev: Sådan kan de nationale test gøres bedre

DEBAT: Altinget bringer her et lukket brev fra Peter Allerup stilet til daværende undervisningsminister Merete Riisager om, hvordan de nationale test kan omstruktureres. Det sker i forbindelse med, at nye tal viser, at folkeskolernes brug af nationale test er eksploderet.

De nationale test har en række udfordringer, som sætter eleverne i nogle uhensigtsmæssige situationer. Derfor bør der indbygges en større rummelighed i systemet, skriver Peter Allerup.Foto: Søren Bidstrup/Ritzau Scanpix

Dette indlæg er alene udtryk for skribentens egen holdning. Alle indlæg hos Altinget skal overholde de presseetiske regler.

Peter Allerup
Professor emeritus ved Aarhus Universitet

Sendt som lukket brev 13. januar 2018 til forhenværende undervisningsminister Merete Riisager (LA).

Kære Merete Riisager

Du har modtaget mange henvendelser vedrørende de nationale tests, og du har sikkert også kigget i arkiverne for at få et overblik over de plusser og minusser, der er forbundet med afholdelsen af testene.

Fakta

Indlægget er alene udtryk for skribentens egen holdning. Alle indlæg hos Altinget skal overholde de presseetiske regler.

Debatindlæg kan sendes til [email protected]

Min anledning til at skrive dette brev er at foreslå nogle få ændringer af den måde, de nationale tests bruges på og fortolkes. Som tidligere sagt er vi en del, som gerne ser de grundlæggende egenskaber omkring skaleringen af elevernes færdigheder fastholdt, fordi testene er de eneste, som i princippet tillader sammenligninger af elever på tværs og over år, på samme skala, så man kan følge en udvikling.

At principperne bag det statistiske apparat ikke indtil nu har fungeret ordentligt, er en anden sag, som bør kunne rettes op via noget reparation – for eksempel gennem forbedrede opgaver.

De procedurer, som i dag anvendes med de nationale test, indebærer, at eleven groft sagt bliver kastet rundt i manegen via den adaptive rutine, før eleven kommer ind i et område med opgavesværhedsgrad, som er tæt på elevens dygtighed.
Peter Allerup
Professor emeritus, Aarhus Universitet

Testen tilpasser sig eleven
Et af de egenskaber ved testene, som skaber mange ugler i mosen, er, at testene skal være løbende adaptive. Det betyder, at testen ikke ved noget som helst om eleven ved start, men løbende 'lærer eleven at kende' ved at hente opgaver fra opgavebanken, som løbende tilpasses elevens færdighedsniveau, et niveau, som løbende justeres ud fra de indkomne besvarelser.

Det ender med, at eleven får serveret opgaver, der er 50 procents chance for at svare rigtigt på. Når dette falder sammen med, at den ønskede usikkerhed er lille nok, så stopper man, og eleven får tildelt den endeligt beregnede 'dygtighed'.

Denne løbende adaptive procedure har nogle fordele med hensyn til test-oplevelsen for eleven, men indeholder desværre også nogle ulemper.

Ulemper ved den løbende adaptive procedure
Det er for eksempel ikke relevant at udregne procent rigtigt løste opgaver. Det er altså ikke meningsfuldt at beregne den størrelse, som man kender godt fra tidligere 'gammeldags' tests, og som altid blev brugt som mål for, om eleven var dygtig eller ej.

Ud over dette gælder, at hvis læreren vil give eleven tilbagemelding på sin besvarelse af opgaverne, så skal læreren gennemse samtlige løbende tilpassede opgaver og elevens konkrete svar – på måske 60 opgaver og for, måske, 28 forskellige elevers besvarelser i en klasse. Det er en klar udfordring i en tid, hvor lærere i forvejen er pressede på tid!

Desuden er usikkerhedsberegningen på elevens færdighedsniveau en by i Rusland for de fleste brugere af testene i deres nuværende form, fordi ord som 'konfidensgrænser' og 'error of measurement' som er en del af dette vokabularium, er som volapyk.

Endelig er det sådan, at for at kunne fortolke resultaterne af testresultaterne i deres nuværende form, som en 'høj' eller 'lav' præstation skal testen afholdes på nogle bestemte tidspunkter. Det skyldes, at det resultat af testen, som ender på den fælles skala, jo ikke kan stå alene med en eller anden konkret værdi, men må sættes i relation til en tidligere skabt norm.

Det er denne norms konstruktion på et bestemt tidspunkt i skoleforløbet, der dikterer, hvornår eleverne skal testes, hvis resultatets høj/lav-værdi skal kunne fortolkes. Det er derfor ikke umiddelbart nogen god idé at følge et forslag fra et tidligere åbent brev til dig, hvori der argumenteres for frivillighed med hensyn til, hvornår testene i deres nuværende form skal afholdes.

Indbyg en rummelighed og forhåndsviden om eleverne i testene
Hvad kan man så gøre for at løse nogle af disse problemer? Den her skitserede løsning viderefører en oprindelig tanke om, at resultaterne skal undlade at være 'så numerisk præcise', at der kan laves rangordninger af elever og skoler og i stedet sørge for at indbygge en vis 'rummelighed' i fortolkningen.

Det første skridt er at indføre en forhåndsviden om elevens færdighedsniveau. Enten ved at læreren kender eleven, eller eleven via egen vurdering mener at kunne placere sig i én af fem mulige grupper: 'ekstremt god' 'god', 'i midten', 'svag' og 'ekstremt svag'.

Disse grupperinger kan rent statistisk oversættes til fem konkrete værdier på den skala, som elevernes færdigheder/mål for dygtighed placeres på. På opgavesiden inddeles opgaverne tilsvarene i fem grupper, som matcher de fem grupperinger af elevfærdighederne på en sådan måde, at der er cirka 50 procents chance for et korrekt svar i de matchede elev-/opgavegrupper.

Så starter testen, og eleven, der for eksempel har valgt eller er blevet tildelt en plads i 'god'–gruppen, får nu præsenteret et antal opgaver, som vælges alene ud fra den gruppe af opgaver, som matcher elevens forhåndsvalg af dygtighedsniveau. Hele testforløbet bliver på denne måde at sammenligne med at kaste plat og krone med en mønt, fordi sandsynligheden for et rigtigt svar ('krone') stort set er den samme gennem hele testforløbet.

Når et på forhånd fastlagt antal opgaver er gennemført, stoppes testen, og eleven og læreren kan nu beregne procent rigtigt løste opgaver. Altså ligesom i 'gamle dage'. Når man starter testen ud fra den valgte/tildelte plads i en dygtighedsgruppe, ved man, hvilke opgavesværhedsgrader eleven skal præsenteres over for, og man kan udmærket på forhånd udregne en forventet score for hele testforløbet. Som man kan se af matchteknikken, vil dette forventede antal ligge tæt omkring halvdelen af antallet af stillede opgaver.

Dette tal kan man fortælle eleven eller lade være, men det er den simpleste måde at give indsigt i, om eleven har klaret sig bedre end forventet eller dårligere end forventet – med den score eller procent rigtig, som eleven ender med at have.

Forskellige statistiske sikkerheder med ny løsning
Der er et par krøller på denne procedure, som lige skal uddybes. Det første er, at man således opgiver at bestemme antallet af stillede opgaver ud fra en løbende beregning/justering af elevdygtigheden, som det gøres nu.

Erfaringerne tyder på, at der netop på dette punkt har været, og stadigvæk er, en uudryddelig misforståelse både for elever og lærere med hensyn til at fortolke og forstå 'hvor længe' eleven skal sidde og besvare opgaver. Derfor vender vi med et fast antal opgaver blot tilbage til 'gamle dages' test.

Folk med statistisk viden vil i den forbindelse minde om, at de 'gammeldags' tests med et fast antal opgaver allerede dengang fastlagde elevernes dygtighedsmål med meget forskellig statistisk sikkerhed. Så på det punkt er vi bare tilbage til en praksis, som det var før. Men selve størrelsen af usikkerheden skal selvfølgelig ikke skjules, det ser vi på længere nede.

Samme procedure for alle dygtighedsgrupper
Det åbne brevs bekymringerne vedrørende usikkerheden på udregningerne kan nu koges ned til nogle enklere vurderinger, illustreret ved følgende tænkte elevs tilbagemelding på testen:

"Ja, du løste 45 procent af de stillede opgaver korrekt, men med din placering i dygtighedsgruppen havde vi forventet, at du løste 53 procent rigtigt. Vi kan i øvrigt sige, at du lige så godt kunne have løst et sted mellem 35 procent og 65 procent af opgaverne rigtigt. Det er rene tilfældigheder, som afgør, om du ender i den ene eller anden af værdierne i det interval. Alt i alt betyder det, at din placering i gruppen 'god' er i orden, og du har klaret testen med et antal rigtigt løste opgaver, som er forventet med din placering som 'god'".

Grænserne 35 procent og 65 procent stammer fra en simpel udregning i den model, der anvendes ved beskrivelsen af antal 'kroner' i møntkast (binomialfordeling). Desuden bruges et sandsynlighedsparameter, som er beregnet ud fra elevens forhåndsplacering og den gennemsnitlige sværhedsgrad ved de stillede opgaver. Det er en udregning, der ender tæt på 0.50.

Som man kan se, er proceduren den samme for alle dygtighedsgrupper med den fællesnævner, at elevernes resultater i form af rigtighedsprocenter alle skal vurderes samme sted. De skal nemlig vurderes i en binomialfordeling med sandsynlighedsparameter på cirka 0.50 og fast antalsparameter, som er lig med antallet af stillede opgaver. Det forventede antal rigtigt løste opgaver er for alle elever cirka halvdelen af antallet af opgaver. Ret simpelt at forholde sig til!

Nu kan det jo ske, at den elev, der startede testen i kategorien 'god' faktisk kun løste 10 procent af opgaverne rigtigt. Med ovenstående grænser som eksempel må man konstatere, at 10 procent ligger uden for intervallet 35 procent – 65 procent, og i statistisk forstand fører dette til, at man forkaster, at eleven har den udgangsværdi 'god', som var grundlaget for valg af matchende opgaver.

Konklusionen på testen bliver i dette tilfælde, at elevens faktiske dygtighedsniveau er under 'god'. I fortsættelse af det tænkte eksempel ville en passende melding i dette tilfælde måske være "Ja, du løste 10 procent af de stillede opgaver korrekt, men med din placering havde vi forventet, at du løste 53 procent rigtigt. Du har altså et lavere resultat end forventet og skal måske overveje at tage testen én gang til på et lavere niveau".

Alle elever har brug for formativ feedback
I det første eksempel med 'god'–eleven, kan man på en måde sige, at testen ikke har rokket ved en allerede etableret forestilling om hvor dygtig eleven er. Og det er måske tilstrækkeligt.

Ved det andet eksempel, hvor man aktivt forkaster en antagelse om elevens dygtighedsniveau, er der nok større interesse omkring, hvad det var, eleven kunne eller ikke kunne, det vil sige, behovet for et formativt feedback synes at være større her.

Men det er i virkeligheden snyd, for behovet burde være til stede i begge eksempler, og på dette punkt er det åbne brevs påpegning af mangler tydelig: Hvad er det, eleverne kan eller ikke kan, set ud fra faglige didaktiske vinkler?

Læs også

33 procent flere test på fire år: Skolers brug af nationale test eksploderer

De procedurer, som i dag anvendes med de nationale tests, indebærer, at eleven groft sagt bliver kastet rundt i manegen via den adaptive rutine, før eleven kommer ind i et område med opgavesværhedsgrad, som er tæt på elevens dygtighed.

Det er en længere diskussion at gå i detaljer med, at denne situation gør det vanskeligt for en lærer at give feedback til eleven – selvom læreren gør sig den ulejlighed at læse samtlige opgaver, som eleven har fået og sammenholde dem med elevens svar.

Nyt forslag giver bedre mulighed for feedback
Med den foreslåede procedure præsenteres eleven udelukkende for opgaver med (næsten) samme sværhedsgrad. I sådanne tilfælde er det klart en mere overkommelig opgave at beskrive indholdet i opgaverne ud fra didaktiske kriterier og derfor ende med for eksempel at sige "du er 'god' til at løse førstegradsligninger og løse opgaver med sandsynligheder".

Man kan endda påstå, at det er for galt, hvis dette ikke skulle være muligt, for det var vel en del af konstruktionen bag ved selve opgavebanken og forståelsen af opgavesværhedsgrad! Nogen må derfor pålægges et ansvar for at beskrive, hvad det er for faglige færdigheder, der er knyttet til de forskellige grader af opgavesværhed.

Hele testsystemet er ved dette forslag vendt lidt på hovedet i forhold til den hidtidige praksis. I stedet for 'ikke at vide noget som helst om eleven' og sætte testapparatet til at finde ud af, hvor dygtig eleven er, så undersøger den beskrevne fremgangsmåde, 'om eleven ligger i den dygtighedsgruppe', som man på forhånd tror, ud fra elevens eller lærerens erfaringer og kendskab.

Eller eleven vil måske bare 'udfordre' et bestemt dygtighedsniveau ud fra spørgsmålet, om vedkommende kan klare det? Viser det sig via det beskrevne tests at være okay, så kan det være en tilstrækkelig udmelding. Viser det sig ikke at være tilfældet, peger proceduren på, om eleven har placeret sig for højt eller lavt i forhold til forhåndsforventningerne.

I begge tilfælde kan den beskrevne feedback ud fra beskrivelser af fagligt indhold i den opgavegruppe, som eleven er blevet testet i, være et godt supplement.

Politik har aldrig været vigtigere