Viden og værktøjer

En ordentlig vurdering – skriftlige prøver i dansk

Skrevet af Nikolaj Elf, professor ved Syddansk Universitet

Udgivet den 30. april 2021

Når elever går til skriftlig prøve i dansk i 9. klasse, skal det ideelt være sådan at elevteksten vurderes på samme karakterniveau uanset om det er den ene eller anden censor der vurderer teksten.

Sådan er det desværre ikke i dag i Danmark.

Tværtimod viste Rapport fra Følgegruppen for én bedømmer ved folkeskolens prøver fra 2018 at der er stor sandsynlighed for at elevtekster vurderes forskelligt. Den såkaldte bedømmerreliabilitet er så lav at der kun er 40 % sandsynlighed for at to karakterer givet af to forskellige censorer er ens. Til sammenligning er der 72 % sandsynlighed for det i matematik.

Det er ikke i orden. Eller udtrykt politisk: Det kan man ikke leve med.

Derfor har man også igangsat en proces fra Børne- og Undervisningsministeriets side der skal forbedre situationen. I denne forskerklumme vil jeg løfte lidt af sløret for hvordan man har forsøgt at forbedre bedømmerreliabiliteten i dansk gennem et udvalgsarbejde i ministeriet, som jeg var formand for.*

Et high stakes-problem

Men hvorfor er det problematisk med en lav bedømmerreliabilitet, og hvorfor er det nødvendigt at tænke vurderingstilgange på en ny måde?

Ud fra et demokratisk synspunkt er pointen at alle elever skal være stillet lige. Der er derfor nødt til at være høj kvalitet og ensartethed i bedømmelsen. Det har elever retskrav på. Det er den første centrale grund. Men der er én yderligere væsentlig grund.

Tillid til bedømmelsen er blevet særligt vigtigt i de seneste år efter man indførte en lov der gør at prøvekarakteren virker ind på elevers mulighed for at få adgang til ungdomsuddannelse. Den skriftlige prøve i dansk er blevet en high stakes-situation, som Solveig Troelsen har vist i sin netop forsvarede ph.d.-afhandling Forkastet eller anerkendt? Karakteren kan få store konsekvenser for elevers videre uddannelsesbane.

Derfor er der al mulig grund til at arbejde for en mere ordentlig vurdering af skriftlige prøver i dansk.

Kommissorium: mere præcise vurderingskriterier

Ministeriet igangsatte i sensommeren 2020 et udvalgsarbejde der skulle, som det lød i kommissoriet, bidrage til en præcisering af vurderingskriterier. Udvalgets opgave var kort sagt at komme med forslag til nye vurderingskriterier i prøvebekendtgørelsen der skal erstatte de eksisterende, samt komme med forslag til en ny vejledning.

Ændringer i prøvebekendtgørelsen laver man kun sjældent, og de får stor betydning for praksis. Det er velkendt at ændringer i vurderingskriterier får stor betydning for den daglige undervisning. Fænomenet går under forskellige navne som washback effect og teaching to the test. Pointen er at vurderingskriterier er et centralt pejlemærke for lærere – kriterierne udpeger på godt og ondt det der anerkendes og tæller som viden i faget. Derudover er kriterierne naturligvis også helt centrale i bedømmelsen til prøven i 9. klasse.

Vurderingskriterierne påvirker med andre ord i høj grad fagkulturen og den måde faget praktiseres på, særligt i udskolingen.

Men omvendt er der ingen garanti for at lærere og censorer i fagkulturen forstår vurderingskriterierne på samme måde. Det gælder både de gældende og nye vurderingskriterier. Når der er så lav en bedømmerreliabilitet som det er tilfældet nu, er det netop et udtryk for at vurderingskriterierne tolkes og bruges forskelligt.

Det har været en af udfordringerne da vi som udvalg blev bedt om udvikle nye mere præcise vurderingskriterier. Målet er jo i sidste ende at forbedre reliabiliteten.

Proces og metode frem mod nye vurderingskriterier

Udvalget havde ganske kort tid til at komme med sit bud på en ændring af vurderingskriterier – fra august til december. Det satte nogle væsentlige begrænsninger for hvor langt vi kunne komme. For at kunne imødekomme opdraget fulgte arbejdsgruppen en metodik, som omfattede især to typer forundersøgelser:

Litteraturstudie
Analyse af eksisterende styredokumenter.

Nedenfor præsenteres designet og hovedpointerne i disse forundersøgelser. Efterfølgende løftes noget af sløret for det hvad vi så rent faktisk anbefaler som nye vurderingskriterier, og hvad vi foreslår til vejledningen. Til sidst diskuteres hvorvidt nye vurderingskriterier i sig selv vil have en positiv effekt på reliabiliteten. Det korte svar er: Formentlig nej! Der skal mere til.

Litteraturstudiet

Én hovedpointe fra litteraturstudiet er at man må skelne mellem teoribaserede, læreplansbaserede og empiribaserede udviklinger af vurderingskriterier. Eller sagt på en anden måde: Én ting er hvad vi forskere udvikler af teorier om skriveudvikling og skrivekompetence (teoribaserede vurderingskriterier). En anden er hvordan læreplanerne forstår skriveudvikling og opstiller mål for det (læreplansbaserede vurderingskriterier). Og en helt tredje er hvordan man i praksis blandt censorer forstår skriveudvikling og skrivekompetence og honorerer det i konkrete vurderinger (empiribaserede vurderingskriterier).

De tre slags ’vurderingskonstrukter’ må man forsøge at relatere til hinanden – eller ’aligne’, som man siger i forskningen internationalt – når man udvikler nye vurderingskriterier.

En anden hovedpointe er at der rent faktisk ikke findes én kohærent teori om skriveudvikling og skrivekompetence. International forskning af skrivecurricula og de skriveteorier der informerer dem, viser at der er mange skriveudviklingsteorier ude og vandre, også inden for ét og samme nationale curriculum – det har jeg vist i en artikel skrevet sammen med norske og amerikanske forskere (se referencer nedenfor).

En tredje hovedpointe er, at det generelt er en udfordrende opgave at forbedre reliabiliteten fordi det er svært at etablere valide skriveprøver. Det er et vilkår, som der er general konsensus om i forskningen.

Analyser af styredokumenter

Vores analyse af eksisterende styredokumenter fokuserede på at analysere det der i curriculumforskningen omtales som det ’formelle’ eller ’programmatiske’ curriculum. Det betyder at vi først og fremmest har foretaget en indholdsanalyse af intentionerne i alle relevante styredokumenter. Vi har særligt fokuseret på følgende aktuelt gældende dokumenter:

Fagformål
Fælles Mål, dansk
Læseplan
Prøvebekendtgørelsen
Prøvevejledningen.

Målet med styredokumentanalysen har været at identificere det (politisk bestemte) centrale formål og mål samt centrale faglige begreber der rammesætter danskundervisningen generelt og skriveundervisningen med særligt fokus på de mål der peger frem mod prøven i Dansk, skriftlig fremstilling. Styredokumentanalysen bruges med andre ord til at nå frem til læreplanskonstruktet af vurderingskriterier.

Helt overordnet viste analysen af eksisterende styredokumenter for dansk at de ikke repræsenterer eller udgør én sammenhængende forståelse – sådan som vi også forventede fra forskningen. På den ene side giver Fagformålet og Fælles Mål tydelige anvisninger til bestemte fag(for)mål og fagdiskurser som kan og bør informere den fremtidige Prøvebekendtgørelse og -vejledning, som er nogenlunde afstemt med hinanden. Omvendt, hvis man sammenligner de forskellige styredokumenter, er det tydeligt at der kun delvist er tale om afstemthed. Særligt fremtræder Prøvebekendtgørelsens ”Der prøves i at”-vurderingskriterier, og vejledningen som bygger på disse, som ret afvigende ift. den fagdiskurs der lægges op til i faghæftet.

Og hvad er det så for en fagdiskurs der er dominerende på de øverste niveauer (Fagformål og Fælles Mål)?

I Fagformålet er nogle af de helt centrale kerneord og formuleringer følgende:

”styrke deres [elevers] beherskelse af sproget”
“bruge sproget personligt og alsidigt”
“udvikle deres udtryks- og læseglæde”
“kvalificere deres indlevelse i litteratur og andre æstetiske tekster, fagtekster, sprog og kommunikation”

Noget af det man bør hæfte sig ved her, er en betoning af det at eleverne skal kunne ’bruge sproget’. En funktionel diskurs er altså markeret. Men også en personlig, næsten eksistentiel: Det skal være personligt. Vi hæfter os også ved ordet indlevelse og sammentænkningen af udtryks- og læseglæde. Det skal være en lyst og glæde at skrive.

En af vores kritiske diskussioner af fagformålet er imidlertid hvorvidt og hvordan man kan vurdere en sådan glæde i en elevtekst fra prøvesituationen. En anden kritisk diskussion vi har, gælder begrebet ‘sproget’, i bestemt form ental. Det fremstår på mange måder problematisk.

I Fælles Mål for dansk er det særligt kompetenceområderne Fremstilling og Kommunikation der er relevante for vurderingskriterier for den skriftlige prøve, og vi har særligt taget udgangspunkt i de forpligtende overordnede kompetencemålsbeskrivelser.

Vi hæfter os ved at en central fagdiskurs på tværs af begge kompetenceområder er at man skal kunne leve sig ind i situationer. Hermed fremhæves det man kan kalde et retorisk eller, mere bredt, pragmatisk skrivesyn. Det skrivesyn er også centralt i vores anbefalinger til nye kriterier og vejledninger, som jeg forklarer i næste afsnit.

I forhold til Fælles Måls sammenhæng med Fagformålet kan man kritisk diskutere om det retoriske/pragmatiske skrivesyn hænger godt sammen med fagformålets skrivesyn. Vi tænker fx på fremhævelsen af den indlevende skrivning. Indlevelse er fx et tricky kriterie, for indlevelse kan betyde flere ting og er ikke altid et kvalitetstræk ved en tekst. Tværtimod argumenterer vi for at relevansen af indlevelse må afhænge af genre og skriveformål. Nogle genrer kræver at man fremstår ikke-indlevende, nøgtern, objektiv – tænk fx på sagtekster som manualer.

Gode grunde til en ændring af vurderingspraksis – på flere niveauer

Hvis vi skal sammenfatte resultatet af læreplansanalysen, inklusive analysen af prøvebekendtgørelsen, er pointen ret klar: Der er god grund til at revidere vurderingskriterierne per se.

Men vi finder også at man faktisk i samme ombæring burde revidere læreplanerne på alle niveauer så de fremstår som bedre afstemt med hinanden. Forskning hævder at et sådant alignment netop kan styrke reliabiliteten.

Vores forundersøgelse af forskningslitteraturen viste desuden helt overordnet at man formentlig ikke kan eller bør operere med én enkel skriveteori der gennemsyrer vurderingskriterierne. Man bør nok snarere operere med en mere pragmatisk og praksistilpasset skriveteori.

Endelig kan vi gennem empiriske studier konstatere at der generelt i fagkulturen for dansk og specifikt blandt censorer ikke findes en sammenhængende forståelse af vurderingskriterier. Sagt mere positivt er der en mangfoldighed af måder at vurdere på i censorkorpset, hvilket afspejler forskellige fagtraditioner der har udviklet sig i faget over mange år.

De grundlæggende vurderingsdimensioner: funktion, indhold, form

Mange er sikkert mest interesserede i at høre hvilke vurderingskriterier vi som udvalg endte med at anbefale. Vores rapport er foreløbig ikke offentliggjort – blandt andet for ikke at skabe for stor forvirring i fag- og censorkulturen frem mod dette års skriftlige prøver og for at give ordentlig plads til en høringsfase. I skrivende stund april 2021 er kriterierne på vej til at komme i høring maj 2021 (se link til høringsfasen nederst).

Jeg kan dog godt løfte sløret for de overordnede træk, grundlæggende vurderingsdimensioner og de bagvedliggende teorier, principper og tilgange vi valgte at lægge til grund for vores anbefalinger.

Konklusionen af vores arbejde er at vi anbefaler at reducere de nuværende hele 13 vurderingskriterier til blot seks kriterier. De seks kriterier relaterer sig til det man kan kalde en pragmatisk model for skrivning, som er kendt fra nordisk skriveforskning (se fx Nestlog & Danielsson, 2020, der sammenfatter bud fra især norsk og svensk forskning). Inden for rammerne af en sådan model vurderer man en elevtekst i relation til tre grundlæggende vurderingsdimensioner: funktion, indhold og form.

Det betyder blandt andet at det bliver relevant at vurdere i hvilken grad elevens tekst besvarer den stillede opgave med dens krav til afsender, modtager og fremstillingsformer. Det er en funktionel dimension i vurderingen.

Derudover foreslår vi at man går væk fra den skematiske og meget fragmenterede vurderingstilgang og i stedet anvender et nyt mere helhedsskabende vurderingsværktøj, som vi kalder Vurderingstrekanten. Her er elevteksten placeret i midten – med de tre dimensioner ude i trekantens hjørner. Det mener vi er et mere nyttigt og operationelt værktøj for censorer, som jo gennemsnitligt kun har 16 minutter til at bedømme en elevtekst!

Begrundelserne for dette forslag til nye vurderingskriterier og -modeller er flere. I udvalget ønskede vi blandt andet ikke – jf. ovenfor – at abonnere på en bestemt teoretisk skole eller teoridannelse, og vi vurderer som andre nordiske skriveforskere at der ikke findes én kohærent skriveteori hverken i forskning eller praksis.

På den anden side mener vi at der ér behov for at præcisere og skærpe det teoretiske grundlag i vurderingskriterierne, og at man til en vis grad må vælge tekst- og skriveteoretisk position – hvilket vi da også har gjort: Udvalget orienterer sig, som mange andre inden for nyere nordisk skrivedidaktik, mod et situationelt og socialsemiotisk skrive- og tekstteoretisk udgangspunkt. Vi vælger for enkelthedens skyld blot at bruge betegnelsen en pragmatisk skrive- og tekstteori. Nogle af de centrale referencer i nordisk sammenhæng er bl.a. Jon Smidt og Kjell Lars Berge samt Caroline Liberg.

Vil det virke?

De nye vurderingskriterier vil – uanset hvordan de ender med at komme til at se ud efter høringsfasen – utvivlsomt få indvirkning på danskundervisningens praksis, herunder den daglige vurdering af elevers tekster og vurderingspraksis til den afsluttende prøve.

Men det er som antydet slet ikke sikkert at det vil føre til en forbedring af reliabiliteten. Det afhænger meget af den videre proces som ministeriet foranstalter, og den måde fagkulturen vil gå til udfordringen.

Det er helt afgørende at forslagene til prøvebekendtgørelsen og prøvevejledningen afprøves i danskfagets fagkultur. Det betyder at kriterierne systematisk må afprøves, valideres og efter al sandsynlighed, viser forskningen, korrigeres gennem en grundig piloteringsproces blandt lærere og censorer.

Omvurdering af vurderingskriterier – fire ambitionsniveauer

Man kan forestille sig flere ambitionsniveauer i forhold til kvalitetssikring af vurderingskriterier. Vi vil pege på fire:

Et minimum i forhold til den proces der nu i Danmark er igangsat, er at udvikle et righoldigt og systematisk udarbejdet elevtekst-eksempelmateriale til de enkelte kriterier og deres niveauer. Derudover må prøvevejledningen suppleres af yderligere materiale, blandt andet eksempel-/modeltekster til vurderingskriterier og de forskellige niveauer. Det vil kræve et omfattende udviklingsarbejde.
Et mere ambitiøst arbejde vil være at revidere læreplanskonstruktet således at det bliver yderligere afstemt. Som analysen af læreplanskonstruktet har vist, er der fortsat uafstemtheder, og der er visse steder behov for en opdatering af den faglige tilgang. Styredokumenterne skal altså ændres.
Et endnu mere ambitiøst arbejde vil være at udfordre og ændre i prøvekonstruktet. I forskningsfeltet er der fx en levende diskussion om hvorvidt vurdering skal ske på baggrund af en eller flere delopgaver. Forskning taler for det sidste og lægger generelt op til analytisk vurdering, hvilket vil indebære flere delopgaver, i stedet for holistisk vurdering. Det vil i givet fald få omfattende konsekvenser for prøvekonstruktet og vores måde at praktisere vurdering på.
Derudover er der meget der taler for at man ændrer censorordningen således at man går tilbage til to eller flere bedømmere, og at den ene bedømmer er elevernes lærer. Det er der to gode grunde til: For det første viser forskningen at det øger reliabiliteten. Nyeste forskning har vist at lærer-bedømmere hverken er for kritiske eller for positive i bedømmelse af egne elever. For det andet vil (gen)inddragelsen af lærerbedømmere have den helt afgørende virkning at man får forankret censorinstitutionen med undervisningsinstitutionen. Som ordningen er nu, finder væsentlig faglig dialog om fagets praksis og udvikling af faget ikke sted. I et bredere perspektiv betyder det at betingelserne for udvikling af fagkulturen som normfællesskab er svækkede.

Dette er naturligvis omfattende ønsker. Ikke desto mindre er det formentlig dét der skal til for for alvor at sikre kvaliteten, herunder reliabiliteten, af bedømmelserne i praksis. Det er ikke nok med et censormøde hvor man orienterer om de nye vurderingskriterier.

Den gode nyhed, som kommer fra norsk skrive- og bedømmelsesforskning, er at hvis man implementerer alle disse tiltag, kan man faktisk øge reliabiliteten til 0,80 eller mere (Skar, Jølle, & Aasen, 2020). Men så har man også ændret grundlæggende på prøvekonstruktet og vurderingsprocessen, herunder at man opererer med tre bedømmere.

Disse erfaringer peger på at en ’præcisering af vurderingskriterier’ på bekendtgørelsesniveauet er en god start, men på ingen måde nok. Der er behov for en gennemgribende omvurdering af hele vurderingspraksissen.

Note*
Arbejdet, inklusive en slutrapport med anbefalinger til nye vurderingskriterier i eksamensbekendtgørelsen og vejledning, er udarbejdet af en beskikket arbejdsgruppe bestående af Hanne Beermann, læreruddanner i dansk på UCN og formand for opgavekommissionen, Peter Heller Lützen, specialkonsulent, Nationalt Videncenter for Læsning, Jens Madsen, læreruddanner i dansk på Professionshøjskolen Absalon, Rune Richtendorff, mangeårig beskikket censor i dansk i folkeskolen, samt mig selv, professor i uddannelsesvidenskab, Syddansk Universitet, som har særlig ekspertise i dansk- og skrivedidaktik. Mange af hovedpointerne i denne artikel skal krediteres alle i udvalget.

Anbefaling til videre læsning

Dolin, J., Nielsen, K., & Rangvid, B. S. (2018). Rapport fra Følgegruppen for én bedømmer ved folkeskolens prøver. Online tilgængelig her.

Elf, N., & Troelsen, S. (2021). Between joyride and high-stakes examination: Writing development in Denmark. In J. V. Jeffery & J. M. Parr (Eds.), International Perspectives on Writing Curricula and Development: A Cross-Case Comparison (pp. 169-191). London & New York: Routledge.

Jeffery, J. V., Elf, N., Skar, G. B., & Wilcox, K. C. (2018). Writing development and education standards in cross-national perspective. Writing and Pedagogy, 10(3), 333-370. doi:doi.org/10.1558/wap.34587

Nestlog, E. B., & Danielsson, K. (2020). Textskapande i grundskolen: Utveckla funktionella skrivpraktiker. Lund: Studentlitteratur.

Skar, G. B., Jølle, L., & Aasen, A. J. (2020). Establishing Rating Scales to Assess Writing Proficiency Development in Young Learners. Acta Didactica Norden, 14(1), 1-30. doi:https://doi.org/10.5617/adno.7909

Troelsen, S. (2020). Forkastet eller anerkendt? Et eksplorativt studie i folkeskoleelevers afgangseksamen i ’Dansk, skriftlig fremstilling’. Ph.d.-afhandling. Syddansk Universitet.

Link til høringsfase for nye vurderingskriterier i dansk på UVM's hjemmeside findes her.

Kopier linkhttps://videnomlaesning.dk/viden-og-vaerktoejer/forskerklummen/2021/en-ordentlig-vurdering-skriftlige-proever-i-dansk/