Giuliana Grego Bolli

Report
La valutazione delle competenze
linguistiche: concetti modelli metodi
Centro per la valutazione e la Certificazione Linguistica (CVCL)
Giuliana Grego Bolli
[email protected]
Spoleto, 27 novembre 2013
Questa presentazione in 4 punti
• Valutazione (linguistica) in prospettiva disciplinare e
contesto italiano
• Terminologia di base
• Qualità nella valutazione linguistica
• Preparazione degli insegnanti: se e quanto gli insegnanti
di italiano lingua non materna devono essere competenti
e preparati in questo specifico settore
• (Metodi)
La Valutazione (non solo linguistica) e il
contesto italiano
• Mancanza di una “cultura” della valutazione
all’interno del sistema educativo italiano
(Valutazione come disciplina e non come parte
indefinita e indistinta della competenza ed
esperienza dell’insegnante)
• Mancanza diffusa di preparazione specifica,
sistematica e professionalizzante degli insegnanti
in questo settore
• Discipline pedagogiche (Pedagogia sperimentale)
• INVALSI (valutazione esterna)
Perché? (1)
• Ragioni culturali/filosofiche: opposizione fra empirismo
(anglossassone) e neoidealismo (italiano). Il concetto della
conoscenza empirica (alla base della ricerca scientifica) non
è comune al neoidealismo italiano, che nega sostanzialmente
alla scienza valore conoscitivo.
• Ragioni storico-sociali e linguistiche: l’italiano è stato per
secoli lingua letteraria colta e non lingua d’uso diffusa fra la
popolazione per cui la la ricerca linguistica in Italia ha una
grande tradizione storico filologica, piuttosto che applicata.
Perché? (2)
• Nel mondo anglosassone all’interno della Linguistica Applicata
si è sviluppato un approccio disciplinare alla Valutazione
linguistica (Language Testing) (sotto-disciplina)
• Linguistica applicata, secondo Chris Brumfit (1997):
“the theoretical and empirical investigation of real world
problems in which language is the central issue”
• Mancanza di una disciplina di riferimento (valutazione
linguistica).
Qualche riferimento utile per un primo
approccio al Language Testing:
•
ILTA (International Language Testing Association): www.ilta.org
•
EALTA (European Language Testing Association): www.ealta. eu.org
•
ALTE (Association of Language Testers in Europe): www.alte.org
•
CVCL (Centro per la Valutazione e le Certificazioni linguistiche –
Università per Stranieri di Perugia): www.cvcl.it
•
•
•
•
Language Testing
Language Assessment Quarterly
Studies in Language Testing Series
Companion to Language Assessment
Il processo valutativo è di tipo
interpretativo/argomentativo
• Partiamo dalla performance (dato) di uno studente in una
prova
• Questa performance genera un risultato (punteggio, giudizio,
grado, ecc)
• L’interpretazione del risultato e l’uso che ne viene poi fatto
(giustificato su basi teoriche e supportato da evidenze
empiriche) va al di là del dato (limitato esempio di
performance) e si estende a situazioni di uso della lingua
nella vita reale
• Si procede quindi per inferenze e deduzioni
Un po’ di terminolgia….
verifica, valutazione, test/prova
Teminologia: verifica e valutazione
• Indicano momenti diversi di un processo
complessivo: processo valutativo
• Sono spesso usati in modo interscambiabile
• Non c’è valutazione senza verifica, anche se ci può
essere verifica senza valutazione
Terminologia: Verifica
• L’accertamento sistematico (che segue principi norme/standard - sia teorici che di buona prassi
condivisi sia dalla comunità scientifica che
professionale) ed organizzato delle
conoscenze/competenze d’uso/abilità (il cosa)
presenti in chi si sottopone alla verifica, vale a
dire nei soggetti da valutare (gli
studenti/apprendenti)
• Parlare di accertamento sistematico di abilità e
competenze significa parlare di metodi (il come)
• I metodi/le tecniche/ i formati, di verifica non
sono ‘neutrali’
• Non esistono metodi “buoni” o “cattivi” in assoluto
Terminologia: Valutazione
• Raccolta sistematica di informazioni (in parte - si
pensi al contesto scolastico - fornite dalla verifica) per
poter esprimere un giudizio o assegnare un punteggio
• In entrambi i casi vengono prese delle decisioni
• Valutazione è il momento in cui si prendono delle
decisioni – potere della valutazione –impatto della
valutazione
• La valutazione è il più potente strumento di
comunicazione didattica
• La valutazione diventa strumento importante in termini
di mobilità internazionale e di promozione del
pluringuismo
Terminologia: Test o prova
standardizzata o esame (singolo momento)
• Nel dizionario della OUP troviamo questa
definizione:
• “Un breve esame di conoscenze o abilità,
che consiste nel rispondere a determinate
domande o nel portare avanti determinate
attività”
Secondo un’accezione più tecnica il
termine test/prova/esame
• È espressione di un metodo per raccogliere
informazioni (legato alla verifica)
• utilizza procedure standard per la sua costruzione
• ha come obiettivo accertare conoscenze o abilità
• è sempre relativo a ‘qualcosa’ che a seconda delle
circostanze può essere: la storia, la geografia… la
competenza linguistica
• questo ‘qualcosa’ deve essere definito e descritto
(quanto meno “essere nella mente” di chi costruisce il
test)
• Costruire test/prove ci aiuta a riflettere su cosa
vogliamo verificare e indirettamente sul nostro stesso
insegnamento
Chi è coinvolto nel processo
valutativo?
Una lista dei possibili utenti (stakeholders)
Utenti
 Insegnanti
 Studenti
 Famiglie
 Istituzioni scolastiche/universitarie
 Scuole private di lingua
 Istituzioni governative nazionali ed
internazionali
 Datori di lavoro/Agenzie per l’impiego nazionali
ed internazionali/ ordini professionali
 Ricercatori/mondo accademico
 Società (es. contesto di immigrazione)
Gli utenti (stakeholders)
coinvolti ci invitano a riflettere sulla
responsabilità sociale ed educativa del
processo valutativo e sulla necessità di una
preparazione e formazione professionale di chi
prepara test/prove, di chi li amministra e di chi li
corregge e valuta – garanzia della qualità della
valutazione
Qualità nella valutazione linguistica
L’applicazione di questi concetti al processo di
produzione di test linguistici costituisce una
garanzia di qualità
•
•
•
•
•
•
Validità (validity)
Affidabilità (reliability)
Autenticità (authenticity)
Fattibilità (practicality)
Equità (fairness)
Utilità/spendibilità (usefulness)
• Impatto (impact)
• Eticità (ethical test use)
Processo
di
Validazione
di un test
Validità
La Validità riguarda l’interpretazione dei risultati, le
inferenze sui risultati (punteggi, gradi, giudizi) e quindi
l’uso che viene fatto del test e rappresenta,
generalizzando, la vera, più importante qualità di un test
Dalla Validità come concetto teorico e quindi astratto
della prospettiva tradizionale si è passati (fine anni ‘80) a
parlare di Validazione o meglio di processo di
validazione intendendo un’analisi del processo di
produzione di un test che fornisca evidenze a supporto
delle inferenze sui risultati di un test
Impatto (Impact)
L’effetto/le conseguenze generato/e da un
test/prova/esame, sia sull’insegnamento (aspetto
educativo-backwash effect), sia sui singoli individui, sia
sulla società (aspetto sociale-washback effect). Le
conseguenze possono essere sia positive sia negative.
Si può parlare di impatto a livello micro (l’individuo) e a
livello macro (educazione e società)
Sono stati condotti molti studi e ricerche sull’impatto
Il concetto di impatto è considerato parte del macroconcetto di validità
Eticità
I test linguistici non vengono prodotti e soprattutto usati
nel vuoto ma all’interno del sistema educativo e della
società.
Questo li pone a rischio di usi politici e anche di
potenziali abusi sulla base del loro potere decisionale e
discriminatorio
L’unica risposta possibile a questo concreto ed attuale
rischio è la professionalità di chi produce, amministra e
valuta partendo dalla formazione dei language testers e
dal rispetto di codici etici elaborati dalle società
scientifiche (ILTA, EALTA)
Cosa fa di un test linguistico (valutazione sommativa)
un “buon” test linguistico? (test “interni” o “esterni”
ma sempre all’interno di un dato sistema educativo)
 deve tenere presenti programmi e obiettivi di
apprendimento/insegnamento
 deve integrarsi con l’approccio all’insegnamento sia per i
contenuti che per i metodi
 deve avere un contenuto appropriato
(caratteristiche dei discenti, livello)
 deve motivare
 deve essere tecnicamente ben costruito
 deve verificare almeno tutte e 4 le abilità di base
(valutazione sia formativa sia sommativa) ( ad es. se
non verifichiamo la prod. orale, diamo il messaggio che
non è ritenuta importante)
Considerazioni finali sulla valutazione
e sulla preparazione degli insegnanti:
necessaria/non necessaria, fino a che
punto….
Gli insegnanti devono essere
formati/preparati in valutazione?
• E’ innegabile che la valutazione faccia parte del processo di
insegnamento-apprendimento
• Si parla di valutazione come del più importante/efficace
strumento di comunicazione didattica
• Cowan (1998) da questa definizione di valutazione: “the
engine that drives learning”
• E’ stato dimostrato che un insegnante dedica da un terzo alla
metà del suo tempo di lavoro alla valutazione
Vero ma….
• Gran parte degli insegnanti si occupa di valutazione senza
aver appreso in modo sistematico i principi di una valutazione
consapevole, di qualità e teoricamente fondata
• Questo fenomeno è trasversale vale anche nel mondo
anglosassone (Stigging 2007)
Che cosa può significare per un
insegnante avere la necessaria
preparazione in valutazione?
• Capire come definire chiari obbiettivi di
insegnamento/apprendimento
• Capire quali metodi di verifica usare al fine di raccogliere
informazioni affidabili sull’apprendimento degli studenti
• Capire come usarli
• Capire come comunicare risultati attendibili/significativi
indipendentemente dal modo con cui vengono comunicati:
punteggi, gradi, giudizi, ecc
• Capire come usare la valutazione per massimizzare
motivazione e apprendimento, coinvolgendo gli studenti nel
processo valutativo
Metodi
• Soggettivi
• Oggettivi
• Diretti
• Indiretti
Ci fermiamo qui….
Grazie!
C’è una relazione
tra valutazione linguistica e
insegnamento?
• “We believe that language testers can serve linguistic
theory by examining the way in which their tests work, how
their different components interrelate, and what they
reveal about candidates’ language proficiency. Insights from
such analysis of test results should contribute to the
development of a better understanding of what is involved in
knowing and using language” (Alderson and Clapham 1992
Applied linguistics and language testing. Applied Linguistics.
13: 164)
• E inoltre innegabile che metodi di verifica possono
influenzare l’insegnamento in classe, così come nuove teorie
sull’apprendimento/ insegnamento influenzano le pratiche
valutative
Utenti “tecnici” vale a dire chi contribuisce
alla produzione somministrazione e
valutazione di un test o di un esame
 Chi produce test/prove (item writers-test
producers)
 Chi amministra/somministra test/prove (test
administrators)
 Chi corregge test/prove scritte e orali e/o chi
assegna punteggi o formula giudizi
(examiners)
E’ possibile distinguere varie tipologie di
test linguistici secondo tre possibili
categorizzazioni
• Uso che viene fatto dei risultati del test:
• Costruzione del test
• Espressione dei giudizi e attribuzione dei
punteggi relativi al test
Uso che viene fatto dei risultati:
• Test di piazzamento (placement tests): per assegnare
gli studenti a classi di livello diverso,
• Test di profitto (achievement tests): per stabilire se
gli studenti (e il corso) hanno raggiunto gli obiettivi
preposti.
• Test diagnostici: per individuare i ‘punti di forza e di
debolezza’ di ciascun discente per predisporre azioni
adeguate di sostegno.
• DIALANG: test diagnostici computerizzati (14 lingue,
compreso l’italiano) (5 moduli: lettura, scrittura,
ascolto, strutture grammaticali e lessico) calibrati sui
6 livelli del QCER
•
Test di proficiency: per verificare la competenza di
un candidato in una data lingua indipendentemente dal
percorso formativo (certificazioni linguistiche)
Costruzione del test
• Test diretti: richiedono allo studente di fornire
una rappresentazione diretta dell’abilità che il
test intende verificare-valutare (abilità
produttive)
• Test indiretti: verificano competenze/conoscenze
soggiacenti o funzionali alle abilità oggetto di
valutazione
• Test a ‘punti discreti’: verificano singoli ed
isolati elementi linguistici (grammatica e lessico) e
li verificano uno alla volta
• Test integrati: verificano abilità integrate (es
ascoltare e scrivere, ascoltare e parlare, leggere e
scrivere ecc).
Espressione dei giudizi attribuzione dei
punteggi relativi ad un test
1
• Test soggettivi
• Test oggettivi
• La differenza è relativa unicamente ai
metodi utilizzati per attribuire il
punteggio
Cosa fa di un test linguistico un “buon” test linguistico (test
“esterni”/test di proficency/certificazioni)?
 deve basarsi su una teoria linguistica (cosa intendiamo per conoscere una
lingua) e su un conseguente approccio alla valutazione
 deve basarsi su una definizione di “cosa” verificare (costrutto:
competenza, abilità) Tale definizione e descrizione deve essere
accessibile all’utenza: specificazioni
 deve poter fare riferimento ad un sistema di livelli standard (normativi e
condivisi)
 deve avere un contenuto appropriato (caratteristiche della popolazione di
discenti, bisogni, definizione del costrutto, livello)
 deve motivare
 deve essere relativo alla ‘vita reale’
 deve essere proceduralmente/tecnicamente ben costruito secondo
standard indicati da codici etici e professionali (buone pratiche)
 deve fornire materiali per “allenarsi all’esame”-past papers -eserciziari
 deve verificare almeno tutte e 4 le abilità di base
 deve avere un impatto positivo sull’insegnamento e sulla società
 deve essere riconosciuto e spendibile
 deve garantire la qualità
 la qualità deve a sua volta essere certificata (sistemi di qualità-bollini,
ecc)
Che cosa significano queste parole/concetti che
indicano le proprietà o qualità di un test?
Lavorando da soli o a gruppi, scrivete una definizione di:
Validità (Validity)
Affidabilità (Reliability)
Autenticità (Authenticity)
Fattibilità (Practicality)
Equità (Fairness)
Utilità/Spendibilità (Usefulness)
Impatto (Impact)
Eticità (Ethical test use)
vale a dire….
Tale processo di Validazione riguarda l’intero
processo di costruzione di un test: dalla definizione
della popolazione, alla definizione dell’oggetto della
verifica-costrutto, alla correzione e attribuzione dei
punteggi all’impatto del test e riguarda la necessità
di fornire evidenze, di dimostrare concretamente la
coerenza. conseguenzialità e sistematicità di tutte le
fasi in cui si articola il processo
Facciamo un esempio….
Per interpretare correttamente dei punteggi in un test
di produzione scritta, dovrò definire cosa si intende per
capacità di scrittura in un dato contesto e per un dato
gruppo di discenti/di candidati e di conseguenza il tipo di
compiti (tasks) da includere nel test (relazioni,
composizioni brevi, messaggi, lettere, email, ecc), i criteri
per correggere e dare il punteggio (organizzazione del
test, stile, originalità, il raggiungimento dell’obiettivo
comu. ecc), le condizioni all’interno delle quali il candidato
dovrà eseguire il compito (limiti di tempo, numero di
parole, ecc ) e, a livello cognitivo, si dovrà anche cercare
di tener conto dell’impegno cognitivo richiesto e di come
variabili individuali di tipo psicologico, emozionale possano
influenzare la performance
Affidabilità (Reliability) o validità
dei punteggi (Scoring validity)
La costanza e stabilità dei risultati di un
test/prova/esame (o di sue versioni) attraverso
somministrazione successive.
Concetto tecnico relativo all’assenza di errori di
misurazione, sostanzialmente a come è stato
applicato il metodo di verifica e alle procedure
sia di somministrazione del test sia di correzione
ed attribuzione dei punteggi.
Principali cause di mancanza di
affidabilità:
• Caratteristiche delle procedure di verifica (non del
metodo in quanto tale)
Vale a dire aspetti relativi
1. a come un test è stato ‘scritto’ (ad es. istruzioni
poco chiare che lo studente può interpretare in modo
non corretto; item formulati in modo ambiguo)
2. alle sue condizioni di somministrazione (ad es. dove e
quando viene somministrato un test: tipo di aula, tipo di
sorveglianza, se il test viene somministrato di mattina o
di pomeriggio). Tutti aspetti che possono incidere in
modo significativo sulla performance di uno studente
Cause di mancanza di affidabilità
(continua)
• Problemi che possono insorgere nella fase di
attribuzione dei punteggi o espressione dei giudizi.
Ad esempio, nella verifica della Produzione scritta:
performance equivalenti a cui viene attribuito un
punteggio diverso.
Ciò può dipendere da:
• criteri di valutazione poco chiari e difficilmente
applicabili
• formazione inadeguata degli esaminatori
e/o da errori umani:
• errori di distrazione/stanchezza degli esaminatori
• incostanza nell’attribuzione dei punteggi fra
esaminatori e da parte dello stesso esaminatore
Autenticità (predittività)
L’autenticità di un test linguistico è relativa alla
possibilità di dimostrare che la performance di uno
studente (nel test e nell’attività o compito che il test fa
fare) corrisponde ad una effettiva capacità di uso della
lingua in situazioni di vita reale
E’ il grado di corrispondenza fra le caratteristiche del
compito o dell’attività che il test fa fare e quelle di un
corrispondente compito o attività nella vita reale
In base a quanto detto prima il concetto di autenticità
non è un concetto a parte ma rientra pienamente nel
macro concetto di validità e ne rappresenta uno degli
aspetti più significativi
Fattibilità (Practicality)
La misura in cui un test (così come lo abbiamo
definito e descritto) è praticabile, fattibile in
termini di risorse e condizioni disponibili.
Riguarda aspetti pratici, organizzativi ed
‘economici’
Equità/Correttezza (Fairness)
Assenza di bias (comportamenti scorretti, discriminatori e di
parte) nei confronti della popolazione di
riferimento (età, genere, paese di provenienza)
La Valutazione, intendendo l’intero processo
valutativo, non deve risultare in alcun modo
discriminante relativamente ad aspetti
socioculturali che possono risultare rilevanti ai
fini del risultato.
Ci sono analisi statistiche che ci aiutano ad
identificare eventuali bias (DIF)
Utilità/Spendibilità (Usefulness)
E’ relativa all’utilità (e quindi spendibilità) dei
risultati di un test/prova/esame per gli scopi per
cui il test è stato costruito (contesto sia sociale
che educativo). Dipende dalla correttezza delle
inferenze e quindi da un buon equilibrio fra le
diverse ‘qualità’ di un test/prova/esame,
E’ legata dunque al processo di validazione e alle
evidenze che il medesimo è in grado di produrre
Validità: “cosa” (oggetto della verifica - costrutto: abilità o
singola competenza)
Affidabilità: stabilità/costanza e replicabilità dei risultati
(metodo/”come”)
Fattibilità: considerazioni di carattere pratico ed ‘economico’
(contesto)
Autenticità: rispondenza delle attività proposte dal test ad
attività nella vita reale
Utilità/Spendibilità: Qualità di un test/prova/esame
Impatto: ripercussioni della somministrazione di un test e dei suoi
risultati a livello micro e macro
Equità: rispetto di diversità socio-culturali
Eticità: uso corretto dei test garantito dalla professionalità di
chi li produce
Tutte queste proprietà rientrano oggi nel processo di validazione
di un test
METODI
Test oggettivi: scelta multipla
• I test a scelta multipla richiedono di
scegliere la risposta fra le tre o quattro
proposte
• La risposta va selezionata non prodotta
Vantaggi Scelta Multipla
•
Correzione automatica, veloce ed economica in caso di grandi numeri
di candidati
•
Può essere usato per la verifica di varie abilità e competenze
(lettura, ascolto, grammatica. lessico)
•
Non richiede di integrare abilità: lettura con scrittura, o con
parlato, ascolto con scrittura o con parlato
•
Risultati affidabili in quanto non coinvolgono giudizi soggettivi
(ma….la costruzione della prova è soggetta a margini di errore laddove non
pretestata: è un tipo di test che deve essere sperimentato su studenti simili per
caratteristiche a quelli a cui sarà destinato in versione finale, in base ai risultati
della sperimentazione si deve decidere se inserirlo nella versione originale,
modificarlo o addirittura eliminarlo)
Svantaggi Scelta Multipla
• Estrema difficoltà di costruzione
• richiede risorse e tempi lunghi
(sperimentazione)
• richiede competenze ed esperienze
specifiche (un buon insegnante le ha? E’
necessario che le abbia? Fanno parte di un
altro ‘mestiere’?)
Costruzione
• Scelta multipla a tre opzioni: una corretta, una
sbagliata, una distraente; a quattro opzioni: una
corretta, una sbagliata e due distraenti
• La risposta corretta deve essere una sola
• Le opzioni date come distraenti (1 o 2) devono essere
sbagliate ma plausibili
• Le opzioni devono essere omogenee, per costruzione e
lunghezza
• Le opzioni non si devono escludere a vicenda
• La risposta corretta o le risposte non corrette non
devono essere identificabili in base alla sola
‘conoscenza del mondo’ (in particolare nella
comprensione della lettura e dell’ascolto)
Controllo
• Ovviamente tutto dipende dalla capacità ed esperienza di chi
costruisce l’item oltre che dalla sperimentazione. Prima di
‘licenziare’ una scelta multipla è comunque necessario
ricontrollare che:
• Vi sia la risposta corretta
• I quesiti siano ben formulati
• Non vi siano errori di ortografia, grammatica, punteggiatura
• La lingua usata sia concisa e di difficoltà adeguata al livello
dei candidati
Perplessità
• Test che pone comunque una serie di perplessità:
– Una risposta non corretta può essere dovuta
esclusivamente alla non comprensione della domanda?
– La risposta corretta può essere data solo in base
all’esclusione delle altre opzioni?
– Quanto ha inciso la fortuna o il caso nell’individuare la
risposta corretta?
Test oggettivi: Completamento
(gap-filling)
• Consiste nel completare dei testi di media lunghezza (o delle
frasi) da cui sono state tolte delle parole
• La parola da inserire dovrebbe risultare una sola o quanto
meno le possibili opzioni dovrebbero essere limitate (3/4)
• La risposta può essere prodotta o selezionata da una lista
• Viene spesso usato per la verifica della grammatica, del
lessico (dell’ascolto e anche della lettura)
• Si basa frequentemente su testi scritti sia autentici sia
scritti appositamente
• La correzione può essere oggettiva una volta che siano state
individuate tutte le possibili risposte
• Richiede pertanto una sperimentazione (anche fra colleghi
dello stesso scorso) prima di essere somministrato
• Una variante può essere quando il testo deve essere
completato con delle frasi (che di solito vengono presentate
in una lista a parte, in disordine e con dei distraenti)
Vantaggi Completamento (gap-filling)
• Non essendo la scansione delle parole da eliminare
determinata automaticamente (cloze), è possibile
scegliere le parole o frasi da eliminare adattando il
test al livello di competenza degli studenti
• Si possono cambiare gli item da completare senza
dover cambiare il testo (fattibilità/economicità)
Svantaggi Completamento (gap-filling)
(relativamente alla verifica della lettura)
• Nonostante venga spesso utilizzato per valutare la
comprensione della lettura è stato dimostrato che
per eseguire un completamento lo studente non si
concentra sulla comprensione ma piuttosto
sull’abbinamento della parola da inserire con
quella/quelle che immediatamente seguono e
precedono
• Di conseguenza non può essere l’unico metodo
adottato per verificare la comprensione della
lettura
• E’ un tipo di test molto utilizzato per verificare
competenze di tipo grammaticale e/o lessicale
Test oggettivi: Cloze
Consiste nel completare con le parole mancanti dei
testi a buchi.
A differenza del completamento la scansione delle
parole da eliminare viene determinata
automaticamente (da un minimo di 4 ad un massimo
di 8)
Svantaggie Cloze
• Non vi è di conseguenza alcuna possibilità di scegliere le
parola da eliminare (come nel completamento) decidendo
volta per volta la scansione
• Diventa molto difficile controllare la difficoltà del test
• In definitiva non è un test esclusivamente linguistico, ma
piuttosto è un test utile per verificare le strategie di
ricostruzione di testi da parte di parlanti nativi
Test oggettivi: Abbinamento (Matching)
• Test che richiede di abbinare parole, espressioni, domande e
risposte da due liste
• E’ importante che ciascun item della prima lista si possa
abbinare solo con un item della seconda lista
• Per evitare che l’ultimo abbinamento avvenga per esclusione
di solito si inseriscono dei distraenti
• Può essere utilizzato molto limitatamente per verificare la
comprensione di lettura piuttosto per verificare conoscenze
linguistiche anche di tipo pragmatico (uso linguistico)
sociopragmatico (appropriatezza)
Test soggettivi: composizioni, saggi relazioni,
lettere, e-mail, brevi articoli, riassunti,
conversazioni, interviste
(produzione ed interazione scritta e orale)
•
•
•
•
•
Vantaggi:
prove dirette (approccio comunicativo-performance)
prove ‘facili’ da costruire
potenzialmente motivanti (in base anche al tipo di task)
culturalmente connotate
• Svantaggi:
• possibile non affidabilità dei risultati
• necessità di predisporre criteri e scale di misurazione per
garantire affidabilità ai risultati
• Necessità di stabilire quali tipi di scale (olistiche/analitiche) e
quali criteri
• Necessità di formare e monitorare gli esaminatori
Problemi legati all’attribuzione dei punteggi:
le scale
• Scale olistiche sono più facili da usare ma danno meno
informazioni
• Scale analitiche sono più complesse da usare ma danno più
informazioni (se i criteri vengono effettivamente usati tutti…)
• Uno studio condotto da Sakyi (2000) rivela l’utilizzo di scale di
tipo olistico comporta il rischio che gli esaminatori si sentano
liberi di utilizzare propri sistemi di attribuzione del punteggio ed
individua 4 tipi di comportamento: focus sugli errori, focus sul
contenuto, focus sulla presentazione delle idee, focus sulla
reazione personale al testo
• Altri studi si sono occupati dei processi mentali a cui gli
esaminatori ricorrono per arrivare ad attribuire il punteggio
utilizzando scale analitiche e di quali sono i criteri che
influenzano maggiormente l’attribuzione del punteggio
Problemi legati all’attribuzione dei punteggi
• Legati al comportamento degli esaminatori, sia singolarmente
sia in rapporto agli altri
• Legati alla scelta dei criteri e alla loro applicazione (spesso gli
esaminatori utilizzano solo alcuni dei criteri proposti)
• La formazione è assolutamente fondamentale, così come alcuni
studi (Weigle 1994) hanno dimostrato che la possibilità di
confrontarsi con “modelli” di valutazione può risultare di grande
aiuto.
• Sempre secondo Weigle, esaminatori esperti tendono ad essere
meno severi di esaminatori con minore esperienza
• Lo stesso parrebbe valere nel caso di esaminatori madre lingua
rispetto a esaminatori non di madre lingua. Questa ultima
differenza tende però a diminuire quando gli esaminatori
vengono formati (Brown 1995)
• Concludendo il fattore più importante, oltre alla formazione,
sembra essere l’interazione fra l’esaminatore e i criteri
selezionati
Problemi legati all’attribuzione dei punteggi
• Un importante studio di Lumley (2000) arriva alla
conculsione che “rating scales represent … a set of
negotiated principles which the raters use as a basis for
reliable action rather than a valid description of language
performance”
Problemi legati all’attribuzione dei punteggi
• I punteggi assegnati ad un test di produzione sia scritta che
orale sono il risultato di un processo complesso che
necessariamente riguarda: il task, l’interazione fra il task e
lo studente (sia linguistica che di conoscenze pregresse),
l’esaminatore e le procedure per l’attribuzione del
punteggio.
Relazioni, lettere, email
• E’ necessario che le istruzioni/input siano chiari (è da
discutere quanto debbano essere dettagliati e lunghi)
• Deve essere specificato quanto lungo deve essere il testo
• Deve essere specificato il destinatario (registro)
• Deve essere specificata la situazione
• Devono essere specificati i criteri di valutazione (anche per
i discenti)
Composizioni, brevi saggi
• Vantaggi:
• Facilità nel trovare e formulare argomenti e titoli da
sottoporre agli studenti
• Possibilità di verificare abilità quali quella di sviluppare un
argomento in modo logico e coerente
• Metodo familiare e rassicurante per molti studenti
Composizioni, brevi saggi
• Svantaggi:
• Eseguire un compito di produzione scritta dipende anche da
competenze diverse dalla abilità oggetto di verifica
• Più il titolo e l’argomento sono generici maggiore è la
possibilità di avere produzioni molto diverse le une dalle altre e
questo rende più difficile valutarle in maniera equa e per quanto
possibile uniforme
• I limiti di tempo che necessariamente vanno imposti possono
svantaggiare studenti più lenti nello scrivere
• Indicare il numero minimo e massimo di parole è artificiale ma
necessario
Test soggettivi: Domande aperte, risposte
brevi
• Tipo di test generalmente usato per la verifica della
Comprensione della Lettura (Ascolto). Si distingue dalla
risposte brevi per il numero di parole da utilizzare nella
risposta (che quindi devono essere specificate)
• Test motivante in quanto corrisponde a compiti di vita
reale
• Abilità integrate: Lettura/Ascolto e Scrittura
• Importante focalizzarli sull’abilità oggetto di verifica
Test soggettivi: Interviste orali
• E’ preferibile che l’intervista venga strutturata e non sia
completamente libera. In tal caso infatti lo studente di cui
vogliamo verificare l’abilità di produzione orale potrebbe
produrre pochissima lingua per cui le informazioni che
riusciremmo ad avere sull’abilità orale sarebbero minime
• Vanno dunque preparati degli input su cui basare un
intervista orale
• Devono essere specificati sia tempi sia criteri di
valutazione
DIF (Differential Item Functioning)
Dictionary of Language Testing (SILT 7)




DIF is when an item functions differently (is easier or
more difficult) for one group of candidates of the same
ability than another group of the same ability (groups
defined by things like gender, age and country of origin)
For DIF detection, you need item response data and data
on candidate’s background characteristics (in order to
group them by gender, etc) and it needs to be linked (we
know which candidate’s responses belong to which data
on background characteristics)
There are various statistical methods to detect DIF
(see the special number of LAQ 4/2
2007http://www.tandfonline.com/toc/hlaq20/4/2)
including using Rasch analysis which is what we do Two
things about DIF i) how strong it is, ii) the probablity it
is due to chance (low - item 13)
It must be interpreted qualitatively
DIF measure
ITEM
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
5
4
3
DIF Measure (diff.)
2
1
F
0
M
*
-1
-2
-3
-4
-5
DIF contrast
ITEM
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
0.6
0.4
0.2
DIF Size (diff.)
0
-0.2
F
M
-0.4
-0.6
-0.8
-1
-1.2
Test oggettivi: Scelta multipla
binaria, Vero/falso Si/No
• I test di vero/falso richiedono
semplicemente di scegliere fra sì/no o fra
vero/falso.
• La risposta va selezionata e non prodotta
Vantaggi: Vero/falso Si/No
• relativa facilità di costruzione
• metodo altamente oggettivo e quindi
affidabile
• Può essere usato per la verifica di varie
abilità e competenze (lettura, ascolto,
grammatica. lessico)
Svantaggi: Vero/falso Si/No
• 50% di probabilità che lo studente risponda
tirando ad indovinare (a meno che non si
penalizzi)
• Per trovare un correttivo si è provato a
chiedere di dare spiegazione della risposta,
compito non facile che coinvolge la
scrittura e difficile da valutare ( problemi
di affidabilità)
Test Oggettivi: Correzioni di errori
(Editing)
• E ‘un test che consente di verificare conoscenze
di tipo grammaticale e lessicale
• Consiste nell’individuare errori sia in un testo
scritto (segnalandoli semplicemente o
correggendoli anche) sia in una scelta multipla
• Gli errori possono essere anche errori di
ortografia, simulando gli errori che si fanno spesso
scrivendo in fretta o perché distratti
Test oggettivi: Trasferimento di informazioni
(Information Transfer)
• Test usato generalmente per la verifica della Lettura e
dell’Ascolto
• Richiede di trasferire informazioni (numeri, date, brevi
frasi da un testo (letto o ascoltato) in una tabella,
formulario, diagramma, ecc
Vantaggi
• Test adatto per verificare la comprensione di una sequenza
narrativa o descrittiva, di una classificazione, di un processo
costituito da una serie di fasi
• Il compito che lo studente è chiamato a compiere è simile
(anche per come si presenta) ad attività proprie di situazioni di
vita reale. In particolare in contesti di studio e lavoro
• Il compito appare dunque come autentico e, in quanto tale, può
essere recepito come motivante.
Svantaggi
• Può essere, d’altra parte, un tipo di compito molto
complicato
• Capire cosa deve fare può richiedere allo studente molto
tempo, per contro le informazioni ‘linguistiche’ che si
possono ottenere possono a loro volta essere minime
• In aggiunta, può essere un compito ‘facilitante’ per una
certa tipologia di studenti e creare notevoli difficoltà di
tipo culturale e cognitivo per altri
Costruzione del test: test diretti 2
• I test diretti sono relativamente facili da costruire se si
parte dalla definizione dell’utenza e dei relativi bisogni
linguistici in situazioni di vita ‘reale’
• è di conseguenza relativamente facile definire il costrutto
oggetto di indagine e cercare di elicitare una performance
rappresentativa
• l’impatto educativo può essere positivo (favorisce lo sviluppo
di abilità produttive, soprattutto il parlato, spesso
trascurato in contesti di insegnamento di una lingua
straniera)
• possono insorgere problemi di affidabilità e di limitatezza
del campione elicitato
Costruzione del test: test
indiretti 3
I test indiretti, per contro, elicitano conoscenze e competenze
specifiche piuttosto che abilità o saper fare, ma come tali,
più generalizzabili
vale a dire: conoscenze grammaticali e lessicali così come
conoscenze di fonetica e fonologia (nel caso del parlato) sono
comunque sempre necessarie per parlare e scrivere in
qualsiasi situazione comunicativa
Il problema è il rapporto fra le competenze elicitate e l’abiltà
oggetto di indagine
vale a dire: non abbiamo sufficiente evidenza che il fatto di
aver ottenuto buoni risultati ad esempio in test di
grammatica possa predire un equivalente buon risultato nello
scrivere una cronaca, un racconto o una lettera
Validity - Validation

Validity: «Appropriateness, meaningfulness and
usefulness of the specific inferences made from test
scores» Standards for educational and psychological
testing (APA 1985) (Purpura 2011)

Validation: «the process of accumulating evidence to
support such inferences» Standards for educational and
psychological testing (APA 1985) (Purpura 2011)

«Validation is an on-going process» (Bachman & Palmer
1996)
Obiettivi e Contenuti
• Esaminare/discutere i principi teorici che stanno
dietro la costruzione di test linguistici e ne
garantiscono la rispondenza allo scopo e la qualità
(responsabilità)
• Diventare consapevoli/più consapevoli dei molti
aspetti da tenere presente quando si parla di
valutazione linguistica e quando si lavora in questo
ambito
• Lavorare su esempi di test/prove linguistiche
Valutazione positiva/negativa
Pensate a casi in cui siete stati valutati. Siete
stati valutati in senso positivo o negativo:
per quello che sapevate/sapevate fare?
per quello che non sapevate/sapevate fare?
Valutazione sommativa Valutazione
formativa
• Valutazione sommativa: valutazione
dell’apprendimento
• Valutazione formativa: valutazione per
l’apprendimento
Valutazione criteriale (Criterion-referenced) o
Valutazione normativa (Norm-referenced)
Valutazione e interpretazione dei risultati sulla
base di un criterio esterno (programmi
ministeriali o QCER)
Valutazione e interpretezione dei risultati sulla
base della performance del gruppo
Norma e Criterio
• “Norma”: riferimento interno
– Il richiamo alla “norma” è un raffronto con la
performance di un gruppo/ classe (è un raffronto
possibile, in qualche misura, per lo studente)
• “Criterio”: riferimento esterno
– Il richiamo al “criterio” è un raffronto con
parametri esterni — ad esempio, quelli offerti
dai livelli del Quadro Comune Europeo di
Riferimento (è un raffronto difficile per lo studente)
Item
Ogni singola parte di un test/prova a cui venga
assegnato un punteggio
Competenze che un insegnante dovrebbe avere per
essere “preparato” in valutazione
Secondo i Seven Standards for Teacher Development in Assessment
prodotti dall’American Federation of Teachers, dal National Council on
Measurement in Education e dalla National Education Association (1990), le
competenze sono:
• selezionare metodi di verifica appropriati per prendere decisioni in nel
settore dell’istruzione
• Sviluppare prove relative a tali metodi
• Somministrare, valutare ed interpretare i risultati di prove sia esterne
sia interne
• Sviluppare valide procedure per definire punteggi, giudizi, gradi, voti
• Comunicare i risultati a studenti, parenti, altri atakeholders
• Riconoscere quando l’uso dei risultati possa essere inappropriato o non
etico o illegale
• Usare i risultati per prendere decisioni relative a singoli studenti,
pianificazione di corsi, sviluppo di curricoli
Il modello interpretativo di Toulmin
Datum: performance dello studente
Claim : l’interpretazione (punteggio, giudizio)
Warrant: giustificazioni al passaggio dal datum al claim
Backing: evidenze a supporto delle giustificazioni
Exception : possibili obiezioni al claim
Gli usi dell’argomentazione
• Il modello interpreativo di Tulmin può essere applicato a
qualsiasi settore e a qualsiasi situazione , in quanto basato su
un ragionamento logico
• L’argomentazione nasce per giustificare un’asserzione che
può essere come qualsiasi asserzione messa in dubbio
Caratteristiche di una valutazione
linguistica consapevole fondata su basi
teoriche:
•
Deriva da e risponde a scopi ben chiari (generici o per scopi specifici nel
caso dell’apprendimento linguistico) (il cosa)
•
Deriva da e riflette chiari ed appropriati obiettivi
d’insegnamento/apprendimento (il perché)
•
Si basa su metodi di verifica appropriati (il come)
•
Fornisce un campione appropriato dell’apprendimento degli studenti (il
come generare/elicitare tale campione)
•
Tiene sotto controllo possibili fonti di bias (comportamenti scorretti)
(per prevenirli)
•
Fornisce risultati attendibili
La valutazione anche linguistica da
diverse prospettive: studenti,
insegnanti
• Molti studenti non percepiscono la valutazione come
un’esperienza educativa, ma piuttosto come qualcosa da
superare che crea spesso ansia
• Molti inseganti hanno una percezione simile. Soprattutto
quando la valutazione è “esterna” vale a dire non sono gli
stessi insegnanti a preparare e valutare le prove, molti
insegnanti avvertono un gap fra insegnamento e valutazione
• Ci sono molti pregiudizi sulla valutazione che è spesso vista
come una sorta di arcano o di torre d’avorio, qualcosa di
tecnico e/o complesso che forse è meglio demandare da
altri…
Test oggettivi: definizione ed esempi
•
•
•
•
•
•
•
•
Si definiscono oggettivi i test in cui non si richiede di esprimere
un giudizio in quanto la risposta corretta ai singoli item è
predeterminata (chiavi) ed ha un predeterminato punteggio
(scansione ottica -correzione automatica) (affidabilità..se…)
Scelta binaria: vero o falso (scelta multipla a due opzioni)
Scelta multipla (tre/ quattro opzioni) (su testi, su frasi)
Completamento: inserimento della parola, della
frase/espressione mancante, completamento della frase priva
della parte finale. Spesso si completa scegliendo da una lista di
possibili opzioni
Abbinamento (parole o frasi da abbinare da due liste
Riordino: di elementi (lettere parole frasi) in sequenza casuale
Trasformazione: con le tecniche proprie degli esercizi
strutturali
Editing: correzioni di errori, eliminazione di vocaboli intrusi
Test soggettivi: definizione ed esempi
• Si definiscono soggettivi i test in cui si
richiede di esprimere un giudizio in quanto la
risposta non è predeterminata
• è necessario predisporre criteri di valutazione
• è necessario disporre di personale competente
e preparato
• Produzioni scritte libere o guidate
• Produzione orali libere o guidate
• Domande aperte

similar documents