Pilot testing and Pretesting

Pilotstudie zum Sprachtest und zur Erprobung

Die Pilotstudie wurde im Oktober 2008 durchgeführt. Sie verfolgte folgende Ziele:

Rückmeldungen zu den für den Sprachtest vorgeschlagenen Aufgabentypen und dem Testdesign erhalten.
Erprobung der innovativen und auf internationaler Zusammenarbeit beruhenden Prozesse der Itemproduktion und Testerstellung.

Das Erkenntnisinteresse der Pilotstudie lag vor allem bei der Erprobung der Konzepte und weniger bei der Erprobung der Testitems.

Pilotstudie

Zum Erreichen der genannten Ziele wurde eine Pilotstudie in kleinem Maßstab durchgeführt, an der öffentliche Schulen und Sprachschulen in Europa beteiligt waren. Insgesamt wurden 32 Tests in fünf Sprachen erstellt und erprobt: 13 Lesetests, 9 Hörtests und 12 Schreibtests.

Die Pilotstudie wurde in den fünf zu testenden Sprachen durchgeführt: Englisch, Französisch, Deutsch, Italienisch und Spanisch. Mit einer Länge von 30 Minuten pro Sprachtestheft umfasste die Pilotstudie dasselbe Format wie die eigentliche Erhebung. Es wurde in diesem Rahmen gleichzeitig die Verwendung von Ankeritems erprobt.

Parallel zu den Sprachtests wurden zu den Aufgabentypen aussagekräftige Rückmeldungen bei Partnern wie Nationalen Forschungskoordinatoren, der Europäischen Kommission und Lehrern der an der Pilotstudie beteiligten Schulen gesammelt.

Die Prozesse der Itemproduktion

Das Entwicklerteam der Sprachtests arbeitete bei der Entwicklung der Testitems in den fünf Sprachen nicht nur nach einem gemeinsamen Zeitplan, sondern, dies ist besonders wichtig, nach denselben Testspezifikationen, um auf diese Weise denselben Schwierigkeitsgrad der Items zu erreichen.

Zur Umsetzung dieser Anforderungen entwickelte das SurveyLang-Konsortium neue Prozesse der Zusammenarbeit. Die Pilotstudie bot eine gute Möglichkeit, diese neuen Verfahren auszuprobieren.

Ein wichtiges Element in diesem Prozess war die sprachenübergreifende Begutachtung der Items. Dabei wurden Testaufgaben jeder Sprache zusätzlich zu der Begutachtung durch den ursprünglichen Sprachpartner von mindestens zwei der anderen Sprachpartner begutachtet. Erfahrene, mehrsprachige Item-Autoren kontrollierten Aufgaben aus anderen Sprachen, um sicherzustellen, dass diese Aufgaben, Items und Antwortoptionen korrekt funktionieren und einen mit den Aufgaben anderer Sprachen vergleichbaren Schwierigkeitsgrad aufweisen. Die sprachübergreifende Itembegutachtung setzte eine breite und fruchtbare Diskussion innerhalb des Entwicklungsteams der Sprachtests in Gang und erwies sich als äußerst hilfreich bei der Entscheidung für die besten Aufgaben. Das sprachübergreifende Kontrollverfahren erhielt viel positives Feedback von den beteiligten Partnern.

Ergebnisse der Pilotstudie

Die Analyse der Daten der Pilotstudie leistete einen Beitrag zur Fertigstellung der Testspezifikationen und der Aufgabentypen. Die Testspezifikationen und Aufgabentypen wurden in der Folge von der EU-Kommission, den teilnehmenden Ländern und anderen wichtigen Partnern geprüft und angenommen, bevor die Itemproduktion im Januar 2009 in Vorbereitung auf die Erprobung in vollem Umfang startete.

Mit Hilfe der Pilotstudie wurde die Durchführbarkeit der Produktionsprozesse zur Itemerstellung und Testerstellung bestätigt. Weitere wichtige Erkenntnisse der Pilotstudie:

Die sprachübergreifende Adaption von Aufgaben ist ein praktisches Werkzeug zur Sicherung von Vergleichbarkeit.
Die Aufgabentypen sind auf die Zielgruppe ‚Schülerinnen und Schüler‘ abgestimmt.
Die vorliegende Auswahl an Themen, Texten, Bildern usw. sind der Zielgruppe angemessen.
Der Schwierigkeitsgrad der im Pilottest verwendeten Aufgaben ist angemessen für die Schüler. Es ist daher davon auszugehen, dass der Schwierigkeitsgrad aller neu entwickelten Aufgaben nach erfolgter Erprobung und dem Feldversuch ebenfalls angemessen sein wird.

Erprobung

Die Erprobung hat das Ziel, das Niveau und die Qualität der Testaufgaben und Items zu analysieren.

Nach der Erstellung der Testspezifikationen und der Aufgabentypen begann ein sehr intensiver Prozess der Itemproduktion, Bearbeitung und der sprachenübergreifenden Begutachtung. Im Anschluss daran wurden insgesamt 145 Erprobungs-Testhefte in den fünf Sprachen zum Lesen, Hören und Schreiben erstellt. Diese wurden im Oktober 2009 von Schulen in den an der Erhebung beteiligten Ländern sowie von anderen ausgewählten pädagogischen Einrichtungen eingesetzt. Nach der Erprobung fand eine umfassende Analyse der Schwierigkeitsgrade und der Qualität der Testaufgaben und Items statt.Im Anschluss wurden die Aufgaben erneut bearbeitet, um eine Auswahl der bestgeeigneten Aufgaben für den Feldversuch zu erhalten.