Generative KI als Werkzeug zur Erstellung qualitativer Rubrics
Type
conference contribution
Date Issued
2024-09-24
Author(s)
Sebastian Meisel
Abstract
Der Beitrag adressiert drei Problemfelder und präsentiert praxisorientierte Lösungsmöglichkeiten für die universitäre Lehre unter Einbeziehung generativer KI, insbesondere mit Hinblick auf Praktiken des Prüfens. Diese Bereiche sind:
1. Die Entwicklung von Notengebung in Zeiten von KI
2. Die Hilfestellung durch systematisierte Notenschemata (rubrics)
3. Die Assistenz verschiedener KI-Systeme bei der Erstellung von rubrics
Der Beitrag geht auf diese drei Problemfelder ein und schliesst mit einem Fallbeispiel, das an der Universität St.Gallen (HSG) erprobt wurde.
1. Die Entwicklung von Notengebung in Zeiten von KI
2. Die Hilfestellung durch systematisierte Notenschemata (rubrics)
3. Die Assistenz verschiedener KI-Systeme bei der Erstellung von rubrics
Der Beitrag geht auf diese drei Problemfelder ein und schliesst mit einem Fallbeispiel, das an der Universität St.Gallen (HSG) erprobt wurde.
Abstract (De)
Der Beitrag adressiert drei Problemfelder und präsentiert praxisorientierte Lösungsmöglichkeiten für die universitäre Lehre unter Einbeziehung generativer KI, insbesondere mit Hinblick auf Praktiken des Prüfens. Diese Bereiche sind:
1. Die Entwicklung von Notengebung in Zeiten von KI
2. Die Hilfestellung durch systematisierte Notenschemata (rubrics)
3. Die Assistenz verschiedener KI-Systeme bei der Erstellung von rubrics
Der Beitrag geht auf diese drei Problemfelder ein und schliesst mit einem Fallbeispiel, das an der Universität St.Gallen (HSG) erprobt wurde.
Bestimmte Prüfungsformen sind durch das Aufkommen von generativen KI-Systemen unter Druck geraten. Die Fähigkeit, Texte scheinbar auf "Knopfdruck" zu generieren, führt dazu, dass insbesondere die klassische Seminar- oder Hausarbeit zunehmend unter Legitimations-druck steht. Gleiches gilt auch für Präsentationen, Essays und Reflexionsberichte (Fyfe, 2023). Tatsächlich müssen aus der Perspektive der didaktischen Lehrentwicklung mehr oder weniger alle Prüfungsformen im Hinblick auf die Auswirkungen generativer KI-Anwendungen auf den Prüfstand gestellt werden. Die Hochschulen scheinen sich dieser Problematik noch nicht vollends bewusst zu sein: Die aktuelle und erst beginnende Transformation wird Auswirkun-gen auf den Prüfungsprozess im universitären Kontext im Allgemeinen haben (Getto et al., 2018a, 2018b). Rechtliche Anpassungen sind dafür notwendig, aber nicht hinreichend, um dem Phänomen vollumfänglich gerecht zu werden. Die Teaching Services an der HSG haben hier-für verschiedene Ideen für die Anwendung von Notenrubrics entwickelt.
Rubrics sind eine Möglichkeit, die Benotung im Zeitalter der Digitalität (Noller, 2021, 2022; Stalder, 2021) transparent und fair zu gestalten. Sie sind im Allgemeinen der Versuch, ein rati-onales und nachvollziehbares Bewertungsraster zu erstellen, das sich auch an den Konventio-nen des Fachgebiets orientiert. Die gewählten Parameter haben bestimmte Bewertungskatego-rien gemeinsam, wie z. B. die Tiefe des dargestellten Inhalts, die Struktur der Arbeit, den Stil und den wissenschaftlichen Sprachgebrauch sowie die Formalität. Ein solches Schema hat gewisse Vorteile, aber auch Nachteile (Jahn & Cursio, 2021). Vor allem wenn sie den Studie-renden als Bewertungsschema bekannt sind, können sie dazu beitragen, Unsicherheiten zu beseitigen, die in der Regel bei schriftlichen Arbeiten bestehen. Darüber hinaus kann akademi-sches (und nicht-akademisches) Schreiben anhand vorgegebener Kriterien geübt werden, um den Studierenden die Fähigkeiten zu vermitteln, die für eine potenzielle künftige (akademi-sche oder nicht-akademische) Laufbahn wichtig sind. Damit erfüllen sie einen wichtigen Zweck in Hinblick auf die kompetenzorientierte Vermittlung von Lehrinhalten. Zudem sind rubrics auch ein Vehikel, um komplexe Kompetenzbündel wie z.B. AI-Literacy in Prüfungen zu integrieren und prüfbar zu machen (Mahmood & Jacobo, 2019).
.
Zu den unbestreitbaren Nachteilen gehören zum einen die mögliche Unübersichtlichkeit und zum anderen der Aufwand, der mit der Erstellung eines rubrics verbunden ist. Im ersten Fall ist festzustellen, dass Skalenstufen in rubrics oft nur allgemeingültige Parameter liefern ("Der Studierende hat den Inhalt vollständig/weniger/nicht verstanden..."). Solche Bewertungen gehen jedoch auf eine subjektive Beurteilung zurück. Erfahrung, insbesondere bei der Beurtei-lung von Fähigkeiten und Kenntnissen der Studierenden, bleibt daher auf Seiten der Lehren-den unerlässlich, darf aber insbesondere unter ändernden Rahmenbedingungen nicht das ein-zige Kriterium sein. Jede kreative Arbeit, und schriftliche Arbeiten an einer Hochschule sind zweifellos kreative Arbeiten, birgt in einer Bewertungssituation gewisse Unsicherheiten, wel-che sich durch bestimmte akademische und nicht-akademische Einflüsse wie Geschmack, so-zio-ökonomischen Hintergrund und inhaltliche Erwartungen erklären lassen (Kant, 2009). KI-Anwendungen können bei diesem grundlegenden Problem nicht helfen. Unserer Erfahrung nach kann der Einsatz von KI-Tools einen Mehrwert bieten, indem die Erstellung von rubrics mit geringem Aufwand realisiert werden kann. Um auf das Problem der inhaltlichen Unschär-fe reagieren zu können, müssen sich rubrics an den Lernzielen und Lerntaxonomien orientie-ren, die am Anfang eines jeden Prüfungsdesigns stehen. Nur durch diese Verbindung kann die geforderte rationale Tiefe in der Beurteilung erreicht werden; d.h. nur hier ist sichergestellt, dass der Test auch das getestet hat, was er testen soll (Biggs, 1996). Das bedeutet, dass rubrics, wenn sie einen didaktischen Sinn haben sollen, für jede Lehrveranstaltung bzw. für jede Frage individuell erstellt werden müssen.
Konkret haben im Fallbeispiel mehrere Abteilungen des Prorektorats Studium und Lehre der HSG untersucht, welche frei verfügbaren KI-Anwendungen sich derzeit besonders gut für die Erstellung von rubrics eignen. Dies geschah in einem 90-minütigen Workshop mit verschiede-nen Dozierenden mit unterschiedlichem Erfahrungsstand im Umgang mit KI und rubrics. Ge-testet wurden die Chatbots von OpenAI Version 3.5 und 4, Google Bard und Microsofts Co-Pilot. Diese Ergebnisse wurden nach dem Erscheinen von ChatGPT 4.o weiterentwickelt und angepasst.
Die Ergebnisse ließen eine deutliche Tendenz zum Gebrauch der damaligen freien Version ChatGPT 3.5 erkennen. Dies wurde aber durch den Release von GPT 4.o nochmals in Frage gestellt. Es zeigt sich in der Verwendung des neuen Modells nochmals eine starke Verbesse-rung, sowohl in der Benutzbarkeit wie auch in der Zeitersparnis. Die Unterschiede können entsprechend auf dem Symposium präsentiert und besprochen werden.
Wir möchten daher die Möglichkeiten der KI-gestützten Erstellung von rubrics aufzeigen, die Vor- und Nachteile der Methode benennen und ein Best-Practice-Beispiel liefern. Während unserer Präsentation sind wir auch gerne bereit, ein Live-Prompting durchzuführen, welches die Herausforderungen und Chancen klar aufzeigt. Darüber hinaus freuen wir uns, mit den Teilnehmenden in einen Diskurs über den Gebrauch von KI-assistierten rubrics zu treten.
Literatur
Biggs, J. (1996). Enhancing teaching through constructive alignment. Higher Education, 32(3), 347-364. https://doi.org/10.1007/bf00138871
Fyfe, P. (2023). How to cheat on your final paper: Assigning AI for student writing. AI & SOCIETY, 38(4), 1395-1405. https://doi.org/10.1007/s00146-022-01397-z
Getto, B., Hintze, P., & Kerres, M. (2018a). Digitalisierung und Hochschulentwicklung. Waxmann Verlag.
Getto, B., Hintze, P., & Kerres, M. (2018b). (Wie) Kann Digitalisierung zur Hochschulentwicklung beitragen? In B. Getto, P. Hintze, & M. Kerres (Eds.), Digitalisierung und Hochschulentwicklung. Proceedings zur 26. Tagung der Gesellschaft für Medien in der Wissenschaft e.V. Waxmann. https://doi.org/10.25656/01:16983
Jahn, D., & Cursio, M. (2021). Kritisches Denken. https://doi.org/10.1007/978-3-658-34985-1
Kant, I. (2009). Kritik der Urteilskraft (H. F. Klemme & P. Giordanetti, Eds.). Felix Meiner Verlag. https://doi.org/10.28937/978-3-7873-2069-1
Mahmood, D., & Jacobo, H. (2019). Grading for growth: Using sliding scale rubrics to motivate struggling learners. Interdisciplinary Journal of Problem-Based Learning, 13(2).
Noller, J. (2021). Philosophie der Digitalität. In U. Hauck-Thum & J. Noller (Eds.), Was ist Digitalität? Philosophische und pädagogische Perspektiven (pp. 39-54). J.B. Metzler.
Noller, J. (2022). Didaktik der Digitalität. Philosophische Perspektiven. In M. Kim, T. Gutmann, & S. Peukert (Eds.), Philosophiedidaktik 4.0? Chancen und Risiken der digitalen Lehre in der Philosophie (pp. 33-44). Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-662-65226-8_3
Stalder, F. (2021). Was ist Digitalität? In J. Noller & U. Hauck-Thum (Eds.), Was ist Digitalität? Philosophische und pädagogische Perspektiven (pp. 3-7).
1. Die Entwicklung von Notengebung in Zeiten von KI
2. Die Hilfestellung durch systematisierte Notenschemata (rubrics)
3. Die Assistenz verschiedener KI-Systeme bei der Erstellung von rubrics
Der Beitrag geht auf diese drei Problemfelder ein und schliesst mit einem Fallbeispiel, das an der Universität St.Gallen (HSG) erprobt wurde.
Bestimmte Prüfungsformen sind durch das Aufkommen von generativen KI-Systemen unter Druck geraten. Die Fähigkeit, Texte scheinbar auf "Knopfdruck" zu generieren, führt dazu, dass insbesondere die klassische Seminar- oder Hausarbeit zunehmend unter Legitimations-druck steht. Gleiches gilt auch für Präsentationen, Essays und Reflexionsberichte (Fyfe, 2023). Tatsächlich müssen aus der Perspektive der didaktischen Lehrentwicklung mehr oder weniger alle Prüfungsformen im Hinblick auf die Auswirkungen generativer KI-Anwendungen auf den Prüfstand gestellt werden. Die Hochschulen scheinen sich dieser Problematik noch nicht vollends bewusst zu sein: Die aktuelle und erst beginnende Transformation wird Auswirkun-gen auf den Prüfungsprozess im universitären Kontext im Allgemeinen haben (Getto et al., 2018a, 2018b). Rechtliche Anpassungen sind dafür notwendig, aber nicht hinreichend, um dem Phänomen vollumfänglich gerecht zu werden. Die Teaching Services an der HSG haben hier-für verschiedene Ideen für die Anwendung von Notenrubrics entwickelt.
Rubrics sind eine Möglichkeit, die Benotung im Zeitalter der Digitalität (Noller, 2021, 2022; Stalder, 2021) transparent und fair zu gestalten. Sie sind im Allgemeinen der Versuch, ein rati-onales und nachvollziehbares Bewertungsraster zu erstellen, das sich auch an den Konventio-nen des Fachgebiets orientiert. Die gewählten Parameter haben bestimmte Bewertungskatego-rien gemeinsam, wie z. B. die Tiefe des dargestellten Inhalts, die Struktur der Arbeit, den Stil und den wissenschaftlichen Sprachgebrauch sowie die Formalität. Ein solches Schema hat gewisse Vorteile, aber auch Nachteile (Jahn & Cursio, 2021). Vor allem wenn sie den Studie-renden als Bewertungsschema bekannt sind, können sie dazu beitragen, Unsicherheiten zu beseitigen, die in der Regel bei schriftlichen Arbeiten bestehen. Darüber hinaus kann akademi-sches (und nicht-akademisches) Schreiben anhand vorgegebener Kriterien geübt werden, um den Studierenden die Fähigkeiten zu vermitteln, die für eine potenzielle künftige (akademi-sche oder nicht-akademische) Laufbahn wichtig sind. Damit erfüllen sie einen wichtigen Zweck in Hinblick auf die kompetenzorientierte Vermittlung von Lehrinhalten. Zudem sind rubrics auch ein Vehikel, um komplexe Kompetenzbündel wie z.B. AI-Literacy in Prüfungen zu integrieren und prüfbar zu machen (Mahmood & Jacobo, 2019).
.
Zu den unbestreitbaren Nachteilen gehören zum einen die mögliche Unübersichtlichkeit und zum anderen der Aufwand, der mit der Erstellung eines rubrics verbunden ist. Im ersten Fall ist festzustellen, dass Skalenstufen in rubrics oft nur allgemeingültige Parameter liefern ("Der Studierende hat den Inhalt vollständig/weniger/nicht verstanden..."). Solche Bewertungen gehen jedoch auf eine subjektive Beurteilung zurück. Erfahrung, insbesondere bei der Beurtei-lung von Fähigkeiten und Kenntnissen der Studierenden, bleibt daher auf Seiten der Lehren-den unerlässlich, darf aber insbesondere unter ändernden Rahmenbedingungen nicht das ein-zige Kriterium sein. Jede kreative Arbeit, und schriftliche Arbeiten an einer Hochschule sind zweifellos kreative Arbeiten, birgt in einer Bewertungssituation gewisse Unsicherheiten, wel-che sich durch bestimmte akademische und nicht-akademische Einflüsse wie Geschmack, so-zio-ökonomischen Hintergrund und inhaltliche Erwartungen erklären lassen (Kant, 2009). KI-Anwendungen können bei diesem grundlegenden Problem nicht helfen. Unserer Erfahrung nach kann der Einsatz von KI-Tools einen Mehrwert bieten, indem die Erstellung von rubrics mit geringem Aufwand realisiert werden kann. Um auf das Problem der inhaltlichen Unschär-fe reagieren zu können, müssen sich rubrics an den Lernzielen und Lerntaxonomien orientie-ren, die am Anfang eines jeden Prüfungsdesigns stehen. Nur durch diese Verbindung kann die geforderte rationale Tiefe in der Beurteilung erreicht werden; d.h. nur hier ist sichergestellt, dass der Test auch das getestet hat, was er testen soll (Biggs, 1996). Das bedeutet, dass rubrics, wenn sie einen didaktischen Sinn haben sollen, für jede Lehrveranstaltung bzw. für jede Frage individuell erstellt werden müssen.
Konkret haben im Fallbeispiel mehrere Abteilungen des Prorektorats Studium und Lehre der HSG untersucht, welche frei verfügbaren KI-Anwendungen sich derzeit besonders gut für die Erstellung von rubrics eignen. Dies geschah in einem 90-minütigen Workshop mit verschiede-nen Dozierenden mit unterschiedlichem Erfahrungsstand im Umgang mit KI und rubrics. Ge-testet wurden die Chatbots von OpenAI Version 3.5 und 4, Google Bard und Microsofts Co-Pilot. Diese Ergebnisse wurden nach dem Erscheinen von ChatGPT 4.o weiterentwickelt und angepasst.
Die Ergebnisse ließen eine deutliche Tendenz zum Gebrauch der damaligen freien Version ChatGPT 3.5 erkennen. Dies wurde aber durch den Release von GPT 4.o nochmals in Frage gestellt. Es zeigt sich in der Verwendung des neuen Modells nochmals eine starke Verbesse-rung, sowohl in der Benutzbarkeit wie auch in der Zeitersparnis. Die Unterschiede können entsprechend auf dem Symposium präsentiert und besprochen werden.
Wir möchten daher die Möglichkeiten der KI-gestützten Erstellung von rubrics aufzeigen, die Vor- und Nachteile der Methode benennen und ein Best-Practice-Beispiel liefern. Während unserer Präsentation sind wir auch gerne bereit, ein Live-Prompting durchzuführen, welches die Herausforderungen und Chancen klar aufzeigt. Darüber hinaus freuen wir uns, mit den Teilnehmenden in einen Diskurs über den Gebrauch von KI-assistierten rubrics zu treten.
Literatur
Biggs, J. (1996). Enhancing teaching through constructive alignment. Higher Education, 32(3), 347-364. https://doi.org/10.1007/bf00138871
Fyfe, P. (2023). How to cheat on your final paper: Assigning AI for student writing. AI & SOCIETY, 38(4), 1395-1405. https://doi.org/10.1007/s00146-022-01397-z
Getto, B., Hintze, P., & Kerres, M. (2018a). Digitalisierung und Hochschulentwicklung. Waxmann Verlag.
Getto, B., Hintze, P., & Kerres, M. (2018b). (Wie) Kann Digitalisierung zur Hochschulentwicklung beitragen? In B. Getto, P. Hintze, & M. Kerres (Eds.), Digitalisierung und Hochschulentwicklung. Proceedings zur 26. Tagung der Gesellschaft für Medien in der Wissenschaft e.V. Waxmann. https://doi.org/10.25656/01:16983
Jahn, D., & Cursio, M. (2021). Kritisches Denken. https://doi.org/10.1007/978-3-658-34985-1
Kant, I. (2009). Kritik der Urteilskraft (H. F. Klemme & P. Giordanetti, Eds.). Felix Meiner Verlag. https://doi.org/10.28937/978-3-7873-2069-1
Mahmood, D., & Jacobo, H. (2019). Grading for growth: Using sliding scale rubrics to motivate struggling learners. Interdisciplinary Journal of Problem-Based Learning, 13(2).
Noller, J. (2021). Philosophie der Digitalität. In U. Hauck-Thum & J. Noller (Eds.), Was ist Digitalität? Philosophische und pädagogische Perspektiven (pp. 39-54). J.B. Metzler.
Noller, J. (2022). Didaktik der Digitalität. Philosophische Perspektiven. In M. Kim, T. Gutmann, & S. Peukert (Eds.), Philosophiedidaktik 4.0? Chancen und Risiken der digitalen Lehre in der Philosophie (pp. 33-44). Springer Berlin Heidelberg. https://doi.org/10.1007/978-3-662-65226-8_3
Stalder, F. (2021). Was ist Digitalität? In J. Noller & U. Hauck-Thum (Eds.), Was ist Digitalität? Philosophische und pädagogische Perspektiven (pp. 3-7).
Language
German
Keywords
Rubrics
Generative KI
KI
Prüfungen
Schriftliche Arbeiten
Abschlussarbeiten
Event Title
Symposium KI in der Hochschullehre
Event Location
LMU München
Event Date
23.-24.09.2024