Zusammenfassung
Das Kernstück deutscher Schulinspektionen ist die Evaluation von Unterrichtsqualität mithilfe fragebogengestützter Expertenratings. Die für die Leistungsmessung zugrunde gelegten Qualitätsmerkmale rekurrieren zumeist auf bekannte Kriterienmatrizen effektiven Unterrichts und orientieren sich entsprechend am Prozess-Produkt-Paradigma der Schuleffektivitätsforschung. Bislang fehlen jedoch noch sowohl komplexe Unterrichtsqualitätsmodelle als auch Maßstäbe für die Leistungsbeurteilung und Standards für die Leistungsbewertung, die es Schulverantwortlichen und Bildungsadministration erlauben, kriteriale Fragestellungen auf Basis der Evaluationsergebnisse zu beantworten und die Schul- und Unterrichtsentwicklung anhand transparenter Kriterien wissensbasiert zu steuern. Im vorliegenden Beitrag wird die Idee aufgegriffen, auf Grundlage vergleichender empirischer Forschung ein gestuftes Modell von Unterrichtsqualität für die Einordnung von Evaluationsergebnissen zu erstellen. Das Modell wird mithilfe der probabilistischen Testtheorie auf Basis von Daten einer Normierungsstichprobe (N = 2240) der Schulinspektion Hamburg generiert. Die Befunde zeigen, dass es mit Daten aus Schulinspektionsverfahren grundsätzlich möglich ist, ein Modell zu erstellen, das die Überführung quantitativer Messwerte in qualitative Aussagen zur Qualität von Unterricht ermöglicht, das sich zwischen Schulformen invariant verhält und sowohl in den Randbereichen der Skala als auch in deren Mittelbereich gut diskriminiert. Die Datenstruktur ist jedoch mehrdimensional angelegt, sodass bei einer eindimensionalen Modellierung von Unterrichtsqualität ein Informationsverlust und Ungenauigkeiten bei der Bestimmung empirischer Kennwerte zu erwarten sind. Gleichwohl sind die beobachteten Verzerrungen gering und die einzelnen Subdimensionen von Unterrichtsqualität korrelieren teilweise hoch miteinander, sodass davon auszugehen ist, dass ein eindimensionales Stufenmodell zur Beschreibung von Unterrichtsqualität eine sinnvolle, empirisch haltbare Approximation des mehrdimensionalen Modells darstellt. Ein solch abgestuftes Modell wird abschließend mithilfe eines Proficiency Scaling aus den Daten heraus entwickelt und inhaltlich vorgestellt.
Abstract
The core element in German school inspections is the evaluation of the quality of classroom teaching using questionnaire-supported expert ratings. The criteria for performance measurement are in most cases based upon research on effective teaching and are, therefore, oriented on the process-product paradigm of school effectiveness research. Complex models for describing the quality of classroom teaching are missing as well as benchmarks for the assessment of and standards for the appraisal of performance, which allow leading personnel in school and education administration to answer questions based on the results of evaluations and to facilitate evidence-based governance and teaching development. This article suggests the development of a multi-level model for classifying the performance in classroom teaching using comparative empirical research. The data (N = 2240) is derived from a sample of the Hamburg School Inspection and the model has been developed using Item Response Theory. The results show that it is possible to develop a model which allows the conversion of quantitative measurements into performance levels with a narrative description of the content which is typical at each level. Furthermore, it can be demonstrated that the model is valid for different types of schools and that single lesson sequences can be discriminated at the margins of the scale as well as in the middle. Nevertheless, the structure of data is found to be multi-dimensional, so that a uni-dimensional scaling procedure may lead to a loss of information and inaccurate estimates. It can be shown, however, that the expected bias is of little significance and that strong correlations between the sub-dimensions of the model can be found. Thus, it can be assumed that using a uni-dimensional model of performance levels to describe the quality of classroom teaching may be a reasonable and empirically tenable approximation of the multidimensional model. Finally, a multi-level model is presented, which is developed using a proficiency scaling.
![](http://media.springernature.com/m312/springer-static/image/art%3A10.1007%2Fs11618-010-0113-z/MediaObjects/11618_2010_113_Fig1_HTML.jpg)
![](http://media.springernature.com/m312/springer-static/image/art%3A10.1007%2Fs11618-010-0113-z/MediaObjects/11618_2010_113_Fig2_HTML.jpg)
Notes
Dass diese Annahme auch in der Praxis zutrifft, zeigen deskriptive Datenanalysen. Die Kategorie „nicht beobachtbar“ wird auf Ebene der einzelnen Items in der Regel in weniger als 5 % aller Fälle genutzt. Ausnahmen bilden die Items „Die Lehrkraft geht mit Störungen angemessen und konstruktiv um.“, „Das Erreichen der Lernziele wird angemessen überprüft.“ und „Die Lehrkraft geht mit Schülerfehlern konstruktiv um.“. Bei diesen Items wird die Kategorie „nicht beobachtbar“ in 34, 21 und 16 % aller Fälle durch die Inspektorinnen und Inspektoren genutzt. Aufgrund der hohen Anzahl fehlender Werte wurden diese Items nicht zur inhaltlichen Beschreibung der Abstufungen herangezogen.
Items, bei denen die Inspektorinnen und Inspektoren die Kategorie „nicht beobachtbar“ gewählt hatten, wurden als fehlende Werte unter der Annahme Missing at Random (MAR) behandelt. Im Mittel wurde diese Kategorie pro Sequenz 2,4-mal genutzt (SE: 0,05, SD: 1,65). Wie eine Sensitivitätsanalyse von Pietsch u. Leist (2009) mithilfe von Latent-Class-Pattern-Mixture-Modellen (LCPMM) zeigt, führt die Nutzung dieser Kategorie und deren Nicht-Handhabung als Missing not at Random (MNAR) in der Datenauswertung zu einer leichten Unterschätzung von Itemmittelwerten. Dies hat jedoch keinen nachweisbaren Effekt auf die Bestimmung zentraler Tendenzen, wie z. B. des Populationsmittelwertes, im IRT-Modell.
Da positive Korrelationen zwischen den Itemresiduen beobachtet wurden, ist davon auszugehen, dass die Reliabilität der Gesamtskala „Unterrichtsqualität“ überschätzt wird.
Die Modellierung eines mehrdimensionalen Modells aus analytischen Gründen im Rahmen von Analysen auf Populations- resp. Stichprobenebene bleibt hiervon natürlich unbenommen. Im Rahmen von Rückmeldungen an Einzelschulen bietet es sich darüber hinaus ggf. an, neben dem Modell Kennwerte auf Ebene einzelner Items für innerschulische Analysezwecke zurückzumelden, um so eine differenzierte und detaillierte Auseinandersetzung mit den Evaluationsbefunden zu ermöglichen.
Betrachtet man die MNSQ-Werte der Items in der mehrdimensionalen Skalierung, dann liegen die Kennwerte für alle 30 Items im Bereich von 0,80 bis 1,20. Die beiden in der eindimensionalen Skalierung auffälligen Items 19 und 23 haben dann MNSQ-Werte i. H. v. 1,13 und 0,89. Dieser Befund unterstützt das Vorgehen, diese beiden Items trotz der im Rahmen der eindimensionalen Skalierung berichteten Kennwerte in der Gesamtskala zu belassen, da das eindimensionale Modell als Approximation des mehrdimensionalen Modells gilt (vgl. zu diesem Thema auch Goldstein 2004).
Literatur
Andrich, D. (1978). Application of a psychometric model to ordered categories which are scores with successive integers. Applied Psychological Measurement, 2(4), 581–594.
Bangert-Drowns, R. L., Kulik, C. L., Kulik, J. A., & Morgan, M. T. (1991). The instructional effect of feedback in test-like events. Review of Educational Research, 61(2), 213–237.
Beaton, A. E., & Allen, N. L. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17(2), 191–204.
Behörde für Bildung und Sport. (2006). Orientierungsrahmen: Qualitätsentwicklung an Hamburger Schulen. Hamburg: Behörde für Bildung und Sport.
Bonsen, M., Büchter, A., & Peek, R. (2006). Datengestützte Schul- und Unterrichtsentwicklung. Bewertung der Lernstandserhebungen in NRW durch Lehrerinnen und Lehrer. In W. Bos, H.-G. Holtappels, R. Pfeiffer & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (Bd. 14, S. 125–148). Weinheim: Juventa.
Böttcher, W., & Kotthoff, H.-G. (2007a). Schulinspektion zwischen Rechenschaftslegung und schulischer Qualitätsentwicklung: internationale Erfahrungen. In W. Böttcher & H.-G. Kotthoff (Hrsg.), Schulinspektionen: Evaluation, Rechenschaftslegung und Qualitätsentwicklung (S. 9–20). Münster: Waxmann.
Böttcher, W., & Kotthoff, H.-G. (2007b). Gelingensbedingungen einer qualitätsoptimierenden Schulinspektion. In W. Böttcher & H.-G. Kotthoff (Hrsg.), Schulinspektionen: Evaluation, Rechenschaftslegung und Qualitätsentwicklung (S. 223–230). Münster: Waxmann.
Bos, W., Holtappels, H.-G., & Rösner, E. (2006). Schulinspektionen in den deutschen Bundesländern – eine Baustellenbeschreibung. In W. Bos, H.-G. Holtappels, R. Pfeiffer & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (Bd. 14, S. 81–124). Weinheim: Juventa.
Bremerich-Vos, A., & Böhme, K. (2009). Lesekompetenzdiagnostik – die Entwicklung eines standardbasierten Kompetenzmodells für den Bereich Lesen. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 219–249). Weinheim: Beltz.
Brennan, R. L. (2001). Generalizability theory. New York: Springer.
Brophy, J. (2000). Teaching. Genf: IBE.
Chen, W., & Thissen, D. (1997). Local dependence indexes for item pairs using item response theory. Journal of Educational and Behavioral Statistics, 22(3), 265–289.
Clauser, B., & Linacre, J. M. (1999). Relating Cronbach and Rasch reliabilities. Rasch Measurement Transactions, 13(2), 696.
Diamantopoulus, A., Riefler, P., & Roth, K. P. (2008). Advancing formative measurement models. Journal of Business Research, 61(12), 1203–1218.
Diedrich, M. (2009). 1. Jahresbericht der Schulinspektion: Trends für die beruflichen Schulen. Informationen für Hamburger Berufliche Schulen, 19(2), 10–11.
Ditton, H. (2000). Qualitätskontrolle und -sicherung in Schule und Unterricht. Ein Überblick zum Stand der empirischen Forschung. In A. Helmke, W. Hornstein & E. Terhart (Hrsg.), Qualitätssicherung im Bildungsbereich (Zeitschrift für Pädagogik: Beiheft Nr. 41, S. 73–92). Weinheim: Beltz.
Döbert, H., Rürup, M., & Dedering, K. (2008). Externe Evaluation von Schulen in Deutschland – die Konzepte der Bundesländer, ihre Gemeinsamkeiten und Unterschiede. In H. Döbert & K. Dedering (Hrsg.), Externe Evaluation von Schulen. Historische, rechtliche und vergleichende Aspekte (S. 63–152). Münster: Waxmann.
Dobbelstein, P. (2008). Qualitätsmaßstäbe in der Diskussion – die Suche nach dem guten Unterricht. In S. Müller, K. Dedering & W. Bos (Hrsg.), Jahrbuch Schulische Qualitätsanalyse in NRW (S. 84–92). Neuwied: LinkLuchterhand.
Draba, R. E. (1977). The identification and interpretation of item bias. Chicago: University of Chicago.
Ehren, M. C. M., & Visscher, A. J. (2006). Towards a theory on the impact of school inspections. British Journal of Educational Studies, 54(1), 51–72.
Ehren, M. C. M., & Visscher, A. J. (2008). The relationships between school inspections, school characteristics and school improvement. British Journal of Educational Studies, 56(2), 205–227.
Ercikan, K. (2006). Examining guidelines for develo** accurate proficiency level scores. Canadian Journal of Education, 29(3), 823–838.
Ercikan, K., & Julian, M. (2002). Classification accurancy of assigning student performance to proficiency levels. Applied Measurement in Education, 15(3), 269–294.
Fend, H. (1998). Qualität im Bildungswesen. Schulforschung zu Systembedingungen, Schulprofilen und Lehrerleistung. Weinheim: Juventa.
Ferrara, S., Huynh, H., & Baghi, H. (1997). Contextual characteristics of locally dependent open-ended item clusters in a large-scale performance assessment. Applied Measurement in Education, 10(2), 123–144.
Fraser, B. J., Walberg, H. J., Welch, W. W., & Hattie, J. A. (1987). Syntheses of educational productivity research. International Journal of Educational Research, 11(2), 145–252.
Goldstein, H. (2004). International comparison of student attainment: Some issues arising from the PISA study. Assessment in Education, 11(3), 319–330.
Habing, B., Finch, H., & Roberts, J. S. (2005). A Q3 statistic for unfolding item response theory model: Assessment of unidimensionality with two factors and simple structures. Applied Psychological Measurement, 29(6), 457–471.
Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112.
Helmke, A. (2003). Unterrichtsqualität erfassen, bewerten, verbessern. Seelze: Kallmeyer.
Helmke, A. (2006). Was wissen wir über guten Unterricht? Über die Rückbesinnung auf den Unterricht als Kerngeschäft der Schule. Pädagogik, 2, 42–45.
Helmke, A. (2009). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze: Klett-Kallmeyer.
Helmke, A., & Weinert, F. E. (1997). Bedingungsfaktoren schulischer Leistungen. In F. E. Weinert (Hrsg.), Enzyklopädie der Psychologie: Psychologie des Unterrichts und der Schule (Bd. 3, S. 71–176). Göttingen: Hogrefe.
Holland, P. W., & Wainer, H. (1993). Differential item functioning. Hillsdale: Lawrence Erlbaum.
Huynh, H. (1990). Computation and statistical inference for decision consistency indexes based on the Rasch model. Journal of Educational and Statistical Statistics, 15(4), 353–368.
Huynh, H., Michaels, H., & Ferrara, S. (1995). A comparison of three procedures to identify item clusters with local dependence. Paper, präsentiert auf dem National Council on Measurement in Education, San Francisco.
Institut für Bildungsmonitoring. (2009). Bildungsbericht Hamburg 2009. Hamburg: Institut für Bildungsmonitoring.
Kiper, H. (2008). Diskurse zur Unterrichtsentwicklung: Eine kritische Betrachtung. In N. Berkemeyer, W. Bos, V. Manitius & K. Müthing (Hrsg.), Unterrichtsentwicklung in Netzwerken. Konzeptionen, Befunde, Perspektiven (S. 95–120). Münster: Waxmann.
Klieme, E., & Rakoczy, K. (2003). Unterrichtsqualität aus Schülerperspektive; Kulturspezifische Perspektiven, regionale Unterschiede und Zusammenhänge mit Effekten von Unterricht. In PISA-Konsortium Deutschland. (Hrsg.), PISA 2000 – Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 333–359). Opladen: Leske + Budrich.
Klieme, E., Schümer, G., & Knoll, S. (2001). Mathematikunterricht in der Sekundarstufe I: Aufgabenkultur und Unterrichtsgestaltung. In Bundesministerium für Bildung und Forschung. (Hrsg.), TIMSS – Impulse für Schule und Unterricht. Forschungsbefunde, Reforminitiativen, Praxisberichte und Videodokumente (S. 43–58). Bonn: BMBF.
Klieme, E., Baumert, J., Köller, O., & Bos, W. (2000). Mathematische und naturwissenschaftliche Grundbildung: Konzeptuelle Grundlagen und die Erfassung und Skalierung von Kompetenzen. In J. Baumert, W. Bos & R. Lehmann (Hrsg.), TIMSS/III. Dritte internationale Mathematik- und Naturwissenschaftsstudie. Mathematische und naturwissenschaftliche Bildung am Ende der Pflichtschulzeit (S. 85–134). Opladen: Leske + Budrich.
Klieme, E., Lipowsky, F., Rakoczy, K., & Ratzka, N. (2006). Qualitätsdimensionen und Wirksamkeit von Mathematikunterricht. Theoretische Grundlagen und ausgewählte Ergebnisse des Projekts ‚Pythagoras‘. In M. Prenzel & L. Aloi-Näcke (Hrsg.), Untersuchungen zur Bildungsqualität von Schule. Abschlussbericht des DFG-Schwerpunktprogramms (S. 127–146). Münster: Waxmann.
Klieme, E., Avenarius, H., Blum, W., Döbrich, W., Gruber, H., Prenzel, M., Reiss, K., Riquarts, K., Rost, J., Tenorth, H.-E., & Vollmer, H. J. (2007). Zur Entwicklung nationaler Bildungsstandards – eine Expertise. Berlin: BMBF.
Kluger, A. N., & DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119(2), 254–284.
KMK. (2005). Bildungsstandards im Fach Deutsch für den Primarbereich (Jahrgangsstufe 4) – Beschluss vom 15.10.2004. München: LinkLuchterhand.
Köller, O. (2008). Bildungsstandards in Deutschland: Implikation für die Qualitätssicherung und Unterrichtsqualität. In M. A. Meyer, M. Prenzel & S. Hellekamps (Hrsg.), Perspektiven der Didaktik (Zeitschrift für Erziehungswissenschaft: Sonderheft 9, S. 47–59). Wiesbaden: VS Verlag für Sozialwissenschaften.
Kulhavy, R. W., & Stock, W. A. (1989). Feedback in written instruction: The place of response certitude. Educational Psychology Review, 1(4), 279–308.
Kolen, M. J., & Brennan, R. L. (2004). Test equating, scaling, and linking: Methods and practices. New York: Springer.
Maritzen, N. (2007). Schulinspektion – ein neues Element der Systemsteuerung. Journal für Schulentwicklung, 11(3), 6–14.
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174.
Meyer, H. (2004). Was ist guter Unterricht? Berlin: Cornelsen.
Meyer, H. (2006). Schulinspektion führt nicht automatisch zu Qualitätssicherung: Interview mit der westfälisch-lippischen Direktorenvereinigung. http://www.westfaelische-direktorenvereinigung.de/PDF/Jahrestagung%202006/Interview%20Schulinspektion.pdf. Zugegriffen: 05. Sep. 2009.
Meyer, H. im Gespräch mit M. A. Meyer (2008). Disput über aktuelle Probleme und Aufgaben der Didaktik. In M. A. Meyer, M. Prenzel & S. Hellekamps (Hrsg.), Perspektiven der Didaktik (Zeitschrift für Erziehungswissenschaft: Sonderheft 9, S. 77–86). Wiesbaden: VS Verlag für Sozialwissenschaften.
Meyer, H., & Klapper, A. (2006). Unterrichtsstandards für ein kompetenzorientiertes Lernen und Lehren. In R. Hinz & B. Schumacher (Hrsg.), Auf den Anfang kommt es an: Kompetenzen entwickeln – Kompetenzen stärken (S. 89–108). Wiesbaden: VS Verlag für Sozialwissenschaften.
Oelkers, J., & Reusser, K. (2008). Qualität entwickeln, Standards sichern, mit Differenzen umgehen. Berlin: BMBF.
Pietsch, M. (2009a). Die Qualität des Unterrichts an Hamburger Schulen aus Beobachterperspektive. In Institut für Bildungsmonitoring. (Hrsg.), Jahresbericht der Schulinspektion Hamburg 2008 (S. 44–62). Hamburg: Behörde für Schule und Berufsbildung.
Pietsch, M. (2009b). Unterrichtsbeobachtungen & Co.: Die externe Evaluation hinterlässt einen Datenberg. Was steckt dahinter und wie können Sie damit arbeiten? In M. Bonsen, W. Hohmeier, & M. Reese (Hrsg.), Handbuch Unterrichtsqualität sichern – Sekundarstufe (Loseblattsammlung). Berlin: Raabe.
Pietsch, M., & Leist, S. (2009). The impact of „not observable“ response options on the results of classroom observations: An application of Latent Class Pattern Mixture Models to outcomes that are potentially missing not at random. Paper präsentiert auf der 13. Biennale der European Association for Research on Learning and Instruction (EARLI), Amsterdam.
Pietsch, M., & Tosana, S. (2008). Beurteilereffekte bei der Messung von Unterrichtsqualität: Das Multifacetten-Rasch-Modell und die Generalisierbarkeitstheorie als Methoden in der externen Evaluation von Schulen. Zeitschrift für Erziehungswissenschaft, 11, 430–452.
Pietsch, M., Bonsen, M., & Bos, W. (2007). Ein Index sozialer Belastung als Grundlage für die Rückmeldung ‚fairer Vergleiche‘ von Grundschulen in Hamburg. In W. Bos & M. Pietsch (Hrsg.), KESS 4 – Kompetenzen von Schülerinnen und Schülern am Ende der Jahrgangsstufe 4 an Hamburger Grundschulen (S. 225–246). Münster: Waxmann.
Pietsch, M., Schnack, J., & Schulze, P. (2009a). Unterricht zielgerichtet entwickeln: Die Schulinspektion Hamburg entwickelt ein Stufenmodell für die Qualität von Unterricht. Pädagogik, 2, 38–43.
Pietsch, M., Böhme, K., Robitzsch, A., & Stubbe, T. C. (2009b). Das Stufenmodell zur Lesekompetenz der länderübergreifenden Bildungsstandards im Vergleich zu IGLU 2006. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 393–428). Weinheim: Beltz.
Pietsch, M., Schnack, J., Schulze, P., & Krause, M. (in Vorb.). Elaborierte Rückmeldungen zur Qualität von Unterricht: Über empirisch abgesicherte Bezugsnormen für die Weiterentwicklung von Schule und Unterricht. In S. Müller, M. Pietsch & W. Bos (Hrsg.), Schulinspektionen in Deutschland – eine erste empirische Zwischenbilanz. Münster: Waxmann.
Ravitch, D. (1995). National standards in American education: A citizen's guide. Washington: Brookings Institution Press.
Reckase, M. D., Ackerman, T. A., & Carlson, J. E. (1988). Building a unidimensional test using multidimensional items. Journal of Educational Measurement, 25(3), 193–203.
Robitzsch, A. (2009). Methodische Herausforderungen bei der Kalibrierung von Leistungstests. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 42–107). Weinheim: Beltz.
Rolff, H.-G. (2007). Studien zu einer Theorie der Schulentwicklung. Weinheim: Beltz.
Rost, J. (2004). Lehrbuch Testtheorie/Testkonstruktion. Bern: Huber.
Sammons, P., Hillman, J., & Mortimore, P. (1995). Key characteristics of effective schools: A review of school effectiveness research. London: OFSTED.
Scherens, J., & Bosker, R. (1997). The foundations of educational effectiveness. Oxford: Pergamon Press.
Schwartz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2), 461–464.
Seidel, T. (2008). Schuleffektivitätskriterien in der internationalen empirischen Forschung. Zeitschrift für Erziehungswissenschaft, 11, 348–367.
Seidel, T., & Shavelson, R. J. (2007). Teaching effectiveness research in the past decade: The role of theory and research design in disentangling meta-analysis results. Review of Educational Research, 77(4), 454–499.
Sireci, S. G., Thissen, D., & Wainer, H. (1991). On the reliability of testlet-based tests. Psychometrika, 28(3), 237–247.
Smith, R. M., Schumacker, R. E., & Bush, M. J. (1998). Using item mean squares to evaluate fit to the Rasch model. Journal of Outcome Measurement, 2(1), 66–78.
Stone, M. H. , Wright, B. D., & Stenner, A. J. (1999). Map** variables. Journal of Outcome Measurement, 3(4), 308–322.
Stralla, M. (2009). Die Unterrichtsbeobachtungen im Rahmen der deutschen Schulinspektion. Analyse des Kerninstruments zur Beurteilung der Schulqualität (Unveröffentlichte Diplomarbeit). Berlin: Freie Universität Berlin.
Visscher, A. J., & Coe, R. (2002). School improvement through performance feedback. Lisse: Swets & Zellinger.
Visscher, A. J., & Coe, R. (2003). School performance feedback systems. Conceptualisation, analysis and reflection. School Effectiveness and School Improvement, 14(3), 321–349.
Wainer, H., & Thissen, D. (1996). How is reliability related to the quality of test scores? What is the effect of local dependence on reliability? Educational Measurement: Issues and Practice, 15(1), 22–29.
Walker, C. M., & Beretvas, S. N. (2003). Comparing multidimensional and unidimensional proficiency classification: multidimensional IRT as a diagnostic aid. Journal of Educational Measurement, 40(3), 255–275.
Weinert, F. E. (2001). Vergleichende Leistungsmessung in Schulen – eine umstrittene Selbstverständlichkeit. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17–31). Weinheim: Beltz.
Wright, B. D., & Linacre, J. M. (1994). Reasonable mean-square fit values. Rasch Measurement Transactions, 8(3), 370.
Wright, B. D., & Masters, G. N. (2002). Number of person or item strata. Rasch Measurement Transactions, 16(3), 888.
Wu, M. L., Adams, R. J., & Wilson, M. R. (1998). ACER ConQuest. Generalised item response modelling software. Melbourne: ACER Press.
Yen, W. M. (1984). Effects of local item dependence on the fit and equating performance of the three-parameter logistic model. Applied Psychological Measurement, 8(2), 125–145.
Yen, W. M. (1993). Scaling performance assessments. Strategies for managing local item dependence. Journal of Educational Measurement, 30(3), 187–213.
Zwick, R., Senturk, D., Wang, J., & Loomis, S. C. (2001). An investigation of alternative methods for item map** in the National Assessment of Educational Progress. Educational Measurement: Issues and Practice, 20(2), 15–25.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Pietsch, M. Evaluation von Unterrichtsstandards. Z Erziehungswiss 13, 121–148 (2010). https://doi.org/10.1007/s11618-010-0113-z
Published:
Issue Date:
DOI: https://doi.org/10.1007/s11618-010-0113-z