Log in

Evaluation von Unterrichtsstandards

Evaluation of classroom teaching standards

  • Allgemeiner Teil
  • Published:
Zeitschrift für Erziehungswissenschaft Aims and scope Submit manuscript

Zusammenfassung

Das Kernstück deutscher Schulinspektionen ist die Evaluation von Unterrichtsqualität mithilfe fragebogengestützter Expertenratings. Die für die Leistungsmessung zugrunde gelegten Qualitätsmerkmale rekurrieren zumeist auf bekannte Kriterienmatrizen effektiven Unterrichts und orientieren sich entsprechend am Prozess-Produkt-Paradigma der Schuleffektivitätsforschung. Bislang fehlen jedoch noch sowohl komplexe Unterrichtsqualitätsmodelle als auch Maßstäbe für die Leistungsbeurteilung und Standards für die Leistungsbewertung, die es Schulverantwortlichen und Bildungsadministration erlauben, kriteriale Fragestellungen auf Basis der Evaluationsergebnisse zu beantworten und die Schul- und Unterrichtsentwicklung anhand transparenter Kriterien wissensbasiert zu steuern. Im vorliegenden Beitrag wird die Idee aufgegriffen, auf Grundlage vergleichender empirischer Forschung ein gestuftes Modell von Unterrichtsqualität für die Einordnung von Evaluationsergebnissen zu erstellen. Das Modell wird mithilfe der probabilistischen Testtheorie auf Basis von Daten einer Normierungsstichprobe (N = 2240) der Schulinspektion Hamburg generiert. Die Befunde zeigen, dass es mit Daten aus Schulinspektionsverfahren grundsätzlich möglich ist, ein Modell zu erstellen, das die Überführung quantitativer Messwerte in qualitative Aussagen zur Qualität von Unterricht ermöglicht, das sich zwischen Schulformen invariant verhält und sowohl in den Randbereichen der Skala als auch in deren Mittelbereich gut diskriminiert. Die Datenstruktur ist jedoch mehrdimensional angelegt, sodass bei einer eindimensionalen Modellierung von Unterrichtsqualität ein Informationsverlust und Ungenauigkeiten bei der Bestimmung empirischer Kennwerte zu erwarten sind. Gleichwohl sind die beobachteten Verzerrungen gering und die einzelnen Subdimensionen von Unterrichtsqualität korrelieren teilweise hoch miteinander, sodass davon auszugehen ist, dass ein eindimensionales Stufenmodell zur Beschreibung von Unterrichtsqualität eine sinnvolle, empirisch haltbare Approximation des mehrdimensionalen Modells darstellt. Ein solch abgestuftes Modell wird abschließend mithilfe eines Proficiency Scaling aus den Daten heraus entwickelt und inhaltlich vorgestellt.

Abstract

The core element in German school inspections is the evaluation of the quality of classroom teaching using questionnaire-supported expert ratings. The criteria for performance measurement are in most cases based upon research on effective teaching and are, therefore, oriented on the process-product paradigm of school effectiveness research. Complex models for describing the quality of classroom teaching are missing as well as benchmarks for the assessment of and standards for the appraisal of performance, which allow leading personnel in school and education administration to answer questions based on the results of evaluations and to facilitate evidence-based governance and teaching development. This article suggests the development of a multi-level model for classifying the performance in classroom teaching using comparative empirical research. The data (N = 2240) is derived from a sample of the Hamburg School Inspection and the model has been developed using Item Response Theory. The results show that it is possible to develop a model which allows the conversion of quantitative measurements into performance levels with a narrative description of the content which is typical at each level. Furthermore, it can be demonstrated that the model is valid for different types of schools and that single lesson sequences can be discriminated at the margins of the scale as well as in the middle. Nevertheless, the structure of data is found to be multi-dimensional, so that a uni-dimensional scaling procedure may lead to a loss of information and inaccurate estimates. It can be shown, however, that the expected bias is of little significance and that strong correlations between the sub-dimensions of the model can be found. Thus, it can be assumed that using a uni-dimensional model of performance levels to describe the quality of classroom teaching may be a reasonable and empirically tenable approximation of the multidimensional model. Finally, a multi-level model is presented, which is developed using a proficiency scaling.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Subscribe and save

Springer+ Basic
EUR 32.99 /Month
  • Get 10 units per month
  • Download Article/Chapter or Ebook
  • 1 Unit = 1 Article or 1 Chapter
  • Cancel anytime
Subscribe now

Buy Now

Price includes VAT (France)

Instant access to the full article PDF.

Abb. 1
Abb. 2

Notes

  1. Dass diese Annahme auch in der Praxis zutrifft, zeigen deskriptive Datenanalysen. Die Kategorie „nicht beobachtbar“ wird auf Ebene der einzelnen Items in der Regel in weniger als 5 % aller Fälle genutzt. Ausnahmen bilden die Items „Die Lehrkraft geht mit Störungen angemessen und konstruktiv um.“, „Das Erreichen der Lernziele wird angemessen überprüft.“ und „Die Lehrkraft geht mit Schülerfehlern konstruktiv um.“. Bei diesen Items wird die Kategorie „nicht beobachtbar“ in 34, 21 und 16 % aller Fälle durch die Inspektorinnen und Inspektoren genutzt. Aufgrund der hohen Anzahl fehlender Werte wurden diese Items nicht zur inhaltlichen Beschreibung der Abstufungen herangezogen.

  2. Items, bei denen die Inspektorinnen und Inspektoren die Kategorie „nicht beobachtbar“ gewählt hatten, wurden als fehlende Werte unter der Annahme Missing at Random (MAR) behandelt. Im Mittel wurde diese Kategorie pro Sequenz 2,4-mal genutzt (SE: 0,05, SD: 1,65). Wie eine Sensitivitätsanalyse von Pietsch u. Leist (2009) mithilfe von Latent-Class-Pattern-Mixture-Modellen (LCPMM) zeigt, führt die Nutzung dieser Kategorie und deren Nicht-Handhabung als Missing not at Random (MNAR) in der Datenauswertung zu einer leichten Unterschätzung von Itemmittelwerten. Dies hat jedoch keinen nachweisbaren Effekt auf die Bestimmung zentraler Tendenzen, wie z. B. des Populationsmittelwertes, im IRT-Modell.

  3. Da positive Korrelationen zwischen den Itemresiduen beobachtet wurden, ist davon auszugehen, dass die Reliabilität der Gesamtskala „Unterrichtsqualität“ überschätzt wird.

  4. Die Modellierung eines mehrdimensionalen Modells aus analytischen Gründen im Rahmen von Analysen auf Populations- resp. Stichprobenebene bleibt hiervon natürlich unbenommen. Im Rahmen von Rückmeldungen an Einzelschulen bietet es sich darüber hinaus ggf. an, neben dem Modell Kennwerte auf Ebene einzelner Items für innerschulische Analysezwecke zurückzumelden, um so eine differenzierte und detaillierte Auseinandersetzung mit den Evaluationsbefunden zu ermöglichen.

  5. Betrachtet man die MNSQ-Werte der Items in der mehrdimensionalen Skalierung, dann liegen die Kennwerte für alle 30 Items im Bereich von 0,80 bis 1,20. Die beiden in der eindimensionalen Skalierung auffälligen Items 19 und 23 haben dann MNSQ-Werte i. H. v. 1,13 und 0,89. Dieser Befund unterstützt das Vorgehen, diese beiden Items trotz der im Rahmen der eindimensionalen Skalierung berichteten Kennwerte in der Gesamtskala zu belassen, da das eindimensionale Modell als Approximation des mehrdimensionalen Modells gilt (vgl. zu diesem Thema auch Goldstein 2004).

Literatur

  • Andrich, D. (1978). Application of a psychometric model to ordered categories which are scores with successive integers. Applied Psychological Measurement, 2(4), 581–594.

    Article  Google Scholar 

  • Bangert-Drowns, R. L., Kulik, C. L., Kulik, J. A., & Morgan, M. T. (1991). The instructional effect of feedback in test-like events. Review of Educational Research, 61(2), 213–237.

    Google Scholar 

  • Beaton, A. E., & Allen, N. L. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17(2), 191–204.

    Article  Google Scholar 

  • Behörde für Bildung und Sport. (2006). Orientierungsrahmen: Qualitätsentwicklung an Hamburger Schulen. Hamburg: Behörde für Bildung und Sport.

    Google Scholar 

  • Bonsen, M., Büchter, A., & Peek, R. (2006). Datengestützte Schul- und Unterrichtsentwicklung. Bewertung der Lernstandserhebungen in NRW durch Lehrerinnen und Lehrer. In W. Bos, H.-G. Holtappels, R. Pfeiffer & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (Bd. 14, S. 125–148). Weinheim: Juventa.

    Google Scholar 

  • Böttcher, W., & Kotthoff, H.-G. (2007a). Schulinspektion zwischen Rechenschaftslegung und schulischer Qualitätsentwicklung: internationale Erfahrungen. In W. Böttcher & H.-G. Kotthoff (Hrsg.), Schulinspektionen: Evaluation, Rechenschaftslegung und Qualitätsentwicklung (S. 9–20). Münster: Waxmann.

    Google Scholar 

  • Böttcher, W., & Kotthoff, H.-G. (2007b). Gelingensbedingungen einer qualitätsoptimierenden Schulinspektion. In W. Böttcher & H.-G. Kotthoff (Hrsg.), Schulinspektionen: Evaluation, Rechenschaftslegung und Qualitätsentwicklung (S. 223–230). Münster: Waxmann.

    Google Scholar 

  • Bos, W., Holtappels, H.-G., & Rösner, E. (2006). Schulinspektionen in den deutschen Bundesländern – eine Baustellenbeschreibung. In W. Bos, H.-G. Holtappels, R. Pfeiffer & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (Bd. 14, S. 81–124). Weinheim: Juventa.

    Google Scholar 

  • Bremerich-Vos, A., & Böhme, K. (2009). Lesekompetenzdiagnostik – die Entwicklung eines standardbasierten Kompetenzmodells für den Bereich Lesen. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 219–249). Weinheim: Beltz.

    Google Scholar 

  • Brennan, R. L. (2001). Generalizability theory. New York: Springer.

    Google Scholar 

  • Brophy, J. (2000). Teaching. Genf: IBE.

    Google Scholar 

  • Chen, W., & Thissen, D. (1997). Local dependence indexes for item pairs using item response theory. Journal of Educational and Behavioral Statistics, 22(3), 265–289.

    Google Scholar 

  • Clauser, B., & Linacre, J. M. (1999). Relating Cronbach and Rasch reliabilities. Rasch Measurement Transactions, 13(2), 696.

    Google Scholar 

  • Diamantopoulus, A., Riefler, P., & Roth, K. P. (2008). Advancing formative measurement models. Journal of Business Research, 61(12), 1203–1218.

    Article  Google Scholar 

  • Diedrich, M. (2009). 1. Jahresbericht der Schulinspektion: Trends für die beruflichen Schulen. Informationen für Hamburger Berufliche Schulen, 19(2), 10–11.

    Google Scholar 

  • Ditton, H. (2000). Qualitätskontrolle und -sicherung in Schule und Unterricht. Ein Überblick zum Stand der empirischen Forschung. In A. Helmke, W. Hornstein & E. Terhart (Hrsg.), Qualitätssicherung im Bildungsbereich (Zeitschrift für Pädagogik: Beiheft Nr. 41, S. 73–92). Weinheim: Beltz.

    Google Scholar 

  • Döbert, H., Rürup, M., & Dedering, K. (2008). Externe Evaluation von Schulen in Deutschland – die Konzepte der Bundesländer, ihre Gemeinsamkeiten und Unterschiede. In H. Döbert & K. Dedering (Hrsg.), Externe Evaluation von Schulen. Historische, rechtliche und vergleichende Aspekte (S. 63–152). Münster: Waxmann.

    Google Scholar 

  • Dobbelstein, P. (2008). Qualitätsmaßstäbe in der Diskussion – die Suche nach dem guten Unterricht. In S. Müller, K. Dedering & W. Bos (Hrsg.), Jahrbuch Schulische Qualitätsanalyse in NRW (S. 84–92). Neuwied: LinkLuchterhand.

    Google Scholar 

  • Draba, R. E. (1977). The identification and interpretation of item bias. Chicago: University of Chicago.

    Google Scholar 

  • Ehren, M. C. M., & Visscher, A. J. (2006). Towards a theory on the impact of school inspections. British Journal of Educational Studies, 54(1), 51–72.

    Article  Google Scholar 

  • Ehren, M. C. M., & Visscher, A. J. (2008). The relationships between school inspections, school characteristics and school improvement. British Journal of Educational Studies, 56(2), 205–227.

    Article  Google Scholar 

  • Ercikan, K. (2006). Examining guidelines for develo** accurate proficiency level scores. Canadian Journal of Education, 29(3), 823–838.

    Google Scholar 

  • Ercikan, K., & Julian, M. (2002). Classification accurancy of assigning student performance to proficiency levels. Applied Measurement in Education, 15(3), 269–294.

    Article  Google Scholar 

  • Fend, H. (1998). Qualität im Bildungswesen. Schulforschung zu Systembedingungen, Schulprofilen und Lehrerleistung. Weinheim: Juventa.

    Google Scholar 

  • Ferrara, S., Huynh, H., & Baghi, H. (1997). Contextual characteristics of locally dependent open-ended item clusters in a large-scale performance assessment. Applied Measurement in Education, 10(2), 123–144.

    Article  Google Scholar 

  • Fraser, B. J., Walberg, H. J., Welch, W. W., & Hattie, J. A. (1987). Syntheses of educational productivity research. International Journal of Educational Research, 11(2), 145–252.

    Article  Google Scholar 

  • Goldstein, H. (2004). International comparison of student attainment: Some issues arising from the PISA study. Assessment in Education, 11(3), 319–330.

    Article  Google Scholar 

  • Habing, B., Finch, H., & Roberts, J. S. (2005). A Q3 statistic for unfolding item response theory model: Assessment of unidimensionality with two factors and simple structures. Applied Psychological Measurement, 29(6), 457–471.

    Article  Google Scholar 

  • Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112.

    Article  Google Scholar 

  • Helmke, A. (2003). Unterrichtsqualität erfassen, bewerten, verbessern. Seelze: Kallmeyer.

    Google Scholar 

  • Helmke, A. (2006). Was wissen wir über guten Unterricht? Über die Rückbesinnung auf den Unterricht als Kerngeschäft der Schule. Pädagogik, 2, 42–45.

    Google Scholar 

  • Helmke, A. (2009). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze: Klett-Kallmeyer.

    Google Scholar 

  • Helmke, A., & Weinert, F. E. (1997). Bedingungsfaktoren schulischer Leistungen. In F. E. Weinert (Hrsg.), Enzyklopädie der Psychologie: Psychologie des Unterrichts und der Schule (Bd. 3, S. 71–176). Göttingen: Hogrefe.

    Google Scholar 

  • Holland, P. W., & Wainer, H. (1993). Differential item functioning. Hillsdale: Lawrence Erlbaum.

    Google Scholar 

  • Huynh, H. (1990). Computation and statistical inference for decision consistency indexes based on the Rasch model. Journal of Educational and Statistical Statistics, 15(4), 353–368.

    Article  Google Scholar 

  • Huynh, H., Michaels, H., & Ferrara, S. (1995). A comparison of three procedures to identify item clusters with local dependence. Paper, präsentiert auf dem National Council on Measurement in Education, San Francisco.

  • Institut für Bildungsmonitoring. (2009). Bildungsbericht Hamburg 2009. Hamburg: Institut für Bildungsmonitoring.

    Google Scholar 

  • Kiper, H. (2008). Diskurse zur Unterrichtsentwicklung: Eine kritische Betrachtung. In N. Berkemeyer, W. Bos, V. Manitius & K. Müthing (Hrsg.), Unterrichtsentwicklung in Netzwerken. Konzeptionen, Befunde, Perspektiven (S. 95–120). Münster: Waxmann.

    Google Scholar 

  • Klieme, E., & Rakoczy, K. (2003). Unterrichtsqualität aus Schülerperspektive; Kulturspezifische Perspektiven, regionale Unterschiede und Zusammenhänge mit Effekten von Unterricht. In PISA-Konsortium Deutschland. (Hrsg.), PISA 2000 – Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 333–359). Opladen: Leske + Budrich.

    Google Scholar 

  • Klieme, E., Schümer, G., & Knoll, S. (2001). Mathematikunterricht in der Sekundarstufe I: Aufgabenkultur und Unterrichtsgestaltung. In Bundesministerium für Bildung und Forschung. (Hrsg.), TIMSS – Impulse für Schule und Unterricht. Forschungsbefunde, Reforminitiativen, Praxisberichte und Videodokumente (S. 43–58). Bonn: BMBF.

    Google Scholar 

  • Klieme, E., Baumert, J., Köller, O., & Bos, W. (2000). Mathematische und naturwissenschaftliche Grundbildung: Konzeptuelle Grundlagen und die Erfassung und Skalierung von Kompetenzen. In J. Baumert, W. Bos & R. Lehmann (Hrsg.), TIMSS/III. Dritte internationale Mathematik- und Naturwissenschaftsstudie. Mathematische und naturwissenschaftliche Bildung am Ende der Pflichtschulzeit (S. 85–134). Opladen: Leske + Budrich.

    Google Scholar 

  • Klieme, E., Lipowsky, F., Rakoczy, K., & Ratzka, N. (2006). Qualitätsdimensionen und Wirksamkeit von Mathematikunterricht. Theoretische Grundlagen und ausgewählte Ergebnisse des Projekts ‚Pythagoras‘. In M. Prenzel & L. Aloi-Näcke (Hrsg.), Untersuchungen zur Bildungsqualität von Schule. Abschlussbericht des DFG-Schwerpunktprogramms (S. 127–146). Münster: Waxmann.

    Google Scholar 

  • Klieme, E., Avenarius, H., Blum, W., Döbrich, W., Gruber, H., Prenzel, M., Reiss, K., Riquarts, K., Rost, J., Tenorth, H.-E., & Vollmer, H. J. (2007). Zur Entwicklung nationaler Bildungsstandards – eine Expertise. Berlin: BMBF.

    Google Scholar 

  • Kluger, A. N., & DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119(2), 254–284.

    Article  Google Scholar 

  • KMK. (2005). Bildungsstandards im Fach Deutsch für den Primarbereich (Jahrgangsstufe 4) – Beschluss vom 15.10.2004. München: LinkLuchterhand.

    Google Scholar 

  • Köller, O. (2008). Bildungsstandards in Deutschland: Implikation für die Qualitätssicherung und Unterrichtsqualität. In M. A. Meyer, M. Prenzel & S. Hellekamps (Hrsg.), Perspektiven der Didaktik (Zeitschrift für Erziehungswissenschaft: Sonderheft 9, S. 47–59). Wiesbaden: VS Verlag für Sozialwissenschaften.

    Google Scholar 

  • Kulhavy, R. W., & Stock, W. A. (1989). Feedback in written instruction: The place of response certitude. Educational Psychology Review, 1(4), 279–308.

    Article  Google Scholar 

  • Kolen, M. J., & Brennan, R. L. (2004). Test equating, scaling, and linking: Methods and practices. New York: Springer.

    Google Scholar 

  • Maritzen, N. (2007). Schulinspektion – ein neues Element der Systemsteuerung. Journal für Schulentwicklung, 11(3), 6–14.

    Google Scholar 

  • Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174.

    Article  Google Scholar 

  • Meyer, H. (2004). Was ist guter Unterricht? Berlin: Cornelsen.

    Google Scholar 

  • Meyer, H. (2006). Schulinspektion führt nicht automatisch zu Qualitätssicherung: Interview mit der westfälisch-lippischen Direktorenvereinigung. http://www.westfaelische-direktorenvereinigung.de/PDF/Jahrestagung%202006/Interview%20Schulinspektion.pdf. Zugegriffen: 05. Sep. 2009.

  • Meyer, H. im Gespräch mit M. A. Meyer (2008). Disput über aktuelle Probleme und Aufgaben der Didaktik. In M. A. Meyer, M. Prenzel & S. Hellekamps (Hrsg.), Perspektiven der Didaktik (Zeitschrift für Erziehungswissenschaft: Sonderheft 9, S. 77–86). Wiesbaden: VS Verlag für Sozialwissenschaften.

    Google Scholar 

  • Meyer, H., & Klapper, A. (2006). Unterrichtsstandards für ein kompetenzorientiertes Lernen und Lehren. In R. Hinz & B. Schumacher (Hrsg.), Auf den Anfang kommt es an: Kompetenzen entwickeln – Kompetenzen stärken (S. 89–108). Wiesbaden: VS Verlag für Sozialwissenschaften.

    Google Scholar 

  • Oelkers, J., & Reusser, K. (2008). Qualität entwickeln, Standards sichern, mit Differenzen umgehen. Berlin: BMBF.

    Google Scholar 

  • Pietsch, M. (2009a). Die Qualität des Unterrichts an Hamburger Schulen aus Beobachterperspektive. In Institut für Bildungsmonitoring. (Hrsg.), Jahresbericht der Schulinspektion Hamburg 2008 (S. 44–62). Hamburg: Behörde für Schule und Berufsbildung.

    Google Scholar 

  • Pietsch, M. (2009b). Unterrichtsbeobachtungen & Co.: Die externe Evaluation hinterlässt einen Datenberg. Was steckt dahinter und wie können Sie damit arbeiten? In M. Bonsen, W. Hohmeier, & M. Reese (Hrsg.), Handbuch Unterrichtsqualität sichern – Sekundarstufe (Loseblattsammlung). Berlin: Raabe.

    Google Scholar 

  • Pietsch, M., & Leist, S. (2009). The impact of „not observable“ response options on the results of classroom observations: An application of Latent Class Pattern Mixture Models to outcomes that are potentially missing not at random. Paper präsentiert auf der 13. Biennale der European Association for Research on Learning and Instruction (EARLI), Amsterdam.

  • Pietsch, M., & Tosana, S. (2008). Beurteilereffekte bei der Messung von Unterrichtsqualität: Das Multifacetten-Rasch-Modell und die Generalisierbarkeitstheorie als Methoden in der externen Evaluation von Schulen. Zeitschrift für Erziehungswissenschaft, 11, 430–452.

    Article  Google Scholar 

  • Pietsch, M., Bonsen, M., & Bos, W. (2007). Ein Index sozialer Belastung als Grundlage für die Rückmeldung ‚fairer Vergleiche‘ von Grundschulen in Hamburg. In W. Bos & M. Pietsch (Hrsg.), KESS 4 – Kompetenzen von Schülerinnen und Schülern am Ende der Jahrgangsstufe 4 an Hamburger Grundschulen (S. 225–246). Münster: Waxmann.

    Google Scholar 

  • Pietsch, M., Schnack, J., & Schulze, P. (2009a). Unterricht zielgerichtet entwickeln: Die Schulinspektion Hamburg entwickelt ein Stufenmodell für die Qualität von Unterricht. Pädagogik, 2, 38–43.

    Google Scholar 

  • Pietsch, M., Böhme, K., Robitzsch, A., & Stubbe, T. C. (2009b). Das Stufenmodell zur Lesekompetenz der länderübergreifenden Bildungsstandards im Vergleich zu IGLU 2006. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 393–428). Weinheim: Beltz.

    Google Scholar 

  • Pietsch, M., Schnack, J., Schulze, P., & Krause, M. (in Vorb.). Elaborierte Rückmeldungen zur Qualität von Unterricht: Über empirisch abgesicherte Bezugsnormen für die Weiterentwicklung von Schule und Unterricht. In S. Müller, M. Pietsch & W. Bos (Hrsg.), Schulinspektionen in Deutschland – eine erste empirische Zwischenbilanz. Münster: Waxmann.

  • Ravitch, D. (1995). National standards in American education: A citizen's guide. Washington: Brookings Institution Press.

    Google Scholar 

  • Reckase, M. D., Ackerman, T. A., & Carlson, J. E. (1988). Building a unidimensional test using multidimensional items. Journal of Educational Measurement, 25(3), 193–203.

    Article  Google Scholar 

  • Robitzsch, A. (2009). Methodische Herausforderungen bei der Kalibrierung von Leistungstests. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 42–107). Weinheim: Beltz.

    Google Scholar 

  • Rolff, H.-G. (2007). Studien zu einer Theorie der Schulentwicklung. Weinheim: Beltz.

    Google Scholar 

  • Rost, J. (2004). Lehrbuch Testtheorie/Testkonstruktion. Bern: Huber.

    Google Scholar 

  • Sammons, P., Hillman, J., & Mortimore, P. (1995). Key characteristics of effective schools: A review of school effectiveness research. London: OFSTED.

    Google Scholar 

  • Scherens, J., & Bosker, R. (1997). The foundations of educational effectiveness. Oxford: Pergamon Press.

    Google Scholar 

  • Schwartz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2), 461–464.

    Article  Google Scholar 

  • Seidel, T. (2008). Schuleffektivitätskriterien in der internationalen empirischen Forschung. Zeitschrift für Erziehungswissenschaft, 11, 348–367.

    Article  Google Scholar 

  • Seidel, T., & Shavelson, R. J. (2007). Teaching effectiveness research in the past decade: The role of theory and research design in disentangling meta-analysis results. Review of Educational Research, 77(4), 454–499.

    Article  Google Scholar 

  • Sireci, S. G., Thissen, D., & Wainer, H. (1991). On the reliability of testlet-based tests. Psychometrika, 28(3), 237–247.

    Google Scholar 

  • Smith, R. M., Schumacker, R. E., & Bush, M. J. (1998). Using item mean squares to evaluate fit to the Rasch model. Journal of Outcome Measurement, 2(1), 66–78.

    Google Scholar 

  • Stone, M. H. , Wright, B. D., & Stenner, A. J. (1999). Map** variables. Journal of Outcome Measurement, 3(4), 308–322.

    Google Scholar 

  • Stralla, M. (2009). Die Unterrichtsbeobachtungen im Rahmen der deutschen Schulinspektion. Analyse des Kerninstruments zur Beurteilung der Schulqualität (Unveröffentlichte Diplomarbeit). Berlin: Freie Universität Berlin.

    Google Scholar 

  • Visscher, A. J., & Coe, R. (2002). School improvement through performance feedback. Lisse: Swets & Zellinger.

    Google Scholar 

  • Visscher, A. J., & Coe, R. (2003). School performance feedback systems. Conceptualisation, analysis and reflection. School Effectiveness and School Improvement, 14(3), 321–349.

    Article  Google Scholar 

  • Wainer, H., & Thissen, D. (1996). How is reliability related to the quality of test scores? What is the effect of local dependence on reliability? Educational Measurement: Issues and Practice, 15(1), 22–29.

    Article  Google Scholar 

  • Walker, C. M., & Beretvas, S. N. (2003). Comparing multidimensional and unidimensional proficiency classification: multidimensional IRT as a diagnostic aid. Journal of Educational Measurement, 40(3), 255–275.

    Article  Google Scholar 

  • Weinert, F. E. (2001). Vergleichende Leistungsmessung in Schulen – eine umstrittene Selbstverständlichkeit. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17–31). Weinheim: Beltz.

    Google Scholar 

  • Wright, B. D., & Linacre, J. M. (1994). Reasonable mean-square fit values. Rasch Measurement Transactions, 8(3), 370.

    Google Scholar 

  • Wright, B. D., & Masters, G. N. (2002). Number of person or item strata. Rasch Measurement Transactions, 16(3), 888.

    Google Scholar 

  • Wu, M. L., Adams, R. J., & Wilson, M. R. (1998). ACER ConQuest. Generalised item response modelling software. Melbourne: ACER Press.

    Google Scholar 

  • Yen, W. M. (1984). Effects of local item dependence on the fit and equating performance of the three-parameter logistic model. Applied Psychological Measurement, 8(2), 125–145.

    Article  Google Scholar 

  • Yen, W. M. (1993). Scaling performance assessments. Strategies for managing local item dependence. Journal of Educational Measurement, 30(3), 187–213.

    Article  Google Scholar 

  • Zwick, R., Senturk, D., Wang, J., & Loomis, S. C. (2001). An investigation of alternative methods for item map** in the National Assessment of Educational Progress. Educational Measurement: Issues and Practice, 20(2), 15–25.

    Article  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Marcus Pietsch.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Pietsch, M. Evaluation von Unterrichtsstandards. Z Erziehungswiss 13, 121–148 (2010). https://doi.org/10.1007/s11618-010-0113-z

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s11618-010-0113-z

Schlüsselwörter

Keywords

Navigation