Evaluation von Unterrichtsstandards

Pietsch, Marcus

doi:10.1007/s11618-010-0113-z

Evaluation von Unterrichtsstandards

Evaluation of classroom teaching standards

Allgemeiner Teil
Published: 07 April 2010

Volume 13, pages 121–148, (2010)
Cite this article

Zeitschrift für Erziehungswissenschaft Aims and scope Submit manuscript

Marcus Pietsch¹

3478 Accesses
25 Citations
Explore all metrics

Zusammenfassung

Das Kernstück deutscher Schulinspektionen ist die Evaluation von Unterrichtsqualität mithilfe fragebogengestützter Expertenratings. Die für die Leistungsmessung zugrunde gelegten Qualitätsmerkmale rekurrieren zumeist auf bekannte Kriterienmatrizen effektiven Unterrichts und orientieren sich entsprechend am Prozess-Produkt-Paradigma der Schuleffektivitätsforschung. Bislang fehlen jedoch noch sowohl komplexe Unterrichtsqualitätsmodelle als auch Maßstäbe für die Leistungsbeurteilung und Standards für die Leistungsbewertung, die es Schulverantwortlichen und Bildungsadministration erlauben, kriteriale Fragestellungen auf Basis der Evaluationsergebnisse zu beantworten und die Schul- und Unterrichtsentwicklung anhand transparenter Kriterien wissensbasiert zu steuern. Im vorliegenden Beitrag wird die Idee aufgegriffen, auf Grundlage vergleichender empirischer Forschung ein gestuftes Modell von Unterrichtsqualität für die Einordnung von Evaluationsergebnissen zu erstellen. Das Modell wird mithilfe der probabilistischen Testtheorie auf Basis von Daten einer Normierungsstichprobe (N = 2240) der Schulinspektion Hamburg generiert. Die Befunde zeigen, dass es mit Daten aus Schulinspektionsverfahren grundsätzlich möglich ist, ein Modell zu erstellen, das die Überführung quantitativer Messwerte in qualitative Aussagen zur Qualität von Unterricht ermöglicht, das sich zwischen Schulformen invariant verhält und sowohl in den Randbereichen der Skala als auch in deren Mittelbereich gut diskriminiert. Die Datenstruktur ist jedoch mehrdimensional angelegt, sodass bei einer eindimensionalen Modellierung von Unterrichtsqualität ein Informationsverlust und Ungenauigkeiten bei der Bestimmung empirischer Kennwerte zu erwarten sind. Gleichwohl sind die beobachteten Verzerrungen gering und die einzelnen Subdimensionen von Unterrichtsqualität korrelieren teilweise hoch miteinander, sodass davon auszugehen ist, dass ein eindimensionales Stufenmodell zur Beschreibung von Unterrichtsqualität eine sinnvolle, empirisch haltbare Approximation des mehrdimensionalen Modells darstellt. Ein solch abgestuftes Modell wird abschließend mithilfe eines Proficiency Scaling aus den Daten heraus entwickelt und inhaltlich vorgestellt.

Abstract

The core element in German school inspections is the evaluation of the quality of classroom teaching using questionnaire-supported expert ratings. The criteria for performance measurement are in most cases based upon research on effective teaching and are, therefore, oriented on the process-product paradigm of school effectiveness research. Complex models for describing the quality of classroom teaching are missing as well as benchmarks for the assessment of and standards for the appraisal of performance, which allow leading personnel in school and education administration to answer questions based on the results of evaluations and to facilitate evidence-based governance and teaching development. This article suggests the development of a multi-level model for classifying the performance in classroom teaching using comparative empirical research. The data (N = 2240) is derived from a sample of the Hamburg School Inspection and the model has been developed using Item Response Theory. The results show that it is possible to develop a model which allows the conversion of quantitative measurements into performance levels with a narrative description of the content which is typical at each level. Furthermore, it can be demonstrated that the model is valid for different types of schools and that single lesson sequences can be discriminated at the margins of the scale as well as in the middle. Nevertheless, the structure of data is found to be multi-dimensional, so that a uni-dimensional scaling procedure may lead to a loss of information and inaccurate estimates. It can be shown, however, that the expected bias is of little significance and that strong correlations between the sub-dimensions of the model can be found. Thus, it can be assumed that using a uni-dimensional model of performance levels to describe the quality of classroom teaching may be a reasonable and empirically tenable approximation of the multidimensional model. Finally, a multi-level model is presented, which is developed using a proficiency scaling.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Log in via an institution

Subscribe and save

Springer+ Basic

EUR 32.99 /Month

Get 10 units per month
Download Article/Chapter or Ebook
1 Unit = 1 Article or 1 Chapter
Cancel anytime

Subscribe now

Buy Now

Price includes VAT (France)

Instant access to the full article PDF.

Institutional subscriptions

Notes

Dass diese Annahme auch in der Praxis zutrifft, zeigen deskriptive Datenanalysen. Die Kategorie „nicht beobachtbar“ wird auf Ebene der einzelnen Items in der Regel in weniger als 5 % aller Fälle genutzt. Ausnahmen bilden die Items „Die Lehrkraft geht mit Störungen angemessen und konstruktiv um.“, „Das Erreichen der Lernziele wird angemessen überprüft.“ und „Die Lehrkraft geht mit Schülerfehlern konstruktiv um.“. Bei diesen Items wird die Kategorie „nicht beobachtbar“ in 34, 21 und 16 % aller Fälle durch die Inspektorinnen und Inspektoren genutzt. Aufgrund der hohen Anzahl fehlender Werte wurden diese Items nicht zur inhaltlichen Beschreibung der Abstufungen herangezogen.
Items, bei denen die Inspektorinnen und Inspektoren die Kategorie „nicht beobachtbar“ gewählt hatten, wurden als fehlende Werte unter der Annahme Missing at Random (MAR) behandelt. Im Mittel wurde diese Kategorie pro Sequenz 2,4-mal genutzt (SE: 0,05, SD: 1,65). Wie eine Sensitivitätsanalyse von Pietsch u. Leist (2009) mithilfe von Latent-Class-Pattern-Mixture-Modellen (LCPMM) zeigt, führt die Nutzung dieser Kategorie und deren Nicht-Handhabung als Missing not at Random (MNAR) in der Datenauswertung zu einer leichten Unterschätzung von Itemmittelwerten. Dies hat jedoch keinen nachweisbaren Effekt auf die Bestimmung zentraler Tendenzen, wie z. B. des Populationsmittelwertes, im IRT-Modell.
Da positive Korrelationen zwischen den Itemresiduen beobachtet wurden, ist davon auszugehen, dass die Reliabilität der Gesamtskala „Unterrichtsqualität“ überschätzt wird.
Die Modellierung eines mehrdimensionalen Modells aus analytischen Gründen im Rahmen von Analysen auf Populations- resp. Stichprobenebene bleibt hiervon natürlich unbenommen. Im Rahmen von Rückmeldungen an Einzelschulen bietet es sich darüber hinaus ggf. an, neben dem Modell Kennwerte auf Ebene einzelner Items für innerschulische Analysezwecke zurückzumelden, um so eine differenzierte und detaillierte Auseinandersetzung mit den Evaluationsbefunden zu ermöglichen.
Betrachtet man die MNSQ-Werte der Items in der mehrdimensionalen Skalierung, dann liegen die Kennwerte für alle 30 Items im Bereich von 0,80 bis 1,20. Die beiden in der eindimensionalen Skalierung auffälligen Items 19 und 23 haben dann MNSQ-Werte i. H. v. 1,13 und 0,89. Dieser Befund unterstützt das Vorgehen, diese beiden Items trotz der im Rahmen der eindimensionalen Skalierung berichteten Kennwerte in der Gesamtskala zu belassen, da das eindimensionale Modell als Approximation des mehrdimensionalen Modells gilt (vgl. zu diesem Thema auch Goldstein 2004).

Literatur

Andrich, D. (1978). Application of a psychometric model to ordered categories which are scores with successive integers. Applied Psychological Measurement, 2(4), 581–594.
Article Google Scholar
Bangert-Drowns, R. L., Kulik, C. L., Kulik, J. A., & Morgan, M. T. (1991). The instructional effect of feedback in test-like events. Review of Educational Research, 61(2), 213–237.
Google Scholar
Beaton, A. E., & Allen, N. L. (1992). Interpreting scales through scale anchoring. Journal of Educational Statistics, 17(2), 191–204.
Article Google Scholar
Behörde für Bildung und Sport. (2006). Orientierungsrahmen: Qualitätsentwicklung an Hamburger Schulen. Hamburg: Behörde für Bildung und Sport.
Google Scholar
Bonsen, M., Büchter, A., & Peek, R. (2006). Datengestützte Schul- und Unterrichtsentwicklung. Bewertung der Lernstandserhebungen in NRW durch Lehrerinnen und Lehrer. In W. Bos, H.-G. Holtappels, R. Pfeiffer & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (Bd. 14, S. 125–148). Weinheim: Juventa.
Google Scholar
Böttcher, W., & Kotthoff, H.-G. (2007a). Schulinspektion zwischen Rechenschaftslegung und schulischer Qualitätsentwicklung: internationale Erfahrungen. In W. Böttcher & H.-G. Kotthoff (Hrsg.), Schulinspektionen: Evaluation, Rechenschaftslegung und Qualitätsentwicklung (S. 9–20). Münster: Waxmann.
Google Scholar
Böttcher, W., & Kotthoff, H.-G. (2007b). Gelingensbedingungen einer qualitätsoptimierenden Schulinspektion. In W. Böttcher & H.-G. Kotthoff (Hrsg.), Schulinspektionen: Evaluation, Rechenschaftslegung und Qualitätsentwicklung (S. 223–230). Münster: Waxmann.
Google Scholar
Bos, W., Holtappels, H.-G., & Rösner, E. (2006). Schulinspektionen in den deutschen Bundesländern – eine Baustellenbeschreibung. In W. Bos, H.-G. Holtappels, R. Pfeiffer & R. Schulz-Zander (Hrsg.), Jahrbuch der Schulentwicklung (Bd. 14, S. 81–124). Weinheim: Juventa.
Google Scholar
Bremerich-Vos, A., & Böhme, K. (2009). Lesekompetenzdiagnostik – die Entwicklung eines standardbasierten Kompetenzmodells für den Bereich Lesen. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 219–249). Weinheim: Beltz.
Google Scholar
Brennan, R. L. (2001). Generalizability theory. New York: Springer.
Google Scholar
Brophy, J. (2000). Teaching. Genf: IBE.
Google Scholar
Chen, W., & Thissen, D. (1997). Local dependence indexes for item pairs using item response theory. Journal of Educational and Behavioral Statistics, 22(3), 265–289.
Google Scholar
Clauser, B., & Linacre, J. M. (1999). Relating Cronbach and Rasch reliabilities. Rasch Measurement Transactions, 13(2), 696.
Google Scholar
Diamantopoulus, A., Riefler, P., & Roth, K. P. (2008). Advancing formative measurement models. Journal of Business Research, 61(12), 1203–1218.
Article Google Scholar
Diedrich, M. (2009). 1. Jahresbericht der Schulinspektion: Trends für die beruflichen Schulen. Informationen für Hamburger Berufliche Schulen, 19(2), 10–11.
Google Scholar
Ditton, H. (2000). Qualitätskontrolle und -sicherung in Schule und Unterricht. Ein Überblick zum Stand der empirischen Forschung. In A. Helmke, W. Hornstein & E. Terhart (Hrsg.), Qualitätssicherung im Bildungsbereich (Zeitschrift für Pädagogik: Beiheft Nr. 41, S. 73–92). Weinheim: Beltz.
Google Scholar
Döbert, H., Rürup, M., & Dedering, K. (2008). Externe Evaluation von Schulen in Deutschland – die Konzepte der Bundesländer, ihre Gemeinsamkeiten und Unterschiede. In H. Döbert & K. Dedering (Hrsg.), Externe Evaluation von Schulen. Historische, rechtliche und vergleichende Aspekte (S. 63–152). Münster: Waxmann.
Google Scholar
Dobbelstein, P. (2008). Qualitätsmaßstäbe in der Diskussion – die Suche nach dem guten Unterricht. In S. Müller, K. Dedering & W. Bos (Hrsg.), Jahrbuch Schulische Qualitätsanalyse in NRW (S. 84–92). Neuwied: LinkLuchterhand.
Google Scholar
Draba, R. E. (1977). The identification and interpretation of item bias. Chicago: University of Chicago.
Google Scholar
Ehren, M. C. M., & Visscher, A. J. (2006). Towards a theory on the impact of school inspections. British Journal of Educational Studies, 54(1), 51–72.
Article Google Scholar
Ehren, M. C. M., & Visscher, A. J. (2008). The relationships between school inspections, school characteristics and school improvement. British Journal of Educational Studies, 56(2), 205–227.
Article Google Scholar
Ercikan, K. (2006). Examining guidelines for develo** accurate proficiency level scores. Canadian Journal of Education, 29(3), 823–838.
Google Scholar
Ercikan, K., & Julian, M. (2002). Classification accurancy of assigning student performance to proficiency levels. Applied Measurement in Education, 15(3), 269–294.
Article Google Scholar
Fend, H. (1998). Qualität im Bildungswesen. Schulforschung zu Systembedingungen, Schulprofilen und Lehrerleistung. Weinheim: Juventa.
Google Scholar
Ferrara, S., Huynh, H., & Baghi, H. (1997). Contextual characteristics of locally dependent open-ended item clusters in a large-scale performance assessment. Applied Measurement in Education, 10(2), 123–144.
Article Google Scholar
Fraser, B. J., Walberg, H. J., Welch, W. W., & Hattie, J. A. (1987). Syntheses of educational productivity research. International Journal of Educational Research, 11(2), 145–252.
Article Google Scholar
Goldstein, H. (2004). International comparison of student attainment: Some issues arising from the PISA study. Assessment in Education, 11(3), 319–330.
Article Google Scholar
Habing, B., Finch, H., & Roberts, J. S. (2005). A Q3 statistic for unfolding item response theory model: Assessment of unidimensionality with two factors and simple structures. Applied Psychological Measurement, 29(6), 457–471.
Article Google Scholar
Hattie, J., & Timperley, H. (2007). The power of feedback. Review of Educational Research, 77(1), 81–112.
Article Google Scholar
Helmke, A. (2003). Unterrichtsqualität erfassen, bewerten, verbessern. Seelze: Kallmeyer.
Google Scholar
Helmke, A. (2006). Was wissen wir über guten Unterricht? Über die Rückbesinnung auf den Unterricht als Kerngeschäft der Schule. Pädagogik, 2, 42–45.
Google Scholar
Helmke, A. (2009). Unterrichtsqualität und Lehrerprofessionalität. Diagnose, Evaluation und Verbesserung des Unterrichts. Seelze: Klett-Kallmeyer.
Google Scholar
Helmke, A., & Weinert, F. E. (1997). Bedingungsfaktoren schulischer Leistungen. In F. E. Weinert (Hrsg.), Enzyklopädie der Psychologie: Psychologie des Unterrichts und der Schule (Bd. 3, S. 71–176). Göttingen: Hogrefe.
Google Scholar
Holland, P. W., & Wainer, H. (1993). Differential item functioning. Hillsdale: Lawrence Erlbaum.
Google Scholar
Huynh, H. (1990). Computation and statistical inference for decision consistency indexes based on the Rasch model. Journal of Educational and Statistical Statistics, 15(4), 353–368.
Article Google Scholar
Huynh, H., Michaels, H., & Ferrara, S. (1995). A comparison of three procedures to identify item clusters with local dependence. Paper, präsentiert auf dem National Council on Measurement in Education, San Francisco.
Institut für Bildungsmonitoring. (2009). Bildungsbericht Hamburg 2009. Hamburg: Institut für Bildungsmonitoring.
Google Scholar
Kiper, H. (2008). Diskurse zur Unterrichtsentwicklung: Eine kritische Betrachtung. In N. Berkemeyer, W. Bos, V. Manitius & K. Müthing (Hrsg.), Unterrichtsentwicklung in Netzwerken. Konzeptionen, Befunde, Perspektiven (S. 95–120). Münster: Waxmann.
Google Scholar
Klieme, E., & Rakoczy, K. (2003). Unterrichtsqualität aus Schülerperspektive; Kulturspezifische Perspektiven, regionale Unterschiede und Zusammenhänge mit Effekten von Unterricht. In PISA-Konsortium Deutschland. (Hrsg.), PISA 2000 – Ein differenzierter Blick auf die Länder der Bundesrepublik Deutschland (S. 333–359). Opladen: Leske + Budrich.
Google Scholar
Klieme, E., Schümer, G., & Knoll, S. (2001). Mathematikunterricht in der Sekundarstufe I: Aufgabenkultur und Unterrichtsgestaltung. In Bundesministerium für Bildung und Forschung. (Hrsg.), TIMSS – Impulse für Schule und Unterricht. Forschungsbefunde, Reforminitiativen, Praxisberichte und Videodokumente (S. 43–58). Bonn: BMBF.
Google Scholar
Klieme, E., Baumert, J., Köller, O., & Bos, W. (2000). Mathematische und naturwissenschaftliche Grundbildung: Konzeptuelle Grundlagen und die Erfassung und Skalierung von Kompetenzen. In J. Baumert, W. Bos & R. Lehmann (Hrsg.), TIMSS/III. Dritte internationale Mathematik- und Naturwissenschaftsstudie. Mathematische und naturwissenschaftliche Bildung am Ende der Pflichtschulzeit (S. 85–134). Opladen: Leske + Budrich.
Google Scholar
Klieme, E., Lipowsky, F., Rakoczy, K., & Ratzka, N. (2006). Qualitätsdimensionen und Wirksamkeit von Mathematikunterricht. Theoretische Grundlagen und ausgewählte Ergebnisse des Projekts ‚Pythagoras‘. In M. Prenzel & L. Aloi-Näcke (Hrsg.), Untersuchungen zur Bildungsqualität von Schule. Abschlussbericht des DFG-Schwerpunktprogramms (S. 127–146). Münster: Waxmann.
Google Scholar
Klieme, E., Avenarius, H., Blum, W., Döbrich, W., Gruber, H., Prenzel, M., Reiss, K., Riquarts, K., Rost, J., Tenorth, H.-E., & Vollmer, H. J. (2007). Zur Entwicklung nationaler Bildungsstandards – eine Expertise. Berlin: BMBF.
Google Scholar
Kluger, A. N., & DeNisi, A. (1996). The effects of feedback interventions on performance: A historical review, a meta-analysis, and a preliminary feedback intervention theory. Psychological Bulletin, 119(2), 254–284.
Article Google Scholar
KMK. (2005). Bildungsstandards im Fach Deutsch für den Primarbereich (Jahrgangsstufe 4) – Beschluss vom 15.10.2004. München: LinkLuchterhand.
Google Scholar
Köller, O. (2008). Bildungsstandards in Deutschland: Implikation für die Qualitätssicherung und Unterrichtsqualität. In M. A. Meyer, M. Prenzel & S. Hellekamps (Hrsg.), Perspektiven der Didaktik (Zeitschrift für Erziehungswissenschaft: Sonderheft 9, S. 47–59). Wiesbaden: VS Verlag für Sozialwissenschaften.
Google Scholar
Kulhavy, R. W., & Stock, W. A. (1989). Feedback in written instruction: The place of response certitude. Educational Psychology Review, 1(4), 279–308.
Article Google Scholar
Kolen, M. J., & Brennan, R. L. (2004). Test equating, scaling, and linking: Methods and practices. New York: Springer.
Google Scholar
Maritzen, N. (2007). Schulinspektion – ein neues Element der Systemsteuerung. Journal für Schulentwicklung, 11(3), 6–14.
Google Scholar
Masters, G. N. (1982). A Rasch model for partial credit scoring. Psychometrika, 47, 149–174.
Article Google Scholar
Meyer, H. (2004). Was ist guter Unterricht? Berlin: Cornelsen.
Google Scholar
Meyer, H. (2006). Schulinspektion führt nicht automatisch zu Qualitätssicherung: Interview mit der westfälisch-lippischen Direktorenvereinigung. http://www.westfaelische-direktorenvereinigung.de/PDF/Jahrestagung%202006/Interview%20Schulinspektion.pdf. Zugegriffen: 05. Sep. 2009.
Meyer, H. im Gespräch mit M. A. Meyer (2008). Disput über aktuelle Probleme und Aufgaben der Didaktik. In M. A. Meyer, M. Prenzel & S. Hellekamps (Hrsg.), Perspektiven der Didaktik (Zeitschrift für Erziehungswissenschaft: Sonderheft 9, S. 77–86). Wiesbaden: VS Verlag für Sozialwissenschaften.
Google Scholar
Meyer, H., & Klapper, A. (2006). Unterrichtsstandards für ein kompetenzorientiertes Lernen und Lehren. In R. Hinz & B. Schumacher (Hrsg.), Auf den Anfang kommt es an: Kompetenzen entwickeln – Kompetenzen stärken (S. 89–108). Wiesbaden: VS Verlag für Sozialwissenschaften.
Google Scholar
Oelkers, J., & Reusser, K. (2008). Qualität entwickeln, Standards sichern, mit Differenzen umgehen. Berlin: BMBF.
Google Scholar
Pietsch, M. (2009a). Die Qualität des Unterrichts an Hamburger Schulen aus Beobachterperspektive. In Institut für Bildungsmonitoring. (Hrsg.), Jahresbericht der Schulinspektion Hamburg 2008 (S. 44–62). Hamburg: Behörde für Schule und Berufsbildung.
Google Scholar
Pietsch, M. (2009b). Unterrichtsbeobachtungen & Co.: Die externe Evaluation hinterlässt einen Datenberg. Was steckt dahinter und wie können Sie damit arbeiten? In M. Bonsen, W. Hohmeier, & M. Reese (Hrsg.), Handbuch Unterrichtsqualität sichern – Sekundarstufe (Loseblattsammlung). Berlin: Raabe.
Google Scholar
Pietsch, M., & Leist, S. (2009). The impact of „not observable“ response options on the results of classroom observations: An application of Latent Class Pattern Mixture Models to outcomes that are potentially missing not at random. Paper präsentiert auf der 13. Biennale der European Association for Research on Learning and Instruction (EARLI), Amsterdam.
Pietsch, M., & Tosana, S. (2008). Beurteilereffekte bei der Messung von Unterrichtsqualität: Das Multifacetten-Rasch-Modell und die Generalisierbarkeitstheorie als Methoden in der externen Evaluation von Schulen. Zeitschrift für Erziehungswissenschaft, 11, 430–452.
Article Google Scholar
Pietsch, M., Bonsen, M., & Bos, W. (2007). Ein Index sozialer Belastung als Grundlage für die Rückmeldung ‚fairer Vergleiche‘ von Grundschulen in Hamburg. In W. Bos & M. Pietsch (Hrsg.), KESS 4 – Kompetenzen von Schülerinnen und Schülern am Ende der Jahrgangsstufe 4 an Hamburger Grundschulen (S. 225–246). Münster: Waxmann.
Google Scholar
Pietsch, M., Schnack, J., & Schulze, P. (2009a). Unterricht zielgerichtet entwickeln: Die Schulinspektion Hamburg entwickelt ein Stufenmodell für die Qualität von Unterricht. Pädagogik, 2, 38–43.
Google Scholar
Pietsch, M., Böhme, K., Robitzsch, A., & Stubbe, T. C. (2009b). Das Stufenmodell zur Lesekompetenz der länderübergreifenden Bildungsstandards im Vergleich zu IGLU 2006. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 393–428). Weinheim: Beltz.
Google Scholar
Pietsch, M., Schnack, J., Schulze, P., & Krause, M. (in Vorb.). Elaborierte Rückmeldungen zur Qualität von Unterricht: Über empirisch abgesicherte Bezugsnormen für die Weiterentwicklung von Schule und Unterricht. In S. Müller, M. Pietsch & W. Bos (Hrsg.), Schulinspektionen in Deutschland – eine erste empirische Zwischenbilanz. Münster: Waxmann.
Ravitch, D. (1995). National standards in American education: A citizen's guide. Washington: Brookings Institution Press.
Google Scholar
Reckase, M. D., Ackerman, T. A., & Carlson, J. E. (1988). Building a unidimensional test using multidimensional items. Journal of Educational Measurement, 25(3), 193–203.
Article Google Scholar
Robitzsch, A. (2009). Methodische Herausforderungen bei der Kalibrierung von Leistungstests. In A. Bremerich-Vos, D. Granzer & O. Köller (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 42–107). Weinheim: Beltz.
Google Scholar
Rolff, H.-G. (2007). Studien zu einer Theorie der Schulentwicklung. Weinheim: Beltz.
Google Scholar
Rost, J. (2004). Lehrbuch Testtheorie/Testkonstruktion. Bern: Huber.
Google Scholar
Sammons, P., Hillman, J., & Mortimore, P. (1995). Key characteristics of effective schools: A review of school effectiveness research. London: OFSTED.
Google Scholar
Scherens, J., & Bosker, R. (1997). The foundations of educational effectiveness. Oxford: Pergamon Press.
Google Scholar
Schwartz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2), 461–464.
Article Google Scholar
Seidel, T. (2008). Schuleffektivitätskriterien in der internationalen empirischen Forschung. Zeitschrift für Erziehungswissenschaft, 11, 348–367.
Article Google Scholar
Seidel, T., & Shavelson, R. J. (2007). Teaching effectiveness research in the past decade: The role of theory and research design in disentangling meta-analysis results. Review of Educational Research, 77(4), 454–499.
Article Google Scholar
Sireci, S. G., Thissen, D., & Wainer, H. (1991). On the reliability of testlet-based tests. Psychometrika, 28(3), 237–247.
Google Scholar
Smith, R. M., Schumacker, R. E., & Bush, M. J. (1998). Using item mean squares to evaluate fit to the Rasch model. Journal of Outcome Measurement, 2(1), 66–78.
Google Scholar
Stone, M. H. , Wright, B. D., & Stenner, A. J. (1999). Map** variables. Journal of Outcome Measurement, 3(4), 308–322.
Google Scholar
Stralla, M. (2009). Die Unterrichtsbeobachtungen im Rahmen der deutschen Schulinspektion. Analyse des Kerninstruments zur Beurteilung der Schulqualität (Unveröffentlichte Diplomarbeit). Berlin: Freie Universität Berlin.
Google Scholar
Visscher, A. J., & Coe, R. (2002). School improvement through performance feedback. Lisse: Swets & Zellinger.
Google Scholar
Visscher, A. J., & Coe, R. (2003). School performance feedback systems. Conceptualisation, analysis and reflection. School Effectiveness and School Improvement, 14(3), 321–349.
Article Google Scholar
Wainer, H., & Thissen, D. (1996). How is reliability related to the quality of test scores? What is the effect of local dependence on reliability? Educational Measurement: Issues and Practice, 15(1), 22–29.
Article Google Scholar
Walker, C. M., & Beretvas, S. N. (2003). Comparing multidimensional and unidimensional proficiency classification: multidimensional IRT as a diagnostic aid. Journal of Educational Measurement, 40(3), 255–275.
Article Google Scholar
Weinert, F. E. (2001). Vergleichende Leistungsmessung in Schulen – eine umstrittene Selbstverständlichkeit. In F. E. Weinert (Hrsg.), Leistungsmessungen in Schulen (S. 17–31). Weinheim: Beltz.
Google Scholar
Wright, B. D., & Linacre, J. M. (1994). Reasonable mean-square fit values. Rasch Measurement Transactions, 8(3), 370.
Google Scholar
Wright, B. D., & Masters, G. N. (2002). Number of person or item strata. Rasch Measurement Transactions, 16(3), 888.
Google Scholar
Wu, M. L., Adams, R. J., & Wilson, M. R. (1998). ACER ConQuest. Generalised item response modelling software. Melbourne: ACER Press.
Google Scholar
Yen, W. M. (1984). Effects of local item dependence on the fit and equating performance of the three-parameter logistic model. Applied Psychological Measurement, 8(2), 125–145.
Article Google Scholar
Yen, W. M. (1993). Scaling performance assessments. Strategies for managing local item dependence. Journal of Educational Measurement, 30(3), 187–213.
Article Google Scholar
Zwick, R., Senturk, D., Wang, J., & Loomis, S. C. (2001). An investigation of alternative methods for item map** in the National Assessment of Educational Progress. Educational Measurement: Issues and Practice, 20(2), 15–25.
Article Google Scholar

Download references

Author information

Authors and Affiliations

Institut für Bildungsmonitoring Hamburg, Beltgens Garten 25, 20537, Hamburg, Deutschland
Marcus Pietsch

Authors

Marcus Pietsch
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Marcus Pietsch.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Pietsch, M. Evaluation von Unterrichtsstandards. Z Erziehungswiss 13, 121–148 (2010). https://doi.org/10.1007/s11618-010-0113-z

Download citation

Published: 07 April 2010
Issue Date: March 2010
DOI: https://doi.org/10.1007/s11618-010-0113-z

Schlüsselwörter

Keywords

Access this article

Log in via an institution

Subscribe and save

Springer+ Basic

EUR 32.99 /Month

Get 10 units per month
Download Article/Chapter or Ebook
1 Unit = 1 Article or 1 Chapter
Cancel anytime

Subscribe now

Buy Now

Price includes VAT (France)

Instant access to the full article PDF.

Institutional subscriptions

Evaluation von Unterrichtsstandards

Zusammenfassung

Abstract

Access this article

Subscribe and save

Buy Now

Notes

Literatur

Author information

Authors and Affiliations

Corresponding author

Rights and permissions

About this article

Cite this article

Share this article

Schlüsselwörter

Keywords

Subscribe and save

Buy Now

Search

Navigation