Zusammenfassung
Im Mittelpunkt dieses Beitrags steht die Reflexion von Qualitätskriterien für das interpretative linguistische Annotieren soziopragmatischer Phänomene. Dabei ist die Erfassung impliziter und inferierter Aspekte sowie das Einbeziehen von Kontextwissen von zentraler Bedeutung. Dies stellt eine besondere Herausforderung für die digitale Linguistik dar, weil der korpuslinguistische Zugriff auf die sprachliche Oberfläche solche Phänomene nicht ohne Weiteres erfassen kann und eine Automatisierung und algorithmische Analyse deshalb oft nicht möglich ist. Eine Möglichkeit, dieser Problematik zu begegnen, ist die Kombination von interpretierend-kategorisierender Annotation und maschinellem Lernen. Für die erfolgreiche Umsetzung dieser Methodenkombination sind verschiedene Faktoren – insbesondere beim manuellen Annotieren und der Kategorienbildung – relevant, die im Beitrag an zwei Beispielstudien herausgearbeitet werden: einer Studie zur Klassifikation von Zwischenrufen im Bundestag, die begleitend durch einen Recommender-Algorithmus unterstützt wird, und einer Studie zu wissenschaftlichen Textroutinen, in der an ein manuelles Annotationsverfahren das Training eines rekurrenten neuronalen Netzes zur automatischen Klassifikation angeschlossen wird.
Access this chapter
Tax calculation will be finalised at checkout
Purchases are for personal use only
Similar content being viewed by others
Notes
- 1.
Für das Mitwirken bei der Korpusaufbereitung danke ich Maxine Schilde, Jörn Stegmeier und Daniel Wachter.
- 2.
https://opennlp.apache.org/docs/1.9.0/apidocs/opennlp-tools/opennlp/tools/doccat/DocumentCategorizerME.html (letzte Sichtung: 30.5.2021).
- 3.
Vereinfacht beschrieben können Annotierende lediglich bei einem Wert über 0,5 davon ausgehen, dass der Algorithmus anhand bestimmter Merkmale des Segments eine nicht-zufällige Zuordnung zu einer Kategorie und somit auch eine Abgrenzung zur zweitbesten Kategorisierungsmöglichkeit durchführen konnte. Werte darunter bedeuten, dass nicht klar klassifiziert werden konnte. Zwar ist auch hier 1 der maximale Wert, dieser repräsentiert aber nicht die Skalierung der statistischen Wahrscheinlichkeitsrechnung. Es handelt sich um eine Form des ‚discriminative machine learning‘, in dem keine Wahrscheinlichkeitsverteilung für die Klassifikationsaufgabe ‚gelernt‘ wird. In der Studie zeigte der Recommender für die nonverbalen, nicht-wörtlich transkribierten und hochfrequenten, lexikalisch ähnlichen Kurzbewertungen Confidence-Werte über 0,89 an, für die komplexeren Kategorien über 0,7.
- 4.
Zuruf der SPD, kein einzelner Sprecher ausgezeichnet, 20.2.1986.
- 5.
Manfred Grund (CDU/CSU), 07.03.2007.
- 6.
Volker Beck (Bündnis 90/Die Grünen), 19.01.2006.
- 7.
Franz Josef Strauß (CDU/CSU), 23.05.1951.
- 8.
Erwin Schoettle (SPD), 04.02.1954.
- 9.
z. B. Claudia Roth (Bündnis 90/Die Grünen), 29.06.2017.
- 10.
z. B. Georg Schirmbeck (CDU/CSU), 10.11.2009.
- 11.
Zuruf von rechts, keine spezifischere Auszeichnung, 07.09.1949.
- 12.
Ulli Nissen (SPD), 22.06.2017.
- 13.
Volker Kauder (CDU/CSU), 27.04.2017.
- 14.
Susanna Karawanskij (Die Linke), 29.06.2017.
- 15.
Harald Ebner (Bündnis 90/Die Grünen), 22.06.2017.
- 16.
Heinz Renner (KPD), 20.09.1949.
- 17.
Zuruf (nicht spezifischer ausgezeichnet), 05.05.1960.
- 18.
Max Straubinger (CDU/CSU), 30.06.2017.
Literatur
Ajmer, Karin: Pragmatic Markers. In: Karin Aijmer/Christoph Rühlemann (Hg.): Corpus Pragmatics. A Handbook. Cambridge 2015, 195–218.
Archer, Dawn/Culpeper, Jonathan/Davies, Matthew. Pragmatic Annotation. In: Anke Lüdeling/Merja Kytö (Hg.): Corpus Linguistics. An International Handbook. Berlin/Boston 2008, 613–641.
Artstein, Ron/Poesio, Massimo: Inter-Coder-Agreement for Computational Linguistics. In: Computational Linguistics 34/4 (2008), 555–596. DOI: https://doi.org/10.1162/coli.07-034-R2.
Bauman, Richard/Briggs, Charles L.: Poetics and Performance as Critical Perspectives on Language and Social Life. In: Annual Review of Anthropology 19 (1990), 59–88.
Becker, Maria/Bender, Michael/Müller, Marcus: Classifying Heuristic Textual Practices in Academic Discourse. A Deep Learning Approach to Pragmatics. In: International Journal of Corpus Linguistics 25/4 (2020), 426–460.
Becker, Maria/Staniek, Michael/Nastase, Vivi/Palmer, Alexis/Frank, Anette: Classifying Semantic Clause Types: Modeling Context and Genre Characteristics with Recurrent Neural Networks and Attention. In: Proceedings of the Joint Conference on Lexical and Computational Semantics (*SEM). Vancouver, Canada 2017.
Bender, Michael: Kommentieren und Annotieren als Rekontextualisieren. In: Simon Meier/Gabriel Viehhauser/Patrick Sahle (Hg.): Rekontextualisierung als Forschungsparadigma des Digitalen. Norderstedt 2020, 55–70.
Bender, Michael/Müller, Marcus: Heuristische Textpraktiken in den Wissenschaften. Eine kollaborative Annotationsstudie zum akademischen Diskurs. In: Zeitschrift für Germanistische Linguistik (ZGL) 48/1 (2020), 1–46.
Burkhardt, Armin: Zwischen Monolog und Dialog. Zur Theorie, Typologie und Geschichte des Zwischenrufs im deutschen Parlamentarismus. Tübingen 2004.
Eckart de Castilho, Richard/Klie, Jan-Christoph/Kumar, Naveen/Boullosa, Beto/Gurevych, Iryna: Linking Text and Knowledge using the INCEpTION annotation platform. In: Proceedings of the 14th eScience IEEE International Conference, Amsterdam 2018. https://inception-project.github.io/publications/ESCIENCE-2018.pdf.
Feilke, Helmuth: Was sind Textroutinen? Zur Theorie und Methodik des Forschungsfeldes. In: Helmuth Feilke/Katrin Lehnen (Hg.): Schreib- und Textroutinen. Theorie, Erwerb und didaktisch-mediale Modellierung. Frankfurt am Main u. a. 2012, 1–31.
Hardie, Andrew: CQPweb – combining power, flexibility and usability in a corpus analysis tool. In: International Journal of Corpus Linguistics 17/3 (2012), 380–409.
Henne, Helmut/Rehbock, Helmut: Einführung in die Gesprächsanalyse. Berlin/New York 2001.
Henrici, Natalie: Die Ansprüche und Rechte des mit der Objektüberwachung der Gebäudeerrichtung beauftragten Architekten und Ingenieurs bei Bauablaufstörungen. Diss. (2016), http://tuprints.ulb.tu-darmstadt.de/5446 (Abrufdatum: 8.12.2021).
Heritage, John/Raymond, Geoffrey: Navigating epistemic landscapes: Acquiescence, agency and resistance in responses to polar questions. In: Jan P. de Ruiter (Hg.): Questions: Formal, functional and interactional perspectives. Cambridge 2012, 179–192.
Hey, Spencer: Heuristics and Meta-Heuristics in scientific Judgement. In: The British Journal for the Philosophy of Science 76 (2016), 471-495.
Ide, Nancy: Introduction: The Handbook of Linguistic Annotation. In: Nancy Ide/James Pustejovsky (Hg.): Handbook of Linguistic Annotation. Vol. I, Dordrecht: 2017, 1–18.
Klie, Jan-Christoph/Bugert, Michael/Boullosa, Beto/Eckart de Castilho, Richard/Gurevych, Iryna: The INCEpTION Platform: Machine-Assisted and Knowledge-Oriented Interactive Annotation. In: Proceedings of System Demonstrations of the 27th International Conference on Computational Linguistics (COLING 2018), Santa Fe 2018.
Lease, Matthew: On Quality Control and Machine Learning in Crowd Sourcing. In: Human Computation: Papers from the 2011 AAAI Workshop. San Francisco 2011, 97–102.
Meibauer, Jörg: Pragmatik. 2., verb. Aufl. Tübingen 2008.
Meister, Jan-Christoph/Petris, Marco/Gius, Evelyn/Jacke, Janina/Horstmann, Jan/Bruck, Christian: CATMA (Version v5.2) (2018), https://catma.de/ (Abrufdatum: 8.12.2021).
Mikolov, Tomas/Sutskever, Ilya/Chen, Kai/Corrado, Greg/Dean, Jeff: Distributed representations of words and phrases and their compositionality. In: Advances in neural information processing systems, Lake Tahoe, Nevada 2013, 3111–3119.
Müller, Marcus: DiscourseLab: CQP-Web-Korpus Plenarprotokolle des Deutschen Bundestages (2020), https://www.discourselab.de/cqpweb/ (Abrufdatum: 8.12.2021).
Rath, Rainer: Gesprächsschritt und Höreraktivitäten. In: Klaus Brinker/Gerd Antos/Wolfgang Heinemann/Sven Sager (Hg.): Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung. 2. Halbband. Berlin/New York 2001, 1213–1226.
Reimers, Nils/Eckle-Kohler, Judith/Schnober, Carsten/Kim, Jungi/Gurevych, Iryna: Germeval2014: Nested Named Entity Recognition with neural networks. In: Proceedings of the KONVENS Conference, Hildesheim 2014, 117–120.
Searle, John: Indirekte Sprechakte. In: Ders. (Hg.): Ausdruck und Bedeutung. Frankfurt a.M. 1982, 51–79.
Teufel, Simone: Argumentative Zoning: Information Extraction from Scientific Text. Diss. (1999), https://www.cl.cam.ac.uk/~sht25/thesis/t1.pdf (Abrufdatum: 8.12.2021).
Weisser, Martin: How to Do Corpus Pragmatics on Pragmatically Annotated Data. Amsterdam/Philadelphia 2018.
Wimsatt, William (2007). Re-Engineering Philosophy for Limited Beeings. Piecewise Approximation to Reality. Cambridge, London 2007.
Yize, Li/Jiazhong, Nie/Yi, Zhang/Bingqing, Wang/Baoshi, Yan/Fuliang, Weng: Contextual recommendation based on text mining. In: COLING '10: Proceedings of the 23rd International Conference on Computational Linguistics 2010, 692–700.
Zifonun, Gisela/Hoffmann, Ludger/Strecker, Bruno: Grammatik der deutschen Sprache. Berlin/New York 1997.
Author information
Authors and Affiliations
Corresponding author
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2023 Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature
About this chapter
Cite this chapter
Bender, M. (2023). Pragmalinguistische Annotation und maschinelles Lernen. In: Meier-Vieracker, S., Bülow, L., Marx, K., Mroczynski, R. (eds) Digitale Pragmatik. Digitale Linguistik, vol 1. J.B. Metzler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-65373-9_12
Download citation
DOI: https://doi.org/10.1007/978-3-662-65373-9_12
Published:
Publisher Name: J.B. Metzler, Berlin, Heidelberg
Print ISBN: 978-3-662-65372-2
Online ISBN: 978-3-662-65373-9
eBook Packages: J.B. Metzler Humanities (German Language)