Pragmalinguistische Annotation und maschinelles Lernen

  • Chapter
  • First Online:
Digitale Pragmatik

Part of the book series: Digitale Linguistik ((DL,volume 1))

  • 1455 Accesses

Zusammenfassung

Im Mittelpunkt dieses Beitrags steht die Reflexion von Qualitätskriterien für das interpretative linguistische Annotieren soziopragmatischer Phänomene. Dabei ist die Erfassung impliziter und inferierter Aspekte sowie das Einbeziehen von Kontextwissen von zentraler Bedeutung. Dies stellt eine besondere Herausforderung für die digitale Linguistik dar, weil der korpuslinguistische Zugriff auf die sprachliche Oberfläche solche Phänomene nicht ohne Weiteres erfassen kann und eine Automatisierung und algorithmische Analyse deshalb oft nicht möglich ist. Eine Möglichkeit, dieser Problematik zu begegnen, ist die Kombination von interpretierend-kategorisierender Annotation und maschinellem Lernen. Für die erfolgreiche Umsetzung dieser Methodenkombination sind verschiedene Faktoren – insbesondere beim manuellen Annotieren und der Kategorienbildung – relevant, die im Beitrag an zwei Beispielstudien herausgearbeitet werden: einer Studie zur Klassifikation von Zwischenrufen im Bundestag, die begleitend durch einen Recommender-Algorithmus unterstützt wird, und einer Studie zu wissenschaftlichen Textroutinen, in der an ein manuelles Annotationsverfahren das Training eines rekurrenten neuronalen Netzes zur automatischen Klassifikation angeschlossen wird.

This is a preview of subscription content, log in via an institution to check access.

Access this chapter

Subscribe and save

Springer+ Basic
EUR 32.99 /Month
  • Get 10 units per month
  • Download Article/Chapter or Ebook
  • 1 Unit = 1 Article or 1 Chapter
  • Cancel anytime
Subscribe now

Buy Now

Chapter
USD 29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD 64.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD 84.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free ship** worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Institutional subscriptions

Similar content being viewed by others

Notes

  1. 1.

    Für das Mitwirken bei der Korpusaufbereitung danke ich Maxine Schilde, Jörn Stegmeier und Daniel Wachter.

  2. 2.

    https://opennlp.apache.org/docs/1.9.0/apidocs/opennlp-tools/opennlp/tools/doccat/DocumentCategorizerME.html (letzte Sichtung: 30.5.2021).

  3. 3.

    Vereinfacht beschrieben können Annotierende lediglich bei einem Wert über 0,5 davon ausgehen, dass der Algorithmus anhand bestimmter Merkmale des Segments eine nicht-zufällige Zuordnung zu einer Kategorie und somit auch eine Abgrenzung zur zweitbesten Kategorisierungsmöglichkeit durchführen konnte. Werte darunter bedeuten, dass nicht klar klassifiziert werden konnte. Zwar ist auch hier 1 der maximale Wert, dieser repräsentiert aber nicht die Skalierung der statistischen Wahrscheinlichkeitsrechnung. Es handelt sich um eine Form des ‚discriminative machine learning‘, in dem keine Wahrscheinlichkeitsverteilung für die Klassifikationsaufgabe ‚gelernt‘ wird. In der Studie zeigte der Recommender für die nonverbalen, nicht-wörtlich transkribierten und hochfrequenten, lexikalisch ähnlichen Kurzbewertungen Confidence-Werte über 0,89 an, für die komplexeren Kategorien über 0,7.

  4. 4.

    Zuruf der SPD, kein einzelner Sprecher ausgezeichnet, 20.2.1986.

  5. 5.

    Manfred Grund (CDU/CSU), 07.03.2007.

  6. 6.

    Volker Beck (Bündnis 90/Die Grünen), 19.01.2006.

  7. 7.

    Franz Josef Strauß (CDU/CSU), 23.05.1951.

  8. 8.

    Erwin Schoettle (SPD), 04.02.1954.

  9. 9.

    z. B. Claudia Roth (Bündnis 90/Die Grünen), 29.06.2017.

  10. 10.

    z. B. Georg Schirmbeck (CDU/CSU), 10.11.2009.

  11. 11.

    Zuruf von rechts, keine spezifischere Auszeichnung, 07.09.1949.

  12. 12.

    Ulli Nissen (SPD), 22.06.2017.

  13. 13.

    Volker Kauder (CDU/CSU), 27.04.2017.

  14. 14.

    Susanna Karawanskij (Die Linke), 29.06.2017.

  15. 15.

    Harald Ebner (Bündnis 90/Die Grünen), 22.06.2017.

  16. 16.

    Heinz Renner (KPD), 20.09.1949.

  17. 17.

    Zuruf (nicht spezifischer ausgezeichnet), 05.05.1960.

  18. 18.

    Max Straubinger (CDU/CSU), 30.06.2017.

Literatur

  • Ajmer, Karin: Pragmatic Markers. In: Karin Aijmer/Christoph Rühlemann (Hg.): Corpus Pragmatics. A Handbook. Cambridge 2015, 195–218.

    Google Scholar 

  • Archer, Dawn/Culpeper, Jonathan/Davies, Matthew. Pragmatic Annotation. In: Anke Lüdeling/Merja Kytö (Hg.): Corpus Linguistics. An International Handbook. Berlin/Boston 2008, 613–641.

    Google Scholar 

  • Artstein, Ron/Poesio, Massimo: Inter-Coder-Agreement for Computational Linguistics. In: Computational Linguistics 34/4 (2008), 555–596. DOI: https://doi.org/10.1162/coli.07-034-R2.

  • Bauman, Richard/Briggs, Charles L.: Poetics and Performance as Critical Perspectives on Language and Social Life. In: Annual Review of Anthropology 19 (1990), 59–88.

    Google Scholar 

  • Becker, Maria/Bender, Michael/Müller, Marcus: Classifying Heuristic Textual Practices in Academic Discourse. A Deep Learning Approach to Pragmatics. In: International Journal of Corpus Linguistics 25/4 (2020), 426–460.

    Google Scholar 

  • Becker, Maria/Staniek, Michael/Nastase, Vivi/Palmer, Alexis/Frank, Anette: Classifying Semantic Clause Types: Modeling Context and Genre Characteristics with Recurrent Neural Networks and Attention. In: Proceedings of the Joint Conference on Lexical and Computational Semantics (*SEM). Vancouver, Canada 2017.

    Google Scholar 

  • Bender, Michael: Kommentieren und Annotieren als Rekontextualisieren. In: Simon Meier/Gabriel Viehhauser/Patrick Sahle (Hg.): Rekontextualisierung als Forschungsparadigma des Digitalen. Norderstedt 2020, 55–70.

    Google Scholar 

  • Bender, Michael/Müller, Marcus: Heuristische Textpraktiken in den Wissenschaften. Eine kollaborative Annotationsstudie zum akademischen Diskurs. In: Zeitschrift für Germanistische Linguistik (ZGL) 48/1 (2020), 1–46.

    Google Scholar 

  • Burkhardt, Armin: Zwischen Monolog und Dialog. Zur Theorie, Typologie und Geschichte des Zwischenrufs im deutschen Parlamentarismus. Tübingen 2004.

    Google Scholar 

  • Eckart de Castilho, Richard/Klie, Jan-Christoph/Kumar, Naveen/Boullosa, Beto/Gurevych, Iryna: Linking Text and Knowledge using the INCEpTION annotation platform. In: Proceedings of the 14th eScience IEEE International Conference, Amsterdam 2018. https://inception-project.github.io/publications/ESCIENCE-2018.pdf.

  • Feilke, Helmuth: Was sind Textroutinen? Zur Theorie und Methodik des Forschungsfeldes. In: Helmuth Feilke/Katrin Lehnen (Hg.): Schreib- und Textroutinen. Theorie, Erwerb und didaktisch-mediale Modellierung. Frankfurt am Main u. a. 2012, 1–31.

    Google Scholar 

  • Hardie, Andrew: CQPweb – combining power, flexibility and usability in a corpus analysis tool. In: International Journal of Corpus Linguistics 17/3 (2012), 380–409.

    Google Scholar 

  • Henne, Helmut/Rehbock, Helmut: Einführung in die Gesprächsanalyse. Berlin/New York 2001.

    Google Scholar 

  • Henrici, Natalie: Die Ansprüche und Rechte des mit der Objektüberwachung der Gebäudeerrichtung beauftragten Architekten und Ingenieurs bei Bauablaufstörungen. Diss. (2016), http://tuprints.ulb.tu-darmstadt.de/5446 (Abrufdatum: 8.12.2021).

  • Heritage, John/Raymond, Geoffrey: Navigating epistemic landscapes: Acquiescence, agency and resistance in responses to polar questions. In: Jan P. de Ruiter (Hg.): Questions: Formal, functional and interactional perspectives. Cambridge 2012, 179–192.

    Google Scholar 

  • Hey, Spencer: Heuristics and Meta-Heuristics in scientific Judgement. In: The British Journal for the Philosophy of Science 76 (2016), 471-495.

    Article  Google Scholar 

  • Ide, Nancy: Introduction: The Handbook of Linguistic Annotation. In: Nancy Ide/James Pustejovsky (Hg.): Handbook of Linguistic Annotation. Vol. I, Dordrecht: 2017, 1–18.

    Google Scholar 

  • Klie, Jan-Christoph/Bugert, Michael/Boullosa, Beto/Eckart de Castilho, Richard/Gurevych, Iryna: The INCEpTION Platform: Machine-Assisted and Knowledge-Oriented Interactive Annotation. In: Proceedings of System Demonstrations of the 27th International Conference on Computational Linguistics (COLING 2018), Santa Fe 2018.

    Google Scholar 

  • Lease, Matthew: On Quality Control and Machine Learning in Crowd Sourcing. In: Human Computation: Papers from the 2011 AAAI Workshop. San Francisco 2011, 97–102.

    Google Scholar 

  • Meibauer, Jörg: Pragmatik. 2., verb. Aufl. Tübingen 2008.

    Google Scholar 

  • Meister, Jan-Christoph/Petris, Marco/Gius, Evelyn/Jacke, Janina/Horstmann, Jan/Bruck, Christian: CATMA (Version v5.2) (2018), https://catma.de/ (Abrufdatum: 8.12.2021).

  • Mikolov, Tomas/Sutskever, Ilya/Chen, Kai/Corrado, Greg/Dean, Jeff: Distributed representations of words and phrases and their compositionality. In: Advances in neural information processing systems, Lake Tahoe, Nevada 2013, 3111–3119.

    Google Scholar 

  • Müller, Marcus: DiscourseLab: CQP-Web-Korpus Plenarprotokolle des Deutschen Bundestages (2020), https://www.discourselab.de/cqpweb/ (Abrufdatum: 8.12.2021).

  • Rath, Rainer: Gesprächsschritt und Höreraktivitäten. In: Klaus Brinker/Gerd Antos/Wolfgang Heinemann/Sven Sager (Hg.): Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung. 2. Halbband. Berlin/New York 2001, 1213–1226.

    Google Scholar 

  • Reimers, Nils/Eckle-Kohler, Judith/Schnober, Carsten/Kim, Jungi/Gurevych, Iryna: Germeval2014: Nested Named Entity Recognition with neural networks. In: Proceedings of the KONVENS Conference, Hildesheim 2014, 117–120.

    Google Scholar 

  • Searle, John: Indirekte Sprechakte. In: Ders. (Hg.): Ausdruck und Bedeutung. Frankfurt a.M. 1982, 51–79.

    Google Scholar 

  • Teufel, Simone: Argumentative Zoning: Information Extraction from Scientific Text. Diss. (1999), https://www.cl.cam.ac.uk/~sht25/thesis/t1.pdf (Abrufdatum: 8.12.2021).

  • Weisser, Martin: How to Do Corpus Pragmatics on Pragmatically Annotated Data. Amsterdam/Philadelphia 2018.

    Google Scholar 

  • Wimsatt, William (2007). Re-Engineering Philosophy for Limited Beeings. Piecewise Approximation to Reality. Cambridge, London 2007.

    Google Scholar 

  • Yize, Li/Jiazhong, Nie/Yi, Zhang/Bingqing, Wang/Baoshi, Yan/Fuliang, Weng: Contextual recommendation based on text mining. In: COLING '10: Proceedings of the 23rd International Conference on Computational Linguistics 2010, 692–700.

    Google Scholar 

  • Zifonun, Gisela/Hoffmann, Ludger/Strecker, Bruno: Grammatik der deutschen Sprache. Berlin/New York 1997.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Michael Bender .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2023 Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature

About this chapter

Check for updates. Verify currency and authenticity via CrossMark

Cite this chapter

Bender, M. (2023). Pragmalinguistische Annotation und maschinelles Lernen. In: Meier-Vieracker, S., Bülow, L., Marx, K., Mroczynski, R. (eds) Digitale Pragmatik. Digitale Linguistik, vol 1. J.B. Metzler, Berlin, Heidelberg. https://doi.org/10.1007/978-3-662-65373-9_12

Download citation

  • DOI: https://doi.org/10.1007/978-3-662-65373-9_12

  • Published:

  • Publisher Name: J.B. Metzler, Berlin, Heidelberg

  • Print ISBN: 978-3-662-65372-2

  • Online ISBN: 978-3-662-65373-9

  • eBook Packages: J.B. Metzler Humanities (German Language)

Publish with us

Policies and ethics

Navigation