Skip to main content
Methodenbeitrag

Reflektierte Textanalyse


Keywords: Operationalisierung, Annotation, Workflow, Machine Learning, Reflektierte Textanalyse

How to Cite:

Pichler, Axel und Nils Reiter. 2026. Reflektierte Textanalyse. Hg. von Axel Pichler und Reiter Nils. forTEXT 3, Nr. 1. Sonderausgabe: Reflektierte Textanalyse in der Hochschullehre (16. März): 1–7. doi:10.48694/fortext.4263.

54 Views

14 Downloads

Published on
2026-03-16

Peer Reviewed

Inhalt

  1. Definition

  2. Anwendungsbeispiel

  3. Literaturwissenschaftliche Tradition

  4. Diskussion

1 Definition

Reflektierte algorithmische Textanalyse (Pichler und Reiter 2020; siehe auch: Piper 2017; Nguyen u. a. 2020; Hatzel u. a. 2023) bezeichnet einen Arbeitsablauf der computergestützten Textanalyse, der (a) von fachspezifischen Fragen oder Hypothesen ausgeht und diese (b) im Zuge eines modularisierten und potentiell kollaborativen Vorgehens bearbeitet, beantwortet und/oder testet, indem (c) die zentralen Begriffe der Fragen bzw. Hypothesen so operationalisiert werden, dass (d) anschließend auf Basis dieser Operationalisierung manuell Referenzdaten zum Testen von Computermodellen und -verfahren erstellt werden, sofern sie nicht bereits in einer transparenten Form vorliegen. Während das Verfahren prinzipiell für algorithmische Textanalysen in unterschiedlichen Disziplinen geeignet ist, widmet sich der vorliegende Beitrag seiner Anwendung in der digitalen Literaturwissenschaft.

2 Anwendungsbeispiel

Zur Exemplifizierung der folgenden Arbeitsschritte verfolgen wir die Hypothese, dass in naturalistischen Romanen die Figuren eine stärkere soziale Determinierung aufweisen als die Figuren in den Romanen der daran anschließenden Strömungen der Moderne.

2.1 Korpuserstellung (vgl. Korpusbildung)

In einem ersten Schritt ist ein der Fragestellung angemessenes Korpus zu erstellen bzw. ein bereits existierendes zu adaptieren. In die Textauswahl fließen dabei fachwissenschaftliche, computerlinguistische, statistische, pragmatische und urheberrechtliche Überlegungen ein, die sich unter anderem an folgenden Fragen orientieren:

  • Welche Texte repräsentieren die Fragestellung am besten?

  • Welche dieser Texte sind in welchem Format verfügbar?

  • Wie viele Daten werden benötigt, um statistisch relevante Aussagen tätigen zu können?

  • Welche Texte dürfen in welchem Umfang digitalisiert werden? Welche Texte dürfen veröffentlicht werden?

In dem vorliegenden Anwendungsbeispiel ist es zunächst erforderlich, ein fachspezifisches Naturalismusverständnis auszuwählen bzw. zu bestimmen. Basierend auf diesem Verständnis sind zwei Korpora zu erstellen: a) ein Korpus mit Texten, die unter den ausgewählten Naturalismusbegriff fallen, und b) ein im Umfang dem ersten Korpus entsprechendes Vergleichskorpus, das Texte enthält, welche diejenigen Charakteristika nicht aufweisen, die nach dem leitenden Naturalismusbegriff diesen kennzeichnen.

2.2 Vorverarbeitung

Die Vorverarbeitung (eng. Preprocessing) umfasst mehrere Schritte zur Standardisierung und Bereinigung der Daten, deren Einsatz je nach verwendetem Computermodell variieren. Dazu gehören beispielsweise die Entfernung oder Hinzufügung von Metadaten, Normalisierung (z. B. Vereinheitlichung von Schreibweisen), Tokenisierung (Aufteilung in Phrasen, Wörter oder Subwörter) sowie die Filterung von Stoppwörtern, um häufig vorkommende, aber ggf. analytisch nicht relevante Wörter auszuschließen. Je nach Forschungsfrage können auch Lemmatisierung (Zurückführung auf Wortgrundformen) oder Part-of-Speech-Tagging (grammatische Annotation der Wortarten) sinnvoll sein, um weiterführende Analysen zu ermöglichen.

Weniger generisch und stärker von der jeweiligen Frage abhängig sind die Folgeschritte (3) der Operationalisierung relevanter Begriffe, (4) der Erstellung eines Annotationsschemas, (5) der kollaborativen Annotation, (6) des Trainierens und Testens von Computermodellen/der algorithmischen Textanalyse sowie (7) der Auswertung bzw. der Interpretation der Ergebnisse.

2.3 Operationalisierung der Begriffe

In Bezug auf das Anwendungsbeispiel erfolgt in diesem Schritt die Operationalisierung relevanter Begriffe/Prädikate wie ‚literarische Figur‘, ‚Die Figur X ist sozial determiniert‘, ‚Die Figur X ist sozial stärker determiniert als die Figur Y‘ (vgl. Pichler und Reiter 2021; Krautter, Pichler und Reiter 2023). Dabei werden den theoretischen Begriffen beobachtbare Sachverhalte zugeordnet. Falls es sich um latente Variablen handelt, also um Phänomene, die nicht direkt beobachtbar sind (z. B. „x ist sozial determiniert“), geschieht die Operationalisierung mithilfe geeigneter Indikatoren, die ggf. ihrerseits wiederum operationalisiert werden müssen. Dabei ist ein angemessenes Messniveau zu wählen (nominal-, ordinal-, intervall- oder ratioskaliert) (vgl. Burzan 2019). Der Indikatorenzuweisung geht eine Begriffsanalyse voraus, die sich auf bestehende Definitionen und/oder den literaturwissenschaftlichen Gebrauch der Begriffe stützt. Ziel der Operationalisierung ist es, (a) die Begriffe in eine eindeutige Erkenn- und Messvorschrift zu überführen – die gegebenfalls auch die Vagheit der literarischen Phänomene oder die Interpretationsabhängigkeit der literaturwissenschaftlichen Ausgangsbegriffe berücksichtigt (Jacke 2025) – und (b) den Prozess so transparent zu gestalten, dass die Messresultate im literaturwissenschaftlichen Diskurs anschlussfähig bleiben.

Für die Operationalisierung relevanter Begriffe des Anwendungsbeispiels bieten sich eine Vielzahl unterschiedlicher Theorien zur sozialen Determiniertheit an, z.B. Marx’ Basis-Überbau-Modell, Bourdieus Habitus-Konzept oder Foucaults Machtanalysen, die wiederum unterschiedliche Operationalisierungsmöglichkeiten bieten – vorausgesetzt, dass sie sich überhaupt in computergestützt erkennbare Indikatoren überführen lassen. Entscheidet man sich zum Beispiel dafür, auf das Marx’sche Basis-Überbau-Modell zurückzugreifen, wird man sowohl Indikatoren für die Klassenzugehörigkeit der Figuren, ihre ökonomischen Bedingungen sowie den Nachweis, dass diese ihr Handeln bestimmen, zu entwickeln versuchen.

2.4 Erstellung eines Annotationsschemas1

Annotationsrichtlinien sollen ein zuvor theoretisch bestimmtes Konzept möglichst allgemein, aber zugleich präzise beschreiben, um eine einheitliche, zuverlässige und intersubjektive Annotation zu ermöglichen, wobei Mehrdeutigkeiten zumindest erkannt und dokumentiert werden sollten. Sie umfassen neben festellenden Definitionen bzw. Explikationen des Begriffs insbesondere auch Regeln und Hinweise zur einheitlichen Anwendung der Annotation. Ihre Erstellung verläuft iterativ: Erste Versionen werden durch Anwendung getestet, dabei identifizierte Unzulänglichkeiten überarbeitet und erneut geprüft, bis eine zufriedenstellende Fassung erreicht ist. Im Falle des Prädikates unseres Anwendungsbeispiels ‚x ist sozial determiniert‘ könnten die Annotationsrichtlinien bspw. die Annotation von Figuren, die Annotation ihrer Klassenzugehörigkeit und ihres Eigentums bzw. ihrer Ressourcen sowie minimale und maximale Annotationsspannen umfassen.

2.5 Kollaborative Annotation des Referenzkorpus2

Kollaborative Annotation bezeichnet eine kooperative Praxis, bei der mehrere Forschende dieselben Texte annotieren. Diese Form der Zusammenarbeit erfordert eine sorgfältige Koordination. Ein Standardverfahren zur Bestimmung der Qualität von kollaborativen Annotationen ist die Berechnung des sogenannten Inter-Annotator-Agreements (IAA), das auf unterschiedlichen Maßen für die Bestimmung der Übereinstimmung zwischen zwei oder mehr Annotationen fußt (vgl. Artstein 2017). Die solcherart annotierten Texte bezeichnen wir als Referenzdaten. Sie können im Anschluss zum Trainieren und Testen von Computermodellen eingesetzt werden.

2.6 Training/Fine-Tuning/Prompt-Tuning/Prompten eines Sprachmodells oder Anwendung von statistischen bzw. regelbasierten Methoden

Das Training und die Anpassung eines Sprachmodells für die digitale Textanalyse kann auf verschiedenen Wegen erfolgen, abhängig von der verfügbaren Stichprobengröße und dem Forschungsziel. Bei großen Datensätzen und/oder komplexen Konzepten ist ein vollständiges Fine-Tuning sinnvoll – d.i. das auf Referenzdaten basierende Nachtrainieren eines vortrainerten Modells –, um es gezielt an die Charakteristika literarischer Texte anzupassen. Bei begrenzten Datenmengen und/oder weniger komplexen Konzepten kann Prompt-Tuning oder gezieltes Prompten genutzt werden, um bestehende Modelle ohne aufwendiges Training für spezifische literaturwissenschaftliche Fragestellungen nutzbar zu machen.

Falls keine Sprachmodelle zum Einsatz kommen, erfolgt die algorithmische Textanalyse auf Grundlage traditioneller Machine-Learning-Verfahren (vgl. Hatzel u. a. 2023) oder regelbasierter bzw. statistischer Methoden. Dazu zählen Keyword-Analysen, n-gram-Analysen oder Part-of-Speech-Tagging, um lexikalische und syntaktische Muster zu identifizieren. Ebenso können netzwerkanalytische Verfahren zur Untersuchung von Figurenkonstellationen oder stilometrische Verfahren zur quantitativen Bestimmung stilistischer Eigenheiten verwendet werden.

Die Wahl der (Mess-)Methode hängt von der Forschungsfrage und der daraus entwickelten Operationalisierung der leitenden Begriffe ab. Im Anwendungsbeispiel ließe sich die Erhebung der Indikatoren Klassenzugehörigkeit, ökonomische Bedingungen und deren handlungsleitende Wirkung durch ein Modelltraining auf den vorher erstellten Referenzdaten realisieren, wobei die Teilaufgaben als Klassifikation oder Regression gestaltet werden können.

2.7 Auswertung/Interpretation der Befunde

Zur Analyse bzw. Interpretation der Befunde können sowohl quantitative als auch qualitative Verfahren, oder auch deren Kombination zum Einsatz kommen. Quantitative Verfahren machen dabei typischerweise Gebrauch von statistischen Tests, wobei die dem Test zugrundeliegenden Annahmen zu berücksichtigen sind. Insbesondere die Frage ihrer Repräsentativität ist hier regelmäßig nur schwer zu beantworten, so dass bei der Formulierung von Erkenntnissen insbesondere im Hinblick auf deren Generalisierbarkeit mit Bedacht zu formulieren ist. Bei qualitativen Verfahren haben sich sog. KWIC-Listen (keyword in context) als effizient erwiesen, bei denen die jeweiligen Fundstellen sowie der sie direkt umgebende Kontext tabellarisch dargestellt werden. Je nach Ziel müssen beide Verfahren durch Close Reading ergänzt werden.

Das Anwendungsbeispiel lässt erahnen, welcher Arbeitsaufwand bereits die Überprüfung einer – aus einer traditionell literaturwissenschaftlichen Perspektive – verhältnismäßig simplen Hypothese mit sich bringt. Vollständig durchgeführte reflektierte algorithmische Textanalysen stellen in der bisherigen Forschung daher noch eine Seltenheit dar. Der Fokus liegt gegenwärtig noch häufig auf der Operationalisierung der frage- bzw. hypotheseleitenden Begriffe.

3 Literaturwissenschaftliche Tradition

Reflektierte algorithmische Textanalyse ist ein Arbeitsablauf, der selbst unabhängig von gängigen Literaturtheorien ist, diese jedoch bei der Beantwortung von fachspezifischen Fragen berücksichtigt. Verfahrenslogisch orientiert sie sich an Abläufen des überwachten maschinellen Lernens, der Computerlinguistik und der empirischen Sozialforschung. Durch den Fokus auf die Operationalisierung der zentralen Begriffe einer Forschungsfrage sowie die dabei gegebene Orientierung an Standards der (empirischen) Wissenschaften besteht ein Näheverhältnis zu jüngeren Formen der empirischen (Groeben 2013) und analytischen (Köppe und Winko 2013) Literaturwissenschaft. Wie in letzterer werden auch in einer reflektierten algorithmischen Textanalyse je nach gegebener Fragestellung die für diese relevanten literaturwissenschaftlichen Theorien und Begriffe untersucht und analysiert, um auf Basis dieser Analysen an sie anzuknüpfen bzw. sie zu operationalisieren. Häufig ist es dabei notwendig, operationalisierbare Definitionen von literaturwissenschaftlichen Fachbegriffen aus umfangreicheren Forschungsbeiträgen qua Analyse und Rekonstruktion zu extrahieren.

Das explizite modularisierte Vorgehen stellt in der Literaturwissenschaft hingegen eine Ausnahme dar. Zwar existieren in dieser eine Vielzahl an unterschiedlichen Methoden, die meist an bestimmte literaturtheoretische Ansätze und Schulen gebunden sind. Diese Methoden werden jedoch jenseits von einführenden Studienbüchern und Qualifikationsschriften selten explizit gemacht und noch seltener modularisiert. Wie die jüngere Forschung zur Praxeologie der Literaturwissenschaft zeigt (Martus und Spoerhase 2022), handelt es sich bei vielen der literaturwissenschaftlichen Verfahren und Methoden um Praktiken, die im Zuge der wissenschaftlichen Sozialisation gelernt und inkorporiert werden.

4 Diskussion

Reflektierte algorithmische Textanalyse ist ein Verfahren der digitalen Geisteswissenschaften im Allgemeinen und der digitalen Literaturwissenschaft im Besonderen, das sich durch seine Orientierung an den Fragen der ‚traditionellen‘ Forschung kennzeichnet. Diese Orientierung betrifft sowohl die verwendeten Begriffe wie auch die behandelten Fragen. In Bezug auf die behandelten Fragen setzt eine reflektierte Textanalyse stets beim Forschungsstand der nicht-digitalen Fachwissenschaft ein, um aus dieser entweder Fragen zu beziehen oder bereits gegebene Antworten auf selbige zu überprüfen. Dasselbe gilt für die verwendeten Begriffe. Auch bei diesen wird vom Gebrauch bzw. von Definitionen aus der nicht-digitalen Forschung ausgegangen, um diese, nach einer eingehenden Bedeutungsanalyse, der jeweiligen Fragestellung entsprechend zu explizieren und zu operationalisieren.

Während die reflektierte Textanalyse ihre Fragen und Begriffe aus der ‚traditionellen‘ literaturwissenschaftlichen Forschung bezieht, unterscheidet sie sich von dieser darin, dass sie meist nur eine oder wenige Fragen und die für diese relevanten Begriffe behandelt und sich dementsprechend meist nur auf eine einzige Dimension der untersuchten Texte beschränkt. Auch auf sie trifft daher einer der weit verbreiteten Vorwürfe gegenüber dem Einsatz digitaler Verfahren in den Geisteswissenschaften zu, nämlich dass diese unter hohem personellem und zeitlichen Aufwand bloß alte Thesen bestätigten bzw. widerlegten (Jannidis 2022). Sieht man in Hinblick auf diesen Vorwurf von der altbekannten wissenschaftstheoretischen Debatte ab, wie sich das an Originalität und Innovativität orientierende Wissenschaftsparadigma, das im Hintergrund dieser Kritik steht, zum Wissenschaftsbegriff eines szientifischen Empirismus verhält, kann auf den weiteren Mehrwert des Verfahrens für die nicht-digitale Forschung verwiesen werden. Der Mehrwert resultiert aus der Möglichkeit zur textnahen Reflexion (a) des fachspezifischen Begriffsgebrauchs, sowie (b) der im Zuge dieser Reflexion zu Tage tretenden literaturtheoretischen Konsequenzen. Letztere können auch jenseits der Hypothesenresultate fachintern produktiv gemacht werden (Gius und Jacke 2017).

Literaturverzeichnis

Artstein, Ron. 2017. Inter-annotator Agreement. In: Handbook of Linguistic Annotation, hg. von Nancy Ide und James Pustejovsky, 297–313. Dordrecht: Springer Netherlands. doi: 10.1007/978-94-024-0881-2_11, http://link.springer.com/10.1007/978-94-024-0881-2_11 (zugegriffen: 16. Oktober 2025).

Burzan, Nicole. 2019. Indikatoren. In: Handbuch Methoden der empirischen Sozialforschung, hg. von Nina Baur und Jörg Blasius, 1415–1422. Wiesbaden: Springer Fachmedien Wiesbaden. doi: 10.1007/978-3-658-21308-4_105, http://link.springer.com/10.1007/978-3-658-21308-4_105 (zugegriffen: 14. April 2025).

Gius, Evelyn und Janina Jacke. 2017. The Hermeneutic Profit of Annotation: On Preventing and Fostering Disagreement in Literary Analysis. International Journal of Humanities and Arts Computing 11, Nr. 2 (Oktober): 233–254. doi: 10.3366/ijhac.2017.0194, https://www.euppublishing.com/doi/10.3366/ijhac.2017.0194 (zugegriffen: 14. April 2025).

Groeben, Norbert. 2013. Was kann/soll ›Empirisierung (in) der Literaturwissenschaft‹ heißen? In: Empirie in der Literaturwissenschaft, hg. von Philip Ajouri, Katja Mellmann, und Christoph Rauen, 47–74. Brill mentis, 1. Januar. doi: 10.30965/9783957439710_005, https://brill.com/view/book/edcoll/9783957439710/B9783957439710_s005.xml (zugegriffen: 14. April 2025).

Hatzel, Hans Ole, Haimo Stiemer, Chris Biemann und Evelyn Gius. 2023. Machine learning in computational literary studies. it - Information Technology 65, Nr. 4 (27. August): 200–217. doi: 10.1515/itit-2023-0041, https://www.degruyter.com/document/doi/10.1515/itit-2023-0041/html (zugegriffen: 14. April 2025).

Jacke, Janina. 2024. Methodenbeitrag: Kollaboratives literaturwissenschaftliches Annotieren 1, Nr. 4. doi: 10.48694/FORTEXT.3749, https://www.fortext-hefte.de/article/id/3749/ (zugegriffen: 15. April 2025).

———. 2025. Operationalization and Interpretation Dependence in Computational Literary Studies 4, Nr. 1. doi: 10.48694/JCLS.3959, https://jcls.io/article/id/3959/ (zugegriffen: 14. April 2025).

Jannidis, Fotis. 2022. Digitale Literaturwissenschaft. Zur Einführung. In: Digitale Literaturwissenschaft: DFG-Symposion 2017, hg. von Fotis Jannidis, 1–16. Stuttgart: J.B. Metzler. doi: 10.1007/978-3-476-05886-7_1, https://doi.org/10.1007/978-3-476-05886-7_1.

Köppe, Tilmann und Simone Winko. 2013. Analytische Literaturtheorie. In: Neuere Literaturtheorien, 275–292. Stuttgart: J.B. Metzler. doi: 10.1007/978-3-476-00915-9_13, http://link.springer.com/10.1007/978-3-476-00915-9_13 (zugegriffen: 14. April 2025).

Krautter, Benjamin, Axel Pichler und Nils Reiter. 2023. Operationalisierung. In: Begriffe der Digital Humanities. Ein diskursives Glossar, hg. von AG Digital Humanities Theorie des Verbandes Digital Humanities im deutschsprachigen Raum e. V. Zeitschrift für digitale Geisteswissenschaften / Working Papers 2. Wolfenbüttel: Zeitschrift für digitale Geisteswissenschaften – ZfdG. doi: 10.17175/wp_2023_010, (zugegriffen: 14. April 2025).

Martus, Steffen und Carlos Spoerhase. 2022. Geistesarbeit: eine Praxeologie der Geisteswissenschaften. 1. Aufl. Suhrkamp-Taschenbuch Wissenschaft 2379. Berlin: Suhrkamp.

Nguyen, Dong, Maria Liakata, Simon DeDeo, Jacob Eisenstein, David Mimno, Rebekah Tromble und Jane Winters. 2020. How We Do Things With Words: Analyzing Text as Social and Cultural Data. Frontiers in Artificial Intelligence 3 (25. August): 62. doi: 10.3389/frai.2020.00062, https://www.frontiersin.org/article/10.3389/frai.2020.00062/full (zugegriffen: 14. April 2025).

Pichler, Axel und Nils Reiter. 2020. Reflektierte Textanalyse. In: Reflektierte algorithmische Textanalyse, hg. von Nils Reiter, Axel Pichler, und Jonas Kuhn, 43–60. De Gruyter, 20. Juli. doi: 10.1515/9783110693973-003, https://www.degruyter.com/document/doi/10.1515/9783110693973-003/html (zugegriffen: 14. April 2025).

———. 2021. Zur Operationalisierung literaturwissenschaftlicher Begriffe in der algorithmischen Textanalyse. Eine Annäherung über Norbert Altenhofers hermeneutische Modellinterpretation von Kleists Das Erdbeben in Chili. Journal of Literary Theory 15, Nr. 1 (31. Dezember): 1–29. doi: 10.1515/jlt-2021-2008, https://www.degruyter.com/document/doi/10.1515/jlt-2021-2008/html (zugegriffen: 14. April 2025).

Piper, Andrew. 2017. Think Small: On Literary Modeling. PMLA/Publications of the Modern Language Association of America 132, Nr. 3 (Mai): 651–658. doi: 10.1632/pmla.2017.132.3.651, https://www.cambridge.org/core/product/identifier/S0030812900116128/type/journal_article (zugegriffen: 14. April 2025).

Reiter, Nils. 2020. Anleitung zur Erstellung von Annotationsrichtlinien. In: Reflektierte algorithmische Textanalyse, hg. von Nils Reiter, Axel Pichler, und Jonas Kuhn, 193–202. De Gruyter, 20. Juli. doi: 10.1515/9783110693973-009, https://www.degruyter.com/document/doi/10.1515/9783110693973-009/html (zugegriffen: 14. April 2025).

Notes

  1. Vgl. Reiter (2020) [^]
  2. Vgl. Jacke (2024) [^]