<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3717</article-id>
<title-group>
<article-title>Methodenbeitrag: Topic Modeling</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<pub-date date-type="pub" publication-format="electronic" iso-8601-date="2024-07-10">
<day>10</day>
<month>7</month>
<year>2024</year>
</pub-date>
<volume>1</volume>
<issue>8</issue>
<issue-title>Topic Modeling</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 15.01.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/topic-modeling">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2018-01-15">
<day>15</day>
<month>01</month>
<year>2018</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 15.01.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/topic-modeling">fortext.net</ext-link></p>
<sec id="definition">
  <title>1. Definition</title>
  <p><xref alt="Topic Modeling" rid="glossary-topic-modeling">Topic
  Modeling</xref> ist ein auf Wahrscheinlichkeitsrechnung basierendes
  Verfahren zur Exploration (vgl.
  <xref alt="Text Mining" rid="glossary-text-mining">Text Mining</xref>)
  größerer Textsammlungen (vgl.
  <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>). Das Verfahren
  erzeugt statistische Modelle (Topics) zur Abbildung häufiger
  gemeinsamer Vorkommnisse von Wörtern.</p>
  <fig>
    <caption><p>Abb. 1: Beispiele für Wörter des Topics
    „Theater“</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Topic_Theater-p.png" />
  </fig>
</sec>
<sec id="definition-1">
  <title>1. Definition</title>
  <p>Die Methode des Topic Modeling bietet die Möglichkeit,
  Textsammlungen thematisch zu explorieren. Dabei geht man davon aus,
  dass eine Textsammlung aus unterschiedlichen ‚Themen’ bzw. besser:
  ‚Topics’ besteht, die in den einzelnen Dokumenten der Sammlung in
  unterschiedlicher Ausprägung vertreten sind. Unter einem ‚Topic’
  versteht man dabei eine Gruppe von Wörtern (wie zum Beispiel die
  Wörter „Theater“, „Schauspieler“ und „Stück“), die in einem Text
  ungewöhnlich – d. h. statistisch auffällig – oft gemeinsam vorkommen.
  Ein ‚Topic’ ist also ein statistisches Phänomen und damit zwar eine
  Entsprechung, aber nicht exakt das Gleiche wie ein (inhaltlich
  definiertes) Thema.</p>
</sec>
<sec id="anwendungsbeispiel">
  <title>2. Anwendungsbeispiel</title>
  <p>Angenommen, Sie möchten den Inhalt einer größeren Textsammlung –
  wie beispielsweise das Œuvre Therese Hubers oder auch die gesamte
  Prosaliteratur des 18. und 19. Jahrhunderts – erforschen. Digitale
  Verfahren können Sie dabei mit Methoden unterstützen, die dem
  <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
  Reading</xref> zugeordnet werden. Ohne jeden Text der Sammlung
  individuell zu lesen, wird es dadurch möglich, die Texte untereinander
  zu vergleichen. Abhängig von der Größe Ihrer Textsammlung können Sie
  selbst entscheiden, wie viele ‚Topics’ erstellt werden und wie groß
  diese Topics sein sollen. Als Nutzer*in der Methode modellieren Sie
  die Topics so lange, bis sie Ihnen aussagekräftig genug erscheinen, um
  anschließend zu untersuchen, welche Topics in welchen Texten besonders
  oft vertreten sind – oder auch umgekehrt, welche Texte ein gegebenes
  Topic besonders stark ‚thematisieren’.</p>
</sec>
<sec id="literaturwissenschaftliche-tradition">
  <title>3. Literaturwissenschaftliche Tradition</title>
  <p>In seinem Beitrag zur Inhaltsanalyse im Handbuch
  Literaturwissenschaft konstatiert Anz
  (<xref alt="2007, 57" rid="ref-anzInhaltsanalyse2007" ref-type="bibr">2007,
  57</xref>): „Eine Beschäftigung vor allem mit Textinhalten setzt sich
  in der Literaturwissenschaft dem topischen Vorwurf oder Verdacht aus,
  die Formen von Texten zu vernachlässigen“. Die Betrachtung der
  Interdependenzen von Inhalt und Form bildet daher nicht selten den
  Kern von Analysen beispielsweise der Literarizität von Texten.
  Bei der Erschließung eines zu erforschenden Textes ist jedoch häufig
  der erste Schritt, sich einen Überblick über die im Text behandelten
  Themen zu verschaffen, d. h. nach einem „Leitgedanken [zu suchen],
  nach dem sich [sein] Inhalt zusammenfassen läßt“
  (<xref alt="Schulz 2003, 634" rid="ref-schulzThema2003" ref-type="bibr">Schulz
  2003, 634</xref>), oder auch nach der „abstrakte[n]
  Grundkonstellation, die in Darstellung und Geschehen konkret
  ausgestaltet wird“ (ebd.). Durch den Vergleich von in der Literatur
  wiederkehrenden Themen wird es möglich, „sowohl Rückschlüsse auf den
  Vorgang der menschlichen Orientierung im Dasein als auch auf die in
  ihm zum Ausdruck kommenden geistesgeschichtlichen Umschichtungen einer
  Zeit“
  (<xref alt="Daemmrich und Daemmrich 1995" rid="ref-daemmrichThemenUndMotive1995" ref-type="bibr">Daemmrich
  und Daemmrich 1995</xref>) zu ziehen.
  Die den Topics etymologisch näheren literarischen Topoi bezeichnen
  seit Curtius
  (<xref alt="1948" rid="ref-curtiusEuropaischeLiteraturUnd1948" ref-type="bibr">1948</xref>)
  solche literarischen Gemeinplätze, die aufgrund ihres hohen Alters
  „zwischen Altehrwürdigkeit und Abgegriffenheit“
  (<xref alt="Müller 2004, 279" rid="ref-mullerTopikToposforschung2004" ref-type="bibr">Müller
  2004, 279</xref>) schwanken. Oft ist es auch die thematische
  Schwerpunktsetzung, die einen Vergleich unterschiedlicher Texte des
  gleichen Autors oder verschiedener Autoren initiiert. Die „Stoff- und
  Motivgeschichte“ bzw. die „Thematologie“ wird daher auch als
  „Teildisziplin der Komparatistik“
  (<xref alt="Lubkoll 2004, 255" rid="ref-lubkollStoffUndMotivgeschichte2004" ref-type="bibr">Lubkoll
  2004, 255</xref>) bezeichnet. Nicht zuletzt liegt jeder
  Literaturgeschichtsschreibung (a) eine große Menge an Texten und (b)
  die nachgewiesene Kenntnis der Inhalte dieser Texte zugrunde
  (<xref alt="Anz 2007, 55" rid="ref-anzInhaltsanalyse2007" ref-type="bibr">Anz
  2007, 55</xref>). Auch eher kulturwissenschaftlich ausgerichteten
  literaturwissenschaftlichen Arbeiten geht häufig eine Orientierung auf
  motiv- oder themengeschichtliche Zusammenhänge von literarischen und
  nicht-literarischen Texten voraus.
  Als Literaturwissenschaftler*innen dient uns bei der Auswahl
  thematisch relevanter Texte für eine Fragestellung bislang häufig die
  eigene Forschungshistorie oder das angeeignete Fachwissen über mehr
  oder weniger kanonisierte Texte. Die Methode des Topic Modeling eignet
  sich zunächst gut, um große Textsammlungen zu explorieren,
  gleichzeitig bilden jedoch auch literaturwissenschaftliche Kenntnisse
  über zumindest eine Teilmenge der analysierten Texte bzw. die Art und
  Weise der Behandlung bestimmter stofflicher Phänomene durch eine
  Autorin wichtige Grundbedingungen, um die entstehenden Topics
  interpretieren zu können.</p>
</sec>
<sec id="diskussion">
  <title>4. Diskussion</title>
  <p>Gerade bei größeren Textsammlungen wie der Prosaliteratur des 19.
  Jahrhunderts oder auch umfangreichen Texten wie z. B. Prousts
  <italic>Recherche</italic> werden Sie als Literaturwissenschaftler*in
  häufig nicht die Kapazitäten haben, sämtliche Texte detailliert zu
  lesen bzw. zu analysieren (vgl.
  <xref alt="Close Reading" rid="glossary-close-reading">Close
  Reading</xref>). Zusätzlich ist es dem menschlichen Gehirn nicht
  möglich, Textmengen ab einer bestimmten Größe gleichzeitig zu
  überschauen und insgesamt miteinander zu vergleichen. Die Methode
  verspricht durch die Fokussierung auf die Thematik, sich den
  semantischen Strukturen der analysierten Texte zu nähern – wodurch sie
  sich von rein quantitativen DH-Methoden unterscheidet. Betont werden
  sollte dabei, dass die resultierenden Topics nicht selbst die Semantik
  der Texte abbilden, sondern dass textimmanente Bedeutungsstrukturen in
  ihnen abgelesen werden können. Literaturwissenschaftliches Fachwissen
  ist bei der Auswertung daher unumgänglich, weshalb auch die
  Topic-Modeling-Exploration eines mittelgroßen
  <xref alt="Korpus" rid="glossary-korpus">Korpus</xref> viele Vorteile
  bietet
  (<xref alt="Weitin und Herget 2016, 3f" rid="ref-weitinFalkentopics2016" ref-type="bibr">Weitin
  und Herget 2016, 3f</xref>.).
  Jannidis
  (<xref alt="2016, 27" rid="ref-jannidisQuantitativeAnalyseLiterarischer2016" ref-type="bibr">2016,
  27</xref>) beobachtet: „Schon früh ist den Fachwissenschaftlern, die
  mit Computerlinguisten und Informatikern an Topic-Modeling-Projekten
  arbeiten, aufgefallen, dass auch Worte, die aufgrund von bestimmten
  rhetorischen Strukturen auftauchen, als ‚Thema’ zusammengefasst
  wurden“. Diese rhetorischen Strukturen gehen jedoch schnell verloren,
  wenn man beispielsweise ausschließlich Topics aus Substantiven bildet,
  wie Jockers
  (<xref alt="2013" rid="ref-jockersSecretRecipeTopic2013" ref-type="bibr">2013</xref>)
  es durchführt.
  „Topics“ sollten zudem nicht mit literarischen „Themen“ gleichgesetzt
  werden. Während Topics Häufigkeiten und Verteilungen ausschließlich
  auf der Wortoberfläche abbilden, können Themen auch implizit sein: Das
  virulente Thema der Homosexualität in Prousts
  <italic>Recherche</italic> wird als solches beispielsweise nie direkt
  adressiert, geschweige denn benannt. Topics sind daher für sich keine
  Themen, können jedoch als solche interpretiert werden, wodurch der
  Methode der Charakter einer textanalytischen Heuristik zugesprochen
  werden kann. Topics sind daher weniger ‚Themen’ als vielmehr ein
  Indikator für den jeweils verarbeiteten literarischen Stoff: „Anders
  als Stoff bezeichnet Thema nicht das konkrete, an
  Figurenkonstellationen und Handlungszüge gebundene Material, das in
  einem Text verarbeitet wird, sondern die darin enthaltene
  Problemkonstellation: ‚Romeo und Julia’ (Stoff) vs. ‚illegitime
  Liebesbeziehung’ (Thema, aber auch Motiv)“
  (<xref alt="Schulz 2003, 634" rid="ref-schulzThema2003" ref-type="bibr">Schulz
  2003, 634</xref>). Diese Abgrenzung ziehen wir jedoch auch in der
  Literaturwissenschaft selbst nicht immer strikt: Daemmrich und
  Daemmrich
  (<xref alt="Daemmrich und Daemmrich 1995" rid="ref-daemmrichThemenUndMotive1995" ref-type="bibr">Daemmrich
  und Daemmrich 1995</xref>, XIII) sprechen von der „Tendenz, die
  Kategorie [Stoff] zu erweitern und sie anderen Begriffen wie Sujet,
  Topos, Motiv, Mythos und Thema anzugleichen“. Die dem Stoff implizit
  eingeschriebenen Themen müssen Sie im Zuge der
  literaturwissenschaftlichen Auslegung der erhaltenen Topics
  feststellen.</p>
</sec>
<sec id="technische-grundlagen">
  <title>5. Technische Grundlagen</title>
  <p>Der im Topic Modeling am häufigsten genutzte Algorithmus wurde von
  Blei, Ng und Jordan
  (<xref alt="2003" rid="ref-bleiLatentDirichletAllocation2003" ref-type="bibr">2003</xref>)
  unter dem Namen Latent Dirichlet Allocation
  (<xref alt="LDA" rid="glossary-lda">LDA</xref>) entwickelt
  (<xref alt="Blei 2012" rid="ref-bleiProbabilisticTopicModels2012" ref-type="bibr">Blei
  2012</xref>) und liegt auch dem Tool
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://mallet.cs.umass.edu/topics.php">Mallet</ext-link>
  zugrunde. Er basiert auf einer wiederholt zufälligen Auswahl an
  Textsegmenten, wobei innerhalb dieser Segmente jeweils die
  statistische Häufung von Wortgruppen erfasst wird. Der Algorithmus
  berechnet somit die Topics der Textsammlung, die Topic-Anteile in den
  Einzeltexten und welche Wörter zu den jeweiligen Topics gehören.
  Als Nutzer*in können Sie die Menge und Größe der zu erstellenden
  Topics sowie die Anzahl der Iterationen bestimmen. Mallet können Sie
  beispielsweise in der Software
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.r-project.org">R</ext-link>
  nutzen; Ihnen wird hier jedoch keine grafische Nutzeroberfläche (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>) geboten, sodass
  grundlegende Kenntnisse im Coding (vgl.
  <xref alt="CODE" rid="glossary-code">CODE</xref>) vonnöten sind, um
  die Texte vorzubereiten, dann das Topic Modeling selbst durchzuführen
  und schließlich die Ergebnisse auszuwerten und zu visualisieren.
  Besonders hilfreich ist hier die für die Bedarfe und Horizonte von
  Geisteswissenschaftler*innen zugeschnittene Einführung von Jockers
  (<xref alt="2014" rid="ref-jockersTextAnalysisStudents2014a" ref-type="bibr">2014</xref>),
  die auch ein Kapitel zum Topic Modeling enthält. Für den Einstieg
  bietet sich die Arbeit mit dem DARIAH Topics Explorer
  (<xref alt="Schumacher 2024a" rid="ref-schumacherToolbeitragDARIAHTopics2018" ref-type="bibr">Schumacher
  2024a</xref>) an, in dem Sie Topics mithilfe einer grafischen
  Nutzeroberfläche modellieren können.
  Topic Modeling ist ein probabilistisches, unüberwachtes Verfahren
  (vgl.
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref>), d. h. Sie können zwar die genannten Parameter
  bestimmen und die Ergebnisse analysieren, in den automatischen Prozess
  der Modellierung selbst haben Sie jedoch keinen direkten Einblick und
  die Textsegmentauswahl erfolgt zufällig. Da die Ergebnisse des Topic
  Modelings auf komplexen Wahrscheinlichkeitsberechnungen basieren, ist
  ein Topic Modeling – auch wenn Sie die wählbaren Parameter (vgl.
  <xref alt="Hyperparameter" rid="glossary-hyperparameter">Hyperparameter</xref>)
  gleich einstellen – nicht eins zu eins reproduzierbar, wenn auch eine
  große Ähnlichkeit unter den entstehenden Topics zu erkennen ist.
  Außerdem macht das Verfahren Gebrauch von einer
  <xref alt="Stoppwortliste" rid="glossary-stoppwortliste">Stoppwortliste</xref>,
  die für gewöhnlich die in Texten am häufigsten verwendeten, für sich
  genommen jedoch selten einen eigenen semantischen Wert aufweisenden
  Wörter (MFW = <italic>most frequent words</italic>) enthält. Die
  Stoppwortliste erweitern Sie nach jedem vollständigen Durchlauf um
  diejenigen Wörter, die in den resultierenden Topics auftauchen, jedoch
  keinen Erkenntnismehrwert bringen.</p>
  <p>Um die Ergebnisse zu verfeinern, können Sie im Zuge des
  <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>
  der Texte außerdem mehrere Aktionen durchführen:</p>
  <list list-type="order">
    <list-item>
      <p>Um eine getrennte Behandlung von (am Satzanfang) groß und
      (innerhalb des Satzes) klein geschriebenen Varianten desselben
      Wortes zu vermeiden, wandelt man in der Regel sämtliche Buchstaben
      in Kleinbuchstaben um.</p>
    </list-item>
    <list-item>
      <p>Eine Lemmatisierung (vgl.
      <xref alt="Lemmatisieren" rid="glossary-lemmatisieren">Lemmatisieren</xref>)
      bewirkt, dass Varianten eines Wortes auf ihre Grundform (Lemma)
      reduziert und folglich als gleiches Wort behandelt werden
      können.</p>
    </list-item>
    <list-item>
      <p>Ein <italic>part of speech</italic>-Tagging
      (<xref alt="POS" rid="glossary-pos">POS</xref>-Tagging) ermöglicht
      Ihnen die getrennte Untersuchung von ausgewählten Wortgruppen.
      Einige Forscher betreiben Topic Modeling beispielsweise
      ausschließlich mit Substantiven
      (<xref alt="Jockers 2013" rid="ref-jockersSecretRecipeTopic2013" ref-type="bibr">Jockers
      2013</xref>).</p>
    </list-item>
    <list-item>
      <p>Eine Annotation der
      <xref alt="Named Entities" rid="glossary-named-entities">Named
      Entities</xref> ermöglicht es Ihnen, alle Eigennamen gebündelt aus
      dem Topic Modeling auszuschließen. Alternativ müssen Sie die in
      den Topics auftauchenden Eigennamen nach jedem Durchgang auf die
      <xref alt="Stoppwortliste" rid="glossary-stoppwortliste">Stoppwortliste</xref>
      setzen, wenn sie nicht in den Ergebnissen vertreten sein sollen –
      zur Problematik von Eigennamen im Topic Modeling
      (<xref alt="Jockers 2013" rid="ref-jockersSecretRecipeTopic2013" ref-type="bibr">Jockers
      2013</xref>). (Mehr zur Named Entity Recognition bei Schumacher
      (<xref alt="2024b" rid="ref-schumacherMethodenbeitragNamedEntity2018" ref-type="bibr">2024b</xref>))</p>
    </list-item>
  </list>
  <p>Sind Sie mit dem Ergebnis der entstehenden Topics in Umfang und
  Genauigkeit zufrieden, haben Sie unterschiedliche Möglichkeiten der
  Visualisierung (vgl. Textvisualisierung
  (<xref alt="Horstmann und Stange 2024" rid="ref-horstmannMethodenbeitragTextvisualisierung2018" ref-type="bibr">Horstmann
  und Stange 2024</xref>)): Topics werden zunächst als Wortliste
  herausgegeben, die sich in R aber beispielsweise auch als
  <xref alt="Wordcloud" rid="glossary-wordcloud">Wordcloud</xref>s
  darstellen lassen. Um die eigene Textsammlung zu explorieren, bietet
  es sich an, für alle oder ausgewählte Topics Balkendiagramme erstellen
  zu lassen, die anzeigen, wie häufig das jeweilige Topic in den
  einzelnen Dokumenten der Textsammlung vorkommt (‚documents per
  topic’). Interessieren Sie sich für bestimmte Texte der Sammlung,
  lässt sich ebenso anzeigen, wie häufig die einzelnen Topics in den
  jeweiligen Texten vorkommen (‚topics per document’).</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>Mallet:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://mallet.cs.umass.edu/topics.php">https://web.archive.org/save/http://mallet.cs.umass.edu/topics.php</ext-link>
      (Letzter Zugriff: 22.08.2024)</p>
    </list-item>
    <list-item>
      <p>Software R:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.r-project.org">https://web.archive.org/save/https://www.r-project.org</ext-link>
      (Letzter Zugriff: 28.07.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-close-reading">Close
      Reading</styled-content></term>
      <def>
        <p>Close Reading bezeichnet die sorgfältige Lektüre und
        Interpretation eines einzelnen oder weniger Texte. Close Reading
        ist in der digitalen Literaturwissenschaft außerdem mit der
        manuellen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        textueller Phänomene verbunden (vgl. auch
        <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
        Reading</xref> als Gegenbegriff).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-code">CODE</styled-content></term>
      <def>
        <p>Der Code, oder auch Programmcode/ Maschinencode, bezieht sich
        auf eine Sammlung von Anweisungen, die durch verschiedene
        Programmiersprachen wie Java, Python oder C realisiert werden
        können. Für die Ausführung der Anweisungen wird der Code durch
        einen Compiler oder einen Interpreter in die Maschinensprache,
        einen Binärcode, des Computers übersetzt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-data-mining">Data
      Mining</styled-content></term>
      <def>
        <p>Data Mining gehört zum Fachbereich
        <xref alt="Information Retrieval" rid="glossary-information-retrieval">Information
        Retrieval</xref> und bezieht sich auf die systematische
        Anwendung computergestützter Methoden, die darauf abzielt, in
        vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu
        erkennen. Textbasierte Formen des Data Minings sind u. a.
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>,
        <xref alt="Web Mining" rid="glossary-web-mining">Web
        Mining</xref> und
        <xref alt="Opinion Mining" rid="glossary-opinion-mining">Opinion
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-distant-reading">Distant
      Reading</styled-content></term>
      <def>
        <p>Distant Reading ist ein Ansatz aus den digitalen
        Literaturwissenschaften, bei dem computationelle Verfahren auf
        häufig große Mengen an Textdaten angewandt werden, ohne dass die
        Texte selber gelesen werden. Meist stehen hier quantitative
        Analysen im Vordergrund, es lassen sich jedoch auch qualitative
        <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
        quantitativ vergleichen. Als Gegenbegriff zu
        <xref alt="Close Reading" rid="glossary-close-reading"><italic>Close
        Reading</italic></xref> wurde der Begriff insbesondere von
        Franco Moretti (2000) geprägt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-hyperparameter">Hyperparameter</styled-content></term>
      <def>
        <p>Hyperparameter beziehen sich auf externe, anpassbare
        Einstellungen, die genutzt werden um den Lernprozess zu
        kontrollieren und zu beeinflussen (zu modellinternen Parametern
        siehe
        <xref alt="Parameter" rid="glossary-parameter">Parameter</xref>).
        Sie sind unabhängig vom Datensatz und beziehen sich
        beispielsweise auf Einstellungen wie Anzahl der Iterationen,
        Größe der Datensätze oder Kontextfenster.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-information-retrieval">Information
      Retrieval</styled-content></term>
      <def>
        <p>Die Teildisziplin der Informatik, das Information Retrieval,
        beschäftigt sich mit der computergestützten Suche und
        Erschließung komplexer Informationen in meist unstrukturierten
        Datensammlungen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lda">LDA</styled-content></term>
      <def>
        <p>LDA steht für <italic>Latent Dirichlet Allocation </italic>
        und ist ein generatives, statistisches
        Wahrscheinlichkeitsmodell, welches zum
        <xref alt="Topic Modeling" rid="glossary-topic-modeling">Topic
        Modeling</xref> angewendet werden kann. Bei der LDA werden auf
        Grundlage eines Wahrscheinlichkeitsmodells Wortgruppen aus
        Textdokumenten erstellt. Dabei wird jedes Dokument als eine
        Mischung von verborgenen Themen betrachtet und jedes Wort einem
        Thema zugeordnet. Wortreihenfolgen und Satzzusammenhänge spielen
        dabei keine Rolle.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-opinion-mining">Opinion
      Mininig</styled-content></term>
      <def>
        <p>Unter Opinion Mining, oder Sentiment Analysis, versteht man
        die Analyse von Stimmungen oder Haltungen gegenüber einem Thema,
        durch die Analyse natürlicher Sprache. Das Opinion Mining gehört
        zu den Verfahren des
        <xref alt="Text Minings" rid="glossary-text-mining">Text
        Minings</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-parameter">Parameter</styled-content></term>
      <def>
        <p>Im Kontext von Machine-Learning-Modellen handelt es sich bei
        (Modell-)Parametern um modellinterne Konfigurationsvariablen,
        die anhand des Trainingssatzes bestimmt werden (zu
        modellexternen Parametern siehe
        <xref alt="Hyperparameter" rid="glossary-hyperparameter">Hyperparameter</xref>
        ). Als Parameter werden einerseits Aspekte benannt, die den
        Lernprozess bestimmen und andererseits solche, die dabei erlernt
        werden. Die Werte der Parameter ergeben sich aus dem Datensatz
        selbst. Werte solcher Parameter können beispielsweise die
        Gewichtungen in neuronalen Netzwerken sein, also welche Aspekte
        im Trainingsprozess besonders einflussreich sind (z. B. können
        Wörter im direkten Umfeld eines Zielwortes als wichtiger
        bewertet werden also solche, die weit von diesem entfernt
        stehen) oder etwa wie die Gewichtung (also die Reihenfolge) der
        einzelnen Wörter innerhalb der Topics beim Topic Modeling.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-stoppwortliste">Stoppwortliste</styled-content></term>
      <def>
        <p>Stoppwörter sind hochfrequente Wörter, meist Funktionswörter,
        die, aufgrund ihrer grammatisch bedingten Häufigkeit,
        beispielsweise die Ergebnisse von inhaltlichen oder thematischen
        Analysen verzerren können. Deshalb werden diese Wörter,
        gesammelt in einer Stoppwortliste, bei digitalen Textanalysen
        meist nicht berücksichtigt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-text-mining">Text
      Mining</styled-content></term>
      <def>
        <p>Das Text Mining ist eine textbasierte Form des
        <xref alt="Data Minings" rid="glossary-data-mining">Data
        Minings</xref>. Prozesse &amp; Methoden, computergestützt und
        automatisch Informationen bzw. Wissen aus unstrukturierten
        Textdaten zu extrahieren, werden als Text Mining
        zusammengefasst.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-topic-modeling">Topic
      Modeling</styled-content></term>
      <def>
        <p>Das Topic Modeling ist ein statistisches, auf
        Wahrscheinlichkeitsrechnung basierendes, Verfahren zur
        thematischen Exploration größerer Textsammlungen. Das Verfahren
        erzeugt „Topics“ zur Abbildung häufig gemeinsam vorkommender
        Wörter in einem Text. Für die Durchführung können verschiedene
        Algorithmen und Modelle wie das
        <xref alt="LDA" rid="glossary-lda">LDA</xref> verwendet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-web-mining">Web
      Mining</styled-content></term>
      <def>
        <p>Unter Web Mining versteht man die Anwendung von Techniken des
        <xref alt="Data Mining" rid="glossary-data-mining">Data
        Mining</xref> zur Extraktion von Informationen aus dem World
        Wide Web. Das Web Mining ist ein Teilbereich des Data Minings
        und zählt zu einem der wichtigsten Anwendungsgebiete für das
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-wordcloud">Wordcloud</styled-content></term>
      <def>
        <p>Eine <italic>Wordcloud</italic>, oder auch Schlagwortwolke,
        ist eine Form der Informationsvisualisierung, beispielsweise von
        Worthäufigkeiten in einem Text oder einer Textsammlung. Dabei
        werden unterschiedlich gewichtete Wörter, wie die häufigsten
        Wörter, i.d.R. größer oder auf andere Weise hervorgehoben
        dargestellt. Die horizontale/vertikale Ausrichtung und die Farbe
        der dargestellten Wörter hat meistens allerdings keinen
        semantischen Mehrwert.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-anzInhaltsanalyse2007">
    <mixed-citation>Anz, Thomas, Hrsg. 2007. Inhaltsanalyse. In:
    <italic>Handbuch Literaturwissenschaft</italic>, 2: Methoden und
    Theorien:55–69. Stuttgart, Weimar: Metzler.</mixed-citation>
  </ref>
  <ref id="ref-bleiProbabilisticTopicModels2012">
    <mixed-citation>Blei, David M. 2012. Probabilistic topic models.
    <italic>Communications of the ACM</italic> 55, Nr. 4 (April): 77–84.
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/2133806.2133826">10.1145/2133806.2133826</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://dl.acm.org/doi/10.1145/2133806.2133826">https://dl.acm.org/doi/10.1145/2133806.2133826</ext-link>
    (zugegriffen: 14. Juli 2020).</mixed-citation>
  </ref>
  <ref id="ref-bleiLatentDirichletAllocation2003">
    <mixed-citation>Blei, David M, Andrew Y Ng und Michael I Jordan.
    2003. Latent Dirichlet Allocation. <italic>Journal of Machine
    Learning Research</italic> 3, Nr. Jan: 993–1022.</mixed-citation>
  </ref>
  <ref id="ref-curtiusEuropaischeLiteraturUnd1948">
    <mixed-citation>Curtius, Ernst Robert. 1948. <italic>Europäische
    Literatur und lateinisches Mittelalter</italic>. Bern:
    Francke.</mixed-citation>
  </ref>
  <ref id="ref-daemmrichThemenUndMotive1995">
    <mixed-citation>Daemmrich, Horst S. und Ingrid G. Daemmrich. 1995.
    <italic>Themen und Motive in der Literatur. Ein Handbuch</italic>.
    Tübingen, Basel: Francke.</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragTextvisualisierung2018">
    <mixed-citation>Horstmann, Jan und Jan-Erik Stange. 2024.
    Methodenbeitrag: Textvisualisierung. Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 5. Textvisualisierung (7. August).
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3772">10.48694/fortext.3772</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/textvisualisierung">https://fortext.net/routinen/methoden/textvisualisierung</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-jannidisQuantitativeAnalyseLiterarischer2016">
    <mixed-citation>Jannidis, Fotis. 2016. Quantitative Analyse
    literarischer Texte am Beispiel des Topic Modeling. <italic>Der
    Deutschunterricht</italic> 68, Nr. 5: 24–35.</mixed-citation>
  </ref>
  <ref id="ref-jockersSecretRecipeTopic2013">
    <mixed-citation>Jockers, Matthew. 2013. „Secret“ Recipe for Topic
    Modeling Themes. <italic>Matthew L. Jockers</italic>.
    <ext-link ext-link-type="uri" xlink:href="http://www.matthewjockers.net/2013/04/12/secret-recipe-for-topic-modeling-themes/">http://www.matthewjockers.net/2013/04/12/secret-recipe-for-topic-modeling-themes/</ext-link>
    (zugegriffen: 24. November 2017).</mixed-citation>
  </ref>
  <ref id="ref-jockersTextAnalysisStudents2014a">
    <mixed-citation>———. 2014. <italic>Text Analysis With R for Students
    of Literature</italic>. Cham (u.a.): Springer.</mixed-citation>
  </ref>
  <ref id="ref-lubkollStoffUndMotivgeschichte2004">
    <mixed-citation>Lubkoll, Christine. 2004. Stoff- und
    Motivgeschichte/Thematologie. In: <italic>Grundbegriffe der
    Literaturtheorie</italic>, hg. von Ansgar Nünning, 255–259.
    Stuttgart, Weimar: Metzler.</mixed-citation>
  </ref>
  <ref id="ref-mullerTopikToposforschung2004">
    <mixed-citation>Müller, Wolfgang G. 2004. Topik/Toposforschung. In:
    <italic>Grundbegriffe der Literaturtheorie</italic>, hg. von Ansgar
    Nünning, 278–280. Stuttgart, Weimar: Metzler.</mixed-citation>
  </ref>
  <ref id="ref-schulzThema2003">
    <mixed-citation>Schulz, Armin. 2003. Thema. In: <italic>Reallexikon
    der deutschen Literaturwissenschaft. Neubearbeitung des Reallexikons
    der deutschen Literaturgeschichte</italic>, 3: P-Z:634–635. Berlin,
    New York: de Gruyter.</mixed-citation>
  </ref>
  <ref id="ref-schumacherToolbeitragDARIAHTopics2018">
    <mixed-citation>Schumacher, Mareike. 2024a. Toolbeitrag: DARIAH
    Topics Explorer. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 8. Topic Modeling (7. Oktober). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3728">10.48694/fortext.3728</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/dariah-topics-explorer">https://fortext.net/tools/tools/dariah-topics-explorer</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-schumacherMethodenbeitragNamedEntity2018">
    <mixed-citation>———. 2024b. Methodenbeitrag: Named Entity
    Recognition (NER). Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 9. Named Entity Recognition (30. Oktober). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3765">10.48694/fortext.3765</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/named-entity-recognition-ner">https://fortext.net/routinen/methoden/named-entity-recognition-ner</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-weitinFalkentopics2016">
    <mixed-citation>Weitin, Thomas und Katharina Herget. 2016.
    Falkentopics. <italic>LitLab Pamphlet #4</italic>.
    <ext-link ext-link-type="uri" xlink:href="http://www.digitalhumanitiescooperation.de/wp-content/uploads/2017/06/p04_weitin_herget_de.pdf">http://www.digitalhumanitiescooperation.de/wp-content/uploads/2017/06/p04_weitin_herget_de.pdf</ext-link>
    (zugegriffen: 24. November 2017).</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
