<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3817</article-id>
<title-group>
<article-title>Toolbeitrag: Gensim</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-7952-4194</contrib-id>
<name>
<surname>Schumacher</surname>
<given-names>Mareike</given-names>
</name>
<email>Mareike.Schumacher@sprachlit.uni-regensburg.de</email>
<xref ref-type="aff" rid="aff-2"/>
</contrib>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0009-0007-2653-6275</contrib-id>
<name>
<surname>Akazawa</surname>
<given-names>Mari</given-names>
</name>
<email>mari.akazawa@tu-darmstadt.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-2">
<institution-wrap>
<institution>Universität Regensburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>10</issue>
<issue-title>word2vec</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 03.05.2021 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/gensim">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2021-05-03">
<day>03</day>
<month>05</month>
<year>2021</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 03.05.2021 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/gensim">fortext.net</ext-link></p>
<fig>
  <caption><p>Abb. 1: Der Workflow von Gensim am Beispiel des
  LDA-Algorithmus’ zum Topic Modeling: Vorab müssen alle Module und
  Packages installiert werden. Als erstes erfolgt die Definition des
  Korpuspfades &amp; das Preprocessing. Nachdem das Korpus definiert und
  das Dictionary erstellt wurde, wird das Modell implementiert und
  Parametereinstellungen getroffen. Der Output ist beispielsweise eine
  Liste an Topicsets nach angegebener Topicanzahl.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="Gensim_Workflow.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Läuft auf Linux, Windows, MacOS
    und allen anderen Plattformen, die Python &gt; 3.6 und NumPy
    unterstützen.</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> Wird seit 2008 entwickelt,
    letztes Release 01.April 2021 (Version 4.0.1.)</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> Radim Řehůřek und Petr Sojka</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> GNU LGPL-Lizenz v2.1</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://radimrehurek.com/gensim/">https://radimrehurek.com/gensim/</ext-link>
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://radimrehurek.com/gensim/">2</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Import von Plain Text (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>);
    Export möglich und individuell im Code anpassbar
    (Ergebnis-Speicherung als JSON oder Speicherung von Visualisierungen
    möglich)</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Vortrainierte Modelle für Englisch,
    Chinesisch, Deutsch, Französisch, Spanisch etc. vorhanden</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-gensim-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann Gensim eingesetzt
  werden?</title>
  <p>Gensim ist eine Open-Source-Bibliothek für Python und beinhaltet
  verschiedene Algorithmen, weshalb es für unterschiedliche
  Fragestellungen eingesetzt werden kann. Dabei ermöglichen es alle
  Algorithmen, automatisiert semantische Strukturen in den Textdaten zu
  entdecken. Gensim bietet sich insbesondere für die Verarbeitung großer
  Textsammlungen an.
  Abhängig vom gewählten Modell, kann mit Topic-Modeling-Algorithmen
  (vgl. <xref alt="Topic Modeling" rid="glossary-topic-modeling">Topic
  Modeling</xref>) beispielsweise das Auftreten bestimmter Topics über
  einen Textverlauf betrachtet werden. Außerdem können Zusammenhänge
  zwischen bestimmten Themen und Faktoren wie Geschlecht, Nationalität
  des Autors, dem Erscheinungsjahr der Werke oder der Gattung der Texte
  erkannt werden
  (<xref alt="Jockers und Mimno 2013" rid="ref-jockersSignificantThemes19thcentury2013" ref-type="bibr">Jockers
  und Mimno 2013</xref>). Anhand von Textsammlungen eines Genres kann
  beispielsweise auch erörtert werden, ob verschiedene Autoren,
  Untergattungen und Zeiträume durch unterschiedliche Topic-Verteilungen
  charakterisiert sind
  (<xref alt="Schöch 2015" rid="ref-schochTopicModelingFrench2015" ref-type="bibr">Schöch
  2015</xref>). Mit Word2Vec hingegen können, auf Grundlage von
  Worteinbettungen, Figurenanalysen in großen Textsammlungen
  durchgeführt werden, welche wiederum Vergleiche zwischen Romanen oder
  Autoren erlauben
  (<xref alt="Grayson u. a. 2016" rid="ref-graysonNovel2VecCharacterising19th2016" ref-type="bibr">Grayson
  u. a. 2016</xref>). Zudem kann auch die semantische Komplexität von
  beispielsweise Romanen durch die Berechnung von Distanzen zwischen
  Worteinbettungen ermittelt werden
  (<xref alt="van Cranenburgh, van Dalen-Oskam und van Zundert 2019" rid="ref-vancranenburghVectorSpaceExplorations2019" ref-type="bibr">van
  Cranenburgh, van Dalen-Oskam und van Zundert 2019</xref>).</p>
</sec>
<sec id="welche-funktionalitäten-bietet-gensim-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet Gensim und wie zuverlässig
  ist das Tool?</title>
  <p><italic>Funktionen:</italic></p>
  <list list-type="bullet">
    <list-item>
      <p>Bereitstellung von bereits trainierten Modellen und diversen
      Korpora in verschiedenen Formaten</p>
    </list-item>
    <list-item>
      <p>Unüberwachter Lernprozess (vgl.
      <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
      Learning</xref>), keine
      <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>en
      notwendig</p>
    </list-item>
    <list-item>
      <p>Verarbeitung von sehr großen Textsammlungen (vgl.
      <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>)</p>
    </list-item>
    <list-item>
      <p>Wortvektoren trainieren mit Word2Vec, FastText und Doc2Vec</p>
    </list-item>
    <list-item>
      <p>Topic Modeling mit Latent Semantic Indexing (LsiModel)</p>
    </list-item>
    <list-item>
      <p>Topic Modeling mit Latent Dirichlet Allocation (vgl.
      <xref alt="LDA" rid="glossary-lda">LDA</xref>)</p>
    </list-item>
  </list>
  <p><italic>Zuverlässigkeit:</italic> Die Ergebnisse werden je nach
  Größe der Daten und manuell vorgenommenen Voreinstellungen zügig
  generiert. Die Ausführung von Word2Vec benötigt, je nach Korpusgröße,
  allerdings relativ viel Arbeitsspeicher und kann gegebenenfalls einige
  Stunden in Anspruch nehmen. Ein Tool, welches Textdaten in ähnlicher
  Größenordnung verarbeiten kann, ist derzeit nicht verfügbar.</p>
</sec>
<sec id="ist-gensim-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist Gensim für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / –</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>–</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>–</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>–</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>–</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Gensim wurde entwickelt, um unstrukturierte digitale Textsammlungen
  im Plain-Text-Format (vgl.
  <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>)
  durch unüberwachte, maschinelle Lernverfahren (vgl.
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref>) zu verarbeiten, ohne dass dafür manuelle Annotationen
  (<xref alt="Jacke 2024" rid="ref-jackeMethodenbeitragManuelleAnnotation2018" ref-type="bibr">Jacke
  2024</xref>) durchgeführt werden müssen. Als eine
  Open-Source-Bibliothek für Python ist Gensim allerdings nur für
  Nutzer*innen geeignet, die erste Programmierkenntnisse mit Python und
  generelles Codeverständnis mitbringen.
  Ausführliche, englischsprachige Dokumentationen und
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://radimrehurek.com/gensim/auto_examples/index.html">Tutorials</ext-link>
  bieten, auf Grundlage bereits trainierter Modelle und vorverarbeiteter
  Korpora (vgl.
  <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>),
  die Möglichkeit sich mit Gensim vertraut zu machen. Das Trainieren von
  Modellen mit eigenen Textsammlungen erfordert allerdings auch
  Kenntnisse im Bereich der computationellen Vorverarbeitung (vgl.
  <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
  von Korpora
  (<xref alt="Bläß 2024" rid="ref-blassMethodenbeitragKorpusbildung2020" ref-type="bibr">Bläß
  2024</xref>). Außerdem müssen Parametereinstellungen bei der
  Implementierung der Algorithmen individuell an die Forschungsfrage
  angepasst werden.</p>
  <p>Bei Fragen oder Problemen gibt es zwar nicht die Möglichkeit direkt
  Kontakt mit einem Support-Team aufzunehmen, Sie können aber über das
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://groups.google.com/g/gensim">Google-Forum</ext-link>
  und
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://github.com/RaRe-Technologies/gensim/wiki/Recipes-&amp;-FAQ">GitHub</ext-link>
  Hilfe erhalten.</p>
</sec>
<sec id="wie-etabliert-ist-gensim-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist Gensim in den
  (Literatur-)Wissenschaften?</title>
  <p>Gensim etabliert sich zunehmend im Bereich der digitalen
  Literaturwissenschaften und ist z.B. in dem
  Digital-Humanities-Tools-Verzeichnis
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://tapor.ca/tools/1606">TAPoR</ext-link>
  eingetragen.
  Da Gensim allerdings Grundkenntnisse in der Programmierung
  voraussetzt, ist es insbesondere in den digitalen
  Literaturwissenschaften für das
  <xref alt="Topic Modeling" rid="glossary-topic-modeling">Topic
  Modeling</xref> weniger etabliert als Tools wie DARIAH Topics Explorer
  (<xref alt="Schumacher 2024" rid="ref-schumacherToolbeitragDARIAHTopics2018" ref-type="bibr">Schumacher
  2024</xref>). Trotzdem ermöglicht die Nutzung von Gensim die
  individuelle Anpassung von Parametern an die Forschungsfrage.
  Die Generierung von Worteinbettungen durch Word2Vec wird in den
  letzten Jahren auch zunehmend in den digitalen Literaturwissenschaften
  eingesetzt und dient beispielsweise als Werkzeug zur Unterstützung von
  quantitativen Literaturanalysen im Bereich des
  <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
  Reading</xref>s und
  <xref alt="Close Reading" rid="glossary-close-reading">Close
  Reading</xref>s
  (<xref alt="Grayson u. a. 2016" rid="ref-graysonNovel2VecCharacterising19th2016" ref-type="bibr">Grayson
  u. a. 2016</xref>). In der traditionellen, literaturwissenschaftlichen
  Forschung findet Gensim noch keine Anwendung.</p>
</sec>
<sec id="unterstützt-gensim-kollaboratives-arbeiten">
  <title>5. Unterstützt Gensim kollaboratives Arbeiten?</title>
  <p>Nein, mit Gensim kann nicht direkt kollaborativ gearbeitet werden.
  Ein Gensim-Projekt und die dazugehörigen Ressourcen können allerdings
  auf JupyterHub mit anderen Forschenden geteilt werden, sodass zwar
  nicht direkt aber über einen Workaround kollaborativ gearbeitet werden
  kann.</p>
</sec>
<sec id="sind-meine-daten-bei-gensim-sicher">
  <title>6. Sind meine Daten bei Gensim sicher?</title>
  <p>Ja, Gensim läuft auf dem eigenen Rechner. Alle Daten werden lokal
  verarbeitet, Texte müssen nirgendwo hochgeladen werden. Es werden
  keine personenbezogenen Daten erhoben.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>Gensim:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://radimrehurek.com/gensim/">https://web.archive.org/save/https://radimrehurek.com/gensim/</ext-link>
      (Letzer Zugriff: 06.10.2024)</p>
    </list-item>
    <list-item>
      <p>Gensim Tutorials:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://radimrehurek.com/gensim/auto_examples/index.html">https://web.archive.org/save/https://radimrehurek.com/gensim/auto_examples/index.html</ext-link>
      (Letzer Zugriff: 06.10.2024)</p>
    </list-item>
    <list-item>
      <p>Google-Forum:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://groups.google.com/g/gensim">https://web.archive.org/save/https://groups.google.com/g/gensim</ext-link>
      (Letzter Zugriff: 06.10.2024)</p>
    </list-item>
    <list-item>
      <p>Gensim Q&amp;A auf GitHub:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://github.com/RaRe-Technologies/gensim/wiki/Recipes-&amp;-FAQ">https://web.archive.org/save/https://github.com/RaRe-Technologies/gensim/wiki/Recipes-&amp;-FAQ</ext-link>
      (Letzer Zugriff: 06.10.2024)</p>
    </list-item>
    <list-item>
      <p>TAPoR:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://tapor.ca/tools/1606">https://web.archive.org/save/http://tapor.ca/tools/1606</ext-link>
      (Letzter Zugriff: 06.10.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-close-reading">Close
      Reading</styled-content></term>
      <def>
        <p>Close Reading bezeichnet die sorgfältige Lektüre und
        Interpretation eines einzelnen oder weniger Texte. Close Reading
        ist in der digitalen Literaturwissenschaft außerdem mit der
        manuellen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        textueller Phänomene verbunden (vgl. auch
        <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
        Reading</xref> als Gegenbegriff).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-distant-reading">Distant
      Reading</styled-content></term>
      <def>
        <p>Distant Reading ist ein Ansatz aus den digitalen
        Literaturwissenschaften, bei dem computationelle Verfahren auf
        häufig große Mengen an Textdaten angewandt werden, ohne dass die
        Texte selber gelesen werden. Meist stehen hier quantitative
        Analysen im Vordergrund, es lassen sich jedoch auch qualitative
        <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
        quantitativ vergleichen. Als Gegenbegriff zu
        <xref alt="Close Reading" rid="glossary-close-reading"><italic>Close
        Reading</italic></xref> wurde der Begriff insbesondere von
        Franco Moretti (2000) geprägt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lda">LDA</styled-content></term>
      <def>
        <p>LDA steht für <italic>Latent Dirichlet Allocation </italic>
        und ist ein generatives, statistisches
        Wahrscheinlichkeitsmodell, welches zum
        <xref alt="Topic Modeling" rid="glossary-topic-modeling">Topic
        Modeling</xref> angewendet werden kann. Bei der LDA werden auf
        Grundlage eines Wahrscheinlichkeitsmodells Wortgruppen aus
        Textdokumenten erstellt. Dabei wird jedes Dokument als eine
        Mischung von verborgenen Themen betrachtet und jedes Wort einem
        Thema zugeordnet. Wortreihenfolgen und Satzzusammenhänge spielen
        dabei keine Rolle.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-topic-modeling">Topic
      Modeling</styled-content></term>
      <def>
        <p>Das Topic Modeling ist ein statistisches, auf
        Wahrscheinlichkeitsrechnung basierendes, Verfahren zur
        thematischen Exploration größerer Textsammlungen. Das Verfahren
        erzeugt „Topics“ zur Abbildung häufig gemeinsam vorkommender
        Wörter in einem Text. Für die Durchführung können verschiedene
        Algorithmen und Modelle wie das
        <xref alt="LDA" rid="glossary-lda">LDA</xref> verwendet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-blassMethodenbeitragKorpusbildung2020">
    <mixed-citation>Bläß, Sandra. 2024. Methodenbeitrag: Korpusbildung.
    Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 2.
    Korpusbildung (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3708">10.48694/fortext.3708</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/korpusbildung">https://fortext.net/routinen/methoden/korpusbildung</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-graysonNovel2VecCharacterising19th2016">
    <mixed-citation>Grayson, Siobhán, Maria Mulvany, Karen Wade,
    Gerardine Meaney und Derek Greene. 2016. Novel2Vec: Characterising
    19th Century Fiction via Word Embeddings. In:
    <ext-link ext-link-type="uri" xlink:href="https://researchrepository.ucd.ie/handle/10197/8360">https://researchrepository.ucd.ie/handle/10197/8360</ext-link>
    (zugegriffen: 22. April 2021).</mixed-citation>
  </ref>
  <ref id="ref-jackeMethodenbeitragManuelleAnnotation2018">
    <mixed-citation>Jacke, Janina. 2024. Methodenbeitrag: Manuelle
    Annotation. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 4.
    Manuelle Annotation (7. August). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3748">10.48694/fortext.3748</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/manuelle-annotation">https://fortext.net/routinen/methoden/manuelle-annotation</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-jockersSignificantThemes19thcentury2013">
    <mixed-citation>Jockers, Matthew L. und David Mimno. 2013.
    Significant themes in 19th-century literature.
    <italic>Poetics</italic> 41, Nr. 6: 750–769. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.poetic.2013.08.005">10.1016/j.poetic.2013.08.005</ext-link>,.</mixed-citation>
  </ref>
  <ref id="ref-schochTopicModelingFrench2015">
    <mixed-citation>Schöch, Christof. 2015. Topic Modeling French Crime
    Fiction. In: <italic>Digital Humanities 2015: Book of
    Abstracts</italic>. Sydney: UWS.</mixed-citation>
  </ref>
  <ref id="ref-schumacherToolbeitragDARIAHTopics2018">
    <mixed-citation>Schumacher, Mareike. 2024. Toolbeitrag: DARIAH
    Topics Explorer. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 8. Topic Modeling (7. Oktober). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3728">10.48694/fortext.3728</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/dariah-topics-explorer">https://fortext.net/tools/tools/dariah-topics-explorer</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-vancranenburghVectorSpaceExplorations2019">
    <mixed-citation>van Cranenburgh, Andreas, Karina van Dalen-Oskam und
    Joris van Zundert. 2019. Vector space explorations of literary
    language. <italic>Lang Resources &amp; Evaluation</italic> 53:
    625–650. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1007/s10579-018-09442-4">10.1007/s10579-018-09442-4</ext-link>,.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
