<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3813</article-id>
<title-group>
<article-title>Ressourcenbeitrag: KOLIMO: Korpus der literarischen
Moderne</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>2</issue>
<issue-title>Korpusbildung</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 04.02.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/kolimo-korpus-der-literarischen-moderne">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-02-04">
<day>04</day>
<month>02</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 04.02.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/kolimo-korpus-der-literarischen-moderne">fortext.net</ext-link></p>
<sec id="kurzbeschreibung">
  <title>1. Kurzbeschreibung</title>
  <p>Das KOLIMO (Korpus der literarischen Moderne) versammelt
  deutschsprachige narrative, fiktionale Erzähltexte der literarischen
  Moderne aus den Textsammlungen Deutsches Textarchiv
  (<xref alt="Horstmann und Kern 2024" rid="ref-horstmannRessourcenbeitragDeutschesTextarchiv2018" ref-type="bibr">Horstmann
  und Kern 2024</xref>), TextGrid Repository
  (<xref alt="Horstmann 2024" rid="ref-horstmannRessourcenbeitragTextGridRepository2018" ref-type="bibr">Horstmann
  2024</xref>) und Gutenberg, vereinheitlicht die bestehenden
  <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref> und
  fügt weitere hinzu, um epochenspezifische und aufgrund einheitlicher
  Daten verlässliche Abfrageergebnisse erhalten zu können.</p>
  <fig>
    <caption><p>Abb. 1: KOLIMO-Benutzeroberfläche</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="KOLIMO-Startpage-p.png" />
  </fig>
  <sec id="steckbrief">
    <title><bold>Steckbrief</bold></title>
    <list list-type="bullet">
      <list-item>
        <p>Das Korups steht Ihnen auf
        <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://gitlab.gwdg.de/kolimo">Gitlab</ext-link>
        und
        <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://zenodo.org/records/10246193">Zenodo</ext-link>
        zur Verfügung</p>
      </list-item>
      <list-item>
        <p>großes Spektrum der literarischen Moderne: literarische und
        nicht-literarische Texte sowie Vergleichstexte früherer
        Epochen</p>
      </list-item>
      <list-item>
        <p>Teil des laufenden Projekts Q-LIMO (Quantitative Analyse der
        literarischen Moderne)</p>
      </list-item>
      <list-item>
        <p>seit Herbst 2016 ist die Beta-Version veröffentlicht</p>
      </list-item>
      <list-item>
        <p>Quellen: TextGrid Repository, Gutenberg-DE, Deutsches
        Textarchiv (DTA), Kafka-Referenzkorpus (vgl.
        <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>)</p>
      </list-item>
      <list-item>
        <p>konsistente und manuell erweiterte Metadaten zu bspw.
        Autor*innen, Publikationsdatum und Gattung und grundlegende
        linguistische Annotation</p>
      </list-item>
      <list-item>
        <p>Textsorten: verschiedenen Genres narrativer/fiktionaler
        Texte</p>
      </list-item>
      <list-item>
        <p>Ziel: Ermöglichung des synchronen und diachronen Vergleichs
        einer literarischen Epoche</p>
      </list-item>
      <list-item>
        <p>Downloadformate:
        <xref alt="XML" rid="glossary-xml">XML</xref>/ TXT (vgl.
        <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>);
        das KOLIMO kann auch heruntergeladen und unabhängig von der
        grafischen Benutzeroberfläche (vgl.
        <xref alt="GUI" rid="glossary-gui">GUI</xref>) verwendet
        werden</p>
      </list-item>
    </list>
  </sec>
</sec>
<sec id="anwendungsbeispiel">
  <title>2. Anwendungsbeispiel</title>
  <p>Sie wollen untersuchen, wie sich der Stil narrativer Texte der
  literarischen Moderne gegenüber ihren Vorgängerepochen
  unterscheidet.</p>
  <p>Für eine derartige Fragestellung bietet sich die Arbeit im KOLIMO
  an. Durch die Konzentration auf diese spezifische Epoche ist es dem
  KOLIMO möglich, relevante Texte aus diversen anderen Textsammlungen in
  sich zu vereinen und vergleichbare Metadaten zur Verfügung zu stellen.
  So ist es Ihnen möglich, vergleichende quantitative Abfragen (vgl.
  <xref alt="Query" rid="glossary-query">Query</xref>) durchzuführen,
  die sich auf eine repräsentative Textmenge beziehen. Zudem bietet
  Ihnen KOLIMO die Möglichkeit, literarische mit nicht-literarischen
  narrativen Texten der Epoche oder mit Texten aus der Zeit vor der
  literarischen Moderne zu vergleichen.</p>
</sec>
<sec id="diskussion">
  <title>3. Diskussion</title>
  <sec id="kann-ich-das-kolimo-für-wissenschaftliche-arbeiten-nutzen">
    <title>3.1 Kann ich das KOLIMO für wissenschaftliche Arbeiten
    nutzen?<break/></title>
    <p>Ja, aber mit etwas Vorsicht.</p>
    <p>Die Texte im KOLIMO werden aus unterschiedlichen Quellen bezogen:
    TextGrid, Gutenberg-DE, DTA und dem Kafka-Referenzkorpus. Das
    Problem dabei ist, dass die importierten Ressourcen in qualitativer
    Hinsicht stark variieren – die Texte aus Gutenberg sind generell
    nicht wissenschaftlich zitierfähig. Das KOLIMO eignet sich daher
    besonders für quantitative Vergleichsanalysen in Form eines
    <italic><xref alt="Distant Reading" rid="glossary-distant-reading">Distant
    Reading</xref></italic>. Sollten Sie einen bestimmten
    digitalisierten Text für ein zitierfähiges
    <italic><xref alt="Close Reading" rid="glossary-close-reading">Close
    Reading</xref></italic> suchen, schauen Sie entweder genau in den
    Metadaten des jeweiligen Textes nach (im sog. TEI-Header (vgl.
    <xref alt="TEI" rid="glossary-tei">TEI</xref>)), aus welcher Quelle
    das Digitalisat stammt, oder suchen Sie direkt in einer der
    enthaltenen zitierfähigen Textsammlungen.</p>
    <p>Das KOLIMO erhebt jedoch mit großer Mühe einheitliche und
    vergleichbare Metadaten für alle enthaltenen Texte und hat dafür
    einige verbindliche Richtlinien festgelegt: Die Metadaten eines
    jeden Dokumentes werden aus der ursprünglichen Textquelle übernommen
    und unter Einhaltung des DTA-Basisformats
    <xref alt="TEI" rid="glossary-tei">TEI</xref> ergänzt. Dazu werden
    beispielsweise fehlende Erscheinungsdaten recherchiert oder
    unterschiedliche Gattungsangaben vereinheitlicht. Neben der
    öffentlichen Zugriffsmöglichkeit durch die Speicherung auf einem
    eigenen Server wird zur nachhaltigen Langzeitarchivierung ein
    Datenbankabbild gespeichert.</p>
    <p>Die Texte selbst sollen vor allem dem stilistischen Vergleich
    dienen und wurden dafür automatisierten linguistischen Annotationen
    unterzogen. Um eine höhere Genauigkeit der Wortart-Annotationen
    (vgl.
    <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>)
    zu gewährleisten, hat das KOLIMO mehrere
    <xref alt="POS" rid="glossary-pos">POS</xref>-Tagger eingesetzt und
    pro Register nur den Tagger mit den jeweils besten Ergebnissen
    verwendet. So wurde eine epochensensitive POS-Annotation erzeugt.
    Als Epochen wurden unter Zuhilfenahme von Literaturgeschichten
    Moderne, Barock, Aufklärung, Romantik und Realismus festgelegt.</p>
  </sec>
  <sec id="wie-benutzerfreundlich-ist-die-arbeit-mit-dem-kolimo">
    <title>3.2 Wie benutzerfreundlich ist die Arbeit mit dem
    KOLIMO?<break/></title>
    <p>Die Startseite („Dashboard“) des KOLIMO zeigt eine Übersicht über
    die Anzahl der Autor*innen, Titel und Wörter pro Quelle und außerdem
    die zeitliche Verteilung der vertretenen Primärtexte, deren
    Schwerpunkt auf der Zeit um 1900 liegt.</p>
    <fig>
      <caption><p>Abb. 2: KOLIMO - Chronologie</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="KOLIMO-Startpage2-p.png" />
    </fig>
    <p>Unter dem Navigationspunkt „About“ werden das Projekt, seine
    Ziele und Konzeption, die Schritte der Textaufbereitung und die
    Lizenzbedingungen englischsprachig erklärt. Hinweise, wie die
    Textsammlung schrittweise verwendet werden kann, oder gar Tutorials
    fehlen jedoch bislang.</p>
    <p>Die Webseite ist übersichtlich und klar strukturiert und man
    findet sich schnell zurecht. Es wird jedoch deutlich, dass es sich
    um eine Beta-Version handelt, die Textsammlung sich also noch in der
    Entwicklung befindet: Die Text- und Metadaten können zwar sämtlich
    und in unterschiedlichen Formaten heruntergeladen werden, es besteht
    in den Daten aber noch viel Rauschen („noise“), von dem sie
    weiterhin bereinigt werden sollen. Das KOLIMO-Team setzt zudem stark
    auf die Mitarbeit der Nutzer*innen: Es bittet bspw. um die Zusendung
    von Fehlermeldungen, Anregungen und digitalisierter Volltexte aus
    der Zeit vor 1800 (die den beschriebenen Qualitätskriterien
    entsprechen) an <email>litre@gwdg.de</email>.</p>
  </sec>
</sec>
<sec id="wie-funktioniert-die-textsuche-im-kolimo">
  <title>4. Wie funktioniert die Textsuche im KOLIMO?</title>
  <p>Unter dem Menüpunkt „Collection Browser“ gelangen Sie auf die
  intuitive Suchmaske für die Volltexte. Hier können Sie bspw. nach
  Autor*innen, Titeln, Veröffentlichungsdaten, Genres (externe
  Kategorien aus dem DTA, TextGrid und Gutenberg), Epochen (Realismus,
  Moderne) und Textlängen (von KOLIMO implementiert) suchen. Einige
  Suchanfragen bedürfen hier momentan noch weiterer Programmierung
  seitens des KOLIMO-Teams. Mit der Plustaste lassen sich auch
  kombinierte Abfragen zu diesen Kategorien starten. Das Seitensymbol
  jeweils rechts neben den einzelnen Einträgen der Ergebnisliste bringt
  Sie dann zu den Volltexten.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>KOLIMO auf Gitlab:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://gitlab.gwdg.de/kolimo">https://web.archive.org/save/https://gitlab.gwdg.de/kolimo</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>KOLIMO auf Zenodo:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://zenodo.org/records/10246193">https://web.archive.org/save/https://zenodo.org/records/10246193</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-close-reading">Close
      Reading</styled-content></term>
      <def>
        <p>Close Reading bezeichnet die sorgfältige Lektüre und
        Interpretation eines einzelnen oder weniger Texte. Close Reading
        ist in der digitalen Literaturwissenschaft außerdem mit der
        manuellen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        textueller Phänomene verbunden (vgl. auch
        <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
        Reading</xref> als Gegenbegriff).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-distant-reading">Distant
      Reading</styled-content></term>
      <def>
        <p>Distant Reading ist ein Ansatz aus den digitalen
        Literaturwissenschaften, bei dem computationelle Verfahren auf
        häufig große Mengen an Textdaten angewandt werden, ohne dass die
        Texte selber gelesen werden. Meist stehen hier quantitative
        Analysen im Vordergrund, es lassen sich jedoch auch qualitative
        <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
        quantitativ vergleichen. Als Gegenbegriff zu
        <xref alt="Close Reading" rid="glossary-close-reading"><italic>Close
        Reading</italic></xref> wurde der Begriff insbesondere von
        Franco Moretti (2000) geprägt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-herrmannAufbauUndAnnotation2016b">
    <mixed-citation>Herrmann, J. Berenike und Gerhard Lauer. 2016a.
    Aufbau und Annotation des Kafka/Referenzkorpus. In: <italic>DHd
    2016. Modellierung – Vernetzung – Visualisierung. Die Digital
    Humanities als fächerübergreifendes Forschungsparadigma.
    Konferenzabstracts</italic>, 158–160. Universität Leipzig.
    <ext-link ext-link-type="uri" xlink:href="http://www.dhd2016.de/boa.pdf">http://www.dhd2016.de/boa.pdf</ext-link>
    (zugegriffen: 20. Dezember 2018).</mixed-citation>
  </ref>
  <ref id="ref-herrmannKAREKBuildingAnnotating2016">
    <mixed-citation>———. 2016b. KAREK. Building and Annotating a
    Kafka/Reference Corpus. In: <italic>Digital Humanities 2016:
    Conference Abstracts</italic>, 552–553. Kraków.
    <ext-link ext-link-type="uri" xlink:href="http://dh2016.adho.org/abstracts/427">http://dh2016.adho.org/abstracts/427</ext-link>
    (zugegriffen: 20. Dezember 2018).</mixed-citation>
  </ref>
  <ref id="ref-herrmannWasbishergeschahKOLIMOUpdate2017a">
    <mixed-citation>———. 2017. Das ,Was-bisher-geschah’ von KOLIMO. Ein
    Update zum Korpus der literarischen Moderne. In: <italic>DHd 2017:
    Digitale Nachhaltigkeit. Konferenzabstracts</italic>, 107–110.
    Universität Bern.
    <ext-link ext-link-type="uri" xlink:href="http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf">http://www.dhd2017.ch/wp-content/uploads/2017/02/Abstractband_ergaenzt.pdf</ext-link>
    (zugegriffen: 20. Dezember 2018).</mixed-citation>
  </ref>
  <ref id="ref-horstmannRessourcenbeitragTextGridRepository2018">
    <mixed-citation>Horstmann, Jan. 2024. Ressourcenbeitrag: TextGrid
    Repository. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 11.
    Bibliografie (29. November). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3794">10.48694/fortext.3794</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/textgrid-repository">https://fortext.net/ressourcen/textsammlungen/textgrid-repository</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannRessourcenbeitragDeutschesTextarchiv2018">
    <mixed-citation>Horstmann, Jan und Alexandra Kern. 2024.
    Ressourcenbeitrag: Deutsches Textarchiv (DTA). Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 11. Bibliografie (29. November).
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3791">10.48694/fortext.3791</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/deutsches-textarchiv-dta">https://fortext.net/ressourcen/textsammlungen/deutsches-textarchiv-dta</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
