<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3761</article-id>
<title-group>
<article-title>Toolbeitrag: CATMA</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-7952-4194</contrib-id>
<name>
<surname>Schumacher</surname>
<given-names>Mareike</given-names>
</name>
<email>Mareike.Schumacher@sprachlit.uni-regensburg.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Regensburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<pub-date date-type="pub" publication-format="electronic" iso-8601-date="2024-08-07">
<day>7</day>
<month>8</month>
<year>2024</year>
</pub-date>
<volume>1</volume>
<issue>4</issue>
<issue-title>Manuelle Annotation</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 15.04.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/catma">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-04-15">
<day>15</day>
<month>04</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 15.04.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/catma">fortext.net</ext-link></p>
<fig>
  <caption><p>Der Workflow von CATMA: Import einer Textdatei zum
  Beispiel im TXT-, TEI oder PDF-Format, Annotation mit eigens
  angelegten Tagsets, Analyse und Visualisierung z. B. als Distribution
  Graph oder Double Tree der Text- und Annotationsdaten. Der Weg zurück
  aus den Visualisierungen zum Text ist ebenfalls möglich, sodass der
  Workflow zirkulär sein kann.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="Bildschirmfoto_2019-11-04_um_16.39.40_p.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Webbasiertes Tool, über den
    <xref alt="Browser" rid="glossary-browser">Browser</xref> (z. B.
    Chrome, Firefox, Safari) nutzbar</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> Derzeit Version 6.2; seit
    2008 stetig weiterentwickelt</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> CATMA-Team der Universität Hamburg</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> kostenfrei zugänglich</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://catma.de">https://catma.de</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Importformate: DOC, PDF, XPDF, HTML
    (vgl.
    <xref alt="Markup Language" rid="glossary-markup-language">Markup
    Language</xref>), HTM, RTF, TXT (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>),
    <xref alt="TEI" rid="glossary-tei">TEI</xref>, XML2 (vgl.
    <xref alt="XML" rid="glossary-xml">XML</xref>), DOCX,
    <xref alt="ZIP" rid="glossary-zip">ZIP</xref>; Downloadformate:
    XML2, UTF-8 (vgl.
    <xref alt="Unicode/UTF-8" rid="glossary-unicode">Unicode/UTF-8</xref>)
    Plaintext (für Primärtextdokumente), JSON (für CATMA-Annotationen
    (vgl.
    <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>))</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Sprachunabhängig: Hebräisch, Arabisch,
    Deutsch, Englisch, Französisch etc. (Spracheinstellung beim
    Hochladen des Dokuments. Alle Schriftsprachen stehen zur
    Auswahl)</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-catma-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann CATMA eingesetzt
  werden?</title>
  <p>CATMA (kurz für Computer Assisted Text Markup and Analysis) ist ein
  im Browser laufendes Tool, das die manuelle Annotation
  (<xref alt="Jacke 2024a" rid="ref-jackeMethodenbeitragManuelleAnnotation2018" ref-type="bibr">Jacke
  2024a</xref>) und Analyse von Texten digital unterstützt und dabei den
  traditionellen philologischen Workflow zum Vorbild hat.
  Taxonomiebasierte Textarbeit, die „top-down“ und theorie- wie
  kategoriengeleitet verfährt, ist damit ebenso möglich wie die „bottom
  up“ verfahrende und zirkuläre hermeneutische Forschung, die erst im
  Zuge der Exploration konkreter Texte ihre spezifischen
  Beschreibungsterme und -Kategorien entwirft und präzisiert. CATMA kann
  darum für eine große Vielfalt an Forschungsansätzen genutzt werden.
  Eine mögliche Fragestellung wäre: Wie wird das Motiv des Doppelgängers
  in E.T.A. Hoffmanns <italic>Die Elixiere des Teufels</italic>
  dargestellt und inwiefern lässt es sich der Thematik der
  Persönlichkeitsspaltung zuschreiben?</p>
</sec>
<sec id="welche-funktionalitäten-bietet-catma-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet CATMA und wie zuverlässig ist
  das Tool?</title>
  <p><italic>Funktionen</italic>:</p>
  <list list-type="bullet">
    <list-item>
      <p>„undogmatische“, d. h. dynamisch erweiterbare, nicht notwendig
      nach einem fix vorgegebenen Schema verfahrende, Annotation von
      Textdokumenten; Kernmerkmale sind dabei</p>
      <list list-type="bullet">
        <list-item>
          <p>freie Annotation nach individuell definierten
          Kategorien</p>
        </list-item>
        <list-item>
          <p>Mehrfachannotation einzelner Wörter und Passagen</p>
        </list-item>
        <list-item>
          <p>überlappende Annotation</p>
        </list-item>
        <list-item>
          <p>widersprüchliche Annotation</p>
        </list-item>
      </list>
    </list-item>
    <list-item>
      <p>Entwickeln eigener Annotationskategorien (Tags) und deren
      Systematisierung in Taxonomien (Tagsets) (vgl.
      <xref alt="Tagset" rid="glossary-tagset">Tagset</xref>)</p>
    </list-item>
    <list-item>
      <p>kollaboratives Annotieren
      (<xref alt="Jacke 2024b" rid="ref-jackeMethodenbeitragKollaborativesLiteraturwissenschaftliches2018" ref-type="bibr">Jacke
      2024b</xref>) in Echtzeit</p>
    </list-item>
    <list-item>
      <p>Analyse von Text- und Annotationsdaten für Einzeltexte und
      Textsammlungen</p>
    </list-item>
    <list-item>
      <p>Natürlichsprachliche Entwicklung von Analyseabfragen (Queries)
      (vgl. <xref alt="Query" rid="glossary-query">Query</xref>) mit dem
      Query Builder</p>
    </list-item>
    <list-item>
      <p>Visualisierung von Text- und Annotationsdaten für Einzeltexte
      und Textsammlungen (vgl.
      <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>)</p>
    </list-item>
    <list-item>
      <p>Halbautomatische Annotation von Wort- oder Phrasengruppen</p>
    </list-item>
    <list-item>
      <p>Automatisches POS-Tagging (vgl.
      <xref alt="POS" rid="glossary-pos">POS</xref>) deutschsprachiger
      Textsammlungen (in CATMA 5.0)</p>
    </list-item>
    <list-item>
      <p>Automatische Annotation von Zeitformen und Zeitausdrücken in
      deutschsprachigen Textsammlungen (in CATMA 5.0)</p>
    </list-item>
  </list>
  <p><italic>Zuverlässigkeit</italic>: CATMA wird seit 2008
  kontinuierlich weiterentwickelt. Derzeit sind parallel die Versionen
  5.0 und 6.0.6 nutzbar. Das webbasierte Tool braucht nicht auf dem
  eigenen Rechner installiert zu werden, ist sehr performant und
  zuverlässig. Die Funktionen der automatischen Annotation in Version
  5.0 können allerdings je nach Umfang der Korpora relativ viel Zeit in
  Anspruch nehmen.</p>
</sec>
<sec id="ist-catma-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist CATMA für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / –</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>CATMA wurde entwickelt, um geisteswissenschaftlich-hermeneutische
  Arbeitsweisen zu unterstützen. Die im Zentrum dieser Arbeitsweisen
  stehende manuelle Annotation ist daher auch in CATMA zentral und die
  entsprechenden Funktionen sehr intuitiv bedienbar. Der große
  Funktionsumfang des Tools macht es in Version 5.0 teilweise
  unübersichtlich. Für CATMA 6 wurde darum die Benutzeroberfläche (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>) komplett überarbeitet,
  sodass das Tool intuitiv bedienbar ist und der Einstieg leicht fällt.
  Auch das Handbuch (Manual) wurde für Version 6 vollständig
  überarbeitet. Tutorials für alle Funktionen werden derzeit erarbeitet
  und sukzessive veröffentlicht.</p>
</sec>
<sec id="wie-etabliert-ist-catma-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist CATMA in den
  (Literatur-)Wissenschaften?</title>
  <p>CATMA ist ein in den digitalen Geisteswissenschaften gut
  etabliertes Tool. Bisher wurden über 6200 Korpora in CATMA
  hochgeladen, die von mehr als 9500 registrierten Nutzer*innen einzeln
  oder kollaborativ untersucht werden. 9270538 Annotationen wurden
  manuell oder automatisch mit Hilfe von CATMA erstellt. Neben
  Forscher*innen mit Schwerpunkt in den digitalen Geisteswissenschaften
  arbeiten auch traditioneller forschende Textwissenschaftler*innen
  aufgrund der Nähe zur nicht-digitalen Arbeitsweise mit CATMA.</p>
</sec>
<sec id="unterstützt-catma-kollaboratives-arbeiten">
  <title>5. Unterstützt CATMA kollaboratives Arbeiten?</title>
  <p>Ja, in jeder Version von CATMA können Texte simultan von mehreren
  Personen annotiert werden. Auch Annotationstaxonomien (vgl.
  <xref alt="Tagset" rid="glossary-tagset">Tagset</xref>) und
  (annotierte) Textdokument (vgl.
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>;
  <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>) können direkt
  aus dem Tool heraus geteilt und kollaborativ genutzt werden.</p>
</sec>
<sec id="sind-meine-daten-bei-catma-sicher">
  <title>6. Sind meine Daten bei CATMA sicher?</title>
  <p>Ja. CATMA ist ein webbasiertes Tool, das auf Servern (vgl.
  <xref alt="Server" rid="glossary-server">Server</xref>) des
  Rechenzentrum der Universität Hamburg läuft. Textdaten sind nur in
  einem geschützten Login-Bereich einsehbar. Für den Login ist eine
  Registrierung mit einer gültigen Email-Adresse oder über ein
  Google-Konto notwendig. Die CATMA-Login-Daten werden ebenfalls auf
  Servern im Hamburger Rechenzentrum gespeichert und nicht an Dritte
  weitergegeben. Bei Verwendung des Google-Logins werden die CATMA-Daten
  nicht automatisch für Google verfügbar und CATMA kann ausschließlich
  auf die Login-Daten Ihres Google-Kontos zugreifen. Die Nutzung von
  CATMA ist darum aus urheberrechtlicher Perspektive unbedenklich.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>CATMA:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://catma.de">https://web.archive.org/save/http://catma.de</ext-link>
      (Letzter Zugriff: 03.07.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-server">Server</styled-content></term>
      <def>
        <p>Ein Server kann sowohl hard- als auch softwarebasiert sein.
        Ein hardwarebasierter Server ist ein Computer, der in ein
        Rechnernetz eingebunden ist und der so Ressourcen über ein
        Netzwerk zur Verfügung stellt. Ein softwarebasierter Server
        hingegen ist ein Programm, das einen spezifischen Service
        bietet, welcher von anderen Programmen (Clients) lokal oder über
        ein Netzwerk in Anspruch genommen wird.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tagset">Tagset</styled-content></term>
      <def>
        <p>Ein Tagset definiert die Taxonomie, anhand derer
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        in einem Projekt erstellt werden. Ein Tagset beinhaltet immer
        mehrere Tags und ggf. auch Subtags. Ähnlich der
        <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>
        -Differenz in der Linguistik sind Tags deskriptive Kategorien,
        wohingegen Annotationen die einzelnen Vorkommnisse dieser
        Kategorien im Text sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-unicode">Unicode/UTF-8</styled-content></term>
      <def>
        <p>Unicode ist ein internationaler Standard, der für jedes
        Schriftzeichen oder Textelement einen digitalen Code festlegt.
        Dabei ist UTF-8 die am weitesten verbreitete Kodierung für
        Unicode-Zeichen. UTF-8 ist die international standardisierte
        Kodierungsform elektronischer Zeichen und kann von den meisten
        Digital-Humanities-Tools verarbeitet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-zip">ZIP</styled-content></term>
      <def>
        <p>ZIP steht für ein Dateiformat (zip = engl. Reißverschluss),
        in welchem mehrere Einzeldateien verlustfrei, komprimiert
        zusammengefasst werden. ZIP-Dateien werden beim Öffnen entweder
        automatisch entpackt oder lassen sich per Rechtsklick
        extrahieren.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-giusCATMA2020">
    <mixed-citation>Gius, Evelyn, Jan Christoph Meister, Malte Meister,
    Marco Petris, Christian Bruck, Janina Jacke, Mareike Schumacher,
    Marie Flüh und Jan Horstmann. 2020. CATMA. 11. November.
    <ext-link ext-link-type="uri" xlink:href="https://zenodo.org/records/4353618">https://zenodo.org/records/4353618</ext-link>
    (zugegriffen: 29. April 2022).</mixed-citation>
  </ref>
  <ref id="ref-jackeMethodenbeitragKollaborativesLiteraturwissenschaftliches2018">
    <mixed-citation>Jacke, Janina. 2024b. Methodenbeitrag:
    Kollaboratives literaturwissenschaftliches Annotieren. Hg. von
    Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 4. Manuelle Annotation
    (7. August). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3749">10.48694/fortext.3749</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/kollaboratives-literaturwissenschaftliches-annotieren">https://fortext.net/routinen/methoden/kollaboratives-literaturwissenschaftliches-annotieren</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-jackeMethodenbeitragManuelleAnnotation2018">
    <mixed-citation>———. 2024a. Methodenbeitrag: Manuelle Annotation.
    Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 4. Manuelle
    Annotation (7. August). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3748">10.48694/fortext.3748</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/manuelle-annotation">https://fortext.net/routinen/methoden/manuelle-annotation</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
