<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3788</article-id>
<title-group>
<article-title>Toolbeitrag: GROBID</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-8095-2540</contrib-id>
<name>
<surname>Gerstorfer</surname>
<given-names>Dominik</given-names>
</name>
<email>dominik.gerstorfer@tu-darmstadt.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Technische Universität Darmstadt</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>11</issue>
<issue-title>Bibliografie</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 08.03.2021 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/grobid">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2021-03-08">
<day>08</day>
<month>03</month>
<year>2021</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 08.03.2021 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/grobid">fortext.net</ext-link></p>
<fig>
  <caption><p>Abb. 1: Der GROBID-Workflow: Im Webinterface werden
  Dateien ausgewählt, die strukturierten Daten können als TEI
  heruntergeladen werden.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="GROBID_Screens.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Läuft auf Linux und Mac,
    benötigt JDK 8.</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> Wird seit 2008 entwickelt,
    letztes Release August 2020.</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> Patrice Lopez</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> 0.6.1</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://github.com/kermitt2/grobid/releases/">https://github.com/kermitt2/grobid/releases/</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> GROBID liest TXT- und PDF-Dateien
    und extrahiert strukturierte Daten als XML-TEI oder BibTeX.</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Keine Angabe</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-grobid-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann GROBID eingesetzt
  werden?</title>
  <p>GROBID liest TXT (vgl.
  <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>)-
  und <xref alt="PDF" rid="glossary-pdf">PDF</xref>-Dateien und
  extrahiert strukturierte Daten als XML-TEI (vgl.
  <xref alt="TEI" rid="glossary-tei">TEI</xref>) oder BibTeX. Das Tool
  dient primär der Vorverarbeitung (vgl.
  <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
  von Texten, etwa im Prozess der Korpusbildung
  (<xref alt="Bläß 2024" rid="ref-blassMethodenbeitragKorpusbildung2020" ref-type="bibr">Bläß
  2024</xref>).</p>
</sec>
<sec id="welche-funktionalitäten-bietet-grobid-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet GROBID und wie zuverlässig
  ist das Tool?</title>
  <p><italic>Funktion:</italic> GROBID kann eingesetzt werden um
  bibliographische Informationen aus Texten zu extrahieren, dabei kann
  zwischen den Informationen des Textes oder der darin enthaltenen
  Bibliographie gewählt werden. Des Weiteren kann der Volltext einer
  PDF- als strukturierte TEI-Datei ausgelesen werden.</p>
  <p>Folgende Funktionen sind Verfügbar:</p>
  <list list-type="bullet">
    <list-item>
      <p>Header-Informationen eines Artikels (Titel, Autoren, Abstract,
      Keywords, etc.) extrahieren und parsen.</p>
    </list-item>
    <list-item>
      <p>Bibliographische Daten extrahieren.</p>
    </list-item>
    <list-item>
      <p>Zitate im Text erkennen und mit der Bibliographie
      verknüpfen</p>
    </list-item>
    <list-item>
      <p>Einzelne bibliographische Angaben parsen.</p>
    </list-item>
    <list-item>
      <p>Adressen und Institutszugehörigkeiten parsen.</p>
    </list-item>
    <list-item>
      <p>Volltext einer PDF strukturieren und als TEI ausgeben.</p>
    </list-item>
  </list>
  <p>GROBID bietet auch die Möglichkeit eigene Modelle zu trainieren und
  Module zu schreiben, so dass fortgeschrittene Nutzer*innen das Tool
  sehr flexibel anpassen können.</p>
  <p><italic>Zuverlässigkeit:</italic> GROBID setzt ML-Modelle (vgl.
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref>) ein, die F-Scores (vgl.
  <xref alt="F-score" rid="glossary-f-score">F-score</xref>) zwischen
  0,76 und 0,89 erreichen, abhängig von der Qualität der Quelltexte und
  der eingesetzten Funktion. In der Regel müssen die extrahierten Daten
  noch manuell nachbearbeitet werden.</p>
</sec>
<sec id="ist-grobid-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist GROBID für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / –</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>-</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>-</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>teilweise</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Eine direkte methodische Nähe zu den traditionellen
  Literaturwissenschaften ist nicht gegeben, da mit GROBID selbst keine
  Analysen möglich sind. GROBID ist vielmehr ein Hilfsprogramm, mit dem
  mühsame und arbeitsintensive Aufgaben automatisiert und erleichtert
  werden können.
  Ein leichter Einstieg ist über das Webinterface möglich, welches für
  einfache Anwendungsfälle eine graphische Benutzeroberfläche
  bereitstellt. Der volle Funktionsumfang ist jedoch erst über die
  <xref alt="API" rid="glossary-api">API</xref> zugänglich, hierfür ist
  es nötig auf der Kommandozeile (vgl.
  <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>)
  mit
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://de.wikipedia.org/wiki/CURL">cURL</ext-link>
  oder den GROBID-Client-Programmen entsprechende Anfragen zu stellen.
  Welche Optionen zur Verfügung stehen und wie auch größere
  Datenbestände automatisiert bearbeitet werden können, ist in der
  umfangreichen
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://grobid.readthedocs.io/en/latest/">Dokumentation</ext-link>
  mit Beispielen beschrieben.</p>
</sec>
<sec id="wie-etabliert-ist-grobid-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist GROBID in den
  (Literatur-)Wissenschaften?</title>
  <p>GROBID ist in den Naturwissenschaften und den Digitalen
  Geisteswissenschaften etabliert und wird bereits stabil in privaten
  und öffentlichen Projekten eingesetzt, u.a. von
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.researchgate.net/">ResearchGate</ext-link>,
  dem
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://archive.org">Internet
  Archive</ext-link> und dem
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://invenio-software.org/">CERN
  (Invenio)</ext-link>.</p>
</sec>
<sec id="unterstützt-grobid-kollaboratives-arbeiten">
  <title>5. Unterstützt GROBID kollaboratives Arbeiten?</title>
  <p>Nein, mit GROBID kann nicht kollaborativ gearbeitet werden.</p>
</sec>
<sec id="sind-meine-daten-bei-grobid-sicher">
  <title>6. Sind meine Daten bei GROBID sicher?</title>
  <p>Ja, GROBID läuft als Server auf dem eigenen Rechner, alle Daten
  werden lokal verarbeitet.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>CERN (Invenio):
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106112023/https://invenio-software.org/">https://web.archive.org/web/20241106112023/https://invenio-software.org/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>cURL:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106112021/https://de.wikipedia.org/wiki/CURL">https://web.archive.org/web/20241106112021/https://de.wikipedia.org/wiki/CURL</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>Grobid Dokumentation:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106112305/https://grobid.readthedocs.io/en/latest/">https://web.archive.org/web/20241106112305/https://grobid.readthedocs.io/en/latest/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>Grobid auf GitHub:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106112023/https://github.com/kermitt2/grobid/releases/">https://web.archive.org/web/20241106112023/https://github.com/kermitt2/grobid/releases/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>Grobid Web Application:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106112452/https://kermitt2-grobid.hf.space/">https://web.archive.org/web/20241106112452/https://kermitt2-grobid.hf.space/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>Internet Archive:
      <ext-link ext-link-type="uri" xlink:href="https://archive.org">https://archive.org</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>ResearchGate:
      <ext-link ext-link-type="uri" xlink:href="https://www.researchgate.net/">https://www.researchgate.net/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-api">API</styled-content></term>
      <def>
        <p>API steht für <italic>Application Programming
        Interface</italic> und bezeichnet eine Programmierschnittstelle,
        die Soft- und Hardwarekomponenten wie Anwendungen, Festplatten
        oder Benutzeroberflächen verbindet. Sie vereinheitlicht die
        Datenübergabe zwischen Programmteilen, etwa Modulen, und
        Programmen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-f-score">F-score</styled-content></term>
      <def>
        <p>Der F-Score steht für ein statistisches Maß, welches das
        Verhältnis von Genauigkeit (<italic>Precision</italic>) und
        Trefferquote (<italic>Recall</italic>) als gewichtetes
        harmonisches Mittel angibt, und deshalb als gerichtetes,
        harmonisches Mittel gilt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-blassMethodenbeitragKorpusbildung2020">
    <mixed-citation>Bläß, Sandra. 2024. Methodenbeitrag: Korpusbildung.
    Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 2.
    Korpusbildung (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3708">10.48694/fortext.3708</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/korpusbildung">https://fortext.net/routinen/methoden/korpusbildung</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
