<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3743</article-id>
<title-group>
<article-title>Toolbeitrag: OCR4all</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-7952-4194</contrib-id>
<name>
<surname>Schumacher</surname>
<given-names>Mareike</given-names>
</name>
<email>Mareike.Schumacher@sprachlit.uni-regensburg.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Regensburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>3</issue>
<issue-title>Textdigitalisierung und Edition</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 09.09.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/ocr4all">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-09-09">
<day>09</day>
<month>09</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 09.09.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/ocr4all">fortext.net</ext-link></p>
<fig>
  <caption><p>Der Workflow von OCR4all: Die Bilddateien werden in der
  vorbereiteten Ordnerstruktur abgelegt und können dann auf der
  Benutzeroberfläche ausgewählt und bearbeitet werden; der erkannte und
  verbesserte Text wird schließlich als TXT- oder XML-Datei wieder in
  den Ordnern abgespeichert</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="ocr4allWorkflow_p.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Nutzbar mit Linux (empfohlen),
    Windows und MacOS</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> +OCR4all läuft in der ersten
    Produktivversion, die kontinuierlich verbessert wird</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> Universität Würzburg</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> Kostenfrei zugänglich</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://www.ocr4all.org/">https://www.ocr4all.org/</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Als Importformate eignen sich sowohl
    Bildformate (z. B. PNG, JPG) als auch das PDF-Format (vgl.
    <xref alt="PDF" rid="glossary-pdf">PDF</xref>), Texte können im TXT-
    (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>)
    oder XML-Format (vgl. <xref alt="XML" rid="glossary-xml">XML</xref>)
    gespeichert werden</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Erkennung von über 200 Sprachen (u.a.
    Latein, Deutsch, Französisch, Niederländisch)</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-ocr4all-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann OCR4all eingesetzt
  werden?</title>
  <p>OCR4all erleichtert die Digitalisierung
  (<xref alt="Horstmann 2024" rid="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018" ref-type="bibr">Horstmann
  2024</xref>) historischer Drucke und ermöglicht die Texterkennung
  unterschiedlicher Schrifttypen. Das OCR4all-Texterkennungstool könnte
  besonders gut für ein Forschungsprojekt eingesetzt werden, in dem
  historische Faksimiles die Untersuchungsgegenstände darstellen. Mit
  Hilfe des Tools können beispielsweise Texte auf Handzetteln von
  Theatervorführungen aus dem 19. Jahrhundert erkannt werden, um diese
  dann miteinander abzugleichen. Mit Hilfe eigener Verbesserungen, durch
  die das Tool lernt (vgl.
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref>), können auch weitaus ältere Texte computerlesbar
  gemacht werden. Eine weitere mögliche Fragestellung wäre z. B.: Welche
  Persönlichkeiten wurden besonders häufig in Schriften des frühen
  Protestantismus erwähnt?</p>
</sec>
<sec id="welche-funktionalitäten-bietet-ocr4all-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet OCR4all und wie zuverlässig
  ist das Tool?</title>
  <p><italic>Funktionen (Auswahl)</italic>:</p>
  <list list-type="bullet">
    <list-item>
      <p>Integration gängiger und sehr mächtiger Texterkennungsprogramme
      in eine einheitliche Benutzeroberfläche (vgl.
      <xref alt="GUI" rid="glossary-gui">GUI</xref>)</p>
    </list-item>
    <list-item>
      <p>Automatische Texterkennung in Scans von Fraktur- und
      Antiquaschriften aus dem 19. Jahrhundert</p>
    </list-item>
    <list-item>
      <p>Semi-automatische Erkennung frühneuzeitlicher gedruckter
      Texte</p>
    </list-item>
    <list-item>
      <p><xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>
      der Scans (z. B. Erkennung der Schriftbereiche in binären und
      graustufigen Bildern, Umrechnen schief eingescannter Textbereiche
      in gerade Textblöcke)</p>
    </list-item>
    <list-item>
      <p>Segmentierung</p>
    </list-item>
    <list-item>
      <p>Erkennung von Layout und Textregionen sowie Textzeilen, dazu
      eine Korrekturoberfläche zur Verbesserung der Ergebnisse</p>
    </list-item>
    <list-item>
      <p>Zeichenerkennung auf Grundlage von Zeilenbildern, die im Layout
      erkannt bzw. festgelegt wurden</p>
    </list-item>
    <list-item>
      <p>Abschließende Textkorrektur</p>
    </list-item>
    <list-item>
      <p>Training (vgl.
      <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
      Learning</xref>) eigener, projektspezifischer
      <xref alt="OCR" rid="glossary-ocr">OCR</xref>-Modelle</p>
    </list-item>
    <list-item>
      <p>Evaluation der eigenen Korrektur- und Trainingsarbeit</p>
    </list-item>
  </list>
  <p><italic>Zuverlässigkeit</italic>: OCR4all ist ein schnell und
  zuverlässig laufendes Texterkennungstool. Die Qualität der
  gespeicherten Textdokumente hängt stark von der Bildqualität der
  eingescannten Faksimiles ab. Mit einem iterativen Ansatz, bei dem die
  Ergebnisse in mehreren Durchläufen verbessert werden und das Tool
  dabei für die projektspezifischen Materialien optimiert wird, erreicht
  OCR4all Erkennungsquoten von bis zu 99,5%.</p>
</sec>
<sec id="ist-ocr4all-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist OCR4all für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / -</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Die Entwickler von OCR4all haben es sich zur Aufgabe gemacht, einen
  Einstieg in die Texterkennung zu bieten, der besonders für
  Nutzer*innen ohne Vorkenntnisse geeignet ist. Dieses Ziel erreichen
  sie mit einer gut strukturierten grafischen Benutzeroberfläche,
  Handbüchern in Deutsch und Englisch und einer sehr zugewandten
  Nutzerbetreuung. Allerdings läuft OCR4all in einer Docker-Umgebung,
  die vor der Nutzung auf dem eigenen PC eingerichtet werden muss. Für
  diese Einrichtung werden Commandline-Programme (vgl.
  <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>)
  benötigt, deren Verwendung für wenig technikaffine Nutzer*innen
  ungewohnt sein kann. Gleiches gilt für die Vorgänge des Daten-Up- und
  -Downloads, die über die computerinterne Ordnerstruktur geregelt
  werden. Die von OCR4all bereitgestellten Tutorials zur Einrichtung des
  Programmes decken derzeit Linux- und Windows-, nicht aber
  Mac-Umgebungen ab.</p>
</sec>
<sec id="wie-etabliert-ist-ocr4all-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist OCR4all in den
  (Literatur-)Wissenschaften?</title>
  <p>OCR4all wurde im Jahr 2019 herausgebracht. Es handelt sich folglich
  um eine Neuerscheinung, bei der sich zeigen wird, wie kompatibel das
  Werkzeug mit den Ansprüchen der Fachgemeinschaft ist. Es arbeiten
  bereits zahlreiche, auch eher traditionell arbeitende
  Geisteswissenschaftler*innen, mit OCR4all. In wissenschaftlichen
  Veröffentlichungen wird das Tool bisher allerdings noch nicht erwähnt.
  Eine Publikation zur Entwicklung von OCR4all wird derzeit
  vorbereitet.</p>
</sec>
<sec id="unterstützt-ocr4all-kollaboratives-arbeiten">
  <title>5. Unterstützt OCR4all kollaboratives Arbeiten?</title>
  <p>OCR4all wurde für die Benutzung durch einzelne Nutzer*innen
  entwickelt, kann allerdings auch gemeinsam genutzt werden, wenn das
  Tool auf einem durch ein Passwort geschützten
  <xref alt="Server" rid="glossary-server">Server</xref> installiert
  wird.</p>
</sec>
<sec id="sind-meine-daten-bei-ocr4all-sicher">
  <title>6. Sind meine Daten bei OCR4all sicher?</title>
  <p>Ja, wenn Sie die von OCR4all genutzte Container-Software Docker
  lokal auf Ihrem Computer installieren und keinen Web-Zugang wählen.
  Während der Installation von OCR4all installieren Sie einen
  Docker-Container auf Ihrem PC. Dabei handelt es sich um einen Teil
  ihres Arbeitsspeichers, der eingekapselt wird und über den die
  Installationsdaten über ein mit Hilfe von Docker geteiltes Laufwerk
  ausgetauscht werden. Um die Installation durchführen zu können, ist
  ein Admin-Zugriff auf Ihren Computer notwendig. Theoretisch birgt
  dieses Verfahren die Gefahr, dass auch schadhafte Dateien auf Ihrem
  System eingerichtet werden könnten. Da OCR4all an der Universität
  Würzburg entwickelt wurde und somit nur Daten (bzw. Updates) von
  regionalen Servern zu ihnen gelangen, die hohen
  Sicherheitsanforderungen genügen, ist diese Gefahr allerdings sehr
  gering.</p>
  <p>Ihre Bild-und Textdaten bleiben auf Ihrem eigenen System.
  Ausschließlich Nutzer*innen Ihres Computers können darauf zugreifen.
  Selbst wenn Sie OCR4all auf einem Server installieren und kollaborativ
  nutzen, haben nur diejenigen Zugang zu den hier abgelegten Daten, die
  auf den Server zugreifen können. Aus urheberrechtlicher Sicht ist die
  Nutzung von OCR4all also vollkommen unbedenklich.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>OCR4all:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.ocr4all.org/">https://web.archive.org/save/https://www.ocr4all.org/</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-server">Server</styled-content></term>
      <def>
        <p>Ein Server kann sowohl hard- als auch softwarebasiert sein.
        Ein hardwarebasierter Server ist ein Computer, der in ein
        Rechnernetz eingebunden ist und der so Ressourcen über ein
        Netzwerk zur Verfügung stellt. Ein softwarebasierter Server
        hingegen ist ein Programm, das einen spezifischen Service
        bietet, welcher von anderen Programmen (Clients) lokal oder über
        ein Netzwerk in Anspruch genommen wird.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018">
    <mixed-citation>Horstmann, Jan. 2024. Methodenbeitrag: Möglichkeiten
    der Textdigitalisierung. Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 3. Textdigitalisierung und Edition
    (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3741">10.48694/fortext.3741</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung">https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
