<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3746</article-id>
<title-group>
<article-title>Toolbeitrag: Transkribus</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>3</issue>
<issue-title>Textdigitalisierung und Edition</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 15.10.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/transkribus">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2018-10-15">
<day>15</day>
<month>10</month>
<year>2018</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 15.10.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/transkribus">fortext.net</ext-link></p>
<fig>
  <caption><p>Der Workflow von Transkribus: Laden Sie Ordner mit
  einseitigen oder mehrseitigen PDF-Dateien oder auch Bilddateien (JPEG,
  PNG, TIFF, JP2) hoch, lassen Sie die Linien im Manuskript bestimmen
  und transkribieren Sie. Das Transkript kann z. B. als PDF,
  TEI-konformes XML, als DOCX, TXT etc. herunter geladen und weiter
  verwendet werden.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus_Screens-p.png" />
</fig>
<p><italic>Hinweis</italic>: Der folgende Tooleintrag bezieht sich auf
die 2018 verfügbare Transkribus-Version. Das Tool hat sich seither stark
weiterentwickelt.</p>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Desktopbasiert, benötigt
    Internetverbindung für Serverzugriff, kann offline mit lokalen Daten
    verwendet werden, unterstützt alle Betriebssysteme, benötigt Java
    Runtime Environment</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> Seit 2016, wird weiter
    entwickelt</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> Universität Innsbruck</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> Kostenfrei, aber nicht Open Source</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://www.transkribus.org">https://www.transkribus.org</ext-link>
    (eine verschlankte
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://transkribus.eu/read/login/?next=/read/library/">Webversion</ext-link>
    eignet sich bei Bedarf für kurzfristigere
    Transkriptionsaufgaben)</p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Transkribus-Dokument, Excel-Datei,
    <xref alt="PDF" rid="glossary-pdf">PDF</xref>,
    <xref alt="TEI" rid="glossary-tei">TEI</xref>-<xref alt="XML" rid="glossary-xml">XML</xref>,
    DOCX, TXT (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>);
    nur Import: JPEG, PNG, TIFF, JP2</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Niederländisch, Englisch, Finnisch,
    Französisch, Deutsch, Schwedisch, Polnisch, Dänisch etc. Für mehr
    Informationen:
    <ext-link ext-link-type="uri" xlink:href="https://readcoop.eu/transkribus/public-models/">https://readcoop.eu/transkribus/public-models/</ext-link></p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-transkribus-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann Transkribus eingesetzt
  werden?</title>
  <p>Das Kerngeschäft von Transkribus ist die Digitalisierung
  (<xref alt="Horstmann 2024a" rid="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018" ref-type="bibr">Horstmann
  2024a</xref>) von Handschriften, d. h. das manuelle Transkribieren und
  die automatisierte Handschriftenerkennung
  (<xref alt="HTR" rid="glossary-htr">HTR</xref>)
  (<xref alt="Horstmann 2024b" rid="ref-horstmannMethodenbeitragDigitaleManuskriptanalyse2018" ref-type="bibr">Horstmann
  2024b</xref>). Zusätzlich wird auch eine optische Zeichenerkennung
  (<xref alt="OCR" rid="glossary-ocr">OCR</xref>) für Druckschriften
  angeboten. Editionswissenschaftliche Projekte können in Transkribus
  ausgeführt werden, die Digitalisierung kann aber auch als Vorbereitung
  für eine Weiterverarbeitung der Texte mit anderen digitalen Tools
  dienen. Transkribus bietet grundsätzlich auch die Möglichkeit, die
  erstellten Transkripte nach selbst gewählten Kategorien zu annotieren
  (vgl.
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>)
  und größere Textmengen (vgl.
  <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>) nach diesen
  Kategorien zu durchsuchen.</p>
</sec>
<sec id="welche-funktionalitäten-bietet-transkribus-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet Transkribus und wie
  zuverlässig ist das Tool?</title>
  <p>Transkribus bietet eine Vielzahl von Funktionen, darunter:</p>
  <list list-type="bullet">
    <list-item>
      <p>Archivierung von Textsammlungen und zugehöriger Scans oder
      Transkriptionen; Anreicherung mit
      <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref></p>
    </list-item>
    <list-item>
      <p>Automatische und manuelle Segmentierung des Textes</p>
    </list-item>
    <list-item>
      <p>Tagsetzung (vgl.
      <xref alt="Tagset" rid="glossary-tagset">Tagset</xref>),
      Kommentierung und
      <xref alt="Annotation" rid="glossary-annotation">Annotation</xref></p>
    </list-item>
    <list-item>
      <p>Transkription</p>
    </list-item>
    <list-item>
      <p>Nutzung automatischer
      <xref alt="HTR" rid="glossary-htr">HTR</xref>-Funktionen für
      deutsch- und englischsprachige Texte</p>
    </list-item>
    <list-item>
      <p>Training (vgl.
      <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
      Learning</xref>) eines eigenen HTR-Modells für eine bestimmte
      Schrift</p>
    </list-item>
    <list-item>
      <p><xref alt="OCR" rid="glossary-ocr">OCR</xref> (Funktionen von
      Abbyy FineReader
      (<xref alt="Schumacher 2024" rid="ref-schumacherToolbeitragAbbyyFineReader2019" ref-type="bibr">Schumacher
      2024</xref>)): Einlesen von lateinischer Schrift, Fraktur und
      Mischformen in verschiedenen Sprachen</p>
    </list-item>
    <list-item>
      <p>Fehlerquotenmessung von HTR und OCR</p>
    </list-item>
  </list>
  <p>Grundvoraussetzung für die Nutzung ist, dass hochwertige Scans
  verwendet werden. Für diesen Zweck hat Transkribus das
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://scantent.cvl.tuwien.ac.at/en/">ScanTent</ext-link>
  für perfekte Scan-Bedingungen und die Android-App DocScan
  (<xref alt="Kleber u. a. 2017" rid="ref-kleberMassDigitizationArchival2017" ref-type="bibr">Kleber
  u. a. 2017</xref>) für einen einfachen Upload der Dateien in Ihren
  Transkribusaccount entwickelt. Die Leistung wird damit zuverlässig und
  auch vergleichsweise schnell. Auch komplexere Layouts (wie bspw.
  Tabellen oder Texte mit mehreren Spalten) können vom HTR- und
  OCR-Programm häufig automatisch richtig erfasst werden. Die HTR bietet
  zudem die Möglichkeit einer manuellen Auszeichnung der Zeilen und
  ihrer Abfolge.</p>
</sec>
<sec id="ist-transkribus-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist Transkribus für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / -</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>-</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Transkribus’ grafische Nutzeroberfläche (GUI) (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>) ist sehr komplex und
  ohne Einführung nur wenig intuitiv nutzbar. Über die vielen Funktionen
  können Sie sich im
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org/">englischen</ext-link>
  oder
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org/de">deutschen</ext-link>
  <xref alt="WIKI" rid="glossary-wiki">WIKI</xref> einen Überblick
  verschaffen. Fachbegriffe werden dort größtenteils kurz erklärt,
  allerdings mit Ausnahmen wie z. B. der Unterschied zwischen
  <italic>line</italic> und <italic>baseline</italic>. Ein deutsches
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org/de/erste-schritte">Benutzerhandbuch</ext-link>
  erklärt die Benutzeroberfläche zwar en detail, bezieht sich jedoch auf
  eine ältere Version und ist daher in einigen Punkten veraltet.
  Anfragen per Mail beantwortet das Transkribus-Team i. d. R. zügig und
  ausführlich.</p>
</sec>
<sec id="wie-etabliert-ist-transkribus-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist Transkribus in den
  (Literatur-)Wissenschaften?</title>
  <p>Für Transkriptionsprojekte ist Transkribus europaweit die erste
  Anlaufstelle und viele Editionen werden mit Transkribus-Unterstützung
  erstellt. Laut Aussagen von Transkribus sind unter 55 zur Zeit aktiv
  laufenden Projekten 16 Editionsprojekte; 10 geplante Projekte haben
  noch nicht begonnen und weitere 6 haben Interesse bekundet (Stand Juli
  2018).</p>
</sec>
<sec id="unterstützt-transkribus-kollaboratives-arbeiten">
  <title>5. Unterstützt Transkribus kollaboratives Arbeiten?</title>
  <p>Ja. Textsammlungen (Collections) können mit anderen Nutzer*innen
  einzeln geteilt und dann gemeinsam transkribiert und annotiert (vgl.
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>)
  werden. Nach dem Speichern der Transkriptionen und sonstiger
  <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref> werden
  diese den anderen Nutzer*innen der jeweiligen Collection automatisch
  zugänglich gemacht. Gemeinsam können zudem Textsammlungen erweitert
  und Transkriptionsrichtlinien erstellt werden.</p>
</sec>
<sec id="sind-meine-daten-bei-transkribus-sicher">
  <title>6. Sind meine Daten bei Transkribus sicher?</title>
  <p>Ja. Beim Erstellen eines Accounts ist die Angabe Ihres Namens, der
  Mailadresse und eines Passwortes nötig. Bei der Registrierung wird
  zudem die
  <xref alt="IP-Adresse" rid="glossary-ip-adresse">IP-Adresse</xref>
  abgerufen und geschützt gespeichert. Auch Trainingsdaten werden
  erhoben, dies jedoch vor allem für die Verbesserung der HTR-Funktion
  und ohne dass ein Zugriff auf die Dokumente selbst stattfände. Dies
  geschieht, um die tooleigene HTR-Funktion stetig zu verbessern und
  zukünftig Handschriften digitalisieren zu können, ohne jeweils ein
  eigenes Training vorschalten zu müssen. Es ist kein Widerspruch
  möglich, die Daten werden jedoch wieder gelöscht, wenn Sie Ihren
  Account löschen.</p>
  <p>Hochgeladene Texte werden auf einem
  <xref alt="Server" rid="glossary-server">Server</xref> der Universität
  Innsbruck gespeichert. Die Texte befinden sich in einem geschützten
  Login-Bereich und sind nur durch diejenigen Transkribus-Nutzer*innen
  einsehbar, denen Sie Zugriff geben. Alternativ können Sie offline mit
  lokalen Daten arbeiten.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>Transkribus:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://transkribus.eu/Transkribus/">https://web.archive.org/save/https://transkribus.eu/Transkribus/</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus Benutzerhandbuch:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org/de/erste-schritte">https://web.archive.org/save/https://help.transkribus.org/de/erste-schritte</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Deutsches Transkribus-Wiki:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org/de">https://web.archive.org/save/https://help.transkribus.org/de</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Englisches Transkribus-Wiki:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://web.archive.org/save/https://help.transkribus.org">https://web.archive.org/save/https://web.archive.org/save/https://help.transkribus.org</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus und andere Sprachen:
      <ext-link ext-link-type="uri" xlink:href="https://readcoop.eu/transkribus/public-models/">https://readcoop.eu/transkribus/public-models/</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus Webversion:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://transkribus.eu/read/login/?next=/read/library/">https://web.archive.org/save/https://transkribus.eu/read/login/?next=/read/library/</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>ScanTent:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://scantent.cvl.tuwien.ac.at/en/">https://web.archive.org/save/https://scantent.cvl.tuwien.ac.at/en/</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-htr">HTR</styled-content></term>
      <def>
        <p>HTR steht für <italic>Handwritten Text Recognition</italic>
        und ist eine Form der Mustererkennung, wie auch die
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>. HTR bezeichnet
        die automatische Erkennung von Handschriften und die Umformung
        dieser in einen elektronischen Text. Die Automatisierung beruht
        auf einem
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ip-adresse">IP-Adresse</styled-content></term>
      <def>
        <p>Die Vernetzung von Computern wird in einem Internetprotokoll
        (IP) festgehalten, woraufhin jedes angebundene Gerät in diesem
        Computernetz eine IP-Adresse erhält. So werden die Geräte
        adressierbar und erreichbar gemacht. Die IP gehört zu den
        personenbezogenen Daten, da über sie auf Ihre Identität
        geschlossen werden kann.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-server">Server</styled-content></term>
      <def>
        <p>Ein Server kann sowohl hard- als auch softwarebasiert sein.
        Ein hardwarebasierter Server ist ein Computer, der in ein
        Rechnernetz eingebunden ist und der so Ressourcen über ein
        Netzwerk zur Verfügung stellt. Ein softwarebasierter Server
        hingegen ist ein Programm, das einen spezifischen Service
        bietet, welcher von anderen Programmen (Clients) lokal oder über
        ein Netzwerk in Anspruch genommen wird.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tagset">Tagset</styled-content></term>
      <def>
        <p>Ein Tagset definiert die Taxonomie, anhand derer
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        in einem Projekt erstellt werden. Ein Tagset beinhaltet immer
        mehrere Tags und ggf. auch Subtags. Ähnlich der
        <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>
        -Differenz in der Linguistik sind Tags deskriptive Kategorien,
        wohingegen Annotationen die einzelnen Vorkommnisse dieser
        Kategorien im Text sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-wiki">WIKI</styled-content></term>
      <def>
        <p>Ein Wiki ist eine Webseite mit einer Sammlung von
        Informationen zu ausgewählten Themen, die i. d. R. von mehreren
        Nutzer*innen zusammengestellt werden. Zu jedem Eintrag in einem
        Wiki gibt es eine Diskussionsseite, die auch frühere Versionen
        des Eintrags anzeigt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-coluttoTranskribusServicePlatform2017">
    <mixed-citation>Colutto, Sebastian, Günther Hackl, Philip Kahle und
    Günter Mühlberger. 2017. Transkribus - A Service Platform for
    Transcription, Recognition and Retrieval of Historical Documents.
    In:, 19–24. Kyoto, Japan. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ICDAR.2017.307">10.1109/ICDAR.2017.307</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="ttps://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&amp;arnumber=8270253">ttps://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&amp;arnumber=8270253</ext-link>
    (zugegriffen: 17. September 2018).</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragDigitaleManuskriptanalyse2018">
    <mixed-citation>Horstmann, Jan. 2024b. Methodenbeitrag: Digitale
    Manuskriptanalyse. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 3. Textdigitalisierung und Edition (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3744">10.48694/fortext.3744</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/digitale-manuskriptanalyse">https://fortext.net/routinen/methoden/digitale-manuskriptanalyse</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018">
    <mixed-citation>———. 2024a. Methodenbeitrag: Möglichkeiten der
    Textdigitalisierung. Hg. von Evelyn Gius. <italic>forTEXT</italic>
    1, Nr. 3. Textdigitalisierung und Edition (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3741">10.48694/fortext.3741</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung">https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-kleberMassDigitizationArchival2017">
    <mixed-citation>Kleber, Florian, Markus Diem, Fabian Hollaus und
    Stefan Fiel. 2017. Mass Digitization of Archival Documents using
    Mobile Phones. In: <italic>Proceedings of the 4th International
    Workshop on Historical Document Imaging and Processing</italic>,
    65–70.
    <ext-link ext-link-type="uri" xlink:href="https://dl.acm.org/citation.cfm?doid=3151509.3151526">https://dl.acm.org/citation.cfm?doid=3151509.3151526</ext-link>
    (zugegriffen: 17. September 2018).</mixed-citation>
  </ref>
  <ref id="ref-mühlbergerHandschriftenerkennungFurHistorische2018">
    <mixed-citation>Mühlberger, Günter und Tamara Terbul. 2018.
    Handschriftenerkennung für historische Schriften. Die Transkribus
    Plattform. <italic>b.i.t. online</italic> 21, Nr. 3: 218–222.
    <ext-link ext-link-type="uri" xlink:href="https://www.b-i-t-online.de/heft/2018-03/fachbeitrag-muehlberger.pdf">https://www.b-i-t-online.de/heft/2018-03/fachbeitrag-muehlberger.pdf</ext-link>
    (zugegriffen: 17. September 2018).</mixed-citation>
  </ref>
  <ref id="ref-schumacherToolbeitragAbbyyFineReader2019">
    <mixed-citation>Schumacher, Mareike. 2024. Toolbeitrag: Abbyy
    FineReader. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 3.
    Textdigitalisierung und Edition (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3742">10.48694/fortext.3742</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/abbyy-finereader">https://fortext.net/tools/tools/abbyy-finereader</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
