<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3745</article-id>
<title-group>
<article-title>Lerneinheit: Manuskriptdigitalisierung mit
Transkribus</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>3</issue>
<issue-title>Textdigitalisierung und Edition</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 18.03.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/lerneinheiten/manuskriptdigitalisierung-mit-transkribus">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-03-18">
<day>18</day>
<month>03</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 18.03.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/lerneinheiten/manuskriptdigitalisierung-mit-transkribus">fortext.net</ext-link></p>
<sec id="eckdaten-der-lerneinheit">
  <title>Eckdaten der Lerneinheit</title>
  <list list-type="bullet">
    <list-item>
      <p>Anwendungsbezug: Briefmanuskript von Richard Dehmel</p>
    </list-item>
    <list-item>
      <p>Methode: Manuelle digitale Transkription eines Manuskripts</p>
    </list-item>
    <list-item>
      <p>Angewendetes Tool: Transkribus</p>
    </list-item>
    <list-item>
      <p>Lernziele: Download eines eingescannten Briefes, Installation
      und Nutzung des Tools, Export des erzeugten Transkripts</p>
    </list-item>
    <list-item>
      <p>Dauer der Lerneinheit: ca. 120 Minuten</p>
    </list-item>
    <list-item>
      <p>Schwierigkeitsgrad des Tools: mittel</p>
    </list-item>
  </list>
</sec>
<sec id="bausteine">
  <title>Bausteine</title>
  <list list-type="bullet">
    <list-item>
      <p>Anwendungsbeispiel
      Welchen Brief transkribieren Sie? Erstellen Sie ein digitales
      Transkript eines Briefes von Richard Dehmel an Rainer Maria Rilke
      und verknüpfen Sie den elektronischen Text mit der
      Handschrift.</p>
    </list-item>
    <list-item>
      <p>Vorarbeiten
      Was müssen Sie tun, bevor es losgehen kann? Lernen Sie, wie man
      Transkribus installiert und einen Text hochlädt.</p>
    </list-item>
    <list-item>
      <p>Funktionen
      Welche Funktionen bietet Ihnen Transkribus zur digitalen
      Transkription von Handschriften? Lernen Sie die einzelnen
      Komponenten des Tools kennen und lösen Sie Beispielaufgaben.</p>
    </list-item>
    <list-item>
      <p>Lösungen zu den Beispielaufgaben
      Haben Sie die Beispielaufgaben richtig gelöst? Hier finden Sie
      Antworten.</p>
    </list-item>
  </list>
</sec>
<sec id="anwendungsbeispiel">
  <title>1. Anwendungsbeispiel</title>
  <p>In dieser Lerneinheit werden wir am Beispiel eines Briefes des
  Schriftstellers Richard Dehmel an Rainer Maria Rilke lernen, wie man
  handschriftliche Manuskripte digital transkribieren kann.
  Handschriften stellen eine besondere Herausforderung für die
  automatische Digitalisierung dar (vgl. Möglichkeiten der
  Textdigitalisierung
  (<xref alt="Horstmann 2024a" rid="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018" ref-type="bibr">Horstmann
  2024a</xref>)), weil handgeschriebene im Gegensatz zu maschineller
  Schrift individuellen Mustern folgt und nicht nur zwischen
  unterschiedlichen Autor*innen, sondern häufig auch innerhalb eines
  Oeuvres oder gar einzelner Texte variiert. Wollen Sie handschriftliche
  Dokumente nicht nur als Bilddateien (d. h. als Scans) digitalisieren
  und mit
  <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
  versehen, sondern auch eine Volltexttranskription vornehmen, um den
  Text elektronisch les- und durchsuchbar zu machen (vgl. Digitale
  Manuskriptanalyse
  (<xref alt="Horstmann 2024b" rid="ref-horstmannMethodenbeitragDigitaleManuskriptanalyse2018" ref-type="bibr">Horstmann
  2024b</xref>)), bietet sich das Tool Transkribus
  (<xref alt="Horstmann 2024c" rid="ref-horstmannToolbeitragTranskribus2018" ref-type="bibr">Horstmann
  2024c</xref>) an. In diesem Tool wird die Handschrift direkt mit dem
  Transkript verknüpft, sodass es bei größeren Mengen von Manuskripten
  der gleichen Handschrift möglich ist, diese Schrift mit maschinellem
  Lernen (vgl.
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref>) zu „trainieren“ und damit automatisch transkribierbar
  (vgl. <xref alt="HTR" rid="glossary-htr">HTR</xref>) zu machen.
  Transkribus ist eine im Rahmen des europäischen
  <italic>READ</italic>-Projektes („Recognition and Enrichment of
  Archival Documents“) entwickelte, in der Basisversion kostenfrei
  nutzbare Forschungsplattform, die momentan mehr als 10.000
  Nutzer*innen das Transkribieren, Erkennen und Untersuchen von
  historischen Dokumenten ermöglicht, ohne dass umfangreiches
  technisches Vorwissen vonnöten ist.</p>
</sec>
<sec id="vorarbeiten">
  <title>2. Vorarbeiten</title>
  <p>In der Staats- und Universitätsbibliothek Hamburg befindet sich ein
  umfangreiches
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.sub.uni-hamburg.de/sammlungen/nachlass-und-autographensammlung/dehmel-archiv.html">Briefarchiv</ext-link>
  des zu Beginn des 20. Jahrhunderts berühmten Schriftstellers Richard
  Dehmel. Die Briefe liegen teilweise bereits als digitale Scans vor,
  wurden bislang jedoch nicht transkribiert. Wir werden in dieser
  Lerneinheit beispielhaft einen Brief Dehmels an Rainer Maria Rilke vom
  17. Januar 1906 transkribieren. Um sich den Brief als
  <xref alt="PDF" rid="glossary-pdf">PDF</xref> herunterzuladen, folgen
  Sie dem
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://digitalisate.sub.uni-hamburg.de/recherche/detail?tx_dlf%5Bid%5D=20874&amp;tx_dlf%5Bpage%5D=1&amp;cHash=1e7ca4d4cba6f9052272f057fca11ed3">Link</ext-link>.
  Sie sehen den eingescannten Brief, den Sie sich mit einem Klick auf
  „Gesamtwerk als PDF“ herunterladen können, nachdem Sie den
  Nutzungsbedingungen zugestimmt haben. Tipp: Wollen Sie Transkribus für
  Ihre eigenen Manuskripte verwenden und eine Handschrift trainieren,
  achten Sie unbedingt darauf, dass Sie ordentliche (hochauflösende)
  Scans verwenden, um beste Ergebnisse zu erzielen.</p>
  <fig>
    <caption><p>Abb. 1: Ansicht des Dehmelbriefes an Rilke vom
    17.01.1906, Dehmelarchiv SUB Hamburg</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Briefansicht_SUB-Hamburg-p1.png" />
  </fig>
  <p>Da man in Transkribus PDF-Dateien direkt hochladen kann, bedarf es
  keiner weiteren Vorbereitung (vgl.
  <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
  des Dokumentes. Die Umformung eines eingescannten in einen
  computerlesbaren Text ist eine unumgängliche Voraussetzung für
  Methoden der digitalen Textanalyse, sollten die Texte nicht bereits
  digital vorliegen. Eine manuelle (vgl.
  <xref alt="Keying" rid="glossary-keying">Keying</xref>) oder
  automatische digitale Transkription findet daher im Zuge der
  Digitalisierung vor der digitalen Analyse statt.</p>
  <p>Als nächstes installieren Sie sich das Transkribus-Tool und legen
  sich einen Account an, damit Sie ihre Dokumente und Transkriptionen
  jederzeit wiederfinden und verwalten können. Folgen Sie dazu
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.transkribus.org/de">diesem
  Link</ext-link> und klicken auf den für Ihr Betriebssystem passenden
  Download-Button.</p>
  <fig>
    <caption><p>Abb. 2: Downloadoptionen auf der
    Transkribus-Webseite</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Download-p.png" />
  </fig>
  <p>Im sich öffnenden Login-Fenster können Sie sich entweder mit einem
  Google-Account anmelden, oder sich unter „sign up“ registrieren.</p>
  <p>Nach dem Login laden Sie sich das Tool durch einen erneuten Klick
  auf den entsprechenden Download-Button herunter und extrahieren
  (insofern das nicht von selbst geschieht) die ZIP-Datei (vgl.
  <xref alt="ZIP" rid="glossary-zip">ZIP</xref>) auf ihrem Rechner. Sie
  können das Programm nun an einem Ort speichern, an dem Sie es leicht
  wiederfinden können. Öffnen Sie per Doppelklick das Programm (d. h.
  die Datei mit dem Transkribus-Logo). Sollte Ihr Computer Transkribus
  nicht öffnen wollen, liegt das vermutlich an Ihren
  Sicherheitseinstellungen. Wie Sie eine programmspezifische Ausnahme
  hinzufügen können, erfahren Sie in den Videos, die wir für Sie auf
  Zenodo bereitstellen
  (<xref alt="forTEXT 2019a" rid="ref-fortext_2024_11074232" ref-type="bibr">forTEXT
  2019a</xref>;
  <xref alt="forTEXT 2019b" rid="ref-fortext_2024_11074222" ref-type="bibr">forTEXT
  2019b</xref>).</p>
  <p>Sie haben nun das Tool Transkribus erfolgreich installiert. Nach
  dem Öffnen des Programms klicken Sie oben links auf den
  „Login“-Button, wählen Ihren Accounttyp (Google oder Transkribus) und
  loggen sich ein. Sie sehen die Arbeitsoberfläche (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>) von Transkribus (vgl.
  Abb. 3) und eine Mitteilung, welche neuen Funktionen in letzter Zeit
  erschienen sind. Diese können Sie schließen. Da Ihre Arbeitsschritte
  auf dem
  Transkribus-<xref alt="Server" rid="glossary-server">Server</xref>
  gespeichert werden, ist für die Arbeit mit dem Tool eine Verbindung
  mit dem Internet Voraussetzung.</p>
  <fig>
    <caption><p>Abb. 3: Arbeitsoberfläche von Transkribus</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-startpage-p.png" />
  </fig>
  <p>In der oberen Leiste sehen Sie verschiedene Icons, mit denen Sie
  verschiedene Ansichten einstellen und diverse dokumentbezogene
  Aktionen durchführen können. Eine kurze Erläuterung erhalten Sie beim
  Hovern über das jeweilige Icon. Hier finden Sie auch das Icon für den
  <bold>Dokumentimport</bold>, auf das Sie nun klicken.</p>
  <fig>
    <caption><p>Abb. 4: Icons im Transkribus-Menü</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Icons-p.png" />
  </fig>
  <p>Wählen Sie in dem sich öffnenden Fenster die Option „Extract and
  upload images from pdf“ und suchen per Klick auf den Button rechts
  neben dem Eingabefeld die zuvor gespeicherte PDF-Datei des
  Dehmelbriefes. Bevor Sie schließlich den „Upload“-Button klicken,
  erstellen Sie unter „Add to collection“ Ihre eigene Kollektion, in der
  dieser Brief gespeichert werden soll. Kollektionen (d. h. Sammlungen
  (vgl. <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>)) helfen
  Ihnen bei der Organisation zusammengehörender Dokumente.</p>
  <fig>
    <caption><p>Abb. 5: Dokumentupload in Transkribus</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Import-p.png" />
  </fig>
  <p>Die Datei wird nun hochgeladen und Sie erhalten eine Meldung, wenn
  der Upload abgeschlossen wurde. In der linken Spalte der
  Benutzeroberfläche können Sie ihre Kollektion auswählen, unter der
  dann die enthaltenen Dokumente (in diesem Fall nur der Brief Dehmels)
  aufgeführt werden. Da hochgeladene Dateien zunächst vom
  Transkribus-Server verarbeitet werden müssen, kann es einige Minuten
  dauern, bis das Dokument angezeigt wird. Klicken Sie dafür hin und
  wieder auf den „Reload“-Button unten rechts in dieser linken Spalte
  (siehe Abb. 6). Tipp: Sie können in Transkribus eine Liste der bereits
  abgeschlossenen und noch aktiv ausgeführten Jobs mit einem Klick auf
  das Kaffeetassen-Symbol in der Leiste oben links einsehen (vgl. Abb.
  4).</p>
  <fig>
    <caption><p>Abb. 6: Dokumente in einer
    Transkribus-Kollektion</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Collection-Documents-p.png" />
  </fig>
  <p>Ein Doppelklick auf den schließlich erscheinenden Dokumentnamen
  öffnet das Manuskript auf der rechten Seite. Der Button „Document
  Manager“ bietet Ihnen die Möglichkeit, die Dokumente in einer
  Kollektion zu verwalten und bspw. einzelne Seiten aus einem Dokument
  zu löschen. Sollten Sie Manuskripte haben, die noch nicht als Scans
  vorliegen, empfiehlt sich die von Transkribus entwickelte und
  kostenlos nutzbare Android-App
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.transkribus.org/de/docscan">DocScan</ext-link>,
  die eingescannte Manuskripte zeitsparend direkt Ihrem
  Transkribus-Account hinzufügt. Sie haben nun ein Manuskript in
  Transkribus hochgeladen und sind damit bereit für die digitale
  Transkription!</p>
</sec>
<sec id="funktionen">
  <title>3. Funktionen</title>
  <p>Transkribus stellt eine direkte technische Verknüpfung zwischen den
  einzelnen Zeilen des Manuskripts (das als Bilddokument noch nicht
  elektronisch lesbar ist) mit der entsprechenden manuell eingegebenen
  Transkription her: die Grundvoraussetzung für ein maschinelles Lernen,
  das eine automatische Erkennung der Handschrift möglich machen soll.
  Um sicherzustellen, dass der transkribierte Text immer dem richtigen
  Text auf der jeweiligen Manuskriptseite zugeordnet werden kann, müssen
  auf jeder neuen Manuskriptseite zunächst immer die einzelnen
  Textbereiche und die Zeilen definiert werden. Das Tool bietet hierfür
  bei regelmäßig geschriebenen Manuskripten eine verhältnismäßig
  zuverlässige automatische Unterstützung; kompliziertere Layouts (z. B.
  Listen oder Ergänzungen zwischen den Zeilen oder am Rand des Textes)
  bedürfen häufig einer manuellen Korrektur. Als Menschen können wir
  leicht erkennen, an welcher Stelle des eigentlichen Textes bspw. eine
  Ergänzung am Rand gelesen werden soll. Dem Tool müssen Sie diese
  Lesereihenfolge explizit beibringen, um eine korrekte Referenzierung
  von Bildausschnitt/Manuskriptstelle und Transkript garantieren zu
  können.</p>
  <p>Für diesen, auch <bold>Segmentierung</bold> genannten
  Arbeitsschritt, wählen Sie zunächst das „Segmentation“-Profil wie in
  Abb. 7 gezeigt in Transkribus aus.</p>
  <fig>
    <caption><p>Abb. 7: Profile in Transkribus wechseln</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Profiles-p.png" />
  </fig>
  <p>Unter dem Profile-Icon finden Sie mehrere Tabs, von denen Sie nun
  „<bold>Tools</bold>“ auswählen. Hier finden Sie zahlreiche Funktionen
  bspw. für die Layoutanalyse oder die Texterkennung. Uns interessiert
  in dieser Lerneinheit hiervon besonders die
  <bold>Layoutanalyse</bold>. Das unter diesem Punkt vorausgewählte
  „Current transcript“ wird die Zeilen auf der aktuell aufgerufenen
  ersten Seite des geladenen Manuskripts als solche auszeichnen.
  Aktivieren Sie rechts daneben die andere Option „Pages“, und begrenzen
  Sie den Seitenrahmen auf die beiden Briefseiten, damit das Layout auf
  beiden Seiten analysiert wird. Außerdem wird Transkribus in diesem
  Schritt Textregionen und die Zeilen innerhalb dieser Textregionen
  finden (automatisch vorausgewählt sind „Find Text Regions“ und „Find
  Lines in Text Regions“). Ein Klick auf den „Run“-Button darunter
  startet die automatische Layoutanalyse. Sie erhalten jeweils eine
  Meldung, dass der Job ausgeführt wird und dass die Aufgabe
  abgeschlossen wurde. Transkribus fragt Sie, ob Sie die Seite nun neu
  laden wollen. Klicken Sie auf „Yes“.</p>
  <p>(Exkurs: Sollten Sie eingescannte Textdokumente haben, die nicht
  handschriftlich sondern gedruckt (aber dennoch nicht computerlesbar)
  sind, bietet Transkribus auch einige <bold>OCR-Funktionen</bold> (vgl.
  <xref alt="OCR" rid="glossary-ocr">OCR</xref>) des sonst
  kostenpflichtigen
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.abbyy.com/de-de/finereader/pricing/?msclkid=af8d631f212e14702ac83f61a8591f30&amp;affsrc=1&amp;CJEVENT=16ae0fec3f5411e9823200a20a180511">Abbyy
  FineReaders</ext-link> für zahlreiche Sprachen an. Laden Sie dafür Ihr
  Dokument wie beschrieben in eine Kollektion. Der zweite Abschnitt im
  Tab „Tools“ heißt „Text Recognition“ und hier können Sie als Methode
  statt der voreingestellten HTR auf OCR umstellen. Ein anschließender
  Klick auf „Run“ erstellt Ihnen, nachdem Sie die Sprache des Dokuments
  und die Schriftart (Fraktur, Latein oder gemischt) ausgewählt haben,
  automatisch ein Transkript, das Sie nur noch korrigieren müssen.
  Achtung: Frakturschriften stellen erfahrungsgemäß für OCR-Tools große
  Probleme dar. Der Abbyy FineReader ist hierfür zwar das am häufigsten
  empfohlene Tool, auch hier müssen Sie sich jedoch noch auf teilweise
  umfangreiche manuelle Nachkorrekturen einstellen.)</p>
  <p>Klicken Sie nun auf das Manuskript, sehen Sie einen grün
  eingefärbten Rahmen über der gesamten Manuskriptseite (dies ist die
  <bold>Textregion</bold>) und unter allen Zeilen blasse rote Linien
  (die sog. <bold>Baselines</bold>).</p>
  <fig>
    <caption><p>Abb. 8: Textregion und Baselines in
    Transkribus</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Textregion-Lines-p1.png" />
  </fig>
  <p>Sie können das Manuskript auf der Arbeitsfläche verschieben, indem
  Sie außerhalb des Dokumentes klicken und ziehen (Achtung: Wenn Sie auf
  das Dokument klicken und ziehen, verschieben Sie die Textregion oder
  die Baselines). Links neben dem Manuskript finden Sie u. a. Buttons,
  um Textregionen und Baselines manuell hinzuzufügen (siehe Abb. 8).
  Wenn Sie in das Dokument hereinzoomen (mit den Funktionen Ihrer Maus
  bzw. Ihres Touchpads oder über die Lupensymbole oberhalb des
  Manuskriptes), können Sie einzelne Baselines auswählen, indem Sie sie
  anklicken. Dort sehen Sie dann auch, dass jede Baseline einzelne
  Punkte miteinander verbindet, die bei Bedarf per Drag &amp; Drop
  manuell verschoben werden können, sollte die automatische Erkennung
  bspw. eine Zeile falsch ausgezeichnet haben.</p>
  <fig>
    <caption><p>Abb. 9: Ausschnitt einer Baseline in
    Transkribus</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Baseline-p.png" />
  </fig>
  <p>Nun geht es an die manuelle Korrektur der Zeilenauszeichnungen. In
  der Menüleiste oberhalb des Manuskriptes sehen Sie ein Icon, das wie
  ein Auge aussieht. Klicken Sie auf das Auge (siehe Abb. 10), haben Sie
  die Möglichkeit, unterschiedliche Aspekte des Layouts (un-)sichtbar zu
  machen. Stellen Sie sicher, dass Baselines („Show baselines“) und die
  Leseabfolge der Zeilen („Show lines reading order“) aktiviert sind.
  Eine korrekte <bold>Reihenfolge der Baselines</bold> ist wichtig, wenn
  Sie das zu erstellende Transkript als durchgängigen korrekten Text
  lesen können wollen. Ein erneuter Klick auf das Auge schließt das Menü
  wieder. Zoomen Sie dann an den Beginn des Briefes, sodass Sie die
  Baselines gut sehen und die kleinen Nummerierungszahlen am Beginn
  jeder Baseline erkennen können.</p>
  <fig>
    <caption><p>Abb. 10: Anzeigeoptionen für Textregionen und
    Baselines</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-reading-order-p.png" />
  </fig>
  <p><italic>Aufgabe 1</italic>
  Untersuchen Sie die Baselines der beiden Manuskriptseiten. Welche
  Arten von Fehlern fallen Ihnen auf und was könnten die Gründe für die
  fehlerhafte Auszeichnung sein?</p>
  <p><bold>Manuelle Korrektur</bold>: Wenn Sie ein maschinelles Training
  der Handschriften anstreben, spielen die „Fehler“ in der automatischen
  Auszeichnung keine Rolle, solange Sie während der Durchführung der
  Transkription die transkribierten Wörter immer der richtigen Baseline
  zuordnen. In dieser Lerneinheit ist es uns jedoch wichtig, dass eine
  Manuskriptzeile auch nur als eine Baseline ausgezeichnet wird (sodass
  dem fertigen Manuskript ebenfalls die korrekten Zeilenumbrüche
  entnommen werden können bzw. das gesamte Transkript in der natürlichen
  Reihenfolge gelesen werden kann). Dafür lassen sich die Baselines
  einzeln durch Auswahl der einzelnen Punkte einer Baseline mit der
  Maustaste manuell manipulieren oder mit Rechtsklick (bzw.
  Backspace-Taste) löschen. Ganz neue Baselines setzen Sie mithilfe des
  Buttons „+ BL“ links neben dem Manuskript. Verfahren Sie so mit dem
  gesamten Brief. Bei komplexen Layouts mag die manuelle Auszeichnung
  (durch Hinzufügen von Baselines über „+ BL“) der effizientere Weg
  sein, um Manuskriptzeilen und Lesereihenfolgen korrekt zu
  identifizieren. In diesen Fällen überspringen Sie den Schritt der
  automatischen Layoutanalyse und legen auch die Textregion(en) manuell
  fest.</p>
  <p>Sie haben nun alle Baselines korrekt ausgezeichnet. Wechseln Sie
  über den „Profile“-Button oben links in die „Transcription“-Ansicht.
  Unter dem Manuskript erscheint ein weißes Feld mit durchnummerierten
  Zeilen: Hier werden Sie in Aufgabe zwei die <bold>Transkription</bold>
  vornehmen bzw. den entzifferten Text als elektronischen Text eingeben.
  Die Größe des weißen Feldes können Sie beliebig verändern, indem Sie
  es einfach weiter oder weniger weit über das Manuskript ziehen. Wenn
  Sie eine einzelne Zeile im Manuskript anklicken, sehen Sie, dass die
  entsprechende Zeile auch im Transkript hervorgehoben wird. Das
  funktioniert auch andersherum: Die jeweils ausgewählte Manuskriptzeile
  ist blau unterstrichen und die entsprechende Transkriptzeile erscheint
  in blauer Schrift.</p>
  <fig>
    <caption><p>Abb. 11: Transkriptionsprofil in Transkribus mit
    ausgewählter Zeile</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-select-line-p.png" />
  </fig>
  <p>Diese Verknüpfung basiert auf der vorherigen Auszeichnung der
  Baselines. Der transkribierte Text muss daher immer genau hinter
  diejenige Nummer geschrieben werden, welche die entsprechende Baseline
  referenziert, um eine spätere HTR ermöglichen zu können. Hier zeigt
  sich auch der wesentliche Unterschied zwischen OCR und HTR: Während
  die automatische Erkennung von maschinell gedruckter Schrift
  buchstabenweise funktioniert, arbeitet die Handschriftenerkennung
  zeilenbasiert und vergleicht Buchstaben somit immer in ihrem Kontext
  (vgl. Möglichkeiten der Textdigitalisierung
  (<xref alt="Horstmann 2024a" rid="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018" ref-type="bibr">Horstmann
  2024a</xref>)). Vergleichen Sie bspw. einmal die beiden Es („e“) im
  ersten Wort „Lieber“ miteinander. Die umgebenden Buchstaben bestimmen
  in Handschriften immer das individuelle Aussehen eines Buchstaben und
  führen somit zu nicht zu unterschätzenden Abweichungen.</p>
  <p><italic>Aufgabe 2</italic>
  Transkribieren Sie jetzt Dehmels Brief an Rainer Maria Rilke. Wie
  gehen Sie mit nur schwer lesbaren Wörtern oder Buchstaben um? Was hat
  Rilke Dehmel zu Weihnachten geschenkt? Wann und mit wem wird Dehmel
  auf einer Vortragsreise sein?</p>
  <p>Sie haben nun den Brief Dehmels an Rilke vollständig transkribiert.
  Beim Transkribieren werden Sie bemerkt haben, dass Dehmel häufig mit
  Unterstreichungen arbeitet. Damit ein Machine-Learning-Algorithmus
  begreift, dass diese Unterstreichungen nicht zum geschriebenen Wort
  gehören, sondern sie als Hinzufügung interpretieren kann, sollten auch
  derlei <bold>Formatierungen und Sonderzeichen</bold> minutiös in das
  Transkript mit eingearbeitet werden. Dafür finden Sie in der Leiste
  unterhalb des Transkriptionsfeldes die entsprechenden Icons (siehe
  Abb. 12). Ein Tastatur-Icon bietet Ihnen zudem zahlreiche weitere
  Schriften (wie arabische, erweiterte lateinische, hebräische Schrift
  sowie alchemistische und astronomische Symbole) und auch Sonderzeichen
  (im Tab „General Punctuation“).</p>
  <fig>
    <caption><p>Formatierungsoptionen für das in Transkribus erstellte
    Transkript</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Formatierungen-p.png" />
  </fig>
  <p>Selbstverständlich hängt es von Ihrem konkreten Projektziel ab, wie
  minutiös das Transkript tatsächlich erstellt werden muss: Für
  Editionen und maschinelles Lernen ist eine große Genauigkeit
  unumgänglich. Da wir in dieser Lerneinheit weder eine Edition
  erstellen wollen noch ein maschinelles Lernen anstreben, interessiert
  uns lediglich der Inhalt des Manuskriptes, bei dem Unterstreichungen,
  Sonderzeichen, etc. nur ein bedingtes Erkenntnisinteresse haben.</p>
  <p>Exkurs: Sollte es Ihr Ziel sein, ein <bold>Modell</bold> für eine
  spezifische Handschrift zu <bold>trainieren</bold> (d. h. mithilfe
  eines maschinellen Lernens eine automatische Erkennung der Handschrift
  zu ermöglichen), ist die Devise: Je mehr Text einer Handschrift Sie
  manuell transkribieren, desto besser wird das trainierte Modell werden
  (Transkribus empfielt zwischen 5000 und 15.000 Wörter bzw. 25-75
  Seiten). Alternativ lassen sich im Tab „Tools“ unter „Text
  Recognition“ bereits trainierte Handschriftenmodelle (wie die gotische
  oder die Kurrentschrift) auswählen. Das langfristige Ziel des
  Projektes ist es, die vielen in Transkribus angesiedelten
  Transkriptionsprojekte zu nutzen, um viele unterschiedliche
  Schreibstile zu trainieren. Auf diese Weise wird es zukünftig möglich
  sein, die meisten handschriftlichen Dokumente ohne vorheriges
  individuelles Training zu erkennen (vgl. das umfangreiche
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org">Transkribus</ext-link>-<xref alt="WIKI" rid="glossary-wiki">WIKI</xref>
  für weitere Informationen und Anleitungen). Da maschinelles Lernen
  sehr rechenaufwendig ist, ist die Möglichkeit, Modelle selbst zu
  trainieren, in der Standardversion nicht implementiert. Nehmen Sie
  dafür bitte Kontakt mit dem
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org/kb-tickets/new">Transkribus-Team</ext-link>
  auf, das dieses Feature für Sie freischalten kann.</p>
  <p>Haben Sie Ihr Manuskript erfolgreich transkribiert, bietet Ihnen
  Transkribus zahlreiche Möglichkeiten der
  <bold>Metadatenanreicherung</bold>. Oben links finden Sie den Tab
  „Metadata“, der vier weitere Untertabs für die verschiedenen Arten von
  Metadaten verbirgt: „Document“, „Structural“, „Textual“ und
  „Comments“. Alle Metadaten, die Sie hier hinzufügen, können Sie später
  zusammen mit dem Transkriptionsdokument als
  <xref alt="TEI" rid="glossary-tei">TEI</xref>-<xref alt="XML" rid="glossary-xml">XML</xref>
  speichern und in anderen Tools der digitalen Textanalyse weiter
  verwenden. Wir werden uns hier nur beispielhaft auf die textuellen
  Metadaten konzentrieren.</p>
  <fig>
    <caption><p>Abb. 13: Metadaten: Tags und Annotationen in
    Transkribus</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Tags-p.png" />
  </fig>
  <p>Unten links sind Ihnen hier bereits einige Beispielkategorien (vgl.
  <xref alt="Tagset" rid="glossary-tagset">Tagset</xref>) vorgegeben,
  die Sie im Transkript annotieren (vgl.
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>)
  können. Indem Sie ein Wort oder eine Passage markieren und dann auf
  das „+“-Zeichen neben der entsprechenden Tag-Kategorie klicken,
  belegen Sie die entsprechende Textstelle mit diesem Tag. Zu jedem Tag
  gibt es zudem entsprechende Properties (vgl.
  <xref alt="Property" rid="glossary-property">Property</xref>), wie z.
  B. die Angabe von Typen oder Ländernamen bei Orten (Tag „place“),
  Geburts- und Sterbedaten von Personen (Tag „person“) usw. Die
  Tagkategorien und Properties sind über den „Customize“-Button
  erweiterbar.</p>
  <p><italic>Aufgabe 3</italic>
  Testen Sie alle Metadatenfunktionen von Transkribus. Annotieren Sie im
  Zuge dessen alle Organisationen, Orte und Personen. Wie viele gibt es
  davon, wo ergeben sich Schwierigkeiten und was kann diese Auszeichnung
  nützen?</p>
  <p>Transkribierte und mit Metadaten versehene Manuskripte können
  schließlich in unterschiedlichen Formaten <bold>exportiert</bold>
  werden. In der Icon-Leiste oben finden Sie neben dem Import- ein
  Export-Icon, das Sie zu der folgenden Ansicht führt.</p>
  <fig>
    <caption><p>Abb. 14: Exportoptionen in Transkribus</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Transkribus-Export-p.png" />
  </fig>
  <p>Im oberen Bereich des Panels legen Sie unter „Client export“ den
  Ort fest, an dem Ihr Transkript gespeichert werden soll (alternativ
  können Sie den „Server export“ nutzen: Transkribus wird Ihnen dann
  automatisch einen Downloadlink zumailen). Auf der linken Seite können
  Sie individuell festlegen, in welchem Format oder welchen Formaten Sie
  das Transkript exportieren möchten. Unterschiedliche Formate bieten
  auch unterschiedliche Vor- und Nachteile. Ein PDF hat bspw. den
  Vorteil, dass Sie nach wie vor das handschriftliche Manuskript sehen
  werden, das aber nun computerlesbar sein wird. Bei DOCX- oder
  TXT-Dokumenten ist das nicht der Fall, dafür können Sie aber den
  transkribierten Text direkt lesen, kopieren, weiterverarbeiten etc.
  Soll ein Transkript mitsamt der hinzugefügten Metadaten für andere
  digitale Methoden und Tools weiter verwendet werden, ist sicher das
  TEI-XML-Format am vorteilhaftesten. Den standardisierten TEI-Vorgaben
  entsprechend kombiniert das Format Text- und Metadaten (auf Dokument-,
  Struktur-, Text- und Kommentarebene). So können z. B. die von Ihnen
  bereits in Transkribus gesetzten und im XML-Dokument gespeicherten
  Annotationen in einem anderen Tool als solche erkannt, erweitert,
  verfeinert und analysiert werden (hierfür böte sich bspw.
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://catma.de">CATMA</ext-link>
  an). Darüber hinaus besteht die Möglichkeit, sämtliche Formate
  gemeinsam zu exportieren und sie bei Bedarf in einer ZIP-Datei
  zusammenzufassen, um den Download zu beschleunigen. Zu jedem
  Exportformat bietet Transkribus zudem weitere Optionen in der
  mittleren Spalte an (vgl. Abb. 14); so können Sie z. B. ein
  PDF-Dokument erzeugen, das nicht nur das computerlesbare Manuskript
  anzeigt, sondern eine extra Textseite zu jeder Manuskriptseite
  hinzufügt, die besonders lesefreundlich ist und aus der Sie den
  transkribierten Text leichter herauskopieren können. Ein Klick auf den
  „OK“-Button exportiert Ihr fertiges Transkript. Zudem speichert
  Transkribus alle Ihre Transkripte in der entsprechenden Kollektion,
  sodass Sie im Tool stets dort weiterarbeiten können, wo Sie aufgehört
  haben.</p>
  <p>In dieser Lerneinheit haben Sie ein Briefmanuskript Richard Dehmels
  digitalisiert, indem Sie den eingescannten Brief in Ihren
  Transkribus-Account hochgeladen, transkribiert, mit Metadaten versehen
  und anschließend exportiert haben. Dadurch ist das Manuskript
  computerlesbar geworden und kann nun mit weiteren digitalen Methoden
  erforscht werden. Transkribus selbst bietet Ihnen zahlreiche
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org">Informationen</ext-link>,
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.youtube.com/channel/UC-txVgM31rDTGlBnH-zpPjA">Videotutorials</ext-link>
  und mit
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://transkribus.eu/r/learn/">Transkribus
  LEARN</ext-link> auch Möglichkeiten, die digitale
  Handschriftentranskription mit vielen unterschiedlichen
  Handschriftenarten zu erlernen.</p>
</sec>
<sec id="lösungen-zu-den-beispielaufgaben">
  <title>4. Lösungen zu den Beispielaufgaben</title>
  <p><italic>Aufgabe 1:</italic> Untersuchen Sie die Baselines der
  beiden Manuskriptseiten. Welche Arten von Fehlern fallen Ihnen auf und
  was könnten die Gründe für die fehlerhafte Auszeichnung sein?</p>
  <p>Der erste „Fehler“ (Baseline 1) ist die Kennzeichnung der „242“ am
  oberen rechten Rand der ersten Manuskriptseite. Als menschliche
  Betrachtende sehen wir direkt, dass diese Zahl nicht zur Dehmel’schen
  Handschrift gehört, sondern eine maschinelle Nummerierung des Briefes
  innerhalb einer größeren Briefsammlung darstellt. Das Programm macht
  in dieser Hinsicht jedoch keinen Unterschied. Der zweite Fehler
  (Baseline 3) ist die Identifikation des oberen Striches des
  Buchstabens R in der Anrede als eigene Zeile. Außerdem wird die Anrede
  als drei eigenständige Zeilen ausgezeichnet und das letzte „R.“ ist
  nicht mehr Teil der Baseline. Ähnliches passiert häufig im gesamten
  Brief. Gründe dafür können unterschiedliche Höhen der einzelnen Wörter
  oder auch unterschiedlich große Wortabstände sein.</p>
  <p><italic>Aufgabe 2</italic>: Transkribieren Sie jetzt Dehmels Brief
  an Rainer Maria Rilke. Wie gehen Sie mit nur schwer lesbaren Wörtern
  oder Buchstaben um? Was hat Rilke Dehmel zu Weihnachten geschenkt?
  Wann und mit wem wird Dehmel auf einer Vortragsreise sein?</p>
  <p>In der Transkription von Handschriften spielen Zusammenhänge und
  Vergleiche eine große Rolle. Schwer zu entziffernde Buchstaben oder
  Wörter können häufig aus dem Wort- oder Satzzusammenhang erschlossen
  werden. Wissen Sie bspw. nicht, dass Dehmel seine zweite Frau „Isi“
  genannt hat (Ida Dehmel, geborene Coblenz, verheiratete Auerbach),
  könnte dieser Eigenname eine Herausforderung darstellen, da Dehmels
  großes „I“ für Sie evtl. speziell aussehen könnte. Zwei Zeilen weiter
  unten finden Sie jedoch das alltägliche Wort „Ihnen“ und ein Vergleich
  der Anfangsbuchstaben der beiden Wörter erschließt Ihnen auch den
  Namen „Isi“. Zu Weihnachten hat Dehmel von Rilke übrigens dessen
  berühmt gewordenes <italic>Stunden-Buch</italic> (1905) bekommen, für
  das er sich inniglich bedankt. Seine Vortragsreise wird vom 13. bis
  23. März 1906 stattfinden und „Frau Isi“ wird ihn begleiten.</p>
  <p><italic>Aufgabe 3</italic>: Testen Sie alle Metadatenfunktionen von
  Transkribus. Annotieren Sie im Zuge dessen alle Organisationen, Orte
  und Personen. Wie viele gibt es davon, wo ergeben sich Schwierigkeiten
  und was kann diese Auszeichnung nützen?</p>
  <p>Annotiert man sehr dicht (d. h. dass bspw. alle Erwähnungen von
  „ich“, „wir“, „Sie“ etc. als Person annotiert werden) zählt das Tool
  schließlich sechs Organisationen, fünf Orte und 21 Personen auf der
  ersten, vier Organisationen, zwei Orte und 19 Personen auf der zweiten
  Manuskriptseite. Selbstverständlich handelt es sich dabei nicht um
  jeweils individuelle Organisationen, Orte und Personen; Koreferenzen
  können über die Properties aufgelöst werden. Eine weitere
  Schwierigkeit ergibt sich bei Ausdrücken wie „300 Personen“,
  „Publicum“, „Adresse“ oder auch „unsres“, bei denen eine Bezeichnung
  als Person oder Ort zumindest angezweifelt werden könnte. Schließlich
  erzeugt Transkribus (anders als andere Annotationstools) zwei
  Annotationen, wenn ein Tag über einen Zeilenwechsel hinaus gesetzt
  wird, z. B. bei „Ham-burger“ oder „Kunstgewerbe-haus“. Dies führt zu
  quantitativen Verzerrungen. Eine Auszeichnung dieser Konzepte in den
  Metadaten kann ein Transkript jedoch bereits für eine Netzwerkanalyse
  (<xref alt="Schumacher 2024a" rid="ref-schumacherMethodenbeitragNetzwerkanalyse2018" ref-type="bibr">Schumacher
  2024a</xref>) vorbereiten und bildet gleichsam ein manuelles Pendant
  zur Named Entity Recognition
  (<xref alt="Schumacher 2024b" rid="ref-schumacherMethodenbeitragNamedEntity2018" ref-type="bibr">Schumacher
  2024b</xref>).</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>Abbyy FineReader:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.abbyy.com/de-de/finereader/pricing/?msclkid=af8d631f212e14702ac83f61a8591f30&amp;affsrc=1&amp;CJEVENT=16ae0fec3f5411e9823200a20a180511">https://web.archive.org/save/https://www.abbyy.com/de-de/finereader/pricing/?msclkid=af8d631f212e14702ac83f61a8591f30&amp;affsrc=1&amp;CJEVENT=16ae0fec3f5411e9823200a20a180511</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Brief Dehmels an Rainer Maria Rilke vom 17.01.1906:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://digitalisate.sub.uni-hamburg.de/recherche/detail?tx_dlf%5Bid%5D=20874&amp;tx_dlf%5Bpage%5D=1&amp;cHash=1e7ca4d4cba6f9052272f057fca11ed3">https://web.archive.org/save/https://digitalisate.sub.uni-hamburg.de/recherche/detail?tx_dlf%5Bid%5D=20874&amp;tx_dlf%5Bpage%5D=1&amp;cHash=1e7ca4d4cba6f9052272f057fca11ed3</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>CATMA:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://catma.de">https://web.archive.org/save/http://catma.de</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Dehmel-Archiv:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.sub.uni-hamburg.de/sammlungen/nachlass-und-autographensammlung/dehmel-archiv.html">https://web.archive.org/save/http://www.sub.uni-hamburg.de/sammlungen/nachlass-und-autographensammlung/dehmel-archiv.html</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>DocScan:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.transkribus.org/de/docscan">https://web.archive.org/save/https://www.transkribus.org/de/docscan</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.transkribus.org/de">https://web.archive.org/save/https://www.transkribus.org/de</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus Kontakt:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org/kb-tickets/new">https://web.archive.org/save/https://help.transkribus.org/kb-tickets/new</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus Modell-Einrichtung und Training:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org/de/modell-einrichtung-und-schulung">https://web.archive.org/save/https://help.transkribus.org/de/modell-einrichtung-und-schulung</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus Videotutorials:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.youtube.com/channel/UC-txVgM31rDTGlBnH-zpPjA">https://web.archive.org/save/https://www.youtube.com/channel/UC-txVgM31rDTGlBnH-zpPjA</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus LEARN:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://transkribus.eu/r/learn/">https://web.archive.org/save/https://transkribus.eu/r/learn/</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus Wiki:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://help.transkribus.org">https://web.archive.org/save/https://help.transkribus.org</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-double-keying">Double-keying</styled-content></term>
      <def>
        <p>Double-Keying ist eine Variante des
        <xref alt="Keying" rid="glossary-keying">Keying</xref>, bei der
        zwei Personen den Inhalt eines Dokumentes abtippen. Anschließend
        sucht ein Computerprogramm nach Differenzen zwischen den beiden
        Versionen. Gefundene Tippfehler werden dann von einer dritten
        Person korrigiert. So entstehen nahezu fehlerfreie
        Textdigitalisate.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-feature">Feature</styled-content></term>
      <def>
        <p>Unter Features können Einzelfunktionen eines Tools verstanden
        werden, die beispielsweise komplexe Funktionen wie die
        Visualisierung eines Textes als
        <xref alt="Wordcloud" rid="glossary-wordcloud">Wordcloud</xref>
        ermöglichen, oder auch kleinere Funktionseinheiten wie den
        Abgleich einzelner Spracheigenschaften
        (<xref alt="Properties" rid="glossary-property">Properties</xref>)
        mit
        <xref alt="annotierten" rid="glossary-annotation">annotierten</xref>
        Beispieltexten darstellen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-htr">HTR</styled-content></term>
      <def>
        <p>HTR steht für <italic>Handwritten Text Recognition</italic>
        und ist eine Form der Mustererkennung, wie auch die
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>. HTR bezeichnet
        die automatische Erkennung von Handschriften und die Umformung
        dieser in einen elektronischen Text. Die Automatisierung beruht
        auf einem
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-keying">Keying</styled-content></term>
      <def>
        <p>In den Bibliotheks- und Textwissenschaften beschreibt Keying
        das manuelle Erfassen, also das Abtippen, eines Textes im Zuge
        seiner Digitalisierung (siehe auch
        <xref alt="Double-Keying" rid="glossary-double-keying">Double-Keying</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-property">Property</styled-content></term>
      <def>
        <p>Property steht für „Eigenschaft“, „Komponente“ oder
        „Attribut“. In der automatischen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        dienen konkrete Worteigenschaften wie Groß- und Kleinschreibung
        zur Klassifizierung von Wörtern oder Phrasen. Durch die
        Berücksichtigung solcher Eigenschaften in den
        <xref alt="Features" rid="glossary-feature">Features</xref>
        eines Tools kann
        <xref alt="maschinelles Lernen" rid="glossary-machine-learning">maschinelles
        Lernen</xref> bestimmter Phänomene umgesetzt werden. In der
        manuellen Annotation können als Properties auch Eigenschaften
        von
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        benannt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-server">Server</styled-content></term>
      <def>
        <p>Ein Server kann sowohl hard- als auch softwarebasiert sein.
        Ein hardwarebasierter Server ist ein Computer, der in ein
        Rechnernetz eingebunden ist und der so Ressourcen über ein
        Netzwerk zur Verfügung stellt. Ein softwarebasierter Server
        hingegen ist ein Programm, das einen spezifischen Service
        bietet, welcher von anderen Programmen (Clients) lokal oder über
        ein Netzwerk in Anspruch genommen wird.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tagset">Tagset</styled-content></term>
      <def>
        <p>Ein Tagset definiert die Taxonomie, anhand derer
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        in einem Projekt erstellt werden. Ein Tagset beinhaltet immer
        mehrere Tags und ggf. auch Subtags. Ähnlich der
        <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>
        -Differenz in der Linguistik sind Tags deskriptive Kategorien,
        wohingegen Annotationen die einzelnen Vorkommnisse dieser
        Kategorien im Text sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-wiki">WIKI</styled-content></term>
      <def>
        <p>Ein Wiki ist eine Webseite mit einer Sammlung von
        Informationen zu ausgewählten Themen, die i. d. R. von mehreren
        Nutzer*innen zusammengestellt werden. Zu jedem Eintrag in einem
        Wiki gibt es eine Diskussionsseite, die auch frühere Versionen
        des Eintrags anzeigt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-wordcloud">Wordcloud</styled-content></term>
      <def>
        <p>Eine <italic>Wordcloud</italic> , oder auch Schlagwortwolke,
        ist eine Form der Informationsvisualisierung, beispielsweise von
        Worthäufigkeiten in einem Text oder einer Textsammlung. Dabei
        werden unterschiedlich gewichtete Wörter, wie die häufigsten
        Wörter, i.d.R. größer oder auf andere Weise hervorgehoben
        dargestellt. Die horizontale/vertikale Ausrichtung und die Farbe
        der dargestellten Wörter hat meistens allerdings keinen
        semantischen Mehrwert.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-zip">ZIP</styled-content></term>
      <def>
        <p>ZIP steht für ein Dateiformat (zip = engl. Reißverschluss),
        in welchem mehrere Einzeldateien verlustfrei, komprimiert
        zusammengefasst werden. ZIP-Dateien werden beim Öffnen entweder
        automatisch entpackt oder lassen sich per Rechtsklick
        extrahieren.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-fortext_2024_11074232">
    <mixed-citation>forTEXT. 2019a. Tutorial: Sicherheitsaufnahme für
    Internetprogramme Hinzufügen (Mac). 19. Januar.
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5281/zenodo.11074232">https://doi.org/10.5281/zenodo.11074232</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-fortext_2024_11074222">
    <mixed-citation>———. 2019b. Tutorial: Sicherheitsausnahme für
    Internetprogramme Hinzufügen (Windows). 25. Januar.
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5281/zenodo.11074222">https://doi.org/10.5281/zenodo.11074222</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragDigitaleManuskriptanalyse2018">
    <mixed-citation>Horstmann, Jan. 2024b. Methodenbeitrag: Digitale
    Manuskriptanalyse. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 3. Textdigitalisierung und Edition (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3744">10.48694/fortext.3744</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/digitale-manuskriptanalyse">https://fortext.net/routinen/methoden/digitale-manuskriptanalyse</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018">
    <mixed-citation>———. 2024a. Methodenbeitrag: Möglichkeiten der
    Textdigitalisierung. Hg. von Evelyn Gius. <italic>forTEXT</italic>
    1, Nr. 3. Textdigitalisierung und Edition (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3741">10.48694/fortext.3741</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung">https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannToolbeitragTranskribus2018">
    <mixed-citation>———. 2024c. Toolbeitrag: Transkribus. Hg. von Evelyn
    Gius. <italic>forTEXT</italic> 1, Nr. 3. Textdigitalisierung und
    Edition (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3746">10.48694/fortext.3746</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/transkribus">https://fortext.net/tools/tools/transkribus</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-schumacherMethodenbeitragNetzwerkanalyse2018">
    <mixed-citation>Schumacher, Mareike. 2024a. Methodenbeitrag:
    Netzwerkanalyse. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 6. Netzwerkanalyse (30. August). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3759">10.48694/fortext.3759</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/netzwerkanalyse">https://fortext.net/routinen/methoden/netzwerkanalyse</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-schumacherMethodenbeitragNamedEntity2018">
    <mixed-citation>———. 2024b. Methodenbeitrag: Named Entity
    Recognition (NER). Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 9. Named Entity Recognition (30. Oktober). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3765">10.48694/fortext.3765</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/named-entity-recognition-ner">https://fortext.net/routinen/methoden/named-entity-recognition-ner</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
