<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3744</article-id>
<title-group>
<article-title>Methodenbeitrag: Digitale
Manuskriptanalyse</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>3</issue>
<issue-title>Textdigitalisierung und Edition</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 12.07.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/digitale-manuskriptanalyse">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2018-07-12">
<day>12</day>
<month>07</month>
<year>2018</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 12.07.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/digitale-manuskriptanalyse">fortext.net</ext-link></p>
<sec id="definition">
  <title>1. Definition</title>
  <fig>
    <caption><p>Staats- und Universitätsbibliothek Hamburg,
    Richard-Dehmel-Archiv, Mark Emanuel Amtstätter (CC BY-SA
    4.0)</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Manuskript_Dehmel-p.png" />
  </fig>
  <p>Die digitale Manuskriptanalyse beschäftigt sich mit der
  Auszeichnung bzw.
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
  kultureller Artefakte in Form eingescannter Handschriften. Sollten
  diese Bilddigitalisate aufgrund schlechter Lesbarkeit oder
  individueller und uneinheitlicher Handschrift nicht für eine
  automatisierte Texterkennung (vgl. Möglichkeiten der
  Textdigitalisierung
  (<xref alt="Horstmann 2024a" rid="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018" ref-type="bibr">Horstmann
  2024a</xref>)) in Frage kommen, werden die Manuskripte als Bilddateien
  gespeichert und als solche ausgezeichnet.</p>
</sec>
<sec id="anwendungsbeispiel">
  <title>2. Anwendungsbeispiel</title>
  <p>Haben Sie beispielsweise vor, ein Archiv von 50.000 Briefen Martin
  Bubers zu digitalisieren, könnten Sie nach dem Einscannen der
  Manuskripte (für das es unterstützende Workflows gibt, s. u.) entweder
  eine automatisierte Handschriftenerkennung anstreben, um den Inhalt
  der Texte digital analysierbar zu machen, oder die Briefscans in ihrem
  Zustand als Bilddateien belassen und als solche mit zusätzlichen
  Informationen (sog.
  <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>)
  bestücken. Die Briefe wären im letzteren Fall dann zwar nicht als
  Volltexte, wohl aber auf der Ebene der Metadaten digital
  analysierbar.</p>
</sec>
<sec id="literaturwissenschaftliche-tradition">
  <title>3. Literaturwissenschaftliche Tradition</title>
  <p>Alle Textwissenschaften und Teilbereiche der Kulturwissenschaften
  beschäftigen sich mit dem Lesen, Annotieren, Analysieren oder
  Interpretieren von geschriebenen oder verschriftlichten Texten. Häufig
  werden dafür diese Texte übertragen (z. B. auf Papier) und nicht
  direkt auf dem Original bearbeitet – schon gar nicht, wenn es sich um
  historisch wertvolle Manuskripte handelt, die z. B. auf Pergament oder
  Papyrus verfasst sind, oder um Grabinschriften, Münzgravuren, etc.
  Während ein Manuskript als (autografes) Blatt vor allem Gegenstand
  materialwissenschaftlicher Betrachtungen wird, ist es als (allografe)
  Seite interessant für literaturwissenschaftliche Lektüren und Analysen
  (<xref alt="Benne 2015" rid="ref-benneErfindungManuskriptsZur2015" ref-type="bibr">Benne
  2015</xref>).</p>
  <p>Bereits durch das Lesen eines Textes wird dieser funktional von
  seinem Trägermaterial unabhängig gemacht und dadurch immaterialisiert.
  Der Computer kann dies jedoch nicht implizit machen, sondern muss
  explizit lernen, wie dieser Schritt funktioniert
  (<xref alt="Rehbein 2017, 181" rid="ref-rehbeinDigitalisierung2017" ref-type="bibr">Rehbein
  2017, 181</xref>). Der Text als immaterielle Größe ist deshalb in
  literaturwissenschaftlicher Hinsicht wie beim alltäglichen Lesen das
  Ziel der Digitalisierung. Dennoch vernachlässigen auch
  Literaturwissenschaftler*innen den autografen Aspekt nicht gänzlich,
  denn häufig können Informationen über die Schrift und das verwendete
  Material der literaturwissenschaftlichen Interpretation wesentliche
  Impulse geben. Nicht zuletzt für die Zitierbarkeit eines Textes ist
  die Angabe der jeweiligen Seite, auf der eine Textpassage zu finden
  ist, ein wichtiges Kriterium und sollte im Zuge der Umwandlung in
  einen elektronischen Text nicht verloren gehen.</p>
  <p>Wie für die Möglichkeiten der Textdigitalisierung
  (<xref alt="Horstmann 2024a" rid="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018" ref-type="bibr">Horstmann
  2024a</xref>) allgemein lassen sich somit auch für die
  Manuskriptanalyse im Speziellen drei literaturwissenschaftliche
  Traditionslinien aufzeigen: (1) die Editionsphilologie und Textkritik,
  (2) die Paläografie und (3) das Setzen von Manuskripten seit der
  Erfindung des Buchdrucks.</p>
</sec>
<sec id="diskussion">
  <title>4. Diskussion</title>
  <p>Besonders in der Lehre bietet es sich an, nicht das
  Originalmanuskript, sondern ein Surrogat zu verwenden, um Zeit und
  Kosten zu sparen und um das Originalmanuskript zu schonen. Als
  Digitalisat lassen sich Manuskripte verlustfrei kopieren und
  vervielfältigen – ein Vorteil, den die klassische analoge Reproduktion
  nicht bietet
  (<xref alt="Rehbein 2017, 179" rid="ref-rehbeinDigitalisierung2017" ref-type="bibr">Rehbein
  2017, 179</xref>). Die einzelnen Digitalisate können untereinander
  vernetzt und so in vielfältige Beziehungen zueinander gesetzt
  werden.</p>
  <p>Ist ein Manuskript aufgrund seines Zustandes oder einer
  problematischen Handschrift nicht mit digitalen Methoden zu erfassen
  (d. h. vom Computer in einen elektronischen Text umzuwandeln), oder
  ist der Aufwand eines <italic>Keyings</italic> (vgl.
  <xref alt="Keying" rid="glossary-keying">Keying</xref>) (d. h. des
  manuellen Transkribierens/Abtippens) im Rahmen des jeweiligen
  Projektes nicht zu rechtfertigen, können einige digitale Methoden die
  Arbeit mit den Texten zumindest unterstützen. In diesem Fall bleiben
  die eingescannten Manuskripte als Bilddateien gespeichert und werden
  als solche annotiert (vgl.
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>)
  bzw. mit
  <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
  versehen. Eine solche Operation lässt sich z. B. im Laboratory von
  TextGrid
  (<xref alt="Horstmann 2024c" rid="ref-horstmannRessourcenbeitragTextGridRepository2018" ref-type="bibr">Horstmann
  2024c</xref>) ausführen.</p>
  <p>Wenn Sie beispielsweise in den einzelnen Dokumenten der gesammelten
  Briefe der Familie Mann und etwaigen Gegenkorrespondenzen jeweils die
  Korrespondenzpartner*innen oder auch die erwähnten Personen und Orte
  als Metadaten speichern, lässt sich die gesamte Textsammlung anhand
  dieser strukturellen Metadaten jeweils neu sortieren. Zudem kann eine
  Visualisierung als Netzwerk (Textvisualisierung
  (<xref alt="Horstmann und Stange 2024" rid="ref-horstmannMethodenbeitragTextvisualisierung2018" ref-type="bibr">Horstmann
  und Stange 2024</xref>), Netzwerkanalyse
  (<xref alt="Schumacher 2024" rid="ref-schumacherMethodenbeitragNetzwerkanalyse2018" ref-type="bibr">Schumacher
  2024</xref>)) etwa Einblicke in die globale Vernetzung der
  Schriftstellerfamilie gewähren und somit wertvolle Beiträge zur
  Diskussion über Welt- oder europäische Literatur leisten.</p>
  <p>Die Paläografie (die Lehre von alten Schriften) gilt derzeit als
  ein Arbeitsbereich für Expert*innen. Die Zusammenarbeit mit Fachleuten
  aus dem Bereich der Computer Vision verspricht jedoch, im Zuge einer
  Automatisierung des Lesens von Handschriften zunehmend auch
  Nicht-Expert*innen (vgl.
  <xref alt="Domäneadaption" rid="glossary-domain-adaption">Domäneadaption</xref>)
  die textanalytische Arbeit mit Handschriften – deren Wert als Quellen
  des Wissens über die menschliche Kultur, Gesellschaft, Geschichte und
  nicht zuletzt regionale, nationale und übernationale Identität nicht
  genug betont werden kann – zu ermöglichen
  (<xref alt="Hassner u. a. 2014" rid="ref-hassnerComputationPaleographyPotentials2014" ref-type="bibr">Hassner
  u. a. 2014</xref>).</p>
  <p>Einen wichtigen Schritt in diese Richtung geht beispielsweise das
  EU-geförderte Transkribus-Projekt
  (<xref alt="Horstmann 2024b" rid="ref-horstmannToolbeitragTranskribus2018" ref-type="bibr">Horstmann
  2024b</xref>). Gerade durch seine Aufspaltung in einen <italic>simple
  mode</italic> und einen <italic>expert mode</italic> und seine
  grafische Nutzeroberfläche (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>) ermöglicht es auch
  Einsteigern in der automatischen Handschriftenerfassung eine digitale
  Arbeit mit Manuskripten auf hohem Niveau. Entwicklungen im Bereich der
  automatischen Handschriftenerkennung werden beispielsweise diskutiert
  in
  (<xref alt="Sánchez u. a. 2015" rid="ref-sanchezICDAR2015Competition2015" ref-type="bibr">Sánchez
  u. a. 2015</xref>;
  <xref alt="Sánchez u. a. 2014" rid="ref-sanchezICFHR2014CompetitionHandwritten2014" ref-type="bibr">Sánchez
  u. a. 2014</xref>;
  <xref alt="Sánchez u. a. 2016" rid="ref-sanchezICFHR2016CompetitionHandwritten2016" ref-type="bibr">Sánchez
  u. a. 2016</xref>).</p>
</sec>
<sec id="technische-grundlagen">
  <title>5. Technische Grundlagen</title>
  <p>Haben Sie ein eingescanntes Manuskript als Datei vorliegen, testen
  Sie zunächst, ob es sich um eine Bilddatei oder ein computerlesbares
  Dokument handelt, indem Sie versuchen, einzelne Zeilen des Dokumentes
  zu markieren. Wird die gesamte Seite blau/ausgewählt, handelt es sich
  um eine Bilddatei (d. h. die Schrift ist für den Computer noch nicht
  lesbar); werden nur die von Ihnen markierten Zeilen blau bzw.
  ausgewählt, hat bereits eine
  <xref alt="OCR" rid="glossary-ocr">OCR</xref> (<italic>optical
  character recognition</italic>) bzw. eine
  <xref alt="HTR" rid="glossary-htr">HTR</xref> (<italic>handwritten
  text recognition</italic>) stattgefunden (d. h. der Text des
  jeweiligen Dokumentes ist digitalisiert und als elektronischer Text
  vom Computer les- und analysierbar).</p>
  <p>OCR und HTR sind sich sehr ähnlich, nur dass HTR nicht auf der
  Erkennung einzelner Buchstaben, sondern gesamter Wörter bzw. Zeilen
  basiert, da wir es bei Manuskripten in der Regel mit Schreibschriften
  zu tun haben, bei denen die einzelnen Buchstaben ineinander übergehen
  und je nach Vorgänger- oder Folgebuchstabe anders aussehen können.</p>
  <p>Es gibt neben der OCR bzw. HTR etliche Möglichkeiten, Manuskripte
  in Digitalisierungsprojekten zu bearbeiten, wie z. B. eine forensische
  Dokumentanalyse, eine Quantifizierung schriftlicher „Fingerabdrücke“,
  metrische Analysen, der Einsatz von DNA-Analysemethoden oder Techniken
  multispektraler Bilddigitalisierung
  (<xref alt="Hassner u. a. 2014, 18" rid="ref-hassnerComputationPaleographyPotentials2014" ref-type="bibr">Hassner
  u. a. 2014, 18</xref>).</p>
  <p>Im Zuge einer Bilddigitalisierung findet in technischer Hinsicht
  folgender Prozess statt: Aus dem analogen optischen Signal eines
  Manuskriptes wird zunächst eine Rastergrafik erstellt, die durch
  Bildgröße und Farbtiefe charakterisiert ist. Dafür wird jedem Punkt
  eines Bildes ein bestimmter Wert zugeordnet. Bei Schwarz-Weiß-Bildern
  ist das eine 0 für jeden weißen Punkt und eine 1 für jeden schwarzen
  Punkt. Schwarzweißbilder haben nur diese beiden Helligkeitswerte,
  komplizierter wird es bei Graustufen- oder gar Farbdigitalisaten. Bei
  Graustufen wird der Farbkanal schwarz/weiß genauer ausdifferenziert,
  bei farbigen Scans kommen mehrere Farbkanäle hinzu wie z. B. Rot, Grün
  und Blau im weit verbreiteten RGB-Modell, deren Kombinationen eine
  riesige Palette an Mischfarben erzeugen können
  (<xref alt="Rehbein 2017, 182" rid="ref-rehbeinDigitalisierung2017" ref-type="bibr">Rehbein
  2017, 182</xref>).</p>
  <p>Ob die korrekte Wiedergabe von Farben im Digitalisat wichtig ist,
  ist projektspezifisch. Geht es ausschließlich darum, den Text eines
  Manuskriptes computerlesbar zu machen, unabhängig davon, ob einige
  Passagen beispielsweise in einer anderen Farbe geschrieben sind,
  reicht eine Schwarz-Weiß-Digitalisierung völlig aus und spart zudem
  Speicherplatz. Denn je nach Menge und (Farb-)Qualität der
  Digitalisate, die Sie für Ihr Projekt erstellen wollen, können schnell
  große Datenmengen entstehen. Die DFG
  (<xref alt="Deutsche Forschungsgemeinschaft 2013, 6" rid="ref-deutscheforschungsgemeinschaftHandreichungInformationenRechtlichen2013" ref-type="bibr">Deutsche
  Forschungsgemeinschaft 2013, 6</xref>) empfiehlt daher in ihren
  <italic>Praxisregeln Digitalisierung</italic> für eine Bildkompression
  das Speicherformat TIFF, das bei Bedarf eine verlustfreie Reproduktion
  des ursprünglichen unkomprimierten Scans ermöglicht, wodurch eine
  Nachhaltigkeit und Langzeitarchivierung sichergestellt ist.</p>
  <p>Die Qualität des Digitalisats ist entscheidend für die weitere
  wissenschaftliche Bearbeitung. So kann eine bestimmte Stelle im
  Manuskript tatsächlich unlesbar sein, oder sie ist die Folge einer zu
  geringen Auflösung oder Farbtiefe des Digitalisats. Soll das
  Digitalisat mit dem bloßen Auge gut lesbar sein, empfiehlt sich eine
  Mindestauflösung von 300ppi (pixel per inch). Ist das Ziel jedoch eine
  Computerlesbarkeit der Handschrift, werden von der digitalen
  Paläografie deutlich höhere Auflösungen gefordert, damit z. B.
  detailliertere Analyseverfahren der Computer Vision angewandt werden
  können
  (<xref alt="Hassner u. a. 2014, 20f" rid="ref-hassnerComputationPaleographyPotentials2014" ref-type="bibr">Hassner
  u. a. 2014, 20f</xref>.).</p>
  <p>Um ideale Bedingungen für einen Scanvorgang zu schaffen, hat das
  Transkribus-Projekt das sog.
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.transkribus.org/scantent">ScanTent</ext-link>
  entwickelt, das den Scanprozess beschleunigt und die jeweilige
  Manuskriptseite perfekt ausleuchtet. Dadurch werden Fehler, die einer
  mangelhaften Digitalisierung zuschulden kommen können, minimiert. Die
  mit Hilfe des ScanTents und der mobilen Scan-App DocScan (für Android)
  erzeugten <xref alt="PDF" rid="glossary-pdf">PDF</xref>-Dokumente
  können über die App direkt auf einen Transkribus-Account hochgeladen
  werden (vgl. das umfangreiche
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.transkribus.org/de">Transkribus</ext-link>-<xref alt="WIKI" rid="glossary-wiki">WIKI</xref>
  für weitere Informationen und Anleitungen).</p>
  <p>Es ist möglich, individuelle Handschriften zu „trainieren“ (vgl.
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref>), d. h. dem Computer durch manuelle Transkription
  ausgewählter Manuskripte zu ermöglichen, weitere Manuskripte des
  gleichen Autors (bzw. des gleichen Schriftstils) automatisch erkennen
  bzw. „lesen“ zu können. Die Erkennung funktioniert besser, je
  umfangreicher dieses Modell zuvor trainiert wurde. In einem
  Transkriptionsprojekt für venezianische Handschriften des 18.
  Jahrhunderts wurde beispielsweise ein Modell trainiert, das weitere
  Manuskripte der Sammlung mit einer geringeren Fehlerrate transkribiert
  als Amateur-Transkribierende das zu leisten vermochten
  (<xref alt="Oliveira und Kaplan 2018" rid="ref-oliveiraComparingHumanMachine2018" ref-type="bibr">Oliveira
  und Kaplan 2018</xref>). Das langfristige Ziel von HTR-Initiativen ist
  es, so viele unterschiedliche Schreibstile zu trainieren, dass es
  zukünftig möglich sein wird, die meisten handschriftlichen Dokumente
  ohne vorheriges individuelles Training zu erkennen – ähnlich wie es
  auch schon im OCR-Verfahren für die meisten Druckschriften
  funktioniert.</p>
  <p>Da die Handschriftenerkennung nicht auf Grundlage einzelner
  Buchstaben, sondern ganzer Zeilen funktioniert, müssen (im Gegensatz
  zur OCR) bei einem HTR-Vorgang die Zeilen (und ihre Reihenfolge, was
  z. B. bei mehrspaltigen Texten oder Ergänzungen zwischen den einzelnen
  Zeilen sehr relevant wird) zunächst festgelegt werden. Transkribus
  bietet hier beispielsweise eine automatisierte Zeilenerkennung, die
  händisch manipuliert werden kann.</p>
  <p>Sollte es nicht das Ziel Ihres Projektes sein, die Manuskripte in
  einen elektronisch lesbaren Text umzuwandeln, können die Scans auch
  lediglich als Bilddateien verarbeitet werden. Neben den strukturellen
  Metadaten, die Informationen über die inhaltliche Struktur eines
  digitalisierten Objektes verzeichnen, gibt es deskriptive, technische
  oder administrative Metadaten. Als deskriptive Metadaten lassen sich
  beispielsweise Informationen über Epochen- oder
  Textsortenzugehörigkeit oder Informationen über den Autor eines
  Manuskriptes speichern. Technische Metadaten verzeichnen den Zustand
  des digitalisierten Objektes (wie etwa seine Auflösung) und
  administrative Metadaten beispielsweise Zugriffsrechte
  unterschiedlicher Personengruppen
  (<xref alt="Rehbein 2017, 192" rid="ref-rehbeinDigitalisierung2017" ref-type="bibr">Rehbein
  2017, 192</xref>). Metadaten werden meistens im
  <xref alt="XML" rid="glossary-xml">XML</xref>-Dateiformat gespeichert.
  Informationen und Guidelines zur Erstellung von Metadaten bietet
  beispielsweise die
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.tei-c.org/index.xml">Text
  Encoding Initiative</ext-link>
  (<xref alt="TEI" rid="glossary-tei">TEI</xref>).</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und Weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>ScanTent:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.transkribus.org/scantent">https://web.archive.org/save/https://www.transkribus.org/scantent</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>TEI: Text Encoding Initiative:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.tei-c.org/index.xml">https://web.archive.org/save/http://www.tei-c.org/index.xml</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Transkribus. Digitisation and Digital Preservation Group,
      Universität Innsbruck:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.transkribus.org/de">https://web.archive.org/save/https://www.transkribus.org/de</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-domain-adaption">Domäneadaption</styled-content></term>
      <def>
        <p>Domäneadaption beschreibt die Anpassung einer in einem
        Fachgebiet entwickelten digitalen Methode an ein anderes
        Fachgebiet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-double-keying">Double-keying</styled-content></term>
      <def>
        <p>Double-Keying ist eine Variante des
        <xref alt="Keying" rid="glossary-keying">Keying</xref>, bei der
        zwei Personen den Inhalt eines Dokumentes abtippen. Anschließend
        sucht ein Computerprogramm nach Differenzen zwischen den beiden
        Versionen. Gefundene Tippfehler werden dann von einer dritten
        Person korrigiert. So entstehen nahezu fehlerfreie
        Textdigitalisate.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-htr">HTR</styled-content></term>
      <def>
        <p>HTR steht für <italic>Handwritten Text Recognition</italic>
        und ist eine Form der Mustererkennung, wie auch die
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>. HTR bezeichnet
        die automatische Erkennung von Handschriften und die Umformung
        dieser in einen elektronischen Text. Die Automatisierung beruht
        auf einem
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-keying">Keying</styled-content></term>
      <def>
        <p>In den Bibliotheks- und Textwissenschaften beschreibt Keying
        das manuelle Erfassen, also das Abtippen, eines Textes im Zuge
        seiner Digitalisierung (siehe auch
        <xref alt="Double-Keying" rid="glossary-double-keying">Double-Keying</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-wiki">WIKI</styled-content></term>
      <def>
        <p>Ein Wiki ist eine Webseite mit einer Sammlung von
        Informationen zu ausgewählten Themen, die i. d. R. von mehreren
        Nutzer*innen zusammengestellt werden. Zu jedem Eintrag in einem
        Wiki gibt es eine Diskussionsseite, die auch frühere Versionen
        des Eintrags anzeigt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-benneErfindungManuskriptsZur2015">
    <mixed-citation>Benne, Christian. 2015. <italic>Die Erfindung des
    Manuskripts. Zur Theorie und Geschichte literarischer
    Gegenständlichkeit</italic>. Berlin: Suhrkamp.</mixed-citation>
  </ref>
  <ref id="ref-deutscheforschungsgemeinschaftHandreichungInformationenRechtlichen2013">
    <mixed-citation>Deutsche Forschungsgemeinschaft. 2013.
    <italic>Handreichung: Informationen zu rechtlichen Aspekten bei der
    Handhabung von Sprachkorpora</italic>.
    <ext-link ext-link-type="uri" xlink:href="https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_recht.pdf">https://www.dfg.de/download/pdf/foerderung/grundlagen_dfg_foerderung/informationen_fachwissenschaften/geisteswissenschaften/standards_recht.pdf</ext-link>
    (zugegriffen: 9. Januar 2020).</mixed-citation>
  </ref>
  <ref id="ref-deutscheforschungsgemeinschaftDFGPraxisregelnDigitalisierung2016">
    <mixed-citation>Deutsche Forschungsgemeinschaft und Digitalisierung.
    2016. <italic>DFG-Praxisregeln. „Digitalisierung“</italic>.
    <ext-link ext-link-type="uri" xlink:href="http://www.dfg.de/formulare/12_151/12_151_de.pdf">http://www.dfg.de/formulare/12_151/12_151_de.pdf</ext-link>
    (zugegriffen: 12. Juli 2018).</mixed-citation>
  </ref>
  <ref id="ref-hassnerComputationPaleographyPotentials2014">
    <mixed-citation>Hassner, Tal, Malte Rehbein, Peter A. Stokes und
    Lior Wolf. 2014. Computation and Paleography: Potentials and Limits.
    <italic>Dagstuhl Manifesto</italic> 2, Nr. 1: 14–35.
    <ext-link ext-link-type="uri" xlink:href="https://drops.dagstuhl.de/opus/volltexte/2013/4167/pdf/dagman-v002-i001-p014-12382.pdf">https://drops.dagstuhl.de/opus/volltexte/2013/4167/pdf/dagman-v002-i001-p014-12382.pdf</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018">
    <mixed-citation>Horstmann, Jan. 2024a. Methodenbeitrag:
    Möglichkeiten der Textdigitalisierung. Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 3. Textdigitalisierung und Edition
    (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3741">10.48694/fortext.3741</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung">https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannToolbeitragTranskribus2018">
    <mixed-citation>———. 2024b. Toolbeitrag: Transkribus. Hg. von Evelyn
    Gius. <italic>forTEXT</italic> 1, Nr. 3. Textdigitalisierung und
    Edition (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3746">10.48694/fortext.3746</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/transkribus">https://fortext.net/tools/tools/transkribus</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannRessourcenbeitragTextGridRepository2018">
    <mixed-citation>———. 2024c. Ressourcenbeitrag: TextGrid Repository.
    Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 11.
    Bibliografie (29. November). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3794">10.48694/fortext.3794</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/textgrid-repository">https://fortext.net/ressourcen/textsammlungen/textgrid-repository</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragTextvisualisierung2018">
    <mixed-citation>Horstmann, Jan und Jan-Erik Stange. 2024.
    Methodenbeitrag: Textvisualisierung. Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 5. Textvisualisierung (7. August).
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3772">10.48694/fortext.3772</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/textvisualisierung">https://fortext.net/routinen/methoden/textvisualisierung</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-oliveiraComparingHumanMachine2018">
    <mixed-citation>Oliveira, Sofia Ares und Frederic Kaplan. 2018.
    Comparing human and machine performancesiIn transcribing 18th
    century handwritten Venetian script. In: <italic>DH 2018. Conference
    Abstracts</italic>.
    <ext-link ext-link-type="uri" xlink:href="https://dh2018.adho.org/en/comparing-human-and-machine-performances-in-transcribing-18th-century-handwritten-venetian-script/">https://dh2018.adho.org/en/comparing-human-and-machine-performances-in-transcribing-18th-century-handwritten-venetian-script/</ext-link>
    (zugegriffen: 11. Juli 2018).</mixed-citation>
  </ref>
  <ref id="ref-rehbeinDigitalisierung2017">
    <mixed-citation>Rehbein, Malte. 2017. Digitalisierung. In:
    <italic>Digital Humanities. Eine Einführung</italic>, hg. von Fotis
    Jannidis, Hubertus Kohle, und Malte Rehbein, 179–198. Stuttgart:
    Metzler.</mixed-citation>
  </ref>
  <ref id="ref-sanchezICFHR2016CompetitionHandwritten2016">
    <mixed-citation>Sánchez, Joan Andreu, Verónica Romero, Alejandro
    Héctor Toselli und Enrique Vidal. 2016. ICFHR2016 competition on
    handwritten text recognition on the READ dataset. <italic>2016 15th
    International Conference on Frontiers in Handwriting Recognition
    (ICFHR)</italic>: 630–635.
    <ext-link ext-link-type="uri" xlink:href="https://api.semanticscholar.org/CorpusID:19239978">https://api.semanticscholar.org/CorpusID:19239978</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-sanchezICFHR2014CompetitionHandwritten2014">
    <mixed-citation>Sánchez, Joan Andreu, Verónica Romero, Alejandro H.
    Toselli und Enrique Vidal. 2014. ICFHR2014 Competition on
    Handwritten Text Recognition on tranScriptorium Datasets (HTRtS).
    In:, 181–186.</mixed-citation>
  </ref>
  <ref id="ref-sanchezICDAR2015Competition2015">
    <mixed-citation>Sánchez, Joan Andreu, Alejandro H. Toselli, Verónica
    Romero und Enrique Vidal. 2015. ICDAR 2015 competition HTRtS:
    Handwritten Text Recognition on the tranScriptorium Dataset. In:,
    1166–1170. Tunis. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1109/ICDAR.2015.7333944">10.1109/ICDAR.2015.7333944</ext-link>,.</mixed-citation>
  </ref>
  <ref id="ref-schumacherMethodenbeitragNetzwerkanalyse2018">
    <mixed-citation>Schumacher, Mareike. 2024. Methodenbeitrag:
    Netzwerkanalyse. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 6. Netzwerkanalyse (30. August). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3759">10.48694/fortext.3759</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/netzwerkanalyse">https://fortext.net/routinen/methoden/netzwerkanalyse</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
