<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3791</article-id>
<title-group>
<article-title>Ressourcenbeitrag: Deutsches Textarchiv
(DTA)</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname>Kern</surname>
<given-names>Alexandra</given-names>
</name>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>11</issue>
<issue-title>Bibliografie</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 24.07.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/deutsches-textarchiv-dta">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2018-07-24">
<day>24</day>
<month>07</month>
<year>2018</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 24.07.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/deutsches-textarchiv-dta">fortext.net</ext-link></p>
<sec id="kurzbeschreibung">
  <title>1. Kurzbeschreibung</title>
  <p>Das Deutsche Textarchiv (DTA) ist ein digitales Vollltextkorpus
  (vgl. <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>)
  historischer Druckwerke zwischen 1600 und 1900 und eignet sich als
  eine hochwertige Quelle für zitierfähige Primärtexte.</p>
  <fig>
    <caption><p>Abb. 1: Benutzeroberfläche des DTA</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="DTA_Iphigenie-p.png" />
  </fig>
  <sec id="steckbrief">
    <title><bold>Steckbrief</bold></title>
    <list list-type="bullet">
      <list-item>
        <p><ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.deutschestextarchiv.de/">http://www.deutschestextarchiv.de</ext-link></p>
      </list-item>
      <list-item>
        <p>Volltextsammlung: 4422 deutschsprachige Druckwerke zwischen
        ca. 1600 und ca. 1900 (aktuelle Zahlen unter:
        <ext-link ext-link-type="uri" xlink:href="http://www.deutschestextarchiv.de/doku/ueberblick#umfang">http://www.deutschestextarchiv.de/doku/ueberblick#umfang</ext-link><ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.deutschestextarchiv.de/doku/ueberblick#umfang">4</ext-link>)</p>
      </list-item>
      <list-item>
        <p>Ausgaben: vorzugsweise Erstveröffentlichungen, ggf.
        historisch-kritisch</p>
      </list-item>
      <list-item>
        <p>Textsorten: Zeitung, Gebrauchsliteratur, Wissenschaft,
        Belletristik; gedruckte und handschriftliche Vorlagen</p>
      </list-item>
      <list-item>
        <p><xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>:
        Titel, Autor, Herausgeber, Übersetzer, Ort, Verlag, Auflage,
        Band (DTA-Basisformat)</p>
      </list-item>
      <list-item>
        <p>Projekt der Berlin-Brandenburgischen Akademie der
        Wissenschaften (BBAW), gefördert von der Deutschen
        Forschungsgemeinschaft (DFG) von 2007 bis 2016; Erweiterung im
        Rahmen von CLARIN-D von 2017 bis 2020</p>
      </list-item>
      <list-item>
        <p>Ziel: Abbildung der sprachhistorischen Entwicklungen der
        deutschen Sprache seit dem Ende der frühneuhochdeutschen
        Sprachperiode</p>
      </list-item>
      <list-item>
        <p>Downloadformate:
        <xref alt="XML" rid="glossary-xml">XML</xref>
        (<xref alt="TEI" rid="glossary-tei">TEI</xref> P5),
        <xref alt="HTML" rid="glossary-html">HTML</xref>, Text, TCF
        (text annotation layer), TCF (tokenisiert (vgl.
        <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>),
        serialisiert, lemmatisiert (vgl.
        <xref alt="Lemmatisieren" rid="glossary-lemmatisieren">Lemmatisieren</xref>),
        normalisiert); weitere Downloadformate für Metadaten sowie
        spezifische Downloadformate für Tools (wie etwa Voyant
        (<xref alt="Flüh 2024" rid="ref-fluhToolbeitragVoyant2018" ref-type="bibr">Flüh
        2024</xref>))</p>
      </list-item>
    </list>
    <fig>
      <caption><p>Abb. 2: Werke im DTA</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="DTA_Korpora-p.png" />
    </fig>
  </sec>
</sec>
<sec id="anwendungsbeispiel">
  <title>2. Anwendungsbeispiel</title>
  <p>Sie wollen digital unterstützt das Frauenbild in Goethes
  <italic>Iphigenie auf Tauris</italic> analysieren. Eine wesentliche
  Voraussetzung für diesen Anwendungsfall ist, dass Ihnen ein
  (idealerweise zitierfähiger) digitalisierter Primärtext vorliegt. Je
  korrekter die zugrundeliegende Textquelle, desto genauer sind auch die
  an ihr durchgeführten digitalen Methoden der Textanalyse und
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>.
  Für das Auffinden eines solchen Textes bietet sich die Suche im
  Deutschen Textarchiv (DTA) an. Im DTA sind Erstveröffentlichungen und
  historisch-kritische Ausgaben von Druckwerken, Zeitungen und
  Manuskripten insbesondere aus der Zeit von 1600 bis 1900 vorhanden,
  die über eine Schnellsuchfunktion (vgl.
  <xref alt="Query" rid="glossary-query">Query</xref>) unproblematisch
  gefunden und <italic>open access</italic> (vgl.
  <xref alt="Open Access" rid="glossary-open-access">Open Access</xref>)
  in unterschiedlichen Dateiformaten heruntergeladen werden können. Die
  Textsammlung wurde sorgfältig zusammengestellt und beinhaltet
  zahlreiche Werke einer Vielzahl von Autor*innen.</p>
</sec>
<sec id="diskussion">
  <title>3. Diskussion</title>
  <sec id="kann-ich-das-dta-für-wissenschaftliche-arbeiten-nutzen">
    <title>3.1 Kann ich das DTA für wissenschaftliche Arbeiten
    nutzen?</title>
    <p>Ja – denn die hohe Textqualität der DTA-Texte wird u. a. dadurch
    erreicht, dass sowohl formativ (d. h. vor der Texterfassung) als
    auch summativ (d. h. nach der Texterfassung) Qualitätskontrollen
    durchgeführt werden. Das DTA bemüht sich außerdem darum, den
    historischen Sprachstand der Werke zu bewahren. Deshalb werden
    möglichst Erst- bzw. frühe Original-Ausgaben der Texte zugrunde
    gelegt, die zudem strukturell in Kapitel, Unterkapitel und Absätze
    unterteilt werden. Dargestellt wird jeweils das originale Dokument
    als Bild in hoher Auflösung und eine entsprechende elektronische
    Version des Textes.
    Die Überführung der für das DTA ausgewählten Texte in elektronische
    Form erfolgte für 200 Texte im automatischen Verfahren
    <xref alt="OCR" rid="glossary-ocr">OCR</xref> und für ca. 1300 Texte
    im manuellen Verfahren, bei dem der Text zunächst von
    Nicht-Muttersprachlern eingegeben wird, um anschließend auf
    eventuelle Abweichungen hin überprüft zu werden
    (Double-Keying-Verfahren (vgl.
    <xref alt="Double-Keying" rid="glossary-double-keying">Double-Keying</xref>);
    s. Möglichkeiten der Textdigitalisierung
    (<xref alt="Horstmann 2024" rid="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018" ref-type="bibr">Horstmann
    2024</xref>)). Auch die 200 zunächst automatisch erfassten Texte
    wurden anschließend manuell korrigiert, um sie dem Qualitätsstandard
    des DTA anzugleichen. Die Texterfassung und -aufbereitung wird somit
    von einer ständigen Überprüfung begleitet, die nur dann Korrekturen
    vornimmt, wenn fehlerhafte Eingaben erkannt wurden oder das
    historische Dokument lückenhaft bzw. verfälscht ist.
    Die formative Qualitätskontrolle umfasst schließlich auch eine
    ständige Pflege und Überarbeitung der generellen DTA-Richtlinien zur
    Texterfassung und -annotation, die im Menüpunkt „Dokumentation“
    verfolgt werden können.
    Die Überprüfung der digitalisierten Dokumente endet jedoch nicht mit
    den hier beschriebenen formativen Qualitätskontrollen, sondern wird
    summativ durch die webbasierte, kollaborative DTA-Qualitätssicherung
    (DTAQ) fortgesetzt (siehe Abb. 3). DTAQ ermöglicht registrierten
    Benutzer*innen, eigene Annotationen und Korrekturen im jeweiligen
    Text anzumerken, die vom DTA-Team kontrolliert und gegebenenfalls
    eingearbeitet werden. Außerdem können auch neue Texte eingespeist
    werden, die wiederum den aufgestellten Richtlinien des DTA für die
    Texterfassung und Annotation entsprechen müssen. Für ein solches
    Unterfangen stehen auf der Webseite Vorlagen bereit, die Ihnen
    anschaulich die einzelnen Schritte aufzeigen.</p>
    <fig>
      <caption><p>Abb. 3: Kollaborative Qualitätssicherung im DTA:
      DTAQ</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="DTAQ-p.png" />
    </fig>
  </sec>
  <sec id="wie-benutzerfreundlich-ist-die-arbeit-mit-dem-dta">
    <title>3.2 Wie benutzerfreundlich ist die Arbeit mit dem
    DTA?</title>
    <p>Das DTA bietet Ihnen eine klar strukturierte, aber komplexe
    Arbeitsumgebung. In ihren Grundzügen kann sie jedoch auch von
    Erstnutzer*innen ohne größere Vorkenntnisse durch Ausprobieren
    erschlossen werden.
    Auf der Homepage finden Sie zunächst eine horizontale Navigation mit
    den Menüpunkten „Texte“, „Projekt“, „Dokumentation“ und „Impressum“.
    Die Menüpunkte gliedern sich wiederum in mehrere Unterpunkte, wie
    beispielsweise „DTA-Leitlinien“, „DTA-Textauswahl“ und
    „DTA-Quellen“. Einerseits bringt die große Menge an Unterpunkten den
    Vorteil mit sich, die Dokumentation der Textauswahl und
    -aufbereitung ausführlich nachvollziehen zu können, andererseits
    droht jedoch die Gefahr, dass unerfahrene Nutzer*innen schnell die
    Übersicht verlieren und nur schwer die wesentlichen Bedienschritte
    für eine Erstnutzung finden.
    Unterstützung bei der Bedienung und Nutzung des DTA finden Sie unter
    dem Menüpunkt „Dokumentation“, Unterkategorie „Hilfe“. Hier werden
    u. a. die DTA-Leitlinien, die DTA-Richtlinien zur Texterfassung, das
    DTA-Basisformat, die sog. Korrekturfibel (für eigene Anmerkungen und
    Korrekturen) sowie die verschiedenen Ansichten der Texte komprimiert
    erklärt.
    Mögliche Fragen bezüglich der Bedienung und Nutzung der
    Suchmaschinen bleiben dennoch unbeantwortet. Diese können jedoch in
    den Unterpunkten „linguistische Suche“ bzw. „Projektüberblick“ oder
    unter dem Button „Hilfe“ (neben der Navigation) nachgelesen werden.
    Nachteil an einer solchen Form der Darstellung ist, dass vorrangig
    linguistische Suchanfragen bzw. die Nutzung der systemimmanenten
    Suchmaschine DDC beschrieben und mit Hilfe von Beispielen
    veranschaulicht werden. Unerfahrene Nutzer*innen können schnell
    durch die ausführlichen Beschreibungen verunsichert werden und
    erhalten keine konkreten Antworten auf Belange, die nicht
    linguistischer Natur sind.
    Insgesamt erfordert die Bedienung der Schnellsuchfunktion, die vor
    allem für die Recherche nach bestimmten Texten nützlich ist, jedoch
    keine größeren Vorkenntnisse und kann auch von Erstnutzer*innen
    durch eigenes Ausprobieren erschlossen werden. Die Volltexte selbst
    werden seitenweise sowohl als Bild der originalen Vorlage als auch
    als HTML-Version dargestellt, die den historischen Text in eine
    moderne Schriftart überführt hat, sodass auch Texte, die
    ursprünglich in einer Frakturschrift oder handschriftlich
    veröffentlicht wurden, für alle Nutzer*innen lesbar sind.
    Sollten sich bei der Nutzung größere Schwierigkeiten ergeben, können
    Sie das Team des DTA entweder schriftlich über ihre Mail-Adresse
    (Menüpunkt „Impressum“) kontaktieren oder eine der vom DTA
    angebotenen Schulungen besuchen. Bei den Schulungen erhalten Sie
    einen Einblick über die DTA-Erfassungsrichtlinien sowie das
    DTA-Basisformat und lernen über praxisnahe Beispiele den Umgang mit
    der Suchmaschine DDC. Bei Bedarf bietet das DTA zudem an,
    Transkriptions- und Annotationsarbeiten kontinuierlich zu begleiten
    und zu kontrollieren.</p>
  </sec>
</sec>
<sec id="wie-funktioniert-die-textsuche-im-dta">
  <title>4. Wie funktioniert die Textsuche im DTA?</title>
  <p>Sind Sie noch unschlüssig, welchen Primärtext Sie für Ihre
  Untersuchung heranziehen wollen, können Sie ohne viel Aufwand in der
  Textsammlung des DTA stöbern. Hierfür müssen Sie lediglich den
  Menüpunkt „Texte“, Unterkategorie „Verfügbar“ oder „Zeitleiste“,
  auswählen, um eine alphabetisch oder zeitlich sortierte Auflistung
  (siehe Abb. 4) der Druckwerke zu erhalten.</p>
  <fig>
    <caption><p>Abb. 4: Zeitleiste der Texte im DTA</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="DTA_Zeitleiste-p.png" />
  </fig>
  <p>Möchten Sie jedoch einen bestimmten Primärtext auffinden, empfiehlt
  es sich, die Schnellsuchfunktion auf der Startseite links neben der
  Navigation zu nutzen. In das Suchfeld können Sie den Autor*innennamen
  oder den Titel des Druckwerkes eingeben. Vor der Suche sollten Sie
  unter dem Suchfeld festlegen, ob Sie die „Titeldaten“, das „Korpus“
  oder die „Dokumentation“ durchsuchen wollen. Suchen Sie nach
  (literarischen) Primärtexten, sollten Sie entweder die Titeldaten oder
  das Korpus auswählen. Beide Fundorte leiten Sie zu einer neuen
  Ansichtsseite weiter, auf der die Suchergebnisse dargestellt werden.
  Die Informationen zu den einzelnen Suchergebnissen führen die
  wesentlichen Metadaten wie den Titel, die Auflage, den
  Autor*innennamen, das Erscheinungsjahr bzw. den -ort und den Umfang
  des Druckwerkes auf. Über einen Doppelklick auf den Titel kann das
  Druckwerk auf einer eigenen Ansichtsseite vollständig eingesehen
  werden.
  Sollte bei den ersten Suchergebnissen das von Ihnen gesuchte Werk
  nicht dabei sein, können Sie Ihre Suche über weitere Angaben
  verfeinern. Für ein solches Unterfangen stehen Ihnen oben auf der
  Ansichtsseite der Suchergebnisse Filteroptionen, wie der
  Autor*innenname, der Titel, die Klassifikation, der Druckort, der
  Verlag oder auch das Erscheinungsjahr des Werkes zur Verfügung. Die
  einzelnen Filteroptionen sind zudem miteinander kombinierbar. Bei
  einer erfolgreichen Suche kann das Druckwerk in unterschiedlichen
  Formaten (verschiedene XML-, HTML-, Text- und TCF-Formate) und sogar
  in normalisierter Orthografie (was für einige Verfahren des Distant
  Reading (vgl.
  <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
  Reading</xref>) sinnvoll sein kann) heruntergeladen und
  weiterverwendet werden.
  Sie sind etwas experimentierfreudiger? Dann kann es zudem lohnend
  sein, sich genauer mit der Funktion der linguistischen Suchmaschine
  DDC zu beschäftigen. Sie ermöglicht es, nach einer exakten Wortform,
  einer flektierten (z. B. die Anfrage nach „sprach“ liefert u. a. die
  Ergebnisse für „sprechen“, „spricht“, „gesprochen“) oder
  graphematischen Variante für ein Wort (z. B. „Kleid“: „Kleidt“,
  „Kleydt“, „Cleyd“, „Cleit“ etc.) zu suchen und erleichtert es so, die
  sprachliche Ausgestaltung eines Textes zu erfassen.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>Deutsches Textarchiv:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106121355/https://www.deutschestextarchiv.de/">https://web.archive.org/web/20241106121355/https://www.deutschestextarchiv.de/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>Volltextsammlung Überblick:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106121508/https://www.deutschestextarchiv.de/doku/ueberblick#umfang">https://web.archive.org/web/20241106121508/https://www.deutschestextarchiv.de/doku/ueberblick#umfang</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-close-reading">Close
      Reading</styled-content></term>
      <def>
        <p>Close Reading bezeichnet die sorgfältige Lektüre und
        Interpretation eines einzelnen oder weniger Texte. Close Reading
        ist in der digitalen Literaturwissenschaft außerdem mit der
        manuellen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        textueller Phänomene verbunden (vgl. auch
        <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
        Reading</xref> als Gegenbegriff).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-distant-reading">Distant
      Reading</styled-content></term>
      <def>
        <p>Distant Reading ist ein Ansatz aus den digitalen
        Literaturwissenschaften, bei dem computationelle Verfahren auf
        häufig große Mengen an Textdaten angewandt werden, ohne dass die
        Texte selber gelesen werden. Meist stehen hier quantitative
        Analysen im Vordergrund, es lassen sich jedoch auch qualitative
        <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
        quantitativ vergleichen. Als Gegenbegriff zu
        <xref alt="Close Reading" rid="glossary-close-reading"><italic>Close
        Reading</italic></xref> wurde der Begriff insbesondere von
        Franco Moretti (2000) geprägt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-double-keying">Double-Keying</styled-content></term>
      <def>
        <p>Double-Keying ist eine Variante des
        <xref alt="Keying" rid="glossary-keying">Keying</xref>, bei der
        zwei Personen den Inhalt eines Dokumentes abtippen. Anschließend
        sucht ein Computerprogramm nach Differenzen zwischen den beiden
        Versionen. Gefundene Tippfehler werden dann von einer dritten
        Person korrigiert. So entstehen nahezu fehlerfreie
        Textdigitalisate.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-keying">Keying</styled-content></term>
      <def>
        <p>In den Bibliotheks- und Textwissenschaften beschreibt Keying
        das manuelle Erfassen, also das Abtippen, eines Textes im Zuge
        seiner Digitalisierung (siehe auch
        <xref alt="Double-Keying" rid="glossary-double-keying">Double-Keying</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-open-access">Open
      Access</styled-content></term>
      <def>
        <p>Open Access bezeichnet den freien Zugang zu
        wissenschaftlicher Literatur und anderen Materialien im
        Internet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-fluhToolbeitragVoyant2018">
    <mixed-citation>Flüh, Marie. 2024. Toolbeitrag: Voyant. Hg. von
    Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 5. Textvisualisierung
    (7. August). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3775">10.48694/fortext.3775</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/voyant">https://fortext.net/tools/tools/voyant</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-geykenDeutscheTextarchivAls2018">
    <mixed-citation>Geyken, Alexander, Matthias Boenig, Susanne Haaf,
    Bryan Jurish, Christian Thomas und Frank Wiegand. 2018. Das Deutsche
    Textarchiv als Forschungsplattform für historische Daten in CLARIN.
    In: <italic>Digitale Infrastrukturen für die germanistische
    Forschung</italic>, hg. von Henning Lobin, Roman Schneider, und
    Andreas Witt, 219–248. Berlin, Boston: de Gruyter. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1515/9783110538663-011">10.1515/9783110538663-011</ext-link>,.</mixed-citation>
  </ref>
  <ref id="ref-geykenLivingTextArchive2015">
    <mixed-citation>Geyken, Alexander und Thomas Gloning. 2015. A living
    text archive of 15th-19th-century German. Corpus strategies,
    technology, organization. In: <italic>Historical Corpora. Challenges
    and Perspectives</italic>, hg. von Jost Gippert und Ralf Gehrke,
    165–180. Tübingen: Narr.</mixed-citation>
  </ref>
  <ref id="ref-haafDTABasisformatNeuemGewand2017">
    <mixed-citation>Haaf, Susanne. 2017. Das DTA-Basisformat in neuem
    Gewand. <italic>Im Zentrum Sprache. Untersuchungen zur deutschen
    Sprache in Geschichte und Gegenwart</italic>.
    <ext-link ext-link-type="uri" xlink:href="https://sprache.hypotheses.org/147">https://sprache.hypotheses.org/147</ext-link>
    (zugegriffen: 13. Juli 2018).</mixed-citation>
  </ref>
  <ref id="ref-haafDTABaseFormat2015">
    <mixed-citation>Haaf, Susanne, Alexander Geyken und Frank Wiegand.
    2015. The DTA „Base Format“: A TEI Subset for the Compilation of a
    Large Reference Corpus of Printed Text from Multiple Sources.
    <italic>Journal of the Text Encoding Initiative</italic>, Nr. 8.
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.4000/jtei.1114">10.4000/jtei.1114</ext-link>,.</mixed-citation>
  </ref>
  <ref id="ref-haafEnablingEncodingManuscripts2016">
    <mixed-citation>Haaf, Susanne und Christian Thomas. 2016a. Enabling
    the Encoding of Manuscripts within the DTABf: Extension and
    Modularization of the Format. <italic>Journal of the Text Encoding
    Initiative (jTEI)</italic>, Nr. 10. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.4000/jtei.1650">10.4000/jtei.1650</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://journals.openedition.org/jtei/1650">https://journals.openedition.org/jtei/1650</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-haafHistorischenKorporaDeutschen2016">
    <mixed-citation>———. 2016b. Die Historischen Korpora des Deutschen
    Textarchivs als Grundlage für sprachgeschichtliche Forschungen. In:
    <italic>Sprachgeschichte des Deutschen: Positionierungen in
    Forschung, Studium, Schule</italic>, hg. von Holger Runow, Volker
    Harm, und Levke Schwiek, 217–234. Stuttgart:
    Hirzel.</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragMoglichkeitenTextdigitalisierung2018">
    <mixed-citation>Horstmann, Jan. 2024. Methodenbeitrag: Möglichkeiten
    der Textdigitalisierung. Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 3. Textdigitalisierung und Edition
    (12. Juni). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3741">10.48694/fortext.3741</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung">https://fortext.net/routinen/methoden/moeglichkeiten-der-textdigitalisierung</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-wiegandRecherchierenArbeitenUnd2018">
    <mixed-citation>Wiegand, Frank, Christian Thomas, Susanne Haaf,
    Alexander Geyken, Bryan Jurish und Matthias Boenig. 2018.
    Recherchieren, Arbeiten und Publizieren im Deutschen Textarchiv: ein
    Praxisbericht. <italic>Zeitschrift für Germanistische
    Linguistik</italic> 46, Nr. 1: 147–161. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1515/zgl-2018-0009">10.1515/zgl-2018-0009</ext-link>,.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
