<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3794</article-id>
<title-group>
<article-title>Ressourcenbeitrag: TextGrid Repository</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>11</issue>
<issue-title>Bibliografie</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 21.08.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/textgrid-repository">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2018-08-21">
<day>21</day>
<month>08</month>
<year>2018</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 21.08.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/textgrid-repository">fortext.net</ext-link></p>
<sec id="kurzbeschreibung">
  <title>1. Kurzbeschreibung</title>
  <p>Das TextGrid Repository ist ein digitales Langzeitarchiv, das Ihnen
  die wichtigsten kanonisierten Texte aus der germanistischen
  Literaturwissenschaft von über 600 Autor*innen in zitierfähiger
  Qualität zur Verfügung stellt.</p>
  <fig>
    <caption><p>Abb. 1: Benutzeroberfläche des TextGrid
    Repositorys</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="TextGrid_Interface-p.png" />
  </fig>
  <sec id="steckbrief">
    <title>Steckbrief</title>
    <list list-type="bullet">
      <list-item>
        <p><ext-link ext-link-type="uri" xlink:href="https://textgridrep.org">https://textgridrep.org</ext-link><ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://textgridrep.org/">2</ext-link></p>
      </list-item>
      <list-item>
        <p>Volltextsammlung (vgl.
        <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>): Texte
        von Anbeginn des Buchdruckes bis zu den ersten Jahrzehnten des
        20. Jahrhunderts von mehr als 600 deutschsprachigen
        Autor*innen</p>
      </list-item>
      <list-item>
        <p>Studienausgaben und Erstveröffentlichungen</p>
      </list-item>
      <list-item>
        <p>Textsorten: Belletristik und Sachliteratur</p>
      </list-item>
      <list-item>
        <p><xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>:
        Werktitel, Autor, Publikationsdatum, Ort</p>
      </list-item>
      <list-item>
        <p>Verbundprojekt bestehend aus zehn institutionellen und
        universitären Partnern (u.a. Berlin-Brandenburgische Akademie
        der Wissenschaften [BBAW], DAASI International GmbH, Institut
        für Deutsche Sprache [IDS])</p>
      </list-item>
      <list-item>
        <p>gefördert vom Bundesministerium für Bildung und Forschung
        (BMBF) von 2006 bis 2015</p>
      </list-item>
      <list-item>
        <p>Teil von
        <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://textgrid.de/">textgrid.de</ext-link>
        (und damit der Forschungsinfrastruktur
        <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://de.dariah.eu/">DARIAH-DE</ext-link>),
        in dem das Repository mit einem downloadbaren Laboratorium und
        einer Nutzercommunity zusammengebracht wird</p>
      </list-item>
      <list-item>
        <p>Zielgruppe: Fachwissenschaftler*innen, Entwickler*innen,
        Forschungsprojekte und -institutionen</p>
      </list-item>
      <list-item>
        <p>Institutionen wie das Institut für Deutsche Sprache und die
        Staats- und Universitätsbibliothek Göttingen versprechen die
        Nachhaltigkeit</p>
      </list-item>
      <list-item>
        <p>Downloadformate:
        <xref alt="XML" rid="glossary-xml">XML</xref>/<xref alt="TEI" rid="glossary-tei">TEI</xref>
        (und wenige <xref alt="PDF" rid="glossary-pdf">PDF</xref>) sowie
        Bilder als JPEG (und wenige PNG und TIFF)</p>
      </list-item>
    </list>
  </sec>
</sec>
<sec id="anwendungsbeispiel">
  <title>2. Anwendungsbeispiel</title>
  <p>Sie wollen in einem Forschungsprojekt die Erzählungen Therese
  Hubers miteinander vergleichen. Im TextGrid Repository finden Sie
  schnell eine Textsammlung dieser Autorin, die auch nach Textsorte
  klassifiziert sind (hier „Erzählungen“). Ihnen werden sieben
  Erzählungen angeboten, die inklusive vergleichbarer Metadaten – als
  kombinierte XML-Datei oder auch einzeln – im standardisierten
  TEI-Datenformat heruntergeladen oder auch online visualisiert,
  analysiert oder annotiert werden können.</p>
</sec>
<sec id="diskussion">
  <title>3. Diskussion</title>
  <sec id="kann-ich-das-textgrid-repository-für-wissenschaftliche-arbeiten-nutzen">
    <title>3.1 Kann ich das TextGrid Repository für wissenschaftliche
    Arbeiten nutzen?</title>
    <p>Ja. Das TextGrid Repository garantiert die Textqualität
    folgendermaßen:</p>
    <list list-type="bullet">
      <list-item>
        <p>Aufbauend auf einer Analyse der Textdatenstruktur werden
        Daten in Ordnern nach Wörterbüchern und Enzyklopädien bzw. nach
        Gebieten (Geschichte, Literatur, Märchen, Musik,
        Naturwissenschaften, Philosophie etc.) organisiert und jeder
        Ordner enthält i. d. R. einen Unterordner pro Autor*in, der alle
        Werke des Autors/der Autorin in einer Datei vereinigt.</p>
      </list-item>
      <list-item>
        <p>Textdaten werden durch Metadaten angereichert.</p>
      </list-item>
      <list-item>
        <p>Werkinformationen werden manuell hinzugefügt (bisher für den
        Literaturordner).</p>
      </list-item>
      <list-item>
        <p>Die Metadaten ermöglichen eine Filterung der Dateien nach
        Textsorte.</p>
      </list-item>
    </list>
    <p>Zusätzlich sind weitere Qualitätskontrollen in der Planung,
    wie:</p>
    <list list-type="bullet">
      <list-item>
        <p>die Entwicklung eines User-Interfaces zur manuellen Korrektur
        der Metadaten,</p>
      </list-item>
      <list-item>
        <p>die Fehleranalyse der TEI-Auszeichnung und Korrekturen,</p>
      </list-item>
      <list-item>
        <p>die Optimierung der Datenstruktur hinsichtlich der
        TextGrid-Architektur, sowie</p>
      </list-item>
      <list-item>
        <p>eine weitere Strukturerschließung der Texte und tiefergehende
        TEI-Auszeichnung.</p>
      </list-item>
    </list>
    <p>Softwarefehler und Feature-Requests können Sie zudem an
    <email>textgrid-support@gwdg.de</email> melden.</p>
  </sec>
  <sec id="wie-benutzerfreundlich-ist-die-arbeit-mit-textgrid">
    <title>3.2 Wie benutzerfreundlich ist die Arbeit mit
    TextGrid?</title>
    <p>Die Nutzung des TextGrid Repositorys funktioniert auch für
    Erstnutzer*innen ziemlich intuitiv. Sie können das Repository
    entweder direkt via
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://textgrid.de/">textgridrep.org</ext-link>
    ansteuern, oder zunächst auf die Hauptseite des Projektes
    textgrid.de gehen.</p>
    <fig>
      <caption><p>Abb. 2: Startseite von TextGrid</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="TextGrid_startpage-p.png" />
    </fig>
    <p>Die drei wesentlichen Teile von TextGrid sind:
    <italic>Laboratory</italic>, <italic>Repository</italic> und
    <italic>Community</italic>. Die Menükategorien Registrierung und
    Download beziehen sich auf das TextGrid Laboratory – eine Software,
    die verschiedene Textanalysetools zur Verfügung stellt und neben dem
    Repository das andere wichtige Standbein von TextGrid ist.
    Unter den Punkten Community, Support und Über TextGrid finden Sie
    beispielsweise Informationen über Projekte, die TextGrid nutzen,
    Möglichkeiten zur Unterstützung durch Online-Hilfen oder Tutorials
    und die Geschichte und Zielsetzungen von TextGrid. Einen
    umfangreichen Überblick über die einzelnen Gebiete des
    Langzeitarchivs (Literatur, Märchen, Geschichte, Philosophie) und
    eine Darstellung des Korpus für Literatur (Aufbereitung, Metadaten,
    Download) finden Sie unter „Die Digitale Bibliothek bei TextGrid“
    (Kategorie Über TextGrid).
    Die Leitlinien des Projektes <italic>Interoperabilität, Homogenität,
    Open Source</italic> und <italic>Offene Standards</italic> betonen
    den Nutzungsaspekt: Ein vollständiger wissenschaftlicher
    Arbeitsablauf inklusive des Austauschs von und über Tools und Texte
    soll innerhalb der Forschungsumgebung stattfinden können. Das
    TextGrid Laboratory bietet beispielsweise Software für die
    kollaborative Erstellung und Publikation digitaler Editionen auf
    XML/TEI-Basis an.Typische Abläufe bei der Arbeit im TextGrid
    Laboratory werden in den Tutorials (unter Support) demonstriert: Man
    findet eine verständliche Beschreibung der Software und lernt den
    Umgang mit den zentralen Analysewerkzeugen. Die Anzahl der
    Eulenikone zeigt dabei den Schwierigkeitsgrad des jeweiligen
    Tutorials an.
    In der TextGrid-Community gibt es Informationen über stattfindende
    Nutzertreffen und Veranstaltungen – und auch die Präsentationen
    bereits in der Vergangenheit stattgefundener Veranstaltungen können
    Sie dort herunterladen. Schließlich bietet Ihnen die Mailingliste
    textgrid-user@gwdg.de die Möglichkeit, sich mit anderen Nutzer*innen
    von TextGrid auszutauschen.</p>
  </sec>
</sec>
<sec id="wie-funktioniert-die-textsuche-im-textgrid-repository">
  <title>4. Wie funktioniert die Textsuche im TextGrid
  Repository?</title>
  <p>Auf der Startseite des TextGrid Repositorys können Sie im Suchfeld
  (vgl. <xref alt="Query" rid="glossary-query">Query</xref>) frei nach
  Texten suchen. Neben der Freitextsuche können Sie unter „Explore“
  vordefinierte Suchen nach Autor*innen, Genres, Dateiformaten oder
  Projekten starten. Tipp: Um in der langen Autor*innenliste schnell die
  von Ihnen gesuchte Autorin zu finden, bietet es sich an, die
  <xref alt="Browsersuchfunktion" rid="glossary-browsersuchfunktion">Browsersuchfunktion</xref>
  zu nutzen.
  Sollten Sie Erfahrung mit der Abfragesprache
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://lucene.apache.org/core/">Lucene</ext-link>
  haben, können Sie diese im Freitextsuchfeld verwenden und kombinierte
  Abfragen direkt eingeben.
  In der „Advanced Search“ (unter dem Freitextsuchfeld) können Sie
  beispielsweise nach mehreren Autor*innen gleichzeitig suchen. Mit dem
  „+“-Button rechts neben der dortigen Suche können Sie weitere
  Parameter bestimmen oder auch eine Parametersuche mit einer
  Wörtersuche innerhalb der Texte (unter „Fulltext“) kombinieren und
  Ihre Suche so verfeinern.
  Eine Suche nach „‚Goethe‘ or ‚Schiller‘“ unter „Author“ und dem Genre
  „Drama“ liefert Ihnen z. B. eine Textsammlung mit 40 Dramen – 28 von
  Goethe, 12 von Schiller – die Sie entweder einzeln oder unter
  „Download all“ (rechts oben) als kombinierte XML-Datei herunterladen
  können. Angemerkt sei hier jedoch, dass häufig auch Teile von Dramen
  (z. B. von Schillers <italic>Wallenstein</italic> oder Goethes
  <italic>Faust. Eine Tragödie</italic>) als einzelne Dateien aufgeführt
  werden und so die genannte Anzahl der gefundenen Dramen irreführend
  sein kann.
  Empfehlung: Legen Sie sich innerhalb des Repositorys ein eigenes
  virtuelles Bücherregal an! Oberhalb des Downloadbuttons zu jedem
  einzelnen Text finden Sie hierfür den Button „Add to shelf“. Dies gibt
  Ihnen die Möglichkeit die Ergebnisse von mehreren Suchdurchläufen zu
  kombinieren und anschließend diese individuell zusammengestellte
  Textsammlung als kombinierte Datei herunterzuladen: als XML/TEI-Datei,
  als komprimierten ZIP-Ordner (vgl.
  <xref alt="ZIP" rid="glossary-zip">ZIP</xref>) oder als E-Book.
  Schließlich haben Sie die Möglichkeit, einzelne Texte visuell zu
  explorieren oder mit einem Tool von DARIAH zu annotieren. Klicken Sie
  hierzu auf den Titel eines Textes. Links neben dem nun dargestellten
  Text finden Sie die Kategorie „Werkzeug“ und von dort Verlinkungen zum
  Visualisierungstool Voyant
  (<xref alt="Flüh 2024" rid="ref-fluhToolbeitragVoyant2018" ref-type="bibr">Flüh
  2024</xref>) (in dem dann der jeweilige Text direkt, und ohne dass
  eine Anmeldung vonnöten wäre, visualisiert wird) und zum DARIAH-Portal
  zur Annotation, bei dem allerdings zunächst ein Nutzungsprofil
  erstellt werden muss.
  Ebenfalls links vom Text erscheint zudem ein Inhaltsverzeichnis, das
  die Navigation im jeweiligen Dokument erleichtert.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>Abfragesprache Lucene:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org//web/20241112164707/https://lucene.apache.org/core/">https://web.archive.org//web/20241112164707/https://lucene.apache.org/core/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>DARIAH-DE:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106113745/https://de.dariah.eu/">https://web.archive.org/web/20241106113745/https://de.dariah.eu/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>TextGrid:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106115617/https://textgrid.de/">https://web.archive.org/web/20241106115617/https://textgrid.de/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>TextGrid Repository:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106113832/https://textgridrep.org/">https://web.archive.org/web/20241106113832/https://textgridrep.org/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browsersuchfunktion">Browsersuchfunktion</styled-content></term>
      <def>
        <p>Um eine
        <xref alt="Browser" rid="glossary-browser">Browser</xref>-Suchfunktion
        durchzuführen, und beispielsweise eine Webseite auf bestimmte
        Suchbegriffe zu filtern, klicken Sie auf Ihrem Mac „cmd“ + „F“
        und auf Ihrem Windows PC „Strg“ + „F“. In das sich öffnende
        Suchfenster tragen Sie Ihren Suchbegriff ein und die jeweils
        geöffnete Seite wird darauf hin durchsucht.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-zip">ZIP</styled-content></term>
      <def>
        <p>ZIP steht für ein Dateiformat (zip = engl. Reißverschluss),
        in welchem mehrere Einzeldateien verlustfrei, komprimiert
        zusammengefasst werden. ZIP-Dateien werden beim Öffnen entweder
        automatisch entpackt oder lassen sich per Rechtsklick
        extrahieren.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-fluhToolbeitragVoyant2018">
    <mixed-citation>Flüh, Marie. 2024. Toolbeitrag: Voyant. Hg. von
    Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 5. Textvisualisierung
    (7. August). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3775">10.48694/fortext.3775</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/voyant">https://fortext.net/tools/tools/voyant</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-neurothTextGridCommunityFur2015">
    <mixed-citation>Neuroth, Heike, Andrea Rapp und Sibylle Söring,
    Hrsg. 2015. <italic>TextGrid: Von der Community - für die Community.
    Eine Virtuelle Forschungsumgebung für die
    Geisteswissenschaften</italic>. Glückstadt: Werner
    Hülsbusch.</mixed-citation>
  </ref>
  <ref id="ref-wegsteinTextgridGeschichte2015">
    <mixed-citation>Wegstein, Werner, Andrea Rapp und Fotis Jannidis.
    2015. Textgrid – eine Geschichte. In: <italic>TextGrid: Von der
    Community – für die Community. Eine Virtuelle Forschungsumgebung für
    die Geisteswissenschaften</italic>, hg. von Heike Neuroth, Andrea
    Rapp, und Sibylle Söring, 23–35. Glückstadt:
    Hülsbusch.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
