<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3812</article-id>
<title-group>
<article-title>Ressourcenbeitrag: DROC: Deutsches
Romankorpus</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>2</issue>
<issue-title>Korpusbildung</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 19.08.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/droc-deutsches-romankorpus">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-08-19">
<day>19</day>
<month>08</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 19.08.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/droc-deutsches-romankorpus">fortext.net</ext-link></p>
<sec id="kurzbeschreibung">
  <title>1. Kurzbeschreibung</title>
  <p>Das Deutsche Romankorpus (DROC) (vgl.
  <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>) versammelt 90
  annotierte (vgl.
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>)
  Fragmente deutschsprachiger Romane (jeweils ca. 200 Sätze) vom 17. bis
  20. Jahrhundert. Es enthält neben automatisch generiertem
  <xref alt="Markup (Textauszeichung)" rid="glossary-markup">Markup
  (Textauszeichung)</xref> zu Kapiteln, Segmenten, Dependenz- und
  Morphologieinformationen, Wortarten
  (<xref alt="POS" rid="glossary-pos">POS</xref>), Sätzen und Absätzen
  auch über 50.000 manuell erstellte Annotationen zu benannten Entitäten
  (vgl. Named Entity Recognition
  (<xref alt="Schumacher 2024" rid="ref-schumacherMethodenbeitragNamedEntity2018" ref-type="bibr">Schumacher
  2024</xref>)), Koreferenzen, direkter Rede, sowie Sprechern und
  Adressaten dieser direkten Rede. Die dichte Annotation macht das DROC
  zu einer guten Ressource für Machine-Learning-Routinen (vgl.
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref>) oder die Kombination mit anderen qualitativen
  Annotationen. Das DROC stellt keine grafische Benutzeroberfläche (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>) zur Verfügung, zur
  Exploration der Daten ist daher etwas technisches Know-How (z. B. über
  die Formate
  <xref alt="TEI" rid="glossary-tei">TEI</xref>-<xref alt="XML" rid="glossary-xml">XML</xref>
  oder Apache-UIMA-XMI) vonnöten.</p>
  <fig>
    <caption><p>Abb. 1: Übersichtsseite des DROC</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="DROC-Startseite_p.png" />
  </fig>
  <p><bold>Steckbrief</bold></p>
  <list list-type="bullet">
    <list-item>
      <p><ext-link ext-link-type="uri" xlink:href="https://gitlab2.informatik.uni-wuerzburg.de/kallimachos/DROC-Release">https://gitlab2.informatik.uni-wuerzburg.de/kallimachos/DROC-Release</ext-link></p>
    </list-item>
    <list-item>
      <p>90 zufällig ausgewählte Fragmente verschiedener
      deutschsprachiger Romane (auch Übersetzungen); jeweils ca. 200
      Sätze; insgesamt ca. 393.000 Tokens (vgl.
      <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>)</p>
    </list-item>
    <list-item>
      <p>im Projekt
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.camerarius.uni-wuerzburg.de/kallimachos/index.php/Hauptseite">Kallimachos</ext-link>
      (gefördert vom BMBF) an der Universität Würzburg hergestellt</p>
    </list-item>
    <list-item>
      <p>die Sammlung soll insbesondere bereits vorhandene
      automatisierte Tools in den Literaturwissenschaften unterstützen
      und bereichern (Machine Learning)</p>
    </list-item>
    <list-item>
      <p>Schwerpunkt: Annotation von Figurenreferenzen; enthält manuell
      erstellte Annotationen für knapp über 50.000 annotierte
      Figurenreferenzen und ihre Koreferenzen, ca. 2000 Annotationen von
      direkter Rede und deren jeweiligen Sprechern und Adressaten</p>
    </list-item>
    <list-item>
      <p>in zwei unterschiedlichen Dokumentformaten erhältlich: TEI-XML
      und Apache-UIMA-XMI; in den
      <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
      werden aufgeführt: Titel, Autor, Jahr, Geschlecht der Autor*innen,
      Gattung, Erzählerposition, Happyend, Epoche (Jahr und
      Fachwissenschaft), Strömung, Originalsprache</p>
    </list-item>
  </list>
</sec>
<sec id="anwendungsbeispiel">
  <title>2. Anwendungsbeispiel</title>
  <p>Sie wollen den Einsatz direkter Rede in deutschsprachigen Romanen
  vergleichend untersuchen. DROC bietet Ihnen für diesen Anwendungsfall
  ein gründlich annotiertes Korpus aus 90 Romanfragmenten mit Figuren-,
  Koreferenz-, direkter-Rede- inkl. Sprecher- und
  Adressatenannotationen.</p>
</sec>
<sec id="diskussion">
  <title>3. Diskussion</title>
  <sec id="kann-ich-das-droc-für-wissenschaftliche-arbeiten-nutzen">
    <title>3.1 Kann ich das DROC für wissenschaftliche Arbeiten
    nutzen?</title>
    <p>Ja. Die Texte entstammen dem TextGrid Repository
    (<xref alt="Horstmann 2024" rid="ref-horstmannRessourcenbeitragTextGridRepository2018" ref-type="bibr">Horstmann
    2024</xref>), das
    <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>
    sowie Annotation- und Auswertungsregeln für das DROC werden
    transparent gemacht. Die Textauswahl erfolgte zufällig aus 450
    kanonisierten Texten als auch aus der Sammlung „Deutsche Literatur
    von Frauen“. Die Fragmente aus diesen beiden Textgruppen wurden
    ebenfalls zufällig ausgewählt. Dieses Preprocessing wird in Krug
    u. a.
    (<xref alt="2018, Abschn. 4" rid="ref-krugDescriptionCorpusCharacter2018" ref-type="bibr">2018,
    Abschn. 4</xref>) dokumentiert und begründet.</p>
    <p>Die annotierten Textfragmente entstammen Romanen aus der Zeit
    zwischen dem 17. und dem 20. Jahrhundert, die orthographisch - bis
    auf neun Texte aus der Zeit von 1650-1800 - zum Großteil nicht
    standardisiert sind. Die Texte können anhand ihrer Metadaten
    gefiltert werden. Vertreten sind zu 60% männliche und zu 40%
    weibliche Autor*innen sowie kanonisierte und unbekannte Texte. Die
    Annotationen wurden mithilfe eines vorab erstellten
    Annotator-Agreements in der vom Kallimachos-Projekt selbst
    programmierten Desktop-Applikation
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://gitlab2.informatik.uni-wuerzburg.de/kallimachos/Athen">ATHEN</ext-link>
    manuell und semi-automatisch erstellt.</p>
    <p>Da es beim DROC um die Qualität der Metadaten und nicht um die
    Primärtexte geht, besteht bei den ausgewählten Texten kein Anspruch
    auf Vollständigkeit. Die Volltexte der Romane können bei Bedarf im
    Textgrid Repository eingesehen und heruntergeladen werden. Die Texte
    unterliegen der Creative Commons License CC-BY und können mit
    entsprechender
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://creativecommons.org/licenses/by/3.0/de/">Zitation</ext-link>
    als Quellenangabe genutzt werden.</p>
    <p>Die hochwertigen Metadaten können zukünftig durch weitere
    qualitative Annotationen ergänzt werden. So wurde beispielsweise
    bereits ein Subset von 30 Romanfragmenten des DROC für ein
    kollaboratives Annotationsprojekt
    (<xref alt="Jacke 2024" rid="ref-jackeMethodenbeitragKollaborativesLiteraturwissenschaftliches2018" ref-type="bibr">Jacke
    2024</xref>) zur Klassifikation von Textsorten (deskriptiv,
    argumentativ oder narrativ) genutzt
    (<xref alt="Schlör, Schöch und Hotho 2019" rid="ref-schlörClassificationTextTypes2019" ref-type="bibr">Schlör,
    Schöch und Hotho 2019</xref>). Die Kombination unterschiedlicher
    qualitativer Annotationen in einer Ressource eröffnet die
    Möglichkeit, neue Fragestellungen digital zu erforschen.</p>
  </sec>
  <sec id="wie-benutzerfreundlich-ist-die-arbeit-mit-dem-droc">
    <title>3.2 Wie benutzerfreundlich ist die Arbeit mit dem
    DROC?</title>
    <p>Die Arbeit mit den Texten und Annotationen des DROC setzt
    technische Kenntnisse voraus. Die Strukturen der beiden Datenformate
    TEI-XML und Apache-UIMA-XMI machen eine Einarbeitung erforderlich,
    die für die Arbeit mit dem DROC derzeit unumgänglich ist. Das Korpus
    können Sie in seinen beiden Formaten von der Plattform GitHub
    herunterladen, deren Nutzung ebenfalls einer gewissen Einarbeitung
    bedarf.</p>
  </sec>
</sec>
<sec id="wie-funktioniert-die-textsuche-im-droc">
  <title>4. Wie funktioniert die Textsuche im DROC?</title>
  <p>Um das Korpus beispielsweise im TEI-XML-Format herunterzuladen,
  klicken Sie dem Link zur
  GitHub-Seite<ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://gitlab2.informatik.uni-wuerzburg.de/kallimachos/DROC-Release/tree/master/droc/DROC-TEI">20</ext-link>
  und wählen dort dann - wie in Abbildung 2 gezeigt - den
  <xref alt="ZIP" rid="glossary-zip">ZIP</xref>-Download oben rechts
  unter „Download this directory“ aus.</p>
  <fig>
    <caption><p>Abb. 2: Download des DROC im
    TEI-XML-Format</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="DROC-Download-TEI-XML_p.png" />
  </fig>
  <p>In der oberen Zeile können Sie zudem durch die einzelnen Seiten des
  GitHub-Repositorys navigieren. Unter DROC-Release finden Sie
  beispielsweise eine README-Datei, die (auf Englisch) grundlegende
  Informationen über das DROC versammelt. Wenn Sie an einem bestimmten
  Romanfragment interessiert sind, können Sie auch einfach den „Find
  file“-Button (vgl.
  <xref alt="Query" rid="glossary-query">Query</xref>) oben rechts
  bedienen und die Freitextsuchzeile ausfüllen.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>ATHEN:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://gitlab2.informatik.uni-wuerzburg.de/kallimachos/Athen">https://web.archive.org/save/https://gitlab2.informatik.uni-wuerzburg.de/kallimachos/Athen</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>DROC Korpus:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://gitlab2.informatik.uni-wuerzburg.de/kallimachos/DROC-Release/tree/master/droc/DROC-TEI">https://web.archive.org/save/https://gitlab2.informatik.uni-wuerzburg.de/kallimachos/DROC-Release/tree/master/droc/DROC-TEI</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Kallimachos:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.camerarius.uni-wuerzburg.de/kallimachos/index.php/Hauptseite">https://web.archive.org/save/http://www.camerarius.uni-wuerzburg.de/kallimachos/index.php/Hauptseite</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
    <list-item>
      <p>Zitation:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://creativecommons.org/licenses/by/3.0/de/">https://web.archive.org/save/https://creativecommons.org/licenses/by/3.0/de/</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-zip">ZIP</styled-content></term>
      <def>
        <p>ZIP steht für ein Dateiformat (zip = engl. Reißverschluss),
        in welchem mehrere Einzeldateien verlustfrei, komprimiert
        zusammengefasst werden. ZIP-Dateien werden beim Öffnen entweder
        automatisch entpackt oder lassen sich per Rechtsklick
        extrahieren.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-horstmannRessourcenbeitragTextGridRepository2018">
    <mixed-citation>Horstmann, Jan. 2024. Ressourcenbeitrag: TextGrid
    Repository. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 11.
    Bibliografie (29. November). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3794">10.48694/fortext.3794</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/textgrid-repository">https://fortext.net/ressourcen/textsammlungen/textgrid-repository</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-jackeMethodenbeitragKollaborativesLiteraturwissenschaftliches2018">
    <mixed-citation>Jacke, Janina. 2024. Methodenbeitrag: Kollaboratives
    literaturwissenschaftliches Annotieren. Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 4. Manuelle Annotation (7. August).
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3749">10.48694/fortext.3749</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/kollaboratives-literaturwissenschaftliches-annotieren">https://fortext.net/routinen/methoden/kollaboratives-literaturwissenschaftliches-annotieren</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-krugDescriptionCorpusCharacter2018">
    <mixed-citation>Krug, Markus, Frank Puppe, Isabella Reger, Lukas
    Weimer, Luisa Macharowsky, Stephan Feldhaus und Fotis Jannidis.
    2018. Description of a Corpus of Character References in German
    Novels - DROC [Deutsches ROman Corpus]. DARIAH-DE working papers.
    <ext-link ext-link-type="uri" xlink:href="http://nbn-resolving.de/urn:nbn:de:gbv:7-dariah-2018-2-9">http://nbn-resolving.de/urn:nbn:de:gbv:7-dariah-2018-2-9</ext-link>
    (zugegriffen: 5. August 2019).</mixed-citation>
  </ref>
  <ref id="ref-schlörClassificationTextTypes2019">
    <mixed-citation>Schlör, Daniel, Christof Schöch und Andreas Hotho.
    2019. Classification of Text-Types in German Novels. In:
    <italic>Digital Humanities 2019 Conference Papers</italic>. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.34894/OMLKRN">10.34894/OMLKRN</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.34894/OMLKRN">https://doi.org/10.34894/OMLKRN</ext-link>
    (zugegriffen: 5. August 2019).</mixed-citation>
  </ref>
  <ref id="ref-schumacherMethodenbeitragNamedEntity2018">
    <mixed-citation>Schumacher, Mareike. 2024. Methodenbeitrag: Named
    Entity Recognition (NER). Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 9. Named Entity Recognition (30.
    Oktober). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3765">10.48694/fortext.3765</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/named-entity-recognition-ner">https://fortext.net/routinen/methoden/named-entity-recognition-ner</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
