<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3810</article-id>
<title-group>
<article-title>Toolbeitrag: CorpusExplorer</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-7952-4194</contrib-id>
<name>
<surname>Schumacher</surname>
<given-names>Mareike</given-names>
</name>
<email>Mareike.Schumacher@sprachlit.uni-regensburg.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Regensburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>2</issue>
<issue-title>Korpusbildung</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 14.12.2020 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/corpusexplorer">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2020-12-14">
<day>14</day>
<month>12</month>
<year>2020</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 14.12.2020 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/corpusexplorer">fortext.net</ext-link></p>
<fig>
  <caption><p>Workflow: Upload von Textdaten in reiner oder
  vorannotierter Form, Aufbereitung des Korpus und Durchführen von
  Abfragen, Download der aufbereiteten Daten.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="CorpusExplorerScreens.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> CorpusExplorer ist eine
    Desktopapplikation (vgl.
    <xref alt="Webanwendung" rid="glossary-webanwendung">Webanwendung</xref>)
    für Windows. Technich versierte Nutzer*innen können auf Mac oder
    Linux eine Konsolen-Version (vgl.
    <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>)
    verwenden.</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> Die jetzige Version des
    CorpusExplorer wurde 2013 herausgebracht und kontinuierlich weiter
    entwickelt.</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> Jan Oliver Rüdiger</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> kostenfrei</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.corpusexplorer.de">www.corpusexplorer.de</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Der CorpusExplorer unterstützt über
    100 unterschiedliche Datei- und Textformate für Im- und Export,
    darunter gängige Formate wie
    <xref alt="CSV" rid="glossary-csv">CSV</xref> oder
    <xref alt="XML" rid="glossary-xml">XML</xref></p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Sprachunabhängig (unterstützt UTF-8 (vgl.
    <xref alt="Unicode/UTF-8" rid="glossary-unicode">Unicode/UTF-8</xref>))</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-der-corpusexplorer-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann der CorpusExplorer
  eingesetzt werden?</title>
  <p>Der CorpusExplorer eignet sich vor allem für explorative Zugänge zu
  großen Textkorpora (vgl.
  <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>). Diese können
  automatisch in Teilkorpora unterteilt und so immer wieder neu
  betrachtet werden. Verwendung bestimmter Wortarten oder häufig in
  ähnlichen Zusammenhängen auftretende Wörter können mit Hilfe
  automatischer Routinen untersucht werden. Durch die Verknüpfung mit
  literaturwissenschaftlich relevanten Ressourcen wie DTA
  (<xref alt="Horstmann und Kern 2024" rid="ref-horstmannRessourcenbeitragDeutschesTextarchiv2018" ref-type="bibr">Horstmann
  und Kern 2024</xref>), TextGrid
  (<xref alt="Horstmann 2024b" rid="ref-horstmannRessourcenbeitragTextGridRepository2018" ref-type="bibr">Horstmann
  2024b</xref>) und DraCor
  (<xref alt="Horstmann 2024a" rid="ref-horstmannRessourcenbeitragDraCorDrama2020" ref-type="bibr">Horstmann
  2024a</xref>) können bereits mit literaturwissenschaftlich relevanten
  Annotationen (vgl.
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>)
  ausgezeichnete Texte automatisch importiert und vergleichend
  betrachtet werden. So wäre es z.B. möglich, folgende Fragestellung zu
  verfolgen: Wie ist das Verhältnis von Sprecher- zu Sprecherinnen-Text
  in 500 deutschsprachigen Dramen des 18. - 20. Jahrhunderts?</p>
</sec>
<sec id="welche-funktionalitäten-bietet-der-corpusexplorer-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet der CorpusExplorer und wie
  zuverlässig ist das Tool?</title>
  <p><italic>Funktionen:</italic></p>
  <list list-type="bullet">
    <list-item>
      <p>Auswertung kleiner und großer Textsammlungen (vgl.
      <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>)</p>
    </list-item>
    <list-item>
      <p>Automatisierte Text-/Metadatenextraktion, Bereinigung und
      Annotieren von Korpora</p>
    </list-item>
    <list-item>
      <p>Bereits über 50 zum Teil experimentelle Auswertungen und
      Visualisierungen, u. a. Frequenzanalyse, Kookkurrenzen, Heatmaps
      oder Geovisualisierung</p>
    </list-item>
    <list-item>
      <p>Analyse unterschiedlichster Quellen (z. B. Transkripte (vgl.
      <xref alt="Transkription" rid="glossary-transkription">Transkription</xref>),
      Tweets, Dramen oder Romane)</p>
    </list-item>
    <list-item>
      <p>Die Abfrageroutinen (vgl.
      <xref alt="Query" rid="glossary-query">Query</xref>) zielen auf
      Reproduzierbarkeit der Datenaufbereitung</p>
    </list-item>
    <list-item>
      <p>Export der Analyseergebnisse und Korpora in verschiedene offene
      Formate</p>
    </list-item>
    <list-item>
      <p>Einbindung in andere Programmiersprachen wie Python, R, C# oder
      Java durch Konsolen-Schnittstelle möglich.</p>
    </list-item>
  </list>
  <p><italic>Zuverlässigkeit:</italic> CorpusExplorer wird
  kontinuierlich weiterentwickelt, kann auf dem eigenen Rechner
  installiert werden und läuft zuverlässig.</p>
</sec>
<sec id="ist-der-corpusexplorer-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist der CorpusExplorer für DH-Einsteiger*innen
  geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / -</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>-</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Die grafische Benutzeroberfläche (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>) ermöglicht eine
  weitgehend intuitive Bedienung, die Vielzahl der angebotenen
  <xref alt="Feature" rid="glossary-feature">Feature</xref>s (vgl.
  <xref alt="Feature" rid="glossary-feature">Feature</xref>), die nur
  zum Teil selbsterklärend sind, erschwert aber den Einstieg für weniger
  technikaffine Nutzer*innen. Die relevanten Funktionen lassen sich ohne
  technisches Vorwissen nicht sofort gewinnbringend ausführen.
  Allerdings werden ein aktualisiertes Handbuch sowie hilfreiche
  Tutorials bereitgestellt, um den Einstieg zu erleichtern und
  verschiedene Funktionen des Tools aufzuzeigen. Ein E-Mail-Support zur
  Unterstützung sowie Klärung von Fragen und Problemen steht zur
  Verfügung.</p>
</sec>
<sec id="wie-etabliert-ist-der-corpusexplorer-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist der CorpusExplorer in den
  (Literatur-)Wissenschaften?</title>
  <p>Der CorpusExplorer wird bereits in einigen, überwiegend
  korpuslinguistischen, Studien zitiert. Auch für Diskursanalysen wird
  das Tool verwendet. In den (digitalen) Literaturwissenschaften ist der
  CorpusExplorer noch wenig etabliert.</p>
</sec>
<sec id="unterstützt-der-corpusexplorer-kollaboratives-arbeiten">
  <title>5. Unterstützt der CorpusExplorer kollaboratives
  Arbeiten?</title>
  <p>Nein, der CorpusExplorer hat keine Funktionalitäten, die
  kollaborativ genutzt werden können.</p>
</sec>
<sec id="sind-meine-daten-beim-corpusexplorer-sicher">
  <title>6. Sind meine Daten beim CorpusExplorer sicher?</title>
  <p>Ja. Für die Nutzung des CorpusExplorers ist keine Angabe
  persönlicher Daten notwendig. Die verarbeiteten Textdaten bleiben auf
  dem eigenen PC. Seit einem Update im Jahr 2019 fragt der
  CorpusExplorer, ob die auf einer eigenen OpenSource basierte
  Infrastruktur zur Telemetrieerhebung genutzt werden darf. Stimmen
  Nutzende dem zu, werden anonymisierte Ereignisse wie Programmfehler
  oder genutzte Funktionen erhoben. Daten werden nicht an Dritte
  übermittelt. Wird der Nutzung der Telemetrie widersprochen, werden
  keinerlei Daten erhoben oder übermittelt. Die Nutzung des
  CorpusExplorers ist also unter datenschutzrechtlichen und auch unter
  urheberrechtlichen Gesichtspunkten unproblematisch.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>www.corpusexplorer.de:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://www.corpusexplorer.de">https://web.archive.org/save/http://www.corpusexplorer.de</ext-link>
      (Letzter Zugriff: 04.06.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-feature">Feature</styled-content></term>
      <def>
        <p>Unter Features können Einzelfunktionen eines Tools verstanden
        werden, die beispielsweise komplexe Funktionen wie die
        Visualisierung eines Textes als
        <xref alt="Wordcloud" rid="glossary-wordcloud">Wordcloud</xref>
        ermöglichen, oder auch kleinere Funktionseinheiten wie den
        Abgleich einzelner Spracheigenschaften
        (<xref alt="Properties" rid="glossary-property">Properties</xref>)
        mit
        <xref alt="annotierten" rid="glossary-annotation">annotierten</xref>
        Beispieltexten darstellen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-property">Property</styled-content></term>
      <def>
        <p>Property steht für „Eigenschaft“, „Komponente“ oder
        „Attribut“. In der automatischen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        dienen konkrete Worteigenschaften wie Groß- und Kleinschreibung
        zur Klassifizierung von Wörtern oder Phrasen. Durch die
        Berücksichtigung solcher Eigenschaften in den
        <xref alt="Features" rid="glossary-feature">Features</xref>
        eines Tools kann
        <xref alt="maschinelles Lernen" rid="glossary-machine-learning">maschinelles
        Lernen</xref> bestimmter Phänomene umgesetzt werden. In der
        manuellen Annotation können als Properties auch Eigenschaften
        von
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        benannt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-transkription">Transkription</styled-content></term>
      <def>
        <p>Die Definition des Begriffs „Transkription“ ist weit gefasst
        und stark abhängig vom wissenschaftlichen Bereich. Grundsätzlich
        bezieht sich die Transkription auf das Umschreiben, Übertragen
        oder Umformen einer Entität. In den Geisteswissenschaften kann
        sie grundsätzlich als Verschriftlichung von Medien wie Audio-,
        Videodateien aber auch Texten verstanden werden. In der
        Editionswissenschaft handelt es sich beispielsweise um die
        buchstabengenaue Abschrift oder Kopie eines Textes.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-unicode">Unicode/UTF-8</styled-content></term>
      <def>
        <p>Unicode ist ein internationaler Standard, der für jedes
        Schriftzeichen oder Textelement einen digitalen Code festlegt.
        Dabei ist UTF-8 die am weitesten verbreitete Kodierung für
        Unicode-Zeichen. UTF-8 ist die international standardisierte
        Kodierungsform elektronischer Zeichen und kann von den meisten
        Digital-Humanities-Tools verarbeitet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-webanwendung">Webanwendung</styled-content></term>
      <def>
        <p>Eine webbasierte Anwendung ist ein Anwendungsprogramm,
        welches eine Webseite als Schnittstelle oder Front-End
        verwendet. Im Gegensatz zu klassischen Desktopanwendungen werden
        diese nicht lokal auf dem Rechner der Nutzer*innen installiert,
        sondern können von jedem Computer über einen
        <xref alt="Webbrowser" rid="glossary-browser">Webbrowser</xref>
        „online“ genutzt werden. Webanwendungen erfordern daher kein
        spezielles Betriebssystem.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-wordcloud">Wordcloud</styled-content></term>
      <def>
        <p>Eine <italic>Wordcloud</italic> , oder auch Schlagwortwolke,
        ist eine Form der Informationsvisualisierung, beispielsweise von
        Worthäufigkeiten in einem Text oder einer Textsammlung. Dabei
        werden unterschiedlich gewichtete Wörter, wie die häufigsten
        Wörter, i.d.R. größer oder auf andere Weise hervorgehoben
        dargestellt. Die horizontale/vertikale Ausrichtung und die Farbe
        der dargestellten Wörter hat meistens allerdings keinen
        semantischen Mehrwert.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-horstmannRessourcenbeitragDraCorDrama2020">
    <mixed-citation>Horstmann, Jan. 2024a. Ressourcenbeitrag: DraCor -
    Drama Corpora Project. Hg. von Evelyn Gius. <italic>forTEXT</italic>
    1, Nr. 6. Netzwerkanalyse (30. August). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3785">10.48694/fortext.3785</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/dracor-drama-corpora-project">https://fortext.net/ressourcen/textsammlungen/dracor-drama-corpora-project</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannRessourcenbeitragTextGridRepository2018">
    <mixed-citation>———. 2024b. Ressourcenbeitrag: TextGrid Repository.
    Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 11.
    Bibliografie (29. November). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3794">10.48694/fortext.3794</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/textgrid-repository">https://fortext.net/ressourcen/textsammlungen/textgrid-repository</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-horstmannRessourcenbeitragDeutschesTextarchiv2018">
    <mixed-citation>Horstmann, Jan und Alexandra Kern. 2024.
    Ressourcenbeitrag: Deutsches Textarchiv (DTA). Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 11. Bibliografie (29. November).
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3791">10.48694/fortext.3791</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/deutsches-textarchiv-dta">https://fortext.net/ressourcen/textsammlungen/deutsches-textarchiv-dta</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-rüdigerCorpusExplorer2018">
    <mixed-citation>Rüdiger, Jan Oliver. 2018. CorpusExplorer.
    Universität Kassel, Universität Siegen.
    <ext-link ext-link-type="uri" xlink:href="http://corpusexplorer.de">http://corpusexplorer.de</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
