<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3763</article-id>
<title-group>
<article-title>Toolbeitrag: Tagtog</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-7952-4194</contrib-id>
<name>
<surname>Schumacher</surname>
<given-names>Mareike</given-names>
</name>
<email>Mareike.Schumacher@sprachlit.uni-regensburg.de</email>
<xref ref-type="aff" rid="aff-2"/>
</contrib>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0009-0007-2653-6275</contrib-id>
<name>
<surname>Akazawa</surname>
<given-names>Mari</given-names>
</name>
<email>mari.akazawa@tu-darmstadt.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Technische Universität Darmstadt</institution>
</institution-wrap>
</aff>
<aff id="aff-2">
<institution-wrap>
<institution>Universität Regensburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<pub-date date-type="pub" publication-format="electronic" iso-8601-date="2024-08-07">
<day>7</day>
<month>8</month>
<year>2024</year>
</pub-date>
<volume>1</volume>
<issue>4</issue>
<issue-title>Manuelle Annotation</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 10.01.2022 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/tagtog">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2022-01-10">
<day>10</day>
<month>01</month>
<year>2022</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 10.01.2022 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/tagtog">fortext.net</ext-link></p>
<fig>
  <caption><p>Workflow: Im Webinterface werden Daten durch das Hochladen
  von Textdateien in verschiedenen Formaten, der direkten Eingabe eines
  Textes oder durch die Angabe einer URL importiert. Diese können im
  nächsten Schritt umfangreich mit neu erstellten oder hochgeladenen
  Tagsets, die auch Dictionaries beinhalten können, annotiert werden. Im
  Anschluss können die annotierten Versionen in der kostenfreien Version
  in Form einer ZIP-Datei im JSON-Format oder als TSV-Datei exportiert
  werden.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="Screens_TagTog_Vorlage.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> tagtog kostenfrei als
    cloudbasiertes (vgl.
    <xref alt="Cloudbasiert" rid="glossary-cloudbasiert">Cloudbasiert</xref>)
    Tool über einen
    <xref alt="Browser" rid="glossary-browser">Browser</xref> (z. B.
    Chrome, Firefox, Safari) oder über eine
    <xref alt="API" rid="glossary-api">API</xref> genutzt werden.
    Kostenpflichtig kann tagtog auch lokal auf dem eigenen
    <xref alt="Server" rid="glossary-server">Server</xref> laufen. Die
    lokale Nutzung des Tools erfordert außerdem: Docker, Docker Compose,
    cURL und
    <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>-Kenntnisse</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung</bold>: Version 3.2021-W47.3 (Stand
    Dezember 2021); seit 2017 stetig weiterentwickelt</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber</bold>: Dr. Juan Miguel Cejuela, Jorge Campos
    und weitere Entwickler*innen</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz</bold>: Creative Commons: Attribution 4.0
    International (CC BY 4.0) für öffentliche Projekte</p>
  </list-item>
  <list-item>
    <p><bold>Weblink</bold>:
    <ext-link ext-link-type="uri" xlink:href="https://www.tagtog.com">https://www.tagtog.com</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export</bold>: Import von Formaten wie TXT (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>),
    <xref alt="HTML" rid="glossary-html">HTML</xref>, Bio
    <xref alt="XML" rid="glossary-xml">XML</xref>-Format, Markdown;
    Import von <xref alt="CSV" rid="glossary-csv">CSV</xref>, TSV und
    <xref alt="PDF" rid="glossary-pdf">PDF</xref> nur in
    kostenpflichtiger Version möglich; Export im
    <xref alt="JSON" rid="glossary-json">JSON</xref>-Format und als
    TSV</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen</bold>: Sprachunabhängig (unterstützt Unicode)</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-tagtog-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann tagtog eingesetzt
  werden?</title>
  <p>tagtog ist ein englischsprachiges Tool zur
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref> von
  Textdaten, das die Möglichkeit bietet, auf Grundlage manueller
  Annotationen, ein projektspezifisches
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref> durchzuführen, einen bereits vorhandenen
  ML-Algorithmus ins Projekt einzubinden, oder den tooleigenen
  ML-Classifier zur automatisierten Annotation zu nutzen. Neben der
  Annotation von Dokumenttentypen oder Entitäten mit eigenen Tagsets
  (vgl. <xref alt="Tagset" rid="glossary-tagset">Tagset</xref>),
  berechnet das Tool beispielsweise automatisch den
  Annotationsfortschritt bei kollaborativen Arbeiten oder die
  quantitative Verteilung der genutzten Tags und erstellt daraufhin
  Visualisierungen, die ebenfalls zum Download bereitstehen.
  So bietet sich tagtog, durch die Erstellung bzw. das Hochladen von
  Tagsets zu Named Entities (vgl.
  <xref alt="Named Entities" rid="glossary-named-entities">Named
  Entities</xref>) oder Dokumenttypen und damit verknüpften
  Dictionaries, besonders dafür an, große Textmengen automatisch oder
  halbautomatisch zu annotieren, und kann somit für eine große Vielfalt
  an Forschungsansätzen genutzt werden. Eine mögliche Fragestellung
  wäre: „Wie ist das Verhältnis von Sprecher- zu Sprecherinnen-Text in
  deutschsprachigen Dramen des 18. - 20. Jahrhunderts?“ oder „Welche
  realweltlichen Orte werden in Erzähltexten einer bestimmten Epoche
  erwähnt?“.</p>
</sec>
<sec id="welche-funktionalitäten-bietet-tagtog-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet tagtog und wie zuverlässig
  ist das Tool?</title>
  <p><italic>Funktionen:</italic></p>
  <list list-type="bullet">
    <list-item>
      <p>Erstellen oder Hochladen eigener Tagsets zur Annotation von NE
      oder Dokumenttypen</p>
    </list-item>
    <list-item>
      <p>Manuelle und automatische (nicht kostenfrei) Annotation von
      ganzen Paragraphen und Tabellen etc.</p>
    </list-item>
    <list-item>
      <p>Überlappende Annotationen</p>
    </list-item>
    <list-item>
      <p>Verknüpfung von NE durch Relationen oder Dictionaries</p>
    </list-item>
    <list-item>
      <p>Normalisierung von Tags</p>
    </list-item>
    <list-item>
      <p>Trainieren oder Hochladen eigener ML-Algorithmen</p>
    </list-item>
    <list-item>
      <p>Nutzung des tagtog-Machine-Learning-Algorithmus’ (nicht
      kostenfrei)</p>
    </list-item>
    <list-item>
      <p>Kollaboratives Arbeiten mit automatischer
      Aufgabenverteilung</p>
    </list-item>
    <list-item>
      <p>Berechnung und Visualisierung von Statistiken zu annotierten
      Daten und zum Annotationsfortschritt eines Projektes</p>
    </list-item>
    <list-item>
      <p>Berechnung der Confidence Probability für alle Annotationen und
      Berechnung des IAA</p>
    </list-item>
    <list-item>
      <p><xref alt="Query" rid="glossary-query">Query</xref>-Abfragen im
      Projekt zur Suche nach Dokumenten, Annotationsfortschritten oder
      bestimmten Tags</p>
    </list-item>
    <list-item>
      <p>Nutzung über eine API möglich</p>
    </list-item>
  </list>
  <p>_Zuverlässigkeit: _tagtog wird kontinuierlich gepflegt und läuft
  zuverlässig.</p>
</sec>
<sec id="ist-tagtog-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist tagtog für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <colgroup>
        <col width="50%" />
        <col width="50%" />
      </colgroup>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / –</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>teilweise (im Handbuch)</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>tagtog bietet, im Vergleich zu anderen Tools, eine große Menge an
  Funktionalitäten und somit auch viele verschiedene
  Einsatzmöglichkeiten. Das Benutzerinterface in der Webversion ist
  übersichtlich, intuitiv aufgebaut und somit auch für
  DH-Einsteiger*innen geeignet. Die interaktive Benutzeroberfläche ist
  in vier Bereiche (Einstellungen, Projektübersicht &amp;
  Annotationsbereich, Übersicht aller Statistiken, Downloadbereich)
  aufgeteilt. Um einen umfassenden Überblick aller Funktionen zu
  erlangen und die Vorteile der Funktionen zum kollaborativen Arbeiten
  in Gänze ausschöpfen zu können, ist es allerdings ratsam, sich zuvor
  intensiv mit der
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://docs.tagtog.com">Dokumentation</ext-link>
  des Tools zu beschäftigen. Diese steht wie das Tool nur auf Englisch
  zur Verfügung.
  Die Nutzung des Tools auf dem eigenen Server ist für
  DH-Einsteiger*innen aufgrund der aufwändigen Installation des Tools
  nicht zu empfehlen.</p>
</sec>
<sec id="wie-etabliert-ist-tagtog-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist tagtog in den
  (Literatur-)Wissenschaften?</title>
  <p>tagtog wurde ursprünglich als Text-Mining (vgl.
  <xref alt="Data Mining" rid="glossary-data-mining">Data
  Mining</xref>)-Tool für den Bereich der Biomedizin entwickelt
  (<xref alt="Cejuela u. a. 2014" rid="ref-cejuelaTagtogInteractiveTextminingassisted2014" ref-type="bibr">Cejuela
  u. a. 2014</xref>) und wird inzwischen in vielen weiteren
  wissenschaftlichen Disziplinen und auch im Finanz-, Gesundheits- und
  Rechtswesen eingesetzt
  (<xref alt="Goldberg u. a. 2015" rid="ref-goldbergLinkedAnnotationsMiddle2015" ref-type="bibr">Goldberg
  u. a. 2015</xref>).
  In den Literaturwissenschaften ist es bislang noch nicht sehr
  etabliert, wurde aber beispielsweise schon zum Trainieren von
  NLP-Modellen für Analysen historischer, lateinamerikanische Dokumente
  eingesetzt
  (<xref alt="Murrieta-Flores u. a. 2019" rid="ref-murrieta-floresTrainingNLPModels2019" ref-type="bibr">Murrieta-Flores
  u. a. 2019</xref>). Die manuelle Annotation bietet die Möglichkeit
  traditionell-analoge Forschungsmethodik ins Digitale zu
  übertragen.</p>
</sec>
<sec id="unterstützt-tagtog-kollaboratives-arbeiten">
  <title>5. Unterstützt tagtog kollaboratives Arbeiten?</title>
  <p>Ja, tagtog unterstützt kollaboratives Arbeiten. Das Tool ist darauf
  ausgelegt, kollaboratives Arbeiten zu erleichtern. Allen
  Teilnehmer*innen eines Projektes können verschiedene Rollen mit
  verschiedenen Berechtigungen zugewiesen werden. In einer Kopie vom
  Original, arbeiten die einzelnen Annotierenden an separaten
  Dokumenten, welche abschließend in einem Goldstandard zu einer Version
  zusammengesetzt werden können. Außerdem bietet tagtog die Möglichkeit,
  die zu annotierenden Dokumente zufällig auf die Annotierenden
  aufzuteilen. Durch die automatische Berechnung von
  Annotiationsfortschritten und der In-Text-Markierung von Annotationen
  nach Annotator*in, können die individuellen Annotationen besonders
  einfach miteinander abgeglichen werden. Außerdem berechnet tagtog bei
  kollaborativen Projekten automatisch das IAA und die Confidence
  Probability für jedes Dokument und jedes Projekt.</p>
</sec>
<sec id="sind-meine-daten-bei-tagtog-sicher">
  <title>6. Sind meine Daten bei tagtog sicher?</title>
  <p>Ja und Nein. In den kostenpflichtigen lokalen Versionen werden alle
  Daten auf dem eigenen Server/Rechner gespeichert. In den
  kostenpflichtigen Cloudversionen können die Projekte „privat“ gehalten
  werden. In der kostenfreien Cloudversion hingegen sind alle Projekte
  einschließlich aller Annotationen für andere Nutzer*innen frei
  zugänglich.</p>
  <p><italic>Personenbezogene Daten:</italic>
  Zur Registrierung ist lediglich eine gültige Mailadresse nötig. Diese
  wird vertraulich behandelt. Verhaltensdaten werder von Besucher*innen
  sowie Nutzer*innen der Webseite gesammelt. Diese werden zur
  Interaktion mit Drittparteien verwendet. Weitere Informationen:
  <ext-link ext-link-type="uri" xlink:href="https://docs.tagtog.com/projects.html#privacy">https://docs.tagtog.com/projects.html#privacy</ext-link></p>
  <p><italic>Urheberrechtlich geschützte Daten:</italic>
  In der kostenfreien Cloudversion werden die Texte und Annotationen in
  die Cloud geladen und dort gespeichert. Somit sind die Daten von dort
  aus auch für andere Nutzer*innen einsehbar. Allerdings können die
  Textdaten nur in einem geschützten Login-Bereich verwaltet werden.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>tagtog:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.tagtog.com">https://web.archive.org/save/https://www.tagtog.com</ext-link>
      (Letzter Zugriff: 03.07.2024)</p>
    </list-item>
    <list-item>
      <p>tagtog Dokumentation:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://docs.tagtog.com">https://web.archive.org/save/https://docs.tagtog.com</ext-link>
      (Letzter Zugriff: 03.07.2024)</p>
    </list-item>
    <list-item>
      <p>tagtog Datensicherheit:
      <ext-link ext-link-type="uri" xlink:href="https://docs.tagtog.com/projects.html#privacy">https://docs.tagtog.com/projects.html#privacy</ext-link>
      (Letzter Zugriff: 03.07.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-api">API</styled-content></term>
      <def>
        <p>API steht für <italic>Application Programming
        Interface</italic> und bezeichnet eine Programmierschnittstelle,
        die Soft- und Hardwarekomponenten wie Anwendungen, Festplatten
        oder Benutzeroberflächen verbindet. Sie vereinheitlicht die
        Datenübergabe zwischen Programmteilen, etwa Modulen, und
        Programmen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-cloudbasiert">Cloudbasiert</styled-content></term>
      <def>
        <p>Werden Ihnen Dienste, Speicherplatz oder Rechenleistung
        „cloudbasiert“ angeboten, handelt es sich um die Bereitstellung
        dieser Ressource über das Internet. Eine Software, die nicht auf
        dem eigenen Server installiert ist, sondern auf den Servern des
        Herstellers, nennt man gehostete Software. Nutzt der/die
        Hersteller*in für die Bereitstellung selbst eine Cloud, so ist
        von cloudbasierter Software die Rede.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-data-mining">Data
      Mining</styled-content></term>
      <def>
        <p>Data Mining gehört zum Fachbereich
        <xref alt="Information Retrieval" rid="glossary-information-retrieval">Information
        Retrieval</xref> und bezieht sich auf die systematische
        Anwendung computergestützter Methoden, die darauf abzielt, in
        vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu
        erkennen. Textbasierte Formen des Data Minings sind u. a.
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>,
        <xref alt="Web Mining" rid="glossary-web-mining">Web
        Mining</xref> und
        <xref alt="Opinion Mining" rid="glossary-opinion-mining">Opinion
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-information-retrieval">Information
      Retrieval</styled-content></term>
      <def>
        <p>Die Teildisziplin der Informatik, das Information Retrieval,
        beschäftigt sich mit der computergestützten Suche und
        Erschließung komplexer Informationen in meist unstrukturierten
        Datensammlungen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-json">JSON</styled-content></term>
      <def>
        <p>JSON ist die englische Abkürzung für <italic>JavaScript
        Object Notation</italic> . Dabei handelt es sich um ein
        kompaktes Textformat, das insbesondere zum Datenaustausch
        entworfen wurde. Es ist für Menschen einfach zu lesen und zu
        schreiben und für Maschinen einfach zu analysieren und zu
        generieren. JSON ist ein Format, das unabhängig von
        Programmiersprachen ist.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-opinion-mining">Opinion
      Mininig</styled-content></term>
      <def>
        <p>Unter Opinion Mining, oder Sentiment Analysis, versteht man
        die Analyse von Stimmungen oder Haltungen gegenüber einem Thema,
        durch die Analyse natürlicher Sprache. Das Opinion Mining gehört
        zu den Verfahren des
        <xref alt="Text Minings" rid="glossary-text-mining">Text
        Minings</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-server">Server</styled-content></term>
      <def>
        <p>Ein Server kann sowohl hard- als auch softwarebasiert sein.
        Ein hardwarebasierter Server ist ein Computer, der in ein
        Rechnernetz eingebunden ist und der so Ressourcen über ein
        Netzwerk zur Verfügung stellt. Ein softwarebasierter Server
        hingegen ist ein Programm, das einen spezifischen Service
        bietet, welcher von anderen Programmen (Clients) lokal oder über
        ein Netzwerk in Anspruch genommen wird.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tagset">Tagset</styled-content></term>
      <def>
        <p>Ein Tagset definiert die Taxonomie, anhand derer
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        in einem Projekt erstellt werden. Ein Tagset beinhaltet immer
        mehrere Tags und ggf. auch Subtags. Ähnlich der
        <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>
        -Differenz in der Linguistik sind Tags deskriptive Kategorien,
        wohingegen Annotationen die einzelnen Vorkommnisse dieser
        Kategorien im Text sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-text-mining">Text
      Mining</styled-content></term>
      <def>
        <p>Das Text Mining ist eine textbasierte Form des
        <xref alt="Data Minings" rid="glossary-data-mining">Data
        Minings</xref>. Prozesse &amp; Methoden, computergestützt und
        automatisch Informationen bzw. Wissen aus unstrukturierten
        Textdaten zu extrahieren, werden als Text Mining
        zusammengefasst.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-web-mining">Web
      Mining</styled-content></term>
      <def>
        <p>Unter Web Mining versteht man die Anwendung von Techniken des
        <xref alt="Data Mining" rid="glossary-data-mining">Data
        Mining</xref> zur Extraktion von Informationen aus dem World
        Wide Web. Das Web Mining ist ein Teilbereich des Data Minings
        und zählt zu einem der wichtigsten Anwendungsgebiete für das
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-cejuelaTagtogInteractiveTextminingassisted2014">
    <mixed-citation>Cejuela, Juan Miguel, Peter McQuilton, Laura
    Ponting, Steven J. Marygold, Raymund Stefancsik, Gillian H.
    Millburn, Burkhard Rost und FlyeBase Consortium. 2014. tagtog:
    interactive and text-mining-assisted annotation of gene mentions in
    PLOS full-text articles. <italic>Database</italic> 2014, Nr. bau033.
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1093/database/bau033">https://doi.org/10.1093/database/bau033</ext-link>,.</mixed-citation>
  </ref>
  <ref id="ref-goldbergLinkedAnnotationsMiddle2015">
    <mixed-citation>Goldberg, Tatyana, Shrikant Vinchurkar, Juan Miguel
    Cejuela, Lars Juhl Jensen und Burkhard Rost. 2015. Linked
    annotations: a middle ground for manual curation of biomedical
    databases and text corpora. In: <italic>BMC Proceedings 9</italic>.
    Kashiwa, Japan. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1186/1753-6561-9-S5-A4">10.1186/1753-6561-9-S5-A4</ext-link>,.</mixed-citation>
  </ref>
  <ref id="ref-murrieta-floresTrainingNLPModels2019">
    <mixed-citation>Murrieta-Flores, Patricia, Raquel Liceras-Garrido,
    Katherine Bellamy, Mariana Favila-Vazquez, Jorge Campos, Juan Miguel
    Cejuela und Bruno Martins. 2019. Training NLP models for the
    analysis of 16th century Latin American historical documents:Tagtog
    and the Geographic Reports of New Spain. <italic>Digital Humanities
    2019</italic>. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.6084/m9.figshare.11806185.v1">10.6084/m9.figshare.11806185.v1</ext-link>,.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
