<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3762</article-id>
<title-group>
<article-title>Toolbeitrag: INCEpTION</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-7952-4194</contrib-id>
<name>
<surname>Schumacher</surname>
<given-names>Mareike</given-names>
</name>
<email>Mareike.Schumacher@sprachlit.uni-regensburg.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname>Becker</surname>
<given-names>Kristina</given-names>
</name>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Regensburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<pub-date date-type="pub" publication-format="electronic" iso-8601-date="2024-08-07">
<day>7</day>
<month>8</month>
<year>2024</year>
</pub-date>
<volume>1</volume>
<issue>4</issue>
<issue-title>Manuelle Annotation</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 05.04.2021 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/inception">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2021-04-05">
<day>05</day>
<month>04</month>
<year>2021</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 05.04.2021 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/inception">fortext.net</ext-link></p>
<fig>
  <caption><p>Der Workflow von INCEpTION: Über Settings im
  Dashboard-Menü können die zu annotierenden Dokumente hochgeladen
  werden. Im Menü des Bereichs Annotation wird der jeweilige Text
  annotiert. Nachdem dieser finalisiert wurde, kann er in einem
  beliebigen Format exportiert werden.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="INCEpTION_Workflow.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Das Tool wird als
    installierbares Softwarepaket angeboten. Nutzer*innen müssen es auf
    dem eigenen Laptop, PC oder Server installieren.</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> INCEpTION ist 2016 als von
    der DFG gefördertes Projekt gestartet.</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> INCEpTION wird derzeit am Ubiquitous
    Knowledge Processing (UKP) Lab der Technischen Universität Darmstadt
    entwickelt.</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> Kostenfreie Open Source-Nutzung unter Apache
    2.0 Lizenz</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://inception-project.github.io/">https://inception-project.github.io/</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Import und Export in den Formaten
    CoNLL-Formate, TEI <xref alt="XML" rid="glossary-xml">XML</xref>,
    Plain Text (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>),
    UIMA, WebAnno.</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Keine Angabe</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-inception-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann INCEpTION eingesetzt
  werden?</title>
  <p>INCEpTION ist ein Tool zur manuellen und automatisierten
  <xref alt="Annotation" rid="glossary-annotation">Annotation</xref> und
  kann darum für eine Vielzahl literaturwissenschaftlicher
  Fragestellungen eingesetzt werden. Besonders geeignet ist es für
  Ansätze, bei denen vordefinierte und klar operationalisierte
  Kategorien genutzt werden. So kann das Tool während der manuellen
  Annotation lernen, welche Indikatoren im Text auf welche Weise
  markiert werden sollen und kann Vorschläge dafür generieren. Eine
  Fragestellung, die einen solchen Ansatz leiten könnte, wäre z.B.
  „Welche realweltlichen Orte werden in Erzähltexten des Realismus
  erwähnt und welche Städte und/oder Landschaften können als
  literarische Hotspots dieser Epoche ausgemacht werden?“.</p>
</sec>
<sec id="welche-funktionalitäten-bietet-inception-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet INCEpTION und wie zuverlässig
  ist das Tool?</title>
  <p><italic>Funktionen:</italic></p>
  <list list-type="bullet">
    <list-item>
      <p>Anlegen von Projekten, in denen die zu annotierenden Dokumente
      hochgeladen werden und eigene Annotationsschemata angelegt oder
      voreingestellte Kategorien genutzt werden können</p>
    </list-item>
    <list-item>
      <p>Kollaboratives Annotieren inklusive Vergleich und Korrektur
      zwischen den Annotator*innen</p>
    </list-item>
    <list-item>
      <p>Überlappende sowie Mehrfachannotation möglich</p>
    </list-item>
    <list-item>
      <p>(Halb-) automatisches Annotieren auf Basis von
      Machine-Learning-Technologien (vgl.
      <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
      Learning</xref>)</p>
    </list-item>
    <list-item>
      <p>Abfragen (vgl.
      <xref alt="Query" rid="glossary-query">Query</xref>) (INCEpTION
      nutzt dazu eine Corpus Query Language oder kurz CQL)</p>
    </list-item>
  </list>
  <p><italic>Zuverlässigkeit:</italic> Das Tool läuft sehr
  zuverlässig.</p>
</sec>
<sec id="ist-inception-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist INCEpTION für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / –</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>INCEpTION ist ein Tool, das viele Funktionen zur Annotation bietet.
  Die Benutzeroberfläche ist in mehrere Module unterteilt. Für den
  Einstieg in die Bereiche Curation und Monitoring, sind grundlegende
  Kenntnisse der Konzepte nötig - das Einlesen in das Benutzerhandbuch
  wird hierfür empfohlen. Auch ist das Anlegen eines individuellen
  Tagsets (vgl. <xref alt="Tagset" rid="glossary-tagset">Tagset</xref>)
  sehr komplex und erfordert eine genauere Kenntnis des Tools.
  Der Kontakt zu den Nutzer*innen ist dem INCEpTION-Team besonders
  wichtig und auf Anfragen wird in der Regel in kurzer Zeit reagiert.
  Nutzer*innen können für Support-Anfragen, Wünsche nach neuen
  Funktionen oder Meldungen von Fehlern Issues über GitHub einreichen.
  Sie können außerdem mittels Mailingliste oder Chat Fragen zum Tool
  stellen oder Feedback geben.</p>
</sec>
<sec id="wie-etabliert-ist-inception-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist INCEpTION in den
  (Literatur-)Wissenschaften?</title>
  <p>INCEpTION ist ein noch vergleichsweise neues Tool, wurde aber
  bereits in einer Reihe wissenschaftlicher Projekte eingesetzt, die zum
  großen Teil einen linguistischen Schwerpunkt haben. Eine Übersicht
  über Projekte, die mit dem Tool arbeiten stellt INCEpTION auf der
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://inception-project.github.io/use-cases/">Webseite</ext-link>
  bereit. In den (digitalen) Literaturwissenschaften wird es z.B. im
  <xref alt="Text Mining" rid="glossary-text-mining">Text
  Mining</xref>-Projekt
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://mimotext.uni-trier.de/aktuelles">MiMoText</ext-link>
  eingesetzt. In der methodenorientierten Auflistung und Beschreibung
  geisteswissenschaftlicher Tools „Digitale Werkzeuge zur textbasierten
  Annotation, Korpusanalyse und Netzwerkanalyse in den
  Geisteswissenschaften“
  (<xref alt="Frey-Endres und Simon 2021" rid="ref-frey-endresDigitaleWerkzeugeZur2021" ref-type="bibr">Frey-Endres
  und Simon 2021</xref>) wird auch INCEpTION gelistet, in zwei im Jahr
  2019 und 2021 durchgeführten quantitativ ausgerichteten Betrachtungen
  der Nutzung von Tools in der internationalen
  Digital-Humanities-Community findet INCEpTION keine Erwähnung
  (<xref alt="Barbot u. a. 2019" rid="ref-barbotWhichDHTools2019" ref-type="bibr">Barbot
  u. a. 2019</xref>;
  <xref alt="Fischer u. a. 2021" rid="ref-fischerWerkbankeDigitalHumanities2021" ref-type="bibr">Fischer
  u. a. 2021</xref>).</p>
</sec>
<sec id="unterstützt-inception-kollaboratives-arbeiten">
  <title>5. Unterstützt INCEpTION kollaboratives Arbeiten?</title>
  <p>Ja, es kann kollaborativ gearbeitet werden. Zudem bietet das Tool
  eine automatische Agreement-Berechnung an.</p>
</sec>
<sec id="sind-meine-daten-bei-inception-sicher">
  <title>6. Sind meine Daten bei INCEpTION sicher?</title>
  <p>Da die Nutzer*innen INCEpTION als Paket herunterladen, verbleiben
  projektbezogene Daten bei ihnen und werden nicht an das INCEpTION-Team
  gesendet. Manche Universitäten oder andere Institutionen betreiben
  eigene INCEpTION-Instanzen und bieten deren Nutzung als Service an.
  Nutzer*innen dieser Services sollten sich bei Fragen zur Sicherheit an
  die jeweiligen Betreiber*innen wenden. INCEpTION bietet außerdem die
  Möglichkeit, Exporte der Annotationsprojekte durchzuführen um sie als
  Backup außerhalb der Anwendung zu sichern. INCEpTION kann autark ohne
  Internetanbindung betrieben werden und ermöglicht so eine Abschottung
  des Tools und der Daten gegen unbefugte Zugriffe.</p>
  <p><italic>Personenbezogene Daten:</italic>
  Bei lokalen Installationen (z.B. auf dem eigenen PC) sind beim
  Erstellen eines Nutzungskontos ein Name (oder Pseudonym) und ein
  Passwort erforderlich, welche innerhalb der Anwendung gespeichert
  werden. Bei lokalen Installationen werden Benutzername und Passwort
  lediglich lokal gespeichert. Bei einer Serverinstallation werden sie
  auf dem Server gespeichert. Passwörter werden verschlüsselt abgelegt.
  Betreiber*innen der INCEpTION-Instanz können zustimmen, anonyme
  Statistiken an das INCEpTION-Team zu übermitteln (z.B. die genutzte
  Version von INCEpTION, Betriebssystem, Anzahl von Benutzeraccounts).
  Das INCEpTION-Team verwendet diese Statistik, um die Verbreitung der
  Software und ihrer Versionen zu verfolgen sowie die Entwicklung zu
  verbessern. Es wird über die Art der erhobenen anonymen Daten bei
  Inbetriebnahme der Instanz informiert. Dem kann bei der Erhebung
  direkt oder zu einem beliebigen späteren Zeitpunkt widersprochen
  werden.</p>
  <p><italic>Urheberrechtlich geschützte Daten:</italic>
  Texte werden innerhalb der Anwendung hochgeladen und in einem
  geschützten Login-Bereich verwaltet.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>INCEpTION Webseite:
      <ext-link ext-link-type="uri" xlink:href="https://inception-project.github.io">https://inception-project.github.io</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
    <list-item>
      <p>INCEpTION Dokumentation:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://inception-project.github.io/releases/33.2/docs/user-guide.html">https://web.archive.org/save/https://inception-project.github.io/releases/33.2/docs/user-guide.html</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
    <list-item>
      <p>INCEpTION Downloadbereich:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://inception-project.github.io/">https://web.archive.org/save/https://inception-project.github.io/</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
    <list-item>
      <p>INCEpTION Übersicht über Projekte, in denen das Tool eingesetzt
      wird:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://inception-project.github.io/use-cases/">https://web.archive.org/save/https://inception-project.github.io/use-cases/</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
    <list-item>
      <p>INCEpTION-Support:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://github.com/inception-project">https://web.archive.org/save/https://github.com/inception-project</ext-link>
      sowie
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://groups.google.com/g/inception-users">https://web.archive.org/save/https://groups.google.com/g/inception-users</ext-link>
      und
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://gitter.im/inception-project/Lobby">https://web.archive.org/save/https://gitter.im/inception-project/Lobby</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
    <list-item>
      <p>INCEpTION auf GitHub:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://github.com/inception-project/inception/issues">https://web.archive.org/save/https://github.com/inception-project/inception/issues</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
    <list-item>
      <p>INCEpTION auf YouTube:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.youtube.com/channel/UC3sUTFFPYg0aWmZRag45yJw">https://web.archive.org/save/https://www.youtube.com/channel/UC3sUTFFPYg0aWmZRag45yJw</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
    <list-item>
      <p>INCEpTION Handbuch für Administrator*innen:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://inception-project.github.io/releases/33.2/docs/admin-guide.html">https://web.archive.org/save/https://inception-project.github.io/releases/33.2/docs/admin-guide.html</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
    <list-item>
      <p>MiMoText:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://mimotext.uni-trier.de/aktuelles">https://web.archive.org/save/https://mimotext.uni-trier.de/aktuelles</ext-link>
      (Letzter Zugriff: 12.06.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-data-mining">Data
      Mining</styled-content></term>
      <def>
        <p>Data Mining gehört zum Fachbereich
        <xref alt="Information Retrieval" rid="glossary-information-retrieval">Information
        Retrieval</xref> und bezieht sich auf die systematische
        Anwendung computergestützter Methoden, die darauf abzielt, in
        vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu
        erkennen. Textbasierte Formen des Data Minings sind u. a.
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>,
        <xref alt="Web Mining" rid="glossary-web-mining">Web
        Mining</xref> und
        <xref alt="Opinion Mining" rid="glossary-opinion-mining">Opinion
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-information-retrieval">Information
      Retrieval</styled-content></term>
      <def>
        <p>Die Teildisziplin der Informatik, das Information Retrieval,
        beschäftigt sich mit der computergestützten Suche und
        Erschließung komplexer Informationen in meist unstrukturierten
        Datensammlungen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-opinion-mining">Opinion
      Mininig</styled-content></term>
      <def>
        <p>Unter Opinion Mining, oder Sentiment Analysis, versteht man
        die Analyse von Stimmungen oder Haltungen gegenüber einem Thema,
        durch die Analyse natürlicher Sprache. Das Opinion Mining gehört
        zu den Verfahren des
        <xref alt="Text Minings" rid="glossary-text-mining">Text
        Minings</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tagset">Tagset</styled-content></term>
      <def>
        <p>Ein Tagset definiert die Taxonomie, anhand derer
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        in einem Projekt erstellt werden. Ein Tagset beinhaltet immer
        mehrere Tags und ggf. auch Subtags. Ähnlich der
        <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>
        -Differenz in der Linguistik sind Tags deskriptive Kategorien,
        wohingegen Annotationen die einzelnen Vorkommnisse dieser
        Kategorien im Text sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-text-mining">Text
      Mining</styled-content></term>
      <def>
        <p>Das Text Mining ist eine textbasierte Form des
        <xref alt="Data Minings" rid="glossary-data-mining">Data
        Minings</xref>. Prozesse &amp; Methoden, computergestützt und
        automatisch Informationen bzw. Wissen aus unstrukturierten
        Textdaten zu extrahieren, werden als Text Mining
        zusammengefasst.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-web-mining">Web
      Mining</styled-content></term>
      <def>
        <p>Unter Web Mining versteht man die Anwendung von Techniken des
        <xref alt="Data Mining" rid="glossary-data-mining">Data
        Mining</xref> zur Extraktion von Informationen aus dem World
        Wide Web. Das Web Mining ist ein Teilbereich des Data Minings
        und zählt zu einem der wichtigsten Anwendungsgebiete für das
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-barbotWhichDHTools2019">
    <mixed-citation>Barbot, Laure, Frank Fischer, Yoann Moranville und
    Ivan Pozdniakov. 2019. Which DH Tools Are Actually Used in Research?
    <italic>Weltliteratur</italic>. 6. Dezember.
    <ext-link ext-link-type="uri" xlink:href="https://weltliteratur.net/dh-tools-used-in-research/">https://weltliteratur.net/dh-tools-used-in-research/</ext-link>
    (zugegriffen: 5. April 2021).</mixed-citation>
  </ref>
  <ref id="ref-fischerWerkbankeDigitalHumanities2021">
    <mixed-citation>Fischer, Frank, Manuel Burghardt, Jan Luhmann, Laure
    Barbot, Yoann Moranville und Alireza Zarei. 2021. Die Werkbänke der
    Digital Humanities: Zur Rolle von Tools und Software für die
    Forschungsarbeit. 26. März. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.5281/zenodo.4639228">10.5281/zenodo.4639228</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://zenodo.org/record/4639228#.YGq-XHUzaUk">https://zenodo.org/record/4639228#.YGq-XHUzaUk</ext-link>
    (zugegriffen: 5. April 2021).</mixed-citation>
  </ref>
  <ref id="ref-frey-endresDigitaleWerkzeugeZur2021">
    <mixed-citation>Frey-Endres, Marcel und Tobias Simon. 2021.
    <italic>Digitale Werkzeuge zur textbasierten Annotation,
    Korpusanalyse und Netzwerkanalyse in den
    Geisteswissenschaften</italic>. Hg. von Sabine Bartsch, Evelyn Gius,
    Marcus Müller, Andrea Rapp, und Thomas Weitin. Bd. 2. Working Papers
    in Digital Philology. Darmstadt.
    <ext-link ext-link-type="uri" xlink:href="https://tuprints.ulb.tu-darmstadt.de/17850/">https://tuprints.ulb.tu-darmstadt.de/17850/</ext-link>
    (zugegriffen: 1. Februar 2023).</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
