<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3799</article-id>
<title-group>
<article-title>Toolbeitrag: SentText</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-1707-284X</contrib-id>
<name>
<surname>Flüh</surname>
<given-names>Marie</given-names>
</name>
<email>marie.flueh@uni-hamburg.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Hamburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<pub-date date-type="pub" publication-format="electronic" iso-8601-date="2024-07-10">
<day>10</day>
<month>7</month>
<year>2024</year>
</pub-date>
<volume>1</volume>
<issue>7</issue>
<issue-title>Sentimentanalyse</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 01.06.2020 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/senttext">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2020-06-01">
<day>01</day>
<month>06</month>
<year>2020</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 01.06.2020 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/senttext">fortext.net</ext-link></p>
<fig>
  <caption><p>Der Workflow bei SentText: Upload: Hochladen einer oder
  mehrerer TXT- oder XML-Dateien, Auswahl eines Sentimentwörterbuchs
  oder Upload eines eigenen Sentimentwörterbuchs, individuelle Anpassung
  der Analyseparameter und Start der Analyse; vierteiliges Interface v.
  r. n. l.: Text mit farblich markierten Sentimentwörtern,
  Visualisierungen der Analyseergebnisse, Organisation der Textdateien,
  Infopanel mit Analyseparamtern und Menü; Output: Download der
  Visualisierungen als CSV-, PNG- oder XML-Datei</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="SentText_Scrrens.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Das Tool ist webbasiert und am
    besten über Google Chrome oder Firefox nutzbar</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> Entwicklung der Testdemo 2019
    und 2020; Überarbeitung und Verlagerung der Endversion auf die
    Server der Universität Regensburg 2020</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> Universität Regensburg: Johanna Dangel
    (Entwicklung) und Thomas Schmidt</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> Kostenfrei (Open Source)</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="http://thomasschmidtur.pythonanywhere.com/">http://thomasschmidtur.pythonanywhere.com/</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Import von Dateien im TXT (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>)-
    und <xref alt="XML" rid="glossary-xml">XML</xref>-Format; Export
    aller Visualisierungen im
    <xref alt="CSV" rid="glossary-csv">CSV</xref>-, PNG- oder
    XML-Format</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Deutsch</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-senttext-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann SentText eingesetzt
  werden?</title>
  <p>Mit SentText können Sie deutschsprachige literarische Texte aller
  Epochen hinsichtlich der hierin enthaltenen positiven oder negativen
  Haltungen analysieren lassen. Das Tool richtet sich ausdrücklich an
  Nutzer*innen mit literaturwissenschaftlichen Forschungsinteressen. Im
  Rahmen der Entwicklung wurden entsprechende Bedarfsanalysen
  durchgeführt und in die Fortentwicklung integriert. Das Tool besticht
  u. a. durch das intuitiv bedienbare Interface (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>), das Nutzer*innen bar
  methodischer Vor- oder Programmierkenntnisse einen Einstieg in die
  lexikonbasierte Sentimentanalyse
  (<xref alt="Flüh 2024" rid="ref-fluhMethodenbeitragSentimentanalyse2019" ref-type="bibr">Flüh
  2024</xref>) ermöglicht. Es eignet sich, um die Polarität (positiv,
  negativ, neutral) literarischer Texte zu untersuchen und darauf
  aufbauend Aussagen über die in einem Text vorherrschende positive oder
  negative Stimmung treffen zu können. Daran anschließend ließe sich
  nach emotionstragenden Textstrukturen fragen.
  Forschungsfragen, die sich bearbeiten lassen, sind z. B.: Welche
  Sentiment-tragenden Wörter (vgl.
  <xref alt="SBW" rid="glossary-sbw">SBW</xref>) finden sich in Robert
  Musils Roman <italic>Der Mann ohne Eigenschaften</italic> und herrscht
  eine überwiegend positive oder negative Stimmung? Verweisen
  Sentiment-tragende Wörter in Franz Kafkas <italic>Die
  Verwandlung</italic> auf bestimmte emotionale Zustände und in welcher
  textuellen Gestalt erscheinen Emotionen in Kafkas Erzählung? Im Rahmen
  einer Korpusanalyse könnten Sie bspw. untersuchen, mit welcher
  Terminologie Gefühle in unterschiedlichen Epochen oder literarischen
  Gattungen zum Ausdruck gebracht wurden.</p>
</sec>
<sec id="welche-funktionalitäten-bietet-senttext-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet SentText und wie zuverlässig
  ist das Tool?</title>
  <p><italic>Funktionen:</italic></p>
  <list list-type="bullet">
    <list-item>
      <p>Import und lexikonbasierte Sentimentanalyse von Einzeltexten
      oder Textkorpora (vgl.
      <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>)</p>
    </list-item>
    <list-item>
      <p>Auswahl aus zwei Sentimentwörterbüchern
      (<ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://wortschatz.uni-leipzig.de/de/download">SentiWS</ext-link>
      oder
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.ewi-psy.fu-berlin.de/psychologie/arbeitsbereiche/allgpsy/Download/BAWL-R/index.html">BAWL-R</ext-link>,
      darauf basiert die Berechnung der Sentimentwerte (vgl.
      <xref alt="Sentimentwert" rid="glossary-sentimentwert">Sentimentwert</xref>))</p>
    </list-item>
    <list-item>
      <p>Import eines zuvor selbst erstellten Sentimentwörterbuchs (im
      CSV-Format) als individuelle Analysegrundlage, die auf das
      (historische) Vokabular der Textgrundlage ausgerichtet ist</p>
    </list-item>
    <list-item>
      <p>Feinjustierung der Analyseparameter durch An- oder Ausschalten
      der folgenden Kenngrößen: Lemmatisierung (vgl.
      <xref alt="Lemmatisieren" rid="glossary-lemmatisieren">Lemmatisieren</xref>),
      Negationen,
      <xref alt="Case Sensitivity" rid="glossary-case-sensitivity">Case
      Sensitivity</xref>,
      <xref alt="Stoppwortliste" rid="glossary-stoppwortliste">Stoppwortliste</xref></p>
    </list-item>
    <list-item>
      <p>Manuelle Erweiterung der Stoppwortliste</p>
    </list-item>
    <list-item>
      <p>Analyseergebnisse: Berechnung des durchschnittlichen
      <xref alt="Sentimentwert" rid="glossary-sentimentwert">Sentimentwert</xref>s
      des Textes, Anzeige aller positiven (rot), negativen (blau) oder
      neutralen (gelb) Sentiment-tragenden Wörter (vgl.
      <xref alt="SBW" rid="glossary-sbw">SBW</xref>) und deren
      Sentimentwerten im gesamten Dokument</p>
    </list-item>
    <list-item>
      <p>Spezifische Informationen zum Sentimentwert eines markierten
      Textabschnitts</p>
    </list-item>
    <list-item>
      <p>Manuelle Korrektur: Markieren eines Wortes im Textpanel und
      Vergabe eines Sentimentwerts ermöglichen die manuelle Korrektur
      falsch erkannter bzw. die Ergänzung nicht erkannter
      Sentimentwörter</p>
    </list-item>
    <list-item>
      <p>Visualisierungen der Ergebnisse: Diagramme zur Gewichtung der
      Polarität des gesamten Textes oder Textkorpus (Barchart: absolute
      Polarität, normalisierte Polarität und Polaritäten der sentiment
      bearing words (vgl.
      <xref alt="SBW" rid="glossary-sbw">SBW</xref>)), Diagramme auf
      Wortebene (Kreisdiagramm: Verteilung der negativen und positiven
      Wörter, Wordcloud der vermehrt vorkommenden positiven und
      negativen Sentiment-tragenden Wörter und Barchart der acht am
      häufigsten auftretenden positiven bzw. negativen Wörter),
      Diagramme auf Satzebene (Kreisdiagramm: Verteilung der Sätze mit
      negativer bzw. positiver Valenz; interaktiver Zeitstrahl mit
      Textrückbezug: Entwicklung der Sentimente im Text oder
      <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>;
      Verzeichnis der zehn Sätze mit den höchsten Sentimentwerten)</p>
    </list-item>
    <list-item>
      <p>Organisation des Textkorpus: Überblick über gesamte
      Textgrundlage, Organisation aller zu Beginn hochgeladenen Texte
      per drag and drop zu bspw. autor*innenspezifischen Textkorpora in
      unterschiedlichen Ordnern, Ausführung einer vergleichenden
      Sentimentanalyse mehrerer Ordner (= Textkorpora) oder von
      Einzeltexten</p>
    </list-item>
    <list-item>
      <p>Export aller Visualisierungen der Analyseergebnisse</p>
    </list-item>
  </list>
  <p><italic>Zuverlässigkeit:</italic> Das Tool funktioniert
  zuverlässig. Bei steigender Anzahl und Größe der Textdateien nimmt der
  Analyseprozess mehr Zeit in Anspruch. Gleiches gilt für die Auswahl
  weiterer Analyseparameter wie bspw. die Lemmatisierung. Die manuelle
  Korrekturmöglichkeit stellt ein wichtiges
  <xref alt="Feature" rid="glossary-feature">Feature</xref> dar. Wird
  bspw. in dem Satz <italic>„Nun, die Hoffnung ist noch nicht gänzlich
  aufgegeben; habe ich einmal das Geld beisammen, um die Schuld der
  Eltern an ihn abzuzahlen – es dürfte noch fünf bis sechs Jahre dauern
  –, mache ich die Sache unbedingt.“</italic> „Hoffnung“ aufgrund der
  Negation „nicht“ ein negativer Sentimentwert zugewiesen, können Sie
  dies korrigieren – Schließlich lässt sich Hoffnung in diesem Fall
  durchaus als positive Empfindung interpretieren. Gleichzeitig entsteht
  ein didaktischer Mehrwert, da die Arbeitsweise lexikonbasierter
  Sentimentanalysen deutlich wird.</p>
</sec>
<sec id="ist-senttext-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist SentText für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / –</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>–</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>teilweise</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Ein separates Handbuch ist nicht erhältlich, stellt aber auch keine
  Notwendigkeit dar. Hilfreiche Informationen für Erstnutzer*innen über
  Sentimentanalysen finden Sie unter „About“. Fortgeschrittene
  Nutzer*innen können durch die Auswahl supplementärer Analyseparameter
  die Standardeinstellungen verfeinern („More options (advanced
  user)“-Button), die Funktionen werden jeweils anhand kurzer Beispiele
  veranschaulicht. Beschreibungen und Anwendungshinweise zu einzelnen
  Elementen der grafischen Benutzeroberflächer erscheinen beim Hovern
  über das Info-Symbol. Sämtliche Analyseparamter können Sie unter
  „Documentation“ einsehen. Möglichkeiten zur Kontaktaufnahme und einer
  persönlichen Nutzerbetreuung finden Sie unter der Rubrik
  „Contact“.</p>
</sec>
<sec id="wie-etabliert-ist-senttext-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist SentText in den
  (Literatur-)Wissenschaften?</title>
  <p>Da es sich bei SentText um eine Neuerscheinung handelt, konnte der
  literaturwissenschaftliche Mehrwert des Tools bisher noch nicht
  nachgewiesen werden. Obwohl derzeit keine wissenschaftlichen Artikel
  aus interpretativen literaturwissenschaftlichen
  Forschungseinrichtungen existieren, die das Tool nennen, finden
  literaturwissenschaftlich ausgerichtete lexikonbasierte
  Sentimentanalysen durchaus Anwendung
  (<xref alt="Schmidt und Burghardt 2018" rid="ref-schmidtEvaluationLexiconbasedSentiment2018" ref-type="bibr">Schmidt
  und Burghardt 2018</xref>;
  <xref alt="Nalisnick und Baird 2013" rid="ref-nalisnickCharactertoCharacterSentimentAnalysis2013" ref-type="bibr">Nalisnick
  und Baird 2013</xref>;
  <xref alt="Mohammad 2013" rid="ref-mohammadOnceTimeHappily2013" ref-type="bibr">Mohammad
  2013</xref>). Für Unterstützung beim Einsatz von SentText in Forschung
  oder Lehre stehen die Herausgeber zur Verfügung.</p>
</sec>
<sec id="unterstützt-senttext-kollaboratives-arbeiten">
  <title>5. Unterstützt SentText kollaboratives Arbeiten?</title>
  <p>Nein, es kann nicht kollaborativ gearbeitet werden.</p>
</sec>
<sec id="sind-meine-daten-bei-senttext-sicher">
  <title>6. Sind meine Daten bei SentText sicher?</title>
  <p>Ja, das Tool läuft momentan über den Server-Anbieter
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.pythonanywhere.com/">pythonanywhere</ext-link>.
  Im Verlauf des Jahres ist eine Übertragung auf die Informatik-Server
  der Universität Regensburg geplant. Für die Verwendung müssen Sie
  keine personenbezogenen Daten angegeben. Sobald Sie eine Sitzung
  schließen oder per Klick auf „NEW SENTIMENT ANALYSIS“ eine weitere
  Analyse vornehmen, gehen Ihre Analysedaten verloren.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>BAWL-R:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.ewi-psy.fu-berlin.de/psychologie/arbeitsbereiche/allgpsy/Download/BAWL-R/index.html">https://web.archive.org/save/https://www.ewi-psy.fu-berlin.de/psychologie/arbeitsbereiche/allgpsy/Download/BAWL-R/index.html</ext-link>
      (Letzter Zugriff: 16.09.2024)</p>
    </list-item>
    <list-item>
      <p>Pythonanywhere:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.pythonanywhere.com/">https://web.archive.org/save/https://www.pythonanywhere.com/</ext-link>
      (Letzter Zugriff: 28.07.2024)</p>
    </list-item>
    <list-item>
      <p>SentiWS:
      https://web.archive.org/save/https://wortschatz.uni-leipzig.de/de/download&gt;
      (Letzter Zugriff: 28.07.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-case-sensitivity">Case
      Sensitivity</styled-content></term>
      <def>
        <p>Unter Case Sensitivity versteht man in der Regel die
        Berücksichtigung von Groß- und Kleinschreibung von Textelementen
        bei der Datenverarbeitung. Diese ist unter anderem für die
        Einstellung von Such- und Analysekriterien bei Tools für die
        digitale Textanalyse von Bedeutung.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-feature">Feature</styled-content></term>
      <def>
        <p>Unter Features können Einzelfunktionen eines Tools verstanden
        werden, die beispielsweise komplexe Funktionen wie die
        Visualisierung eines Textes als
        <xref alt="Wordcloud" rid="glossary-wordcloud">Wordcloud</xref>
        ermöglichen, oder auch kleinere Funktionseinheiten wie den
        Abgleich einzelner Spracheigenschaften
        (<xref alt="Properties" rid="glossary-property">Properties</xref>)
        mit
        <xref alt="annotierten" rid="glossary-annotation">annotierten</xref>
        Beispieltexten darstellen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-property">Property</styled-content></term>
      <def>
        <p>Property steht für „Eigenschaft“, „Komponente“ oder
        „Attribut“. In der automatischen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        dienen konkrete Worteigenschaften wie Groß- und Kleinschreibung
        zur Klassifizierung von Wörtern oder Phrasen. Durch die
        Berücksichtigung solcher Eigenschaften in den
        <xref alt="Features" rid="glossary-feature">Features</xref>
        eines Tools kann
        <xref alt="maschinelles Lernen" rid="glossary-machine-learning">maschinelles
        Lernen</xref> bestimmter Phänomene umgesetzt werden. In der
        manuellen Annotation können als Properties auch Eigenschaften
        von
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        benannt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-sbw">SBW</styled-content></term>
      <def>
        <p>SBW steht für <italic>Sentiment Bearing Word</italic>
        (Sentimentwort) und bezeichnet ein Lexem, das eine Stimmung,
        eine Bewertung, ein Gefühl, eine Einstellung oder auch eine
        Emotion zum Ausdruck bringt. Für SBWs werden „semantische
        Orientierung“ und „Stärke“ in Form des
        <xref alt="Sentimentwerts" rid="glossary-sentimentwert">Sentimentwerts</xref>
        festgelegt. SBWs werden in
        <xref alt="Sentimentlexika" rid="glossary-sentimentwoerterbuch">Sentimentlexika</xref>
        gesammelt und als Grundlage für lexikonbasierte
        Sentimentanalysen verwendet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-sentimentwert">Sentimentwert</styled-content></term>
      <def>
        <p>Der Sentimentwert oder Sentimentgehalt eines Wortes
        beschreibt, meistens auf einer Skala von–1 (maximal negativ;
        bspw. „schädlich“:–0,9269) bis +1 (maximal positiv, bspw.
        „Freude“: 0,6502) die Polarität von Sentimentwörtern (siehe auch
        <xref alt="SBWs" rid="glossary-sbw">SBWs</xref>. Der Wert wird
        bei der Generierung von
        <xref alt="Sentimentlexika" rid="glossary-sentimentwoerterbuch">Sentimentlexika</xref>
        für jedes enthaltene Wort errechnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-sentimentwoerterbuch">Sentimentwörterbuch</styled-content></term>
      <def>
        <p>Ein Wörterbuch, das ausschließlich Lexeme enthält, die
        <xref alt="Träger von Sentiments" rid="glossary-sbw">Träger von
        Sentiments</xref> sind, wird als Sentimentwörterbuch definiert.
        Sentimentlexika fungieren als wichtige Ressource für
        lexikonbasierte Sentimentanalysen , bei denen die Wörter des
        Wörterbuchs und die Wörter eines Primärtextes miteinander
        abgeglichen werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-stoppwortliste">Stoppwortliste</styled-content></term>
      <def>
        <p>Stoppwörter sind hochfrequente Wörter, meist Funktionswörter,
        die, aufgrund ihrer grammatisch bedingten Häufigkeit,
        beispielsweise die Ergebnisse von inhaltlichen oder thematischen
        Analysen verzerren können. Deshalb werden diese Wörter,
        gesammelt in einer Stoppwortliste, bei digitalen Textanalysen
        meist nicht berücksichtigt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-wordcloud">Wordcloud</styled-content></term>
      <def>
        <p>Eine <italic>Wordcloud</italic>, oder auch Schlagwortwolke,
        ist eine Form der Informationsvisualisierung, beispielsweise von
        Worthäufigkeiten in einem Text oder einer Textsammlung. Dabei
        werden unterschiedlich gewichtete Wörter, wie die häufigsten
        Wörter, i.d.R. größer oder auf andere Weise hervorgehoben
        dargestellt. Die horizontale/vertikale Ausrichtung und die Farbe
        der dargestellten Wörter hat meistens allerdings keinen
        semantischen Mehrwert.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-fluhMethodenbeitragSentimentanalyse2019">
    <mixed-citation>Flüh, Marie. 2024. Methodenbeitrag:
    Sentimentanalyse. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 7. Sentimentanalyse (7. Oktober). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3797">10.48694/fortext.3797</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/sentimentanalyse">https://fortext.net/routinen/methoden/sentimentanalyse</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-mohammadOnceTimeHappily2013">
    <mixed-citation>Mohammad, Saif. 2013. From once upon a time to
    happily ever after: Tracking emotions in novels and fairy tales.
    <ext-link ext-link-type="uri" xlink:href="https://arxiv.org/pdf/1309.5909.pdf">https://arxiv.org/pdf/1309.5909.pdf</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-nalisnickCharactertoCharacterSentimentAnalysis2013">
    <mixed-citation>Nalisnick, Eric T. und Henry S. Baird. 2013.
    Character-to-Character Sentiment Analysis in Shakespeare’s Plays.
    In: <italic>Proceedings of the 51st Annual Meeting of the
    Association for Computational Linguistics</italic>, 479–483. Sofia,
    Bulgaria: Proceedings of the 51st Annual Meeting of the Association
    for Computational Linguistics.</mixed-citation>
  </ref>
  <ref id="ref-schmidtEvaluationLexiconbasedSentiment2018">
    <mixed-citation>Schmidt, Thomas und Manuel Burghardt. 2018. An
    Evaluation of Lexicon-based Sentiment Analysis Techniques for the
    Plays of Gotthold Ephraim Lessing. In: <italic>Proceedings of the
    Second Joint SIGHUM Workshop on Computational Linguistics for
    Cultural Heritage, Social Sciences, Humanities and
    Literature</italic>, 139–149. Santa Fe, New Mexico: Association for
    Computational Linguistics.</mixed-citation>
  </ref>
  <ref id="ref-schmidtKannManDenn2018">
    <mixed-citation>Schmidt, Thomas, Manuel Burghardt und Katrin
    Dennerlein. 2018. „Kann man denn auch nicht lachend sehr ernsthaft
    sein?&quot; - Zum Einsatz von Sentiment Analyse-Verfahren für die
    quantitative Untersuchung von Lessings Dramen. In: <italic>Book of
    Abstracts, DHd 2018</italic>.
    <ext-link ext-link-type="uri" xlink:href="https://epub.uni-regensburg.de/37579/1/Self-Archiving-Version_DHd-2018.pdf">https://epub.uni-regensburg.de/37579/1/Self-Archiving-Version_DHd-2018.pdf</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-schmidtHerausforderungenFurSentiment2018">
    <mixed-citation>Schmidt, Thomas, Manuel Burghardt und Christian
    Wolff. 2018. Herausforderungen für Sentiment Analysis bei
    literarischen Texten. In: <italic>INF-DH 2018</italic>, hg. von
    Manuel Burghardt und Claudia Müller-Birn, Workshopband: Bonn:
    Gesellschaft für Informatik e.V. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.18420/infdh2018-16">10.18420/infdh2018-16</ext-link>,.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
