<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3800</article-id>
<title-group>
<article-title>Toolbeitrag: LIWC</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-1707-284X</contrib-id>
<name>
<surname>Flüh</surname>
<given-names>Marie</given-names>
</name>
<email>marie.flueh@uni-hamburg.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Hamburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<pub-date date-type="pub" publication-format="electronic" iso-8601-date="2024-07-10">
<day>10</day>
<month>7</month>
<year>2024</year>
</pub-date>
<volume>1</volume>
<issue>7</issue>
<issue-title>Sentimentanalyse</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 12.08.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/liwc">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-08-12">
<day>12</day>
<month>08</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 12.08.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/liwc">fortext.net</ext-link></p>
<fig>
  <caption><p>Abb. 1: Der Workflow von LIWC: Vorab: Installation des
  Tools, Download des deutschsprachigen Lexikons (optional); Input:
  Hochladen einzelner oder mehrerer Texte; Interface: Auswahl der
  gewünschten Analyseform; Output: Ansicht der Analyseergebnisse und
  Export</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="LIWC_Screens_p.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Die kostenfreie Demoversion ist
    für eine maximale Textgröße von 1000 Wörtern ausschließlich
    webbasiert (vgl.
    <xref alt="Browser" rid="glossary-browser">Browser</xref>) nutzbar,
    die kostenpflichtige LIWC-Version steht für Windows- und
    Mac-Betriebssysteme zur Verfügung (Ausnahme: nicht kompatibel mit
    Windows XP und Macintosh OSX10.7.x – Lion)</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> In den 1990er Jahren
    entwickelt, 2001 erstveröffentlicht, aktuelle Version: LIWC2015
    v1.6</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> LIWC Inc. (James W. Pennebaker, Roger
    J. Booth, Martha E. Francis)</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> Kommerzielle Version mit unterschiedlicher
    Laufzeit bzw. variierendem Funktionalitätsumfang (LIWCLITE 7, LIWC
    2007, LIWC 2015), Lizenzmodelle mit Vergünstigungen für die
    Verwendung in Bildung und Forschung, Nutzung der LIWC-API (vgl.
    <xref alt="API" rid="glossary-api">API</xref>) nach erfolgreicher
    Bewerbung und genauen Angaben zum Verwendungszweck</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://www.liwc.app">https://www.liwc.app</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Import von Dateien in den Formaten
    DOCX, DOC, TXT, RTF (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>),
    <xref alt="PDF" rid="glossary-pdf">PDF</xref>, XLSX, XLS,
    <xref alt="CSV" rid="glossary-csv">CSV</xref>; Export der Ergebnisse
    in diversen und mit SPSS, R, SAS, SciPy oder Weka kompatiblen
    Formaten wie TXT, CSV oder als Excel-Datei</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Arabisch, Chinesisch, Niederländisch,
    Englisch, Deutsch, Französisch, Italienisch, Portugiesisch,
    Russisch, Serbisch, Spanisch und Türkisch</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-liwc-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann LIWC eingesetzt
  werden?</title>
  <p>Ursprünglich entwickelt, um Essays aus Experimenten zum expressiven
  bzw. therapeutischen Schreiben zu untersuchen
  (<xref alt="Wolf u. a. 2008" rid="ref-wolfComputergestutzteQuantitativeTextanalyse2008" ref-type="bibr">Wolf
  u. a. 2008</xref>), eignet sich LIWC („Linguistic Inquiry and Word
  Count“) für die Analyse diverser Textsorten wie persönlichen,
  subjektiven Texten, E-Mail-Korrespondenzen, Social-Media-Beiträgen wie
  Tweets oder Blogeinträgen, Werbetexten oder wissenschaftlichen Texten.
  Das Tool wurde in unterschiedlichen Studien zu persönlichkeits-,
  sozial- und klinisch-psychologischen Fragestellungen und für die
  Analyse von therapeutischen Essays, Alltagskommunikation,
  computervermittelter Kommunikation
  (<xref alt="Vergani und Bliuc 2015" rid="ref-verganiEvolutionISISLanguage2015" ref-type="bibr">Vergani
  und Bliuc 2015</xref>;
  <xref alt="Back, Küfner und Egloff 2011" rid="ref-backAutomaticPeopleAnger2011" ref-type="bibr">Back,
  Küfner und Egloff 2011</xref>), (politischen) Reden
  (<xref alt="Abe 2011" rid="ref-abeChangesAlanGreenspan2011" ref-type="bibr">Abe
  2011</xref>) sowie genderspezifischer Sprache
  (<xref alt="Newman u. a. 2008" rid="ref-newmanGenderDifferencesLanguage2008" ref-type="bibr">Newman
  u. a. 2008</xref>) eingesetzt und gilt als zuverlässiges
  Softwareprogramm zur quantitativen Textanalyse (vgl.
  <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
  Reading</xref>)
  (<xref alt="Hai-Jew 2016" rid="ref-hai-jewExtractingLinguisticPatterns2016" ref-type="bibr">Hai-Jew
  2016</xref>;
  <xref alt="Wolf u. a. 2008" rid="ref-wolfComputergestutzteQuantitativeTextanalyse2008" ref-type="bibr">Wolf
  u. a. 2008</xref>;
  <xref alt="Proyer und Brauer 2018" rid="ref-proyerExploringAdultPlayfulness2018" ref-type="bibr">Proyer
  und Brauer 2018</xref>;
  <xref alt="Pennebaker und Chung 2008" rid="ref-pennebakerComputerizedTextAnalysis2008" ref-type="bibr">Pennebaker
  und Chung 2008</xref>). Literaturwissenschaftlich relevante
  Fragestellungen, die Sie mit LIWC untersuchen können, betreffen die
  textbasierte Erforschung der emotionalen Dimension literarischer Texte
  wie beispielsweise: Welche emotionalen Affekte (wie Angst oder
  Aggressivität) prägen Edgar Allan Poes Kurzgeschichte <italic>The
  Tell-Tale Heart</italic>? Überwiegen die positiven oder die negativen
  Emotionen in Lewis Carrolls <italic>Alice in Wonderland</italic> und
  wie lässt sich die emotionale Tonalität der Novelle beschreiben?</p>
</sec>
<sec id="welche-funktionalitäten-bietet-liwc-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet LIWC und wie zuverlässig ist
  das Tool?</title>
  <p>Die Konzeption des Tools basiert auf der Grundannahme, dass sich
  die Persönlichkeit des Menschen in der Sprache widerspiegelt, die er
  verwendet. LIWC liegt die auf gesprächstherapeutischer Forschung
  basierende Annahme zugrunde, dass die Analye der verwendeten
  Funktionswörter, die in der Kommunikation zumeist unbewusst eingesetzt
  werden (wie z. B. Pronomen, Artikel und Konjunktionen), besonders
  aussagekräftig ist. Rückschlüsse auf sich im Inneren des Verfassers
  abspielende Prozesse lassen sich folglich u. a. durch die Analyse der
  „kleinen“ Wörter ziehen. Die Verwendung von Inhaltswörtern
  (Substantive, Adjektive und Verben), die zwar die Bedeutung eines
  Satzes tragen, aber deutlich stärker von externen Faktoren (wie der
  Vorgabe eines bestimmten Themas) beeinflusst werden, spielt bei der
  Analyse eine sekundäre Rolle. Inhaltliche Zusammenhänge werden bei der
  Textanalyse mit LIWC gänzlich ausgeblendet.
  LIWC führt eine automatisierte Ein-Wort-Analyse (vgl.
  <xref alt="Text Mining" rid="glossary-text-mining">Text
  Mining</xref>); (<italic>word-by-word basis</italic>) auf Basis eines
  v. a. von Psycholog*innen entworfenen Lexikons durch. Sobald Sie im
  Besitz einer kommerziellen LIWC-Version sind, können Sie die
  Wörterbücher einsehen, insofern Sie die Demoversion verwenden, stehen
  diese jedoch nicht zur freien Verfügung. Es gilt zu bedenken, dass
  sich alltägliche Sprache und innerliterarische, innerkünstlerische
  Sprache erheblich unterscheiden. Eine LIWC-basierte Analyse eines
  literarischen Textes – unter Rückgriff auf ein eher psychophysisch,
  alltagssprachlich ausgerichtetes Wörterbuch – ist fragwürdig:
  Emotivität ist in literarischen Texten auf andere Art und Weise
  kodiert als anderen Textgattungen. Darüber hinaus finden sich
  Emotionen als textuelle Phänomene nicht nur auf allen sprachlichen
  Ebenen (Morpheme, Wörter, Sätze). Die Informationsstruktur des
  gesamten Textes ist emotionskonstituierend und -ausdrückend,
  literarische Texte weisen unterschiedliche emotionale Dimensionen auf
  (<xref alt="Schwarz-Friesel 2017" rid="ref-schwarz-frieselEmotionspotenzialLiterarischerTexte2017" ref-type="bibr">Schwarz-Friesel
  2017</xref>), die durch eine Ein-Wort-Analyse kaum erfasst werden
  können. Nach dem Erwerb einer lizenzierten Version können Sie
  allerdings nicht nur das deutschsprachige LIWC-Lexikon herunterladen,
  sondern auch eigens erstellte Lexika integrieren. Bei der Konzeption
  (in Word oder Excel) und Implementierung (als .txt-Datei, die
  allerdings auf .dic endend abgespeichert werden muss) müssen Sie die
  LIWC-Syntax beachten. Hierbei können Sie z. T. reguläre Ausdrücke
  (vgl. <xref alt="Reguläre Ausdrücke" rid="glossary-regex">Reguläre
  Ausdrücke</xref>) verwenden, was die Erstellung eines umfassenden
  textsortenspezifischen Lexikons erleichtert (indem Sie z. B. sämtliche
  Flexionsformen eines Wortes durch ein * am Ende des Stammwortes
  abfragen (vgl. <xref alt="Query" rid="glossary-query">Query</xref>)).
  In der Standardeinstellung greift LIWC auf das integrierte
  englischsprachige LIWC-Lexikon aus dem Jahr 2015 zurück. Bei Bedarf
  können Versionen aus den Jahren 2001 und 2007 aktiviert werden.
  Darüber hinaus wurde das LIWC-Lexikon nicht nur in die deutsche,
  sondern auch in diverse weitere Sprachen (italienisch, norwegisch,
  spanisch, brasilianisch, portugiesisch, französisch, niederländisch,
  russisch, traditionelles wie vereinfachtes Chinesisch) übertragen. Für
  die Mehrzahl der LIWC-Kategorien kann eine gute Äquivalenz der
  deutschen Version mit dem englischen Original bestätigt werden, für
  einige basislinguistischen Kategorien wurden allerdings Unterschiede
  festgestellt
  (<xref alt="Wolf u. a. 2008" rid="ref-wolfComputergestutzteQuantitativeTextanalyse2008" ref-type="bibr">Wolf
  u. a. 2008</xref>).</p>
  <p><italic>Funktionen</italic>:</p>
  <p>Bei der Verwendung der ausschließlich mit englischsprachigen Texten
  funktionierenden <bold>Demoversion</bold> u. a.:</p>
  <list list-type="bullet">
    <list-item>
      <p>Automatisierte Ein-Wort-Analyse (<italic>word-by-word
      basis</italic>, vgl.
      <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>):
      Im Kern nutzt dieses Analyseverfahren einen Wortzählalgorithmus,
      der die Wörter eines Textes auszählt und diese vorab definierten
      und in einem internen Wörterbuch organisierten Wortkategorien
      zuordnet
      (<xref alt="Wolf u. a. 2008" rid="ref-wolfComputergestutzteQuantitativeTextanalyse2008" ref-type="bibr">Wolf
      u. a. 2008</xref>). Die Analyse spielt sich folglich
      ausschließlich auf der lexikalischen Ebene ab und basiert auf dem
      Abgleich des hochgeladenen individuellen Textes mit dem
      implementierten LIWC-Lexikon.</p>
    </list-item>
    <list-item>
      <p>Auskunft über prozentualen Anteil der <italic>I-Words</italic>
      (I, me, my), der <italic>Social Words</italic>, der
      <italic>Positive Emotions</italic>, der <italic>Negative
      Emotions</italic> und der <italic>Cognitive
      Processes</italic>.</p>
    </list-item>
    <list-item>
      <p>Die Variable <italic>Analytical Thinking</italic> erfasst den
      Grad, in dem die schreibende Person Wörter verwendet, die auf
      formale, logische und hierarchische Denkstrukturen verweisen.</p>
    </list-item>
    <list-item>
      <p><italic>Clout</italic> beschreibt den sozialen Status bzw. das
      Selbstbewusstsein und Führungsverhalten, das die schreibende
      Person zum Ausdruck bringt.</p>
    </list-item>
    <list-item>
      <p><italic>Authenticity</italic> erfasst, ob die schreibende
      Person authentisch und ehrlich kommuniziert.</p>
    </list-item>
    <list-item>
      <p><italic>Emotional Tone</italic> erfasst, ob dem untersuchten
      Dokument ein überwiegend positiver oder negativer Ton zugrunde
      liegt.</p>
    </list-item>
    <list-item>
      <p>Darüber hinaus werden vergleichende Daten zur Verfügung
      gestellt, die zeigen, wie Texte derselben Kategorie
      durchschnittlich zusammengesetzt sind.</p>
    </list-item>
  </list>
  <p>Die <bold>kommerzielle Variante</bold> des Tools beinhaltet drei
  Darstellungsweisen der Ein-Wort-Analyse:</p>
  <list list-type="bullet">
    <list-item>
      <p><italic>Analyze Text</italic> ist eine tabellarische Übersicht
      der Analyseergebnisse des gesamten Dokuments (Dokumentebene).</p>
    </list-item>
    <list-item>
      <p><italic>Categorize Text</italic> bietet eine Liste sämtlicher
      Wörter mit Angabe der jeweiligen Kategorie (Wortebene).</p>
    </list-item>
    <list-item>
      <p><italic>Color-Code Text</italic> ist eine Ansicht des gesamten
      Textes bei farblicher Hervorhebung derjenigen Wörter, die einer
      Kategorie zugeordnet wurden (Satzebene).</p>
    </list-item>
  </list>
  <p><italic>Zuverlässigkeit</italic>: LIWC funktioniert zuverlässig.
  Sofern Sie keine einzelnen Texte, sondern ein größeres Textkorpus
  (vgl. <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>)
  untersuchen möchten, kann der Analyseprozess jedoch einige Zeit
  dauern.</p>
</sec>
<sec id="ist-liwc-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist LIWC für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <colgroup>
        <col width="50%" />
        <col width="50%" />
      </colgroup>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / –</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Detaillierte Erklärungen der Funktionalitäten finden Sie auf der
  LIWC-Homepage. Darüber hinaus helfen Ihnen
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.youtube.com/watch?v=CXPfrkfs7eo">Tutorials</ext-link>
  dabei, LIWC schrittweise kennenzulernen und unterschiedliche
  Funktionen – wie z. B. die Konzeption eines individuellen Lexikons –
  auszuführen. Relevante Funktionen lassen sich dank einer intuitiv
  bedienbaren Benutzeroberfläche (vgl.
  <xref alt="GUI" rid="glossary-gui">GUI</xref>) aber auch ohne die
  Konsultation eines Handbuchs und technisches Vorwissen ausführen.
  Nutzeranfragen per E-Mail werden zuverlässig und in kurzer Zeit
  beantwortet.</p>
</sec>
<sec id="wie-etabliert-ist-liwc-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist LIWC in den
  (Literatur-)Wissenschaften?</title>
  <p>In seinem ursprünglichen Forschungsbereich – der Psychologie – ist
  das Tool etabliert, auch wenn es aufgrund des Außerachtlassens
  komplexerer Bedeutungsstrukturen durchaus kontrovers diskutiert wird.
  In der Literaturwissenschaft wurde das Tool bisher kaum verwendet,
  obwohl es sich durch die Möglichkeit, ein individuelles
  deutschsprachiges Lexikon zu integrieren, durchaus für die Analyse
  deutschsprachiger Texte eignet und Untersuchungen zufolge bspw. für
  die Analyse lyrischer Texte oder Erzählungen in Frage käme
  (<xref alt="Wolf u. a. 2008" rid="ref-wolfComputergestutzteQuantitativeTextanalyse2008" ref-type="bibr">Wolf
  u. a. 2008</xref>). Eine literaturwissenschaftliche Adaption (vgl.
  <xref alt="Domäneadaption" rid="glossary-domain-adaption">Domäneadaption</xref>)
  wäre außerdem möglich, da sich die intuitiv bedienbare GUI von LIWC
  mit der Verwendung von existierenden Sentimentwörterbüchern wie
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://wortschatz.uni-leipzig.de/de/download">SentiWS</ext-link>
  oder – besser noch – domänenspezifischen, eigens entworfenen
  Sentimentwörterbüchern (Sentimentanalyse
  (<xref alt="Flüh 2024" rid="ref-fluhMethodenbeitragSentimentanalyse2019" ref-type="bibr">Flüh
  2024</xref>)), die z. B. historische und orthographische
  Besonderheiten einbeziehen, kombinieren ließe. Es gilt festzuhalten,
  dass für die Analyse deutsprachiger literarischer Texte ein Lexikon
  benötigt wird, welches durch spezifische Analysekategorien der
  Beschaffenheit literarischer Texte gerecht wird.</p>
</sec>
<sec id="unterstützt-liwc-kollaboratives-arbeiten">
  <title>5. Unterstützt LIWC kollaboratives Arbeiten?</title>
  <p>Nein, LIWC ist für die Einzelarbeit konzipiert.</p>
</sec>
<sec id="sind-meine-daten-bei-liwc-sicher">
  <title>6. Sind meine Daten bei LIWC sicher?</title>
  <p>Ja, sobald Sie eine LIWC-Version erworben haben, wird das Tool
  desktopbasiert ausgeführt. Hier sind Ihre Textdaten sicher. Zur
  Zahlungsabwicklung müssen Sie personenbezogene Daten angeben, was sich
  bei der Verwendung der Demoversion erübrigt.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>LIWC:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.liwc.app">https://web.archive.org/save/https://www.liwc.app</ext-link>
      (Letzter Zugriff: 17.09.2024)</p>
    </list-item>
    <list-item>
      <p>Konzeption eines individuellen Lexikons:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.youtube.com/watch?v=CXPfrkfs7eo">https://web.archive.org/save/https://www.youtube.com/watch?v=CXPfrkfs7eo</ext-link>
      (Letzter Zugriff: 17.09.2024)</p>
    </list-item>
    <list-item>
      <p>SentiWS:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://wortschatz.uni-leipzig.de/de/download">https://web.archive.org/save/http://wortschatz.uni-leipzig.de/de/download</ext-link>
      (Letzter Zugriff: 28.07.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-api">API</styled-content></term>
      <def>
        <p>API steht für <italic>Application Programming
        Interface</italic> und bezeichnet eine Programmierschnittstelle,
        die Soft- und Hardwarekomponenten wie Anwendungen, Festplatten
        oder Benutzeroberflächen verbindet. Sie vereinheitlicht die
        Datenübergabe zwischen Programmteilen, etwa Modulen, und
        Programmen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-close-reading">Close
      Reading</styled-content></term>
      <def>
        <p>Close Reading bezeichnet die sorgfältige Lektüre und
        Interpretation eines einzelnen oder weniger Texte. Close Reading
        ist in der digitalen Literaturwissenschaft außerdem mit der
        manuellen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        textueller Phänomene verbunden (vgl. auch
        <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
        Reading</xref> als Gegenbegriff).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-data-mining">Data
      Mining</styled-content></term>
      <def>
        <p>Data Mining gehört zum Fachbereich
        <xref alt="Information Retrieval" rid="glossary-information-retrieval">Information
        Retrieval</xref> und bezieht sich auf die systematische
        Anwendung computergestützter Methoden, die darauf abzielt, in
        vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu
        erkennen. Textbasierte Formen des Data Minings sind u. a.
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>,
        <xref alt="Web Mining" rid="glossary-web-mining">Web
        Mining</xref> und
        <xref alt="Opinion Mining" rid="glossary-opinion-mining">Opinion
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-distant-reading">Distant
      Reading</styled-content></term>
      <def>
        <p>Distant Reading ist ein Ansatz aus den digitalen
        Literaturwissenschaften, bei dem computationelle Verfahren auf
        häufig große Mengen an Textdaten angewandt werden, ohne dass die
        Texte selber gelesen werden. Meist stehen hier quantitative
        Analysen im Vordergrund, es lassen sich jedoch auch qualitative
        <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
        quantitativ vergleichen. Als Gegenbegriff zu
        <xref alt="Close Reading" rid="glossary-close-reading"><italic>Close
        Reading</italic></xref> wurde der Begriff insbesondere von
        Franco Moretti (2000) geprägt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-domain-adaption">Domäneadaption</styled-content></term>
      <def>
        <p>Domäneadaption beschreibt die Anpassung einer in einem
        Fachgebiet entwickelten digitalen Methode an ein anderes
        Fachgebiet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-information-retrieval">Information
      Retrieval</styled-content></term>
      <def>
        <p>Die Teildisziplin der Informatik, das Information Retrieval,
        beschäftigt sich mit der computergestützten Suche und
        Erschließung komplexer Informationen in meist unstrukturierten
        Datensammlungen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-opinion-mining">Opinion
      Mininig</styled-content></term>
      <def>
        <p>Unter Opinion Mining, oder Sentiment Analysis, versteht man
        die Analyse von Stimmungen oder Haltungen gegenüber einem Thema,
        durch die Analyse natürlicher Sprache. Das Opinion Mining gehört
        zu den Verfahren des
        <xref alt="Text Minings" rid="glossary-text-mining">Text
        Minings</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-regex">Reguläre
      Ausdrücke</styled-content></term>
      <def>
        <p>Reguläre Ausdrücke, auch <italic>Regular Expressions</italic>
        oder <italic>RegEx</italic> genannt, sind standardisierte
        Zeichenketten zur Beschreibung von Mengen von Zeichenketten mit
        Hilfe bestimmter syntaktischer Regeln, die in
        <xref alt="Abfrage" rid="glossary-query">Abfrage</xref>- und
        Programmiersprachen (z. B. in Wort, CATMA, Python, R usw.) für
        unterschiedliche Problemlösungen verwendet werden. Sie können
        beispielsweise als Filterkriterien in der Textsuche oder in
        Texteditoren (z. B. in Word oder OpenOffice) zum „Suchen und
        Ersetzen“ von bestimmten Begriffen genutzt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-text-mining">Text
      Mining</styled-content></term>
      <def>
        <p>Das Text Mining ist eine textbasierte Form des
        <xref alt="Data Minings" rid="glossary-data-mining">Data
        Minings</xref>. Prozesse &amp; Methoden, computergestützt und
        automatisch Informationen bzw. Wissen aus unstrukturierten
        Textdaten zu extrahieren, werden als Text Mining
        zusammengefasst.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-web-mining">Web
      Mining</styled-content></term>
      <def>
        <p>Unter Web Mining versteht man die Anwendung von Techniken des
        <xref alt="Data Mining" rid="glossary-data-mining">Data
        Mining</xref> zur Extraktion von Informationen aus dem World
        Wide Web. Das Web Mining ist ein Teilbereich des Data Minings
        und zählt zu einem der wichtigsten Anwendungsgebiete für das
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-abeChangesAlanGreenspan2011">
    <mixed-citation>Abe, Jo Ann A. 2011. Changes in Alan Greenspan’s
    Language Use Across the Economic Cycle: A Text Analysis of His
    Testimonies and Speeches. <italic>Journal of Language and Social
    Psychology</italic> 30, Nr. 2: 212–223. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1177/0261927X10397152">10.1177/0261927X10397152</ext-link>,
    (zugegriffen: 1. Juli 2019).</mixed-citation>
  </ref>
  <ref id="ref-backAutomaticPeopleAnger2011">
    <mixed-citation>Back, Mitja D., Albrecht C. P. Küfner und Boris
    Egloff. 2011. Automatic or the People? Anger on September 11, 2001,
    and Lessons Learned for the Analysis of Large Digital Data Sets.
    <italic>Psychological Science</italic> 22, Nr. 6: 837–838. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1177/0956797611409592">10.1177/0956797611409592</ext-link>,
    (zugegriffen: 30. Juni 2019).</mixed-citation>
  </ref>
  <ref id="ref-fluhMethodenbeitragSentimentanalyse2019">
    <mixed-citation>Flüh, Marie. 2024. Methodenbeitrag:
    Sentimentanalyse. Hg. von Evelyn Gius. <italic>forTEXT</italic> 1,
    Nr. 7. Sentimentanalyse (7. Oktober). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3797">10.48694/fortext.3797</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/sentimentanalyse">https://fortext.net/routinen/methoden/sentimentanalyse</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-hai-jewExtractingLinguisticPatterns2016">
    <mixed-citation>Hai-Jew, Shalin. 2016. Extracting Linguistic
    Patterns from Texts with LIWC („luke“) for Analysis. <italic>C2C
    Digital Magazine (Fall 2016 / Winter 2017)</italic>.
    <ext-link ext-link-type="uri" xlink:href="https://scalar.usc.edu/works/c2c-digital-magazine-fall-2016--winter-2017/extracting-linguistic-patterns-from-texts-liwc-analysis">https://scalar.usc.edu/works/c2c-digital-magazine-fall-2016--winter-2017/extracting-linguistic-patterns-from-texts-liwc-analysis</ext-link>
    (zugegriffen: 1. Juli 2019).</mixed-citation>
  </ref>
  <ref id="ref-newmanGenderDifferencesLanguage2008">
    <mixed-citation>Newman, Matthew L., Carla J. Groom, Lori D.
    Handelman und James W. Pennebaker. 2008. Gender Differences in
    Language Use: An Analysis of 14,000 Text Samples. <italic>Discourse
    Processes</italic> 45, Nr. 3: 211–236. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1080/01638530802073712">10.1080/01638530802073712</ext-link>,
    (zugegriffen: 1. Juli 2019).</mixed-citation>
  </ref>
  <ref id="ref-pennebakerComputerizedTextAnalysis2008">
    <mixed-citation>Pennebaker, James W. und Cindy K. Chung. 2008.
    Computerized Text Analysis of Al-Qaeda Transcripts. In: <italic>The
    content analysis reader</italic>, hg. von Klaus Krippendorf und Mary
    Angela Bock, 453–467. Los Angeles (u.a.): SAGE
    Publications.</mixed-citation>
  </ref>
  <ref id="ref-proyerExploringAdultPlayfulness2018">
    <mixed-citation>Proyer, René T. und Kay Brauer. 2018. Exploring
    adult playfulness: Examining the accuracy of personality judgments
    at zero-acquaintance and an LIWC analysis of textual information.
    <italic>Journal of Research in Personality</italic> 73: 12–20. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/j.jrp.2017.10.002">10.1016/j.jrp.2017.10.002</ext-link>,
    (zugegriffen: 1. Juli 2019).</mixed-citation>
  </ref>
  <ref id="ref-schwarz-frieselEmotionspotenzialLiterarischerTexte2017">
    <mixed-citation>Schwarz-Friesel, Monika. 2017. Das Emotionspotenzial
    literarischer Texte. In: <italic>Handbuch Sprache in der
    Literatur</italic>, hg. von Anne Betten, Ulla Fix, und Berbelin
    Wanning, 17:351–370. Berlin, Boston: de Gruyter.</mixed-citation>
  </ref>
  <ref id="ref-verganiEvolutionISISLanguage2015">
    <mixed-citation>Vergani, Matteo und Ana-Maria Bliuc. 2015. The
    evolution of the ISIS’ language: A quantitative analysis of the
    language of the first year of Dabiq magazine. <italic>Sicurezza,
    terrorismo e società</italic> 2: 7–20.</mixed-citation>
  </ref>
  <ref id="ref-wolfComputergestutzteQuantitativeTextanalyse2008">
    <mixed-citation>Wolf, Markus, Andrea Mehl, Matthias Severin, Haug
    Severin, James W. Pennebaker und Hans Kordy. 2008. Computergestützte
    quantitative Textanalyse: Äquivalenz und Robustheit der deutschen
    Version des Linguistic Inquiry and Word Count.
    <italic>Diagnostica</italic> 54, Nr. 2: 85–98. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1026/0012-1924.54.2.85">10.1026/0012-1924.54.2.85</ext-link>,.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
