<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3770</article-id>
<title-group>
<article-title>Toolbeitrag: Stylo</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<pub-date date-type="pub" publication-format="electronic" iso-8601-date="2024-02-26">
<day>26</day>
<month>2</month>
<year>2024</year>
</pub-date>
<volume>1</volume>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 07.01.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/stylo">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-01-07">
<day>07</day>
<month>01</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<copyright-statement>© 2019 The authors. Published under a CC BY-SA 4.0
DEED license.</copyright-statement>
<copyright-year>2019</copyright-year>
<copyright-holder>Jan Horstmann</copyright-holder>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
<kwd-group kwd-group-type="author">
<kwd>Stil</kwd>
<kwd>Stilanalyse</kwd>
<kwd>Autorschaft</kwd>
<kwd>Visualisierung</kwd>
<kwd>Genre</kwd>
<kwd>Epoche</kwd>
<kwd>Vergleichende Analyse</kwd>
<kwd>Burrows’ Delta</kwd>
<kwd>Most Frequent Words (MFW)</kwd>
<kwd>Principal Component Analysis (PCA)</kwd>
</kwd-group>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 07.01.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/stylo">fortext.net</ext-link></p>
<fig>
  <caption><p>Der Stylo-Workflow: Nach dem Öffnen der grafischen
  Benutzeroberfläche lassen sich Textsammlungen in den Formaten TXT
  (empfohlen), XML oder HTML hochladen. Die einzelnen Tabs führen Sie
  durch die möglichen Einstellungen der stilometrischen Analyse.
  Heruntergeladen und spezifiziert werden die ausgewählten
  Visualisierungen in verschiedenen Dateiformaten wie PDF und/oder
  JPG.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="Stylo_Screens-p.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Vorherige Installation von
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.r-project.org/">R</ext-link>
    bzw.
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.rstudio.com/">RStudio</ext-link>
    (und für Mac-User*innen
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.xquartz.org/">XQuartz</ext-link>);
    von dort kann das „stylo“-Package entweder aus CRAN oder GitHub
    installiert werden, oder auch aus einer lokal gespeicherten Datei
    (hierfür müssen Sie vorab zusätzliche R-Packages installieren:
    tcltk2, ape, class, e1071, pamr, tsne); Stylo ist mit allen
    Betriebssystemen nutzbar; zur Installation der Packages benötigen
    Sie eine Internetverbindung, ab dann kann Stylo offline verwendet
    werden (zur Verwendung von Stylo in der Programmiersprache Python
    siehe Calvo Tello 2017)</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> Version 0.6.9 (Oktober
    2018)</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> Maciej Eder, Mike Kestemont, Jan
    Rybicki</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> Kostenfrei, Open Source</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://github.com/computationalstylistics/stylo">https://github.com/computationalstylistics/stylo</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Import: Alle Dateien einer
    Textsammlung (vgl.
    <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>) sollten das
    gleiche Format haben; die Entwickler empfehlen das TXT (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>)-Format
    (UTF8-codiert (vgl.
    <xref alt="Unicode/UTF-8" rid="glossary-unicode">Unicode/UTF-8</xref>));
    auch möglich, aber weniger erprobt, sind
    <xref alt="HTML" rid="glossary-html">HTML</xref> und
    <xref alt="TEI" rid="glossary-tei">TEI</xref>-<xref alt="XML" rid="glossary-xml">XML</xref>;
    die einzelnen Dateien müssen nach dem Muster Kategorie_Titel.txt
    gespeichert werden, z. B. Bachmann_Malina.txt; Export: Ausgabe jedes
    Durchlaufs als txt-Datei; Visualisierungen:
    <xref alt="PDF" rid="glossary-pdf">PDF</xref>, JPG, PNG,
    <xref alt="SVG" rid="glossary-svg">SVG</xref> (nützlich zur
    Einbindung in HTML-Codes oder weitere Verarbeitung)</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Optimiert für Englisch, Latein, Polnisch,
    Ungarisch, Französisch, Italienisch, Spanisch, Holländisch, Deutsch,
    CJK (Chinesisch/Japanisch/Koreanisch auf Basis gleicher Zeichen),
    außerdem gibt es die Option „other“ (inwiefern die Methode auch mit
    anderen Sprachen stabil läuft, sollte selbst getestet werden)</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-stylo-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann Stylo eingesetzt
  werden?</title>
  <p>Mit Stylo lassen sich alle Fragen der Stilometrie
  (<xref alt="Horstmann 2024" rid="ref-horstmannMethodenbeitragStilometrie2024" ref-type="bibr">Horstmann
  2024</xref>) bearbeiten. Dazu gehören vor allem Fragen der
  Autorschaftsattribution, Genre- oder Epochenklassifikationen,
  stilistische Entwicklungen eines Autorinnenoeuvres usw. Das Tool
  ermöglicht dabei die Anwendung unterschiedlicher in der Stilometrie
  diskutierter Algorithmen.</p>
</sec>
<sec id="welche-funktionalitäten-bietet-stylo-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet Stylo und wie zuverlässig ist
  das Tool?</title>
  <p><italic>Funktionen</italic>:</p>
  <list list-type="bullet">
    <list-item>
      <p>Stilistische Vergleichsanalyse von Texten oder Textsegmenten
      anhand der häufigsten Wörter (MFW)</p>
    </list-item>
    <list-item>
      <p>Verschiedene gängige Statistiken sind implementiert</p>
    </list-item>
    <list-item>
      <p>Verschiedene
      <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Maßnahmen
      sind im Programm inbegriffen, unter anderem ein Tokenizer (vgl.
      <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>)
      und eine
      Pronomen-/<xref alt="Stoppwortliste" rid="glossary-stoppwortliste">Stoppwortliste</xref>
      für mehrere Sprachen (mit der Möglichkeit, die jeweiligen Wörter
      aus den Texten zu löschen)</p>
    </list-item>
    <list-item>
      <p>Variable Visualisierungsformen der Ergebnisse</p>
    </list-item>
  </list>
  <p><italic>Zuverlässigkeit</italic>: Stylo funktioniert je nach Größe
  Ihrer Textsammlung und vorgenommener Voreinstellungen zügig und
  zuverlässig. Die errechneten Ergebnisse sind je nach Datengrundlage
  und manuell vorgenommenen Voreinstellungen so gut wie die zugrunde
  gelegten stilometrischen Algorithmen (z. B. „Burrows’ Delta“). Diese
  Algorithmen sind nicht von oder für Stylo selbst entwickelt worden,
  sondern finden lediglich im Tool Verwendung. Als mathematische Formeln
  ergeben sie immer nur Annäherungswerte an tatsächliche Phänomene.</p>
</sec>
<sec id="ist-stylo-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist Stylo für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / -</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>-</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>✓</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Die Stylo zugrunde liegende Idee ist es, uns ohne Coding-Kenntnisse
  (vgl.
  <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>)
  zu ermöglichen, hochfunktionale und komplexe Algorithmen der
  Stilometrie zu verwenden. Grundlegende Kenntnisse in der
  Programmiersprache R sind jedoch zum Installieren und Starten des
  Tools vonnöten. Das Preprocessing findet ebenfalls innerhalb des
  Programms und unabhängig von der jeweiligen Sprache statt. Eine
  Sammlung von Folien bildet ein
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://computationalstylistics.github.io/stylo_nutshell/">Tutorial</ext-link>
  zum Einstieg. Das Handbuch ist darum bemüht, Fachbegriffe zu erklären,
  für Anfänger*innen mögen einige Erklärungen aber zu technisch sein.
  Bei Fragen oder Problemen gibt es zwar keine Helpdeskfunktion, Sie
  können die Entwickler von Stylo aber über
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://github.com/computationalstylistics/stylo">GitHub</ext-link>
  und
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://twitter.com/MaciejEder">Twitter</ext-link>
  kontaktieren. Verhältnismäßig schnelle Hilfe erhält man auch in einem
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://groups.google.com/forum/#!forum/computationalstylistics">Google-Forum</ext-link>
  der Computational-Stylistics-Gruppe.</p>
</sec>
<sec id="wie-etabliert-ist-stylo-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist Stylo in den
  (Literatur-)Wissenschaften?</title>
  <p>Stylo ist für die digitale Stilometrie eines der etabliertesten
  Tools. Es findet in zahlreichen Projekten zur Autorschaftsattribution
  oder zum geschlechtsspezifischen Schreiben Anwendung. Methodisch
  reflektiert nutzen auch kombinierte Ansätze von Distant- (vgl.
  <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
  Reading</xref>) und
  <xref alt="Close Reading" rid="glossary-close-reading">Close
  Reading</xref>-Verfahren (sog. „mixed-methods (vgl.
  <xref alt="Scalable Reading" rid="glossary-scalable-reading">Scalable
  Reading</xref>)“) das Tool
  (<xref alt="Herrmann 2017" rid="ref-herrmannTextBedKafka2017" ref-type="bibr">Herrmann
  2017</xref>). Wie die meisten digitalen Textanalysetools findet jedoch
  auch Stylo keine Erwähnung in Publikationen von Zeitschriften der
  traditionelleren Literaturwissenschaft.</p>
</sec>
<sec id="unterstützt-stylo-kollaboratives-arbeiten">
  <title>5. Unterstützt Stylo kollaboratives Arbeiten?</title>
  <p>Nein. Stylo wird als R-Package auf dem eigenen Computer ausgeführt
  und ermittelte Ergebnisse müssen individuell verteilt und diskutiert
  werden.</p>
</sec>
<sec id="sind-meine-daten-bei-stylo-sicher">
  <title>6. Sind meine Daten bei Stylo sicher?</title>
  <p>Ja. Es werden keine personenbezogenen Daten erhoben. Da Stylo auf
  dem eigenen Rechner genutzt wird, müssen Sie Ihre Texte zudem
  nirgendwo hochladen, um sie stilometrisch zu erforschen.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>Google-Forum:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://groups.google.com/forum/#!forum/computationalstylistics">https://web.archive.org/save/https://groups.google.com/forum/#!forum/computationalstylistics</ext-link>
      (Letzter Zugriff: 20.02.2024)</p>
    </list-item>
    <list-item>
      <p>R Project:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.r-project.org/">https://web.archive.org/save/https://www.r-project.org/</ext-link>
      (Letzter Zugriff: 20.02.2024)</p>
    </list-item>
    <list-item>
      <p>R Studio:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.rstudio.com/">https://web.archive.org/save/https://www.rstudio.com/</ext-link>
      (Letzter Zugriff: 20.02.2024)</p>
    </list-item>
    <list-item>
      <p>Stylo auf Github:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://github.com/computationalstylistics/stylo">https://web.archive.org/save/https://github.com/computationalstylistics/stylo</ext-link>
      (Letzter Zugriff: 20.02.2024)</p>
    </list-item>
    <list-item>
      <p>Stylo Tutorial:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://computationalstylistics.github.io/stylo_nutshell/">https://web.archive.org/save/https://computationalstylistics.github.io/stylo_nutshell/</ext-link>
      (Letzter Zugriff: 20.02.2024)</p>
    </list-item>
    <list-item>
      <p>Twitter Maciej Eder:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://twitter.com/MaciejEder">https://web.archive.org/save/https://twitter.com/MaciejEder</ext-link>
      (Letzter Zugriff: 20.02.2024)</p>
    </list-item>
    <list-item>
      <p>XQuartz:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.xquartz.org/">https://web.archive.org/save/https://www.xquartz.org/</ext-link>
      (Letzter Zugriff: 20.02.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-close-reading">Close
      Reading</styled-content></term>
      <def>
        <p>Close Reading bezeichnet die sorgfältige Lektüre und
        Interpretation eines einzelnen oder weniger Texte. Close Reading
        ist in der digitalen Literaturwissenschaft außerdem mit der
        manuellen
        <xref alt="Annotation" rid="glossary-annotation">Annotation</xref>
        textueller Phänomene verbunden (vgl. auch
        <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
        Reading</xref> als Gegenbegriff).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic> . Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-distant-reading">Distant
      Reading</styled-content></term>
      <def>
        <p>Distant Reading ist ein Ansatz aus den digitalen
        Literaturwissenschaften, bei dem computationelle Verfahren auf
        häufig große Mengen an Textdaten angewandt werden, ohne dass die
        Texte selber gelesen werden. Meist stehen hier quantitative
        Analysen im Vordergrund, es lassen sich jedoch auch qualitative
        <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>
        quantitativ vergleichen. Als Gegenbegriff zu
        <xref alt="Close Reading" rid="glossary-close-reading"><italic>Close
        Reading</italic></xref> wurde der Begriff insbesondere von
        Franco Moretti (2000) geprägt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup">Markup
      (Textauszeichung)</styled-content></term>
      <def>
        <p>Die Textauszeichnung (eng. <italic>Markup</italic>) fällt in
        den Bereich der Daten- bzw. Textverarbeitung, genauer in das
        Gebiet der Textformatierung, welche durch
        <xref alt="Auszeichnungssprachen" rid="glossary-markup-language">Auszeichnungssprachen</xref>
        wie <xref alt="XML" rid="glossary-xml">XML</xref> implementiert
        wird. Dabei geht es um die Beschreibung, wie einzelne Elemente
        eines Textes beispielsweise auf Webseiten grafisch dargestellt
        werden sollen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z.B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic> , oder
        „Wortart“ auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-scalable-reading">Scalable
      Reading</styled-content></term>
      <def>
        <p>Die Kombination aus
        <xref alt="Distant Reading" rid="glossary-distant-reading">Distant
        Reading</xref>- und
        <xref alt="Close Reading" rid="glossary-close-reading">Close
        Reading</xref>-Methoden, angewandt auf einen
        Untersuchungsgegenstand, wird als Scalable Reading
        bezeichnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-stoppwortliste">Stoppwortliste</styled-content></term>
      <def>
        <p>Stoppwörter sind hochfrequente Wörter, meist Funktionswörter,
        die, aufgrund ihrer grammatisch bedingten Häufigkeit,
        beispielsweise die Ergebnisse von inhaltlichen oder thematischen
        Analysen verzerren können. Deshalb werden diese Wörter,
        gesammelt in einer Stoppwortliste, bei digitalen Textanalysen
        meist nicht berücksichtigt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-svg">SVG</styled-content></term>
      <def>
        <p>SVG steht für <italic>Scalable Vector Graphics</italic> und
        ist ein freies, standardisiertes Dateiformat, das Bilddateien
        bezeichnet, die als 2D-Vektorgrafiken größenunabhängig
        reproduziert werden können. Bei SVG-Dateien wird im Gegensatz zu
        anderen Bildgrafiken somit die Auflösung der Abbildung beim
        Vergrößern nicht schlechter. Es basiert auf den Strukturen von
        <xref alt="XML" rid="glossary-xml">XML</xref> und wird dazu
        verwendet, Bilddaten zu repräsentieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-tei">TEI</styled-content></term>
      <def>
        <p>Die <italic>Text Encoding Initiative</italic> (TEI) ist ein
        Konsortium, das gemeinsam einen Standard für die Darstellung von
        Texten in digitaler Form entwickelt. Die TEI bietet
        beispielsweise Standards zur Kodierung von gedruckten Werken und
        zur Auszeichnung von sprachlichen Informationen in
        maschinenlesbaren Texten (siehe auch
        <xref alt="XML" rid="glossary-xml">XML</xref> und
        <xref alt="Markup" rid="glossary-markup">Markup</xref>).</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-unicode">Unicode/UTF-8</styled-content></term>
      <def>
        <p>Unicode ist ein internationaler Standard, der für jedes
        Schriftzeichen oder Textelement einen digitalen Code festlegt.
        Dabei ist UTF-8 die am weitesten verbreitete Kodierung für
        Unicode-Zeichen. UTF-8 ist die international standardisierte
        Kodierungsform elektronischer Zeichen und kann von den meisten
        Digital-Humanities-Tools verarbeitet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-xml">XML</styled-content></term>
      <def>
        <p>XML steht für <italic>Extensible Markup Language</italic> und
        ist eine Form von
        <xref alt="Markup Language" rid="glossary-markup-language">Markup
        Language</xref>, die sowohl computer- als auch menschenlesbar
        und hochgradig anpassbar ist. Dabei werden Textdateien
        hierarchisch strukturiert dargestellt und Zusatzinformationen i.
        d. R. in einer anderen Farbe als der eigentliche (schwarz
        gedruckte) Text dargestellt. Eine standardisierte Form von XML
        ist das <xref alt="TEI" rid="glossary-tei">TEI</xref>-XML.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-calvotelloUsingStyloPython2017">
    <mixed-citation>Calvo Tello, José. 2017. Using Stylo in Python.
    Juni.
    <ext-link ext-link-type="uri" xlink:href="https://cligs.hypotheses.org/577">https://cligs.hypotheses.org/577</ext-link>
    (zugegriffen: 12. November 2018).</mixed-citation>
  </ref>
  <ref id="ref-ederVisualizationStylometryCluster2017">
    <mixed-citation>Eder, Maciej. 2017. Visualization in stylometry:
    Cluster analysis using networks. <italic>Digital Scholarship in the
    Humanities</italic> 32, Nr. 1: 50–64. doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1093/llc/fqv061">10.1093/llc/fqv061</ext-link>,
    (zugegriffen: 13. November 2018).</mixed-citation>
  </ref>
  <ref id="ref-ederStylometryPackageComputational2016">
    <mixed-citation>Eder, Maciej, Jan Rybicki und Mike Kestemont. 2016.
    Stylometry with R: A Package for Computational Text Analysis.
    <italic>The R Journal</italic> 8, Nr. 1: 107–121.
    <ext-link ext-link-type="uri" xlink:href="https://journal.r-project.org/archive/2016-1/eder-rybicki-kestemont.pdf">https://journal.r-project.org/archive/2016-1/eder-rybicki-kestemont.pdf</ext-link>
    (zugegriffen: 12. November 2018).</mixed-citation>
  </ref>
  <ref id="ref-herrmannTextBedKafka2017">
    <mixed-citation>Herrmann, Berenike J. 2017. In a text bed with
    Kafka. Introducing a mixed-method approach to digital stylistics.
    <italic>Digital Humanities Quarterly</italic> 11, Nr. 4.
    <ext-link ext-link-type="uri" xlink:href="http://www.digitalhumanities.org/dhq/vol/11/4/000341/000341.html">http://www.digitalhumanities.org/dhq/vol/11/4/000341/000341.html</ext-link>
    (zugegriffen: 12. November 2018).</mixed-citation>
  </ref>
  <ref id="ref-horstmannMethodenbeitragStilometrie2024">
    <mixed-citation>Horstmann, Jan. 2024. Methodenbeitrag: Stilometrie.
    Hg. von Evelyn Gius. <italic>forTEXT</italic> 1, Nr. 1. Stilometrie
    (26. Februar). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3769">10.48694/fortext.3769</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/stilometrie">https://fortext.net/routinen/methoden/stilometrie</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
