<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3767</article-id>
<title-group>
<article-title>Toolbeitrag: Stanford Named Entity
Recognizer</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-7952-4194</contrib-id>
<name>
<surname>Schumacher</surname>
<given-names>Mareike</given-names>
</name>
<email>Mareike.Schumacher@sprachlit.uni-regensburg.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Regensburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>9</issue>
<issue-title>Named Entity Recognition</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 20.09.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/stanford-named-entity-recognizer">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2018-09-20">
<day>20</day>
<month>09</month>
<year>2018</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 20.09.2018 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/tools/tools/stanford-named-entity-recognizer">fortext.net</ext-link></p>
<fig>
  <caption><p>Abb. 1: Der Workflow des Stanford-NER: Textdatei im
  TXT-Format und sprachspezifische Classifier im ZIP-Format über die
  grafische Nutzeroberfläche laden, dann die NER durchführen und die
  Ergebnisse direkt im Tool anschauen oder als TXT-Datei mit HTML-Tags
  herunterladen.</p></caption>
  <graphic mimetype="image" mime-subtype="png" xlink:href="NER_Screens-p-ohne_Transparenz_0.png" />
</fig>
<list list-type="bullet">
  <list-item>
    <p><bold>Systemanforderungen:</bold> Läuft auf Windows und Mac,
    benötigt aktuelle Java-Version</p>
  </list-item>
  <list-item>
    <p><bold>Stand der Entwicklung:</bold> Seit der Erstveröffentlichung
    2006 laufend aktualisiert und für weitere Sprachen angepasst</p>
  </list-item>
  <list-item>
    <p><bold>Herausgeber:</bold> Stanford Natural Languages Processing
    Group</p>
  </list-item>
  <list-item>
    <p><bold>Lizenz:</bold> Open Source Tool, das kostenfrei genutzt
    werden kann</p>
  </list-item>
  <list-item>
    <p><bold>Weblink:</bold>
    <ext-link ext-link-type="uri" xlink:href="https://nlp.stanford.edu/software/CRF-NER.html#About">https://nlp.stanford.edu/software/CRF-NER.html#About</ext-link></p>
  </list-item>
  <list-item>
    <p><bold>Im- und Export:</bold> Import einzelner Texte als TXT-Datei
    (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>),
    Export als TXT-Datei mit
    <xref alt="HTML" rid="glossary-html">HTML</xref>-Tags</p>
  </list-item>
  <list-item>
    <p><bold>Sprachen:</bold> Deutsch, Englisch, Spanisch, Chinesisch,
    Italienisch, Ungarisch</p>
  </list-item>
</list>
<sec id="für-welche-fragestellungen-kann-stanford-ner-eingesetzt-werden">
  <title>1. Für welche Fragestellungen kann Stanford-NER eingesetzt
  werden?</title>
  <p>Mit Stanford-NER können vor allem Fragen nach quantitativen
  Aspekten von Figurennamen, Orten und Organisationen bearbeitet werden
  (<xref alt="Schumacher 2024" rid="ref-schumacherMethodenbeitragNamedEntity2018" ref-type="bibr">Schumacher
  2024</xref>). Dazu gehören Fragen wie: Wie viele Figuren werden in
  einem Text benannt? Welche Figuren werden am häufigsten erwähnt? Wie
  ist die Verteilung von Ortsnennungen im Text? Welche Orte werden
  erwähnt? In welchem Kontext werden Organisationen genannt?</p>
</sec>
<sec id="welche-funktionalitäten-bietet-stanford-ner-und-wie-zuverlässig-ist-das-tool">
  <title>2. Welche Funktionalitäten bietet Stanford-NER und wie
  zuverlässig ist das Tool?</title>
  <p><italic>Funktion</italic>: Eigennamenerkennung (vgl.
  <xref alt="Named Entities" rid="glossary-named-entities">Named
  Entities</xref>) in Texten zahlreicher Sprachen.</p>
  <p><italic>Zuverlässigkeit</italic>: Die höchste Zuverlässigkeit wird
  in Sachtexten erreicht. Hier liegt die Erkennungsquote für
  deutschsprachige Texte bei rund 70% F-Score (mehr zur Methode der
  Named Entity Recognition und ihren Qualitätskriterien finden Sie bei
  Schumacher
  (<xref alt="2024" rid="ref-schumacherMethodenbeitragNamedEntity2018" ref-type="bibr">2024</xref>)).
  Auf der Stanford-NER-Homepage wird darauf hingewiesen, dass das
  deutsche Modell von 2018 erheblich besser ist, es werden aber keine
  genauen Zahlen genannt. Damit erreicht der Stanford-NER eine
  vergleichsweise hohe Zuverlässigkeit. Bei der Anwendung auf
  literarische Texte wird eine weit geringere Zuverlässigkeit erreicht.
  Diese kann allerdings durch die Anpassbarkeit (vgl.
  <xref alt="Machine Learning" rid="glossary-machine-learning">Machine
  Learning</xref>) des Tools erhöht werden.</p>
</sec>
<sec id="ist-stanford-ner-für-dh-einsteigerinnen-geeignet">
  <title>3. Ist Stanford-NER für DH-Einsteiger*innen geeignet?</title>
  <table-wrap>
    <table>
      <thead>
        <tr>
          <th>Checkliste</th>
          <th>✓ / teilweise / –</th>
        </tr>
      </thead>
      <tbody>
        <tr>
          <td>Methodische Nähe zur traditionellen
          Literaturwissenschaft</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Grafische Benutzeroberfläche</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Intuitive Bedienbarkeit</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Leichter Einstieg</td>
          <td>✓</td>
        </tr>
        <tr>
          <td>Handbuch vorhanden</td>
          <td>–</td>
        </tr>
        <tr>
          <td>Handbuch aktuell</td>
          <td>–</td>
        </tr>
        <tr>
          <td>Tutorials vorhanden</td>
          <td>teilweise</td>
        </tr>
        <tr>
          <td>Erklärung von Fachbegriffen</td>
          <td>–</td>
        </tr>
        <tr>
          <td>Gibt es eine gute Nutzerbetreuung?</td>
          <td>teilweise</td>
        </tr>
      </tbody>
    </table>
  </table-wrap>
  <p>Das Stanford-NER-Tool ist in seiner Grundfunktionalität sehr
  einsteigerfreundlich. Bisher wurde das Tool hauptsächlich in der
  Computerlinguistik eingesetzt. Um das Tool für die
  Literaturwissenschaft anzupassen, sind einige technische
  Grundkenntnisse vonnöten. Die Nutzerbetreuung findet hauptsächlich in
  der recht aktiven
  <xref alt="NLP" rid="glossary-nlp">NLP</xref>-Community statt und kann
  je nach Frage in Schnelligkeit und Qualität der Antwort variieren.</p>
</sec>
<sec id="wie-etabliert-ist-stanford-ner-in-den-literatur-wissenschaften">
  <title>4. Wie etabliert ist Stanford-NER in den
  (Literatur-)Wissenschaften?</title>
  <p>Stanford-NER ist ein sehr gängiges computerlinguistisches Tool, das
  Gegenstand in zahlreichen Publikationen ist. In der
  Literaturwissenschaft ist es noch nicht etabliert, da eine
  <xref alt="Domäneadaption" rid="glossary-domain-adaption">Domäneadaption</xref>
  hier gerade erst beginnt.</p>
</sec>
<sec id="unterstützt-stanford-ner-kollaboratives-arbeiten">
  <title>5. Unterstützt Stanford-NER kollaboratives Arbeiten?</title>
  <p>Stanford-NER ist ein Java-basiertes Desktop-Tool, das ohne weitere
  Installation offline über den eigenen PC ausgeführt wird.
  Kollaboratives Arbeiten wird dadurch nicht unterstützt.</p>
</sec>
<sec id="sind-meine-daten-beim-stanford-ner-sicher">
  <title>6. Sind meine Daten beim Stanford-NER sicher?</title>
  <p>Ja. Da es sich um ein desktopbasiertes Tool handelt, ist keine
  Anmeldung und/oder Angabe personenbezogener Daten für die Nutzung
  notwendig. Texte werden auf dem eigenen Rechner analysiert und
  Ergebnisse werden lokal gespeichert. Durch die Nutzung des
  Stanford-NER ergeben sich also keine datenschutz- oder
  urheberrechtlich bedenklichen Situationen.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>Stanford Named Entity Recognizer (NER):
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://nlp.stanford.edu/software/CRF-NER.html#About">https://web.archive.org/save/https://nlp.stanford.edu/software/CRF-NER.html#About</ext-link>
      (Letzter Zugriff: 10.10.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-domain-adaption">Domäneadaption</styled-content></term>
      <def>
        <p>Domäneadaption beschreibt die Anpassung einer in einem
        Fachgebiet entwickelten digitalen Methode an ein anderes
        Fachgebiet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-nlp">NLP</styled-content></term>
      <def>
        <p><italic>Natural Language Processing</italic> (NLP),
        maschinelle Sprachverarbeitung zu Deutsch, ist ein Teilgebiet
        der Linguistik, der Informatik und der künstlichen Intelligenz,
        welches sich damit beschäftigt, wie Computer so programmiert
        werden, dass sie große Mengen an natürlichsprachlichen Daten
        verarbeiten und analysieren können.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title></title>
  <ref id="ref-schumacherMethodenbeitragNamedEntity2018">
    <mixed-citation>Schumacher, Mareike. 2024. Methodenbeitrag: Named
    Entity Recognition (NER). Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 9. Named Entity Recognition (30.
    Oktober). doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3765">10.48694/fortext.3765</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/routinen/methoden/named-entity-recognition-ner">https://fortext.net/routinen/methoden/named-entity-recognition-ner</ext-link>.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
