<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3804</article-id>
<title-group>
<article-title>Ressourcenbeitrag: DWDS: Digitales Wörterbuch der
Deutschen Sprache</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0001-8047-2232</contrib-id>
<name>
<surname>Horstmann</surname>
<given-names>Jan</given-names>
</name>
<email>dh@jan-horstmann.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Münster</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>12</issue>
<issue-title>Projektkonzeption</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 01.07.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/dwds-digitales-woerterbuch-der-deutschen-sprache">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-07-01">
<day>01</day>
<month>07</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 01.07.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/dwds-digitales-woerterbuch-der-deutschen-sprache">fortext.net</ext-link></p>
<sec id="kurzbeschreibung">
  <title>1. Kurzbeschreibung</title>
  <p>Das DWDS ist ein digitales Lexikon, das Ihnen die freie Suche nach
  Begriffen der deutschen Sprache und ihrer historischen und
  gegenwärtigen Bedeutung ermöglicht. Sie können bestimmen, in welchen
  der großen Textsammlungen (z. B. DWDS-Kernkorpora (vgl.
  <xref alt="Korpus" rid="glossary-korpus">Korpus</xref>) des 19., 20.
  oder 21. Jahrhunderts, Zeitungs-, Blog-, Webkorpora etc.) und welcher
  Textsorte (Belletristik, Wissenschaft, Gebrauchsliteratur oder
  Zeitungen) gesucht werden soll.</p>
  <fig>
    <caption><p>Abb. 1.: Startseite des DWDS</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="DWDS-Startseite-p.png" />
  </fig>
  <p><bold>Steckbrief</bold></p>
  <list list-type="bullet">
    <list-item>
      <p><ext-link ext-link-type="uri" xlink:href="https://www.dwds.de">https://www.dwds.de</ext-link></p>
    </list-item>
    <list-item>
      <p>Projekt der Berlin-Brandenburgischen Akademie der
      Wissenschaften zur Erstellung eines digitalen allgemein
      zugänglichen Wörterbuchsystems mit derzeit 13.521.774.869 Tokens
      (vgl.
      <xref alt="Type/Token" rid="glossary-type-token">Type/Token</xref>)</p>
    </list-item>
    <list-item>
      <p>Referenzkorpora zum 19. (Deutsches Textarchiv (DTA) siehe
      Horstmann und Kern
      (<xref alt="2024" rid="ref-horstmannRessourcenbeitragDeutschesTextarchiv2018" ref-type="bibr">2024</xref>)),
      20. und 21. Jahrhundert: Das Kernkorpus zum 20. Jahrhundert (über
      121 Millionen Tokens) ist über das gesamte Jahrhundert gestreut
      und nach Textsorten ausgewogen: Belletristik (28,42 %), Zeitung
      (27,36 %), wissenschaftliche Fachtexte (23,15 %) und
      Gebrauchstexte (21,05 %); das Kernkorpus zum 21. Jahrhundert
      (derzeit gut 15 Millionen Tokens) wird laufend erweitert, ist noch
      nicht ausgewogen, jedoch ebenfalls zeitlich und nach Textsorten
      differenziert</p>
    </list-item>
    <list-item>
      <p>verknüpfte lexikalische Informationstypen: Artikel des
      Wörterbuchs der deutschen Gegenwartssprache (WDG) inkl.
      automatisch generierter Informationen zu Synonymen, Hyponymen und
      Hyperonymen, Textbeispiele aus den DWDS-Kernkorpora und
      statistische Kookkurrenz-Informationen</p>
    </list-item>
    <list-item>
      <p>mehr als 10.000 registrierte Benutzer*innen (einige Korpora
      benötigen zur Recherche eine kostenfreie Registrierung)</p>
    </list-item>
    <list-item>
      <p>Wörterbücher: Wörterbuch der deutschen Gegenwartssprache (WDG),
      DWDS-Wörterbuch, Etymologisches Wörterbuch des Deutschen,
      Deutsches Wörterbuch von Jacob Grimm und Wilhelm Grimm (DWB), Das
      Große Wörterbuch der deutschen Sprache in 10 Bänden (Duden 1999),
      OpenThesaurus</p>
    </list-item>
    <list-item>
      <p>Zeitungskorpora: BILD (1996-2018), Berliner Zeitung
      (1945-2005), Frankfurter Rundschau (1997-2000), neues deutschland
      (1946-1990), NZZ (1970-2018), SPIEGEL (1947-2014), Der Standard
      (2000-2016), Süddeutsche Zeitung (1992-2017), Tagesspiegel
      (1996-2005), taz (1986-1999), Welt (1997-2018), Die ZEIT
      (1946-2018)</p>
    </list-item>
    <list-item>
      <p>Spezialkorpora: Blogs, Webkorpus (Auswahl von Webseiten auf
      Deutsch), Dortmunder Chat-Korpus, Filmuntertitel, Polytechnisches
      Journal, DDR (1100 Texte von 1949-1990), Gesprochene Sprache
      (Transkripte von Reden, Parlamentsprotokollen, Interviws des 20.
      Jhs.), Text+Berg (Jahrbuch Schweizer-Alpenclub), Berliner
      Wendekorpus (77 Interviews mit Ost- und Westberliner*innen)</p>
    </list-item>
  </list>
</sec>
<sec id="anwendungsbeispiel">
  <title>2. Anwendungsbeispiel</title>
  <p>Sie vergleichen drei literarische Werke aus dem 19., 20. und 21.
  Jahrhundert in gendertheoretischer Perspektive und begegnen dabei
  unterschiedlichen Verwendungen des Begriffs „Geschlecht“. Eine
  Recherche im DWDS bietet Ihnen die diversen Bedeutungen des Begriffes,
  seine Etymologie, Verknüpfungen mit einem Thesaurus, ein Wortprofil
  mit einer interaktiven
  <xref alt="Wordcloud" rid="glossary-wordcloud">Wordcloud</xref>,
  automatisch generierte Beispiele aus den DWDS-Korpora wie „Aber jeder
  von uns besitzt alle nötigen Gene für beide Geschlechter“ aus der
  <italic>Süddeutschen Zeitung</italic> am 07. November 2003
  (<ext-link ext-link-type="uri" xlink:href="https://www.dwds.de/wb/Geschlecht">https://www.dwds.de/wb/Geschlecht</ext-link>,
  Zugriff: 07. Mai 2019), Angaben über die Worthäufigkeit, eine
  Wortverlaufskurve (die ihren Höhepunkt um 1800 hat),
  Zugriffsmöglichkeiten auf die älteren Wörterbücher DWB und WDG sowie
  Angaben über Trefferquoten in den einzelnen Korpora des DWDS (sodass
  Sie bei literaturwissenschaftlichem Interesse auch noch in die
  Referenzkorpora zu den einzelnen Jahrhunderten schauen können).</p>
</sec>
<sec id="diskussion">
  <title>3. Diskussion</title>
  <sec id="kann-ich-das-digitale-wörterbuch-der-deutschen-sprache-für-wissenschaftliche-arbeiten-nutzen">
    <title>3.1 Kann ich das Digitale Wörterbuch der Deutschen Sprache
    für wissenschaftliche Arbeiten nutzen?</title>
    <p>Ja. Das DWDS ist bibliographisch referenzierbar und bei der
    Textauswahl und Aufbereitung wurde und wird auf inhaltliche und
    qualitative Streuung geachtet, sodass der deutsche Wortschatz von
    1600 bis in die Gegenwart repräsentativ dargestellt wird. Zur
    Recherche von Volltexten bietet sich das DWDS jedoch nicht an.
    Stattdessen ermöglicht es dezidiert, Wörter in ihren
    Gebrauchskontexten zu erforschen. Volltexte finden Sie für das
    Referenzkorpus des 19. Jahrhunderts auf der Webseite des
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.deutschestextarchiv.de">Deutschen
    Textarchivs (DTA)</ext-link>. Für das 20. und 21. Jahrhundert können
    Volltexte aufgrund des Urheberrechts i. d. R. noch nicht angeboten
    werden, das DWDS stellt in dieser Hinsicht keine Ausnahme dar. Die
    <xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref> der
    hinterlegten Dokumente sind auf sehr hohem Niveau (die Redaktion
    achtet auf Vollständigkeit und Einheitlichkeit) und die mit dem DWDS
    gefundenen Belege können unter Beachtung der
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://dwds.de/d/nutzungsbedingungen">Nutzungsbedingungen</ext-link>
    frei weiterverwendet werden. Zudem bietet das DWDS eine
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://dwds.de/d/zitieren">Zitationshilfe</ext-link>
    an.</p>
  </sec>
  <sec id="wie-benutzerfreundlich-ist-die-arbeit-mit-dem-digitalen-wörterbuch-der-deutschen-sprache">
    <title>3.2 Wie benutzerfreundlich ist die Arbeit mit dem Digitalen
    Wörterbuch der Deutschen Sprache?</title>
    <p>Das DWDS kann in den meisten Bereichen intuitiv bedient werden
    und die Webseite ist übersichtlich gestaltet (vgl.
    <xref alt="GUI" rid="glossary-gui">GUI</xref>). Etliche Korpora
    können ohne vorherige Registrierung kostenfrei durchsucht werden und
    vor allem die Visualisierung (vgl.
    <xref alt="Text Mining" rid="glossary-text-mining">Text
    Mining</xref>) von bis zu vier Begriffen als Verlaufskurven (siehe
    Abb. 2) stellt ein hilfreiches Tool zur Herstellung von Übersichten
    dar.</p>
    <fig>
      <caption><p>Abb. 2: Verlaufskurven der Begriffe „Frieden“,
      „Liebe“, „Hoffnung“ und „Krieg“ in den
      DWDS-Referenzkorpora</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="DWDS-Verlaufskurve_Frieden-Liebe-Hoffnung-Krieg-p.png" />
    </fig>
    <p>Diese in unterschiedlichen Formaten exportierbaren Verlaufskurven
    bieten nicht nur einen synoptischen Überblick, sondern können auch
    interaktiv exploriert werden. Die Diagramme lassen sich zudem mit
    einem Klick dahingehend ausdifferenzieren, dass die einzelnen
    Textsorten zu den ausgewählten Begriffen getrennt voneinander
    visualisiert werden (siehe Abb. 3).</p>
    <fig>
      <caption><p>Abb. 3: Verlaufskurven der Begriffe „Frieden“,
      „Liebe“, „Hoffnung“ und „Krieg“ in den DWDS-Referenzkorpora,
      differenziert nach Textsorten</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="DWDS-Verlaufskurve-mit-Textsorten-p.png" />
    </fig>
    <p>Insbesondere der große Funktionsumfang der Suchoptionen (vgl.
    <xref alt="Query" rid="glossary-query">Query</xref>) bedarf jedoch
    einer genaueren Einarbeitung; eine kompakt gestaltete
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.dwds.de/d/suche">Überblicksseite</ext-link>
    ermöglicht Ihnen hierbei den Einstieg in die Grammatik der
    Suchabfragen. Einige Korpora des DWDS können aufgrund von
    Nutzungsvereinbarungen mit den Rechtegebern lediglich mit vorheriger
    Registrierung – dann jedoch ebenfalls kostenfrei – genutzt werden.
    Das mit beinahe allen Korpora im DWDS verknüpfte, von der
    Forschungsinfrastruktur CLARIN-D entwickelte Analysetool
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://clarin-d.de/de/kollokationsanalyse-in-diachroner-perspektive">DiaCollo</ext-link>
    zur diachronen Kollokationsanalyse (vgl.
    <xref alt="Kollokation" rid="glossary-kollokation">Kollokation</xref>)
    ermittelt typische Wortverbindungen nach deren zeitlichem Auftreten.
    Der ausgewählte Begriff wird auf Grundlage des jeweils bestimmten
    Korpus zusammen mit anderen in seinem Umfeld häufig vorkommenden
    Begriffen bspw. als animierte Wordcloud oder animierte
    Bubble-Visualisierung dargestellt (siehe Abb. 4). Wie das etwa mit
    dem Begriff „Liebe“ im Verlauf des 20. Jahrhunderts aussieht, können
    Sie
    <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.dwds.de/dstar/kern_www/diacollo/?query=Liebe&amp;format=cloud">hier</ext-link>
    verfolgen.</p>
    <fig>
      <caption><p>Abb. 4: Kollokationsanalyse des Begriffs „Liebe“ im
      DWDS-Kernkorpus des 20. Jahrhunderts als Wordcloud und
      Bubble-Visualisierung</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="DWDS-DiaCollo-Liebe-Cloud-1920-Bubbles-1980-p.png" />
    </fig>
  </sec>
</sec>
<sec id="wie-funktioniert-die-textsuche-im-digitalen-wörterbuch-der-deutschen-sprache">
  <title>4. Wie funktioniert die Textsuche im Digitalen Wörterbuch der
  Deutschen Sprache?</title>
  <p>Die Begriffssuche im DWDS funktioniert denkbar einfach: Bereits auf
  der Startseite haben Sie ein großes Sucheingabefeld, in das Sie Ihren
  Begriff eintippen können. Bereits während Sie tippen, werden Ihnen aus
  den Korpora des DWDS automatisch Vervollständigungen angeboten, wie
  Sie das auch von der Arbeit mit größeren onlinebasierten Suchmaschinen
  kennen. Sie können Ihren Begriff nun entweder vollständig eingeben
  (Groß- oder Kleinschreibung spielt hierbei keine Rolle) und dann die
  Suche starten (per Klick auf das Lupensymbol oder die Enter-Taste),
  oder Sie wählen einen der vorgeschlagenen Begriffe per Mausklick aus.
  Anschließend gelangen Sie zur Übersichtsseite des jeweiligen Begriffes
  mit allen oben im Abschnitt Anwendungsbereich beschriebenen
  Kategorien.
  Auf dieser Ergebnisseite sehen Sie in der rechten Spalte außerdem die
  sog. Korpustreffer. Klicken Sie hier auf das von Ihnen präferierte
  Korpus, gelangen Sie zu den einzelnen Vorkommnissen des gesuchten
  Begriffes im ausgewählten Korpus. Dort finden Sie außerdem eine
  differenzierte Suchmaske, um einzelne Korpora, Textsorten und genauer
  definierte Zeitabschnitte zu durchsuchen. Die Korpussuche bietet Ihnen
  zudem die Möglichkeit, Suchergebnisse in unterschiedlichen Ansichten
  darzustellen.
  Wie im Deutschen Textarchiv (DTA) ist es im gesamten DWDS möglich, die
  Suchabfragesprache der korpuslinguistischen Suchmaschine
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/http://deutschestextarchiv.de/doku/software#ddc">DDC</ext-link>
  zu verwenden, mithilfe derer
  <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.dwds.de/d/suche#korpussuche">komplexe
  Suchanfragen</ext-link> bspw. nach Wortgruppen, Phrasen, Lemmata,
  Satzanfängen etc. vorgenommen werden können.</p>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>DiaCollo Manual:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20240927130528/https://clarin-d.de/de/kollokationsanalyse-in-diachroner-perspektive">https://web.archive.org/web/20240927130528/https://clarin-d.de/de/kollokationsanalyse-in-diachroner-perspektive</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>DTA (Deutsches Textarchiv):
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106155219/https://www.deutschestextarchiv.de/">https://web.archive.org/web/20241106155219/https://www.deutschestextarchiv.de/</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>DTA (Deutsches Textarchiv) DDC Suchmaschine:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106155432/https://deutschestextarchiv.de/doku/software#ddc">https://web.archive.org/web/20241106155432/https://deutschestextarchiv.de/doku/software#ddc</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>DWDS Homepage:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106155912/https://www.dwds.de/">https://web.archive.org/web/20241106155912/https://www.dwds.de/</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>DWDS Korpussuche:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106160030/https://www.dwds.de/d/suche#korpussuche">https://web.archive.org/web/20241106160030/https://www.dwds.de/d/suche#korpussuche</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>DWDS Nutzungsbedingungen:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20240927130219/https://www.dwds.de/d/nutzungsbedingungen">https://web.archive.org/web/20240927130219/https://www.dwds.de/d/nutzungsbedingungen</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>DWDS Recherche:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106160227/https://www.dwds.de/wb/Geschlecht">https://web.archive.org/web/20241106160227/https://www.dwds.de/wb/Geschlecht</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>DWDS Überblicksseite:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106160030/https://www.dwds.de/d/suche">https://web.archive.org/web/20241106160030/https://www.dwds.de/d/suche</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>DWDS Zitationshilfe:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20240926033226/https://www.dwds.de/d/zitieren">https://web.archive.org/web/20240926033226/https://www.dwds.de/d/zitieren</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
    <list-item>
      <p>Wordcloud zum Begriff „Liebe“ im Verlauf des 20. Jahrhunderts:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106160605/https://ddc.dwds.de/dstar/kern/diacollo/?query=Liebe&amp;format=cloud">https://web.archive.org/web/20241106160605/https://ddc.dwds.de/dstar/kern/diacollo/?query=Liebe&amp;format=cloud</ext-link>
      (Letzter Zugriff: 06.11.24)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-commandline">Commandline</styled-content></term>
      <def>
        <p>Die Commandline (engl. <italic>command line
        interface</italic> (CLI)), auch Kommandozeile, Konsole, Terminal
        oder Eingabeaufforderung genannt, ist die direkteste Methode zur
        Interaktion eines Menschen mit einem Computer. Programme ohne
        eine grafische Benutzeroberfläche
        (<xref alt="GUI" rid="glossary-gui">GUI</xref>) werden i. d. R.
        durch Texteingabe in die Commandline gesteuert. Um die
        Commandline zu öffnen, klicken Sie auf Ihrem Mac „cmd“ +
        „space“, geben „Terminal“ ein und doppelklicken auf das
        Suchergebnis. Bei Windows klicken Sie die Windowstaste + „R“,
        geben „cmd.exe“ ein und klicken Enter.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-data-mining">Data
      Mining</styled-content></term>
      <def>
        <p>Data Mining gehört zum Fachbereich
        <xref alt="Information Retrieval" rid="glossary-information-retrieval">Information
        Retrieval</xref> und bezieht sich auf die systematische
        Anwendung computergestützter Methoden, die darauf abzielt, in
        vorhandenen Datenbeständen Muster, Trends oder Zusammenhänge zu
        erkennen. Textbasierte Formen des Data Minings sind u. a.
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>,
        <xref alt="Web Mining" rid="glossary-web-mining">Web
        Mining</xref> und
        <xref alt="Opinion Mining" rid="glossary-opinion-mining">Opinion
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-gui">GUI</styled-content></term>
      <def>
        <p>GUI steht für <italic>Graphical User Interface</italic> und
        bezeichnet eine grafische Benutzeroberfläche. Ein GUI ermöglicht
        es, Tools mithilfe von grafischen Schaltflächen zu bedienen, um
        somit beispielsweise den Umgang mit der
        <xref alt="Commandline" rid="glossary-commandline">Commandline</xref>
        zu umgehen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-information-retrieval">Information
      Retrieval</styled-content></term>
      <def>
        <p>Die Teildisziplin der Informatik, das Information Retrieval,
        beschäftigt sich mit der computergestützten Suche und
        Erschließung komplexer Informationen in meist unstrukturierten
        Datensammlungen.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-kollokation">Kollokation</styled-content></term>
      <def>
        <p>Als Kollokation bezeichnet man das häufige, gemeinsame
        Auftreten von Wörtern oder Wortpaaren in einem vordefinierten
        Textabschnitt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-korpus">Korpus</styled-content></term>
      <def>
        <p>Ein Textkorpus ist eine Sammlung von Texten. Korpora (Plural
        für „das Korpus“) sind typischerweise nach Textsorte, Epoche,
        Sprache oder Autor*in zusammengestellt.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-opinion-mining">Opinion
      Mininig</styled-content></term>
      <def>
        <p>Unter Opinion Mining, oder Sentiment Analysis, versteht man
        die Analyse von Stimmungen oder Haltungen gegenüber einem Thema,
        durch die Analyse natürlicher Sprache. Das Opinion Mining gehört
        zu den Verfahren des
        <xref alt="Text Minings" rid="glossary-text-mining">Text
        Minings</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-text-mining">Text
      Mining</styled-content></term>
      <def>
        <p>Das Text Mining ist eine textbasierte Form des
        <xref alt="Data Minings" rid="glossary-data-mining">Data
        Minings</xref>. Prozesse &amp; Methoden, computergestützt und
        automatisch Informationen bzw. Wissen aus unstrukturierten
        Textdaten zu extrahieren, werden als Text Mining
        zusammengefasst.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-web-mining">Web
      Mining</styled-content></term>
      <def>
        <p>Unter Web Mining versteht man die Anwendung von Techniken des
        <xref alt="Data Mining" rid="glossary-data-mining">Data
        Mining</xref> zur Extraktion von Informationen aus dem World
        Wide Web. Das Web Mining ist ein Teilbereich des Data Minings
        und zählt zu einem der wichtigsten Anwendungsgebiete für das
        <xref alt="Text Mining" rid="glossary-text-mining">Text
        Mining</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-wordcloud">Wordcloud</styled-content></term>
      <def>
        <p>Eine <italic>Wordcloud</italic>, oder auch Schlagwortwolke,
        ist eine Form der Informationsvisualisierung, beispielsweise von
        Worthäufigkeiten in einem Text oder einer Textsammlung. Dabei
        werden unterschiedlich gewichtete Wörter, wie die häufigsten
        Wörter, i.d.R. größer oder auf andere Weise hervorgehoben
        dargestellt. Die horizontale/vertikale Ausrichtung und die Farbe
        der dargestellten Wörter hat meistens allerdings keinen
        semantischen Mehrwert.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-barbaresiEfficientConstructionMetadataenhanced2016">
    <mixed-citation>Barbaresi, Adrien. 2016. Efficient construction of
    metadata-enhanced web corpora. In: <italic>Proceedings of the 10th
    Web as Corpus Workshop</italic>, 7–16. Berlin: Association for
    Computational Linguistics.
    <ext-link ext-link-type="uri" xlink:href="https://www.aclweb.org/anthology/W16-2602">https://www.aclweb.org/anthology/W16-2602</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-barbaresiFistfulBlogsDiscovery2014">
    <mixed-citation>Barbaresi, Adrien und Kay-Michael Würzner. 2014. For
    a fistful of blogs: Discovery and comparative benchmarking of
    republishable German content. In: <italic>Proceedings of NLP4CMC
    workshop (KONVENS 2014)</italic>, 2–10. Hildesheim University
    Press.</mixed-citation>
  </ref>
  <ref id="ref-geykenMethodenBeiWorterbuchplanung2014">
    <mixed-citation>Geyken, Alexander. 2014. Methoden bei der
    Wörterbuchplanung in Zeiten der Internetlexikographie.
    <italic>Lexicographica</italic> 30, Nr. 1: 77–111.</mixed-citation>
  </ref>
  <ref id="ref-heroldRetrodigitalisierungUndModellierung2011">
    <mixed-citation>Herold, Axel. 2011. Retrodigitalisierung und
    Modellierung des Wörterbuchs der deutschen Gegenwartssprache. In:
    <italic>Sprachliche Förderung und Weiterbildung –
    transdisziplinär</italic>, hg. von Andreas Kraft und Carmen Spiegel.
    Frankfurt am Main: Peter Lang.</mixed-citation>
  </ref>
  <ref id="ref-horstmannRessourcenbeitragDeutschesTextarchiv2018">
    <mixed-citation>Horstmann, Jan und Alexandra Kern. 2024.
    Ressourcenbeitrag: Deutsches Textarchiv (DTA). Hg. von Evelyn Gius.
    <italic>forTEXT</italic> 1, Nr. 11. Bibliografie (29. November).
    doi:
    <ext-link ext-link-type="uri" xlink:href="https://doi.org/10.48694/fortext.3791">10.48694/fortext.3791</ext-link>,
    <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/deutsches-textarchiv-dta">https://fortext.net/ressourcen/textsammlungen/deutsches-textarchiv-dta</ext-link>.</mixed-citation>
  </ref>
  <ref id="ref-klappenbachWorterbuchDeutschenGegenwartssprache1980">
    <mixed-citation>Klappenbach, Ruth und Helene Malige-Klappenbach.
    1980. Das Wörterbuch der deutschen Gegenwartssprache. Entstehung,
    Werdegang, Vollendung. In: <italic>Studien zur modernen deutschen
    Lexikographie. Auswahl aus den lexikographischen Arbeiten. Erweitert
    um drei Beiträge von Helene Malige-Klappenbach</italic>, hg. von
    Werner Abraham und Jan F. Brand, 3–58. Amsterdam:
    Benjamins.</mixed-citation>
  </ref>
  <ref id="ref-kleinDigitaleWorterbuchDeutschen2010">
    <mixed-citation>Klein, Wolfgang und Alexander Geyken. 2010. Das
    Digitale Wörterbuch der Deutschen Sprache DWDS.
    <italic>Lexicographica</italic> 26: 79–96.</mixed-citation>
  </ref>
  <ref id="ref-schmidtRefiningExploitingStructural2008">
    <mixed-citation>Schmidt, Thomas, Alexander Geyken und Angelika
    Storrer. 2008. Refining and Exploiting the Structural Markup of the
    eWDG. In: <italic>Proceedings of the XIII EURALEX International
    Congress</italic>, 469–481. Barcelona, Spain.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
