<?xml version="1.0" encoding="utf-8" ?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.3 20210610//EN"
                  "http://jats.nlm.nih.gov/archiving/1.3/JATS-archivearticle1-3.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" dtd-version="1.3" article-type="other">
<front>
<journal-meta>
<journal-id></journal-id>
<journal-title-group>
<journal-title>forTEXT</journal-title>
</journal-title-group>
<issn publication-format="electronic">2943-212X</issn>
<publisher>
<publisher-name>Universitäts- und Landesbibliothek
Darmstadt</publisher-name>
<publisher-loc>Darmstadt</publisher-loc>
</publisher>
</journal-meta>
<article-meta>
<article-id pub-id-type="doi">10.48694/fortext.3792</article-id>
<title-group>
<article-title>Resourcenbeitrag: HathiTrust Digital
Library</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<contrib-id contrib-id-type="orcid">0000-0002-1707-284X</contrib-id>
<name>
<surname>Flüh</surname>
<given-names>Marie</given-names>
</name>
<email>marie.flueh@uni-hamburg.de</email>
<xref ref-type="aff" rid="aff-1"/>
</contrib>
<aff id="aff-1">
<institution-wrap>
<institution>Universität Hamburg</institution>
</institution-wrap>
</aff>
</contrib-group>
<volume>1</volume>
<issue>11</issue>
<issue-title>Bibliografie</issue-title>
<pub-history>
<event>
<event-desc>Erstveröffentlichung: 01.04.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/hathitrust-digital-library">fortext.net</ext-link>
<date date-type="origdate" iso-8601-date="2019-04-01">
<day>01</day>
<month>04</month>
<year>2019</year>
</date>
</event-desc>
</event>
</pub-history>
<permissions>
<license license-type="open-access">
<ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by-sa/4.0/</ali:license_ref>
<license-p>-This work is licensed under a Creative Commons
Attribution-ShareAlike 4.0 International License.</license-p>
</license>
</permissions>
</article-meta>
</front>
<body>
<p><bold>Erstveröffentlichung:</bold> 01.04.2019 auf <ext-link ext-link-type="uri" xlink:href="https://fortext.net/ressourcen/textsammlungen/hathitrust-digital-library">fortext.net</ext-link></p>
<sec id="kurzbeschreibung">
  <title>1. Kurzbeschreibung</title>
  <p>Die HathiTrust Digital Library ist eine Online-Volltextdatenbank,
  die Primär- wie Sekundärliteratur bedeutender US-amerikanischer
  Forschungs- und Universitätsbibliotheken und Forschungsinstitutionen
  zur Verfügung stellt.</p>
  <fig>
    <caption><p>Abb. 1: Benutzeroberfläche der HathiTrust Digital
    Library</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="Bildschirmfoto_2019-01-29_um_17.26.47_1-p.png" />
  </fig>
  <p><bold>Steckbrief</bold></p>
  <list list-type="bullet">
    <list-item>
      <p><ext-link ext-link-type="uri" xlink:href="https://www.hathitrust.org/">https://www.hathitrust.org/</ext-link><ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.hathitrust.org/">2</ext-link></p>
    </list-item>
    <list-item>
      <p>circa 17.000.000 Bände bzw. circa 8.000.000 Bücher</p>
    </list-item>
    <list-item>
      <p>Schwerpunkte: Sprach- und Literaturwissenschaft,
      Geschichtswissenschaft, Theologie, Philosophie</p>
    </list-item>
    <list-item>
      <p>etwa die Hälfte der Werke in englischer Sprache, zweitgrößte
      Sprachgruppe Deutsch, gefolgt von Französisch, Spanisch,
      Chinesisch, Russisch und vielen weiteren Sprachen</p>
    </list-item>
    <list-item>
      <p>Berichtszeitraum: 1500 bis Gegenwart, Schwerpunkt bei den
      gemeinfreien Werken (vgl.
      <xref alt="Open Access" rid="glossary-open-access">Open
      Access</xref>) zwischen 1800 und 1923</p>
    </list-item>
    <list-item>
      <p><xref alt="Metadaten" rid="glossary-metadaten">Metadaten</xref>:
      Autor, Sprache, Veröffentlichungsort und -jahr, Verlag,
      Themenbereiche, Seitenzahl, Buchmaß, ISBN (OCLC, LCCN),
      Urheberrechtsvermerk, URL (vgl.
      <xref alt="URI" rid="glossary-uri">URI</xref>)</p>
    </list-item>
    <list-item>
      <p>Ziel: Erhalt des kulturellen Gedächtnisses durch Organisation,
      Digitalisierung, Langzeitarchivierung und Bereitstellung v. a. von
      Büchern und Zeitschriften (ursprünglich als Back-up von Google
      Books angelegt), Koordination einer gemeinsamen Speicherstrategie
      der Bibliotheken</p>
    </list-item>
    <list-item>
      <p>Zusammensetzung: Digitalisate aus der Zusammenarbeit der über
      140 HathiTrust-Mitglieder mit Google, dem Internet Archive und
      Microsoft und eigene Digitalisate aller beteiligten
      Bibliotheken</p>
    </list-item>
    <list-item>
      <p>Möglichkeit der Zusammenstellung eigener Textsammlungen und
      deren Verwaltung (Bearbeiten, Speichern, Teilen, Herunterladen der
      Metadaten als TSV- oder JSON-Datei)</p>
    </list-item>
    <list-item>
      <p>Zugriffsmöglichkeiten: HathiTrust-Mitglieder: Zugriff auf alle
      urheberrechtlich geschützten Werke, Herunterladen vollständiger
      Bücher; andere: Zugriff auf alle gemeinfreien Werke, Herunterladen
      einzelner Seiten im
      <xref alt="PDF" rid="glossary-pdf">PDF</xref>-Format</p>
    </list-item>
  </list>
</sec>
<sec id="anwendungsbeispiel">
  <title>2. Anwendungsbeispiel</title>
  <p>Sie möchten die Zeitschrift <italic>Die Fackel</italic> von Karl
  Kraus nach Äußerungen über Heinrich Heine untersuchen, um Rhetorik und
  Darstellungsweise des Herausgebers und Satirikers zu analysieren. Um
  einen Einstieg in Ihre Recherche zu finden, möchten Sie sich außerdem
  einen Überblick über die relevante Forschungsliteratur zu Karl Kraus
  verschaffen.</p>
</sec>
<sec id="diskussion">
  <title>3. Diskussion</title>
  <sec id="kann-ich-die-hathitrust-digital-library-für-wissenschaftliche-arbeiten-nutzen">
    <title>3.1 Kann ich die HathiTrust Digital Library für
    wissenschaftliche Arbeiten nutzen?</title>
    <p>Ja, der Verlag HathiTrust verpflichtet sich dazu, die hohe
    Qualität digitalisierter Texte und Metadaten zu sichern. Das
    Repositorium wurde vom <italic>Center for Research
    Libraries</italic> (CRL) als ein vertrauenswürdiges und die
    <italic>TRAC-Kriterien</italic> („Trustworthy Repositories Audit
    &amp; Certification“; Kriterienkatalog für vertrauenswürdige
    Langzeitarchive) erfüllendes digitales Langzeitarchiv ausgezeichnet.
    Verbindliche Richtlinien
    (<ext-link ext-link-type="uri" xlink:href="https://www.hathitrust.org/ingest">https://www.hathitrust.org/ingest</ext-link><ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.hathitrust.org/ingest">7</ext-link>),
    an die sich Partnerorganisationen bei der Beisteuerung ihrer
    Digitalisate halten müssen, zielen ebenfalls auf den Erhalt einer
    hohen Qualität ab. Im Rahmen einer umfassenden
    Digitalisierungsstrategie werden fortlaufend Qualitätskontrollen
    durchgeführt, in denen die zufriedenstellende Berücksichtigung der
    ratifizierten Standards zur Bewahrung digitalisierter Objekte
    überprüft wird. Die Qualität der Beiträge wird gemessen und
    dokumentiert, um darauf aufbauend eine fortschreitende
    Qualitätsverbesserung zu initiieren. Bei der großen Bandbreite an
    Inhalten, die von zahlreichen Forschungseinrichtungen beigesteuert
    werden, ist eine gleichwertige Qualität sämtlicher gescannter
    Dokumente nicht immer gegeben. Mangelnde Bildqualität oder
    <xref alt="OCR" rid="glossary-ocr">OCR</xref>-Probleme werden jedoch
    bearbeitet, nachdem sie von Nutzer*innen gemeldet wurden.
    Das Verbundprojekt HathiTrust unterstützt im Rahmen einer
    vereinbarten Speicherstrategie die Digitalisierung und Aufnahme
    digitaler Bücher, Journals und buchähnlicher Materialien wie
    Manuskripte. Auch der Import von Audio- und Bilddateien ist
    ausdrücklich erwünscht.
    Die HathiTrust Digital Library ermöglicht Ihnen eine äußerst
    dynamische Texterschließung, die die Arbeit mit umfangreichen
    Primär- und Sekundärquellen bereichert. Die multifunktionale
    Menüleiste beinhaltet neben gängigen Funktionen wie dem Heran- und
    Herauszoomen auch unterschiedliche Seitenansichten (Buch, Thumbnail,
    Einzelseite, Full Screen). Innerhalb der Referenz können Sie über
    die Menüleiste direkt an die für Sie relevante Textpassage
    springen.</p>
    <fig>
      <caption><p>Abb. 2: Interface der Menüleiste der HathiTrust
      Digital Library</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="Mit_einer_Referenz_arbeiten-1-p_1.png" />
    </fig>
    <p>Sie können darüber hinaus beispielsweise die originalen
    Transkripte der <italic>Fackel</italic> ansehen und zwischen
    unterschiedlichen Textdarstellungen wählen: Über den
    „Plain-Text“-Button (vgl.
    <xref alt="Reintext-Version" rid="glossary-reintext-version">Reintext-Version</xref>)
    können Sie zwischen der reinen Textansicht und dem originalen
    Seitenlayout hin und her springen. In den einzelnen Digitalisaten
    sind Volltextsuchen über das „Search in this text“-Eingabefeld
    möglich. Ergebnisse werden im Transkript angezeigt.</p>
    <fig>
      <caption><p>Abb. 3: Per Suchanfrage lassen sich Textdokumente nach
      Begriffen durchsuchen. Links: Die Ansicht der „Plain
      Text“-Variante mit der Hervorhebung des Suchbegriffs; Rechts: Via
      „Scroll“-Button können Sie die entsprechende Seite im Original
      ansehen</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="Bildschirmfoto_2019-02-07_um_18.15.13-p_0.png" />
    </fig>
  </sec>
  <sec id="wie-benutzerfreundlich-ist-die-arbeit-mit-der-hathitrust-digital-library">
    <title>3.2 Wie benutzerfreundlich ist die Arbeit mit der HathiTrust
    Digital Library?</title>
    <p>Die Website der HathiTrust ist übersichtlich gestaltet und für
    Erstnutzer*innen intuitiv bedienbar. Der Fokus richtet sich nach dem
    Aufrufen der Startseite unmittelbar auf das Wesentliche des
    digitalen Langzeitarchivs: Das Suchfeld und die unterschiedlichen
    Recherchemöglichkeiten (Volltextsuche oder Katalogsuche (vgl.
    <xref alt="Query" rid="glossary-query">Query</xref>)). Ebenfalls
    selbsterklärend ist die Sondierung der Ergebnisse von Suchanfragen
    und die Erkundung der frei zugänglichen Referenzen. Ein
    englischsprachiges digitales Handbuch, in dem unter anderem häufig
    gestellte Fragen zur Benutzung der Online-Bibliothek sowie Hinweise
    für eine erfolgreiche Suche oder Copyright-Vermerke erläutert
    werden, steht Ihnen zur Verfügung
    (<ext-link ext-link-type="uri" xlink:href="https://www.hathitrust.org/help">https://www.hathitrust.org/help</ext-link><ext-link ext-link-type="uri" xlink:href="https://web.archive.org/save/https://www.hathitrust.org/help">13</ext-link>)
    und erleichtert erste Recherche-Schritte. Darüber hinaus ist der
    HathiTrust Verlag für Anfragen aller Art per E-Mail, Telefon,
    Kontaktformular oder Post erreichbar. Das primäre Engagement der
    HathiTrust gilt den US-amerikanischen Universitäts- und
    Forschungsbibliotheken, deren Status über einen Check der IP-Adresse
    überprüft wird. Auf urheberrechtlich geschützte Werke können
    ausschließlich Mitglieder der Partnerbibliotheken zugreifen. Das
    Herunterladen ganzer Bücher ist ebenfalls den Mitgliedern
    vorbehalten. Der Zugang zu Werken, die bis 1923 in den USA
    veröffentlicht wurden, ist nur mit einer US-amerikanischen
    IP-Adresse möglich. Sämtliche vor 1872 außerhalb der USA
    veröffentlichten Werke werden als gemeinfreie Werke eingestuft und
    sind deshalb weltweit abrufbar. Freie Nutzer*innen können zwar in
    der gesamten Bibliothek recherchieren, müssen hierbei jedoch die
    eingeschränkten Zugriffsmöglichkeiten auf den Gesamtbestand der
    HathiTrust Digital Library berücksichtigen, was die Recherche
    erheblich einschränken kann. Über den „Find in a Library“-Button
    können externe Nutzer*innen allerdings herausfinden, in welcher
    Bibliothek oder welcher Datenbank Referenzen zur Verfügung
    stehen.</p>
    <fig>
      <caption><p>Abb. 4: Durch den permanenten Link können Sie
      zeitunabhängig auf die entsprechende Referenz
      zurückgreifen</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="UnbenanntBildschirmfoto_2019-02-07_um_17.40.06-p_3.png" />
    </fig>
    <p>Einzelne Seiten lizenzierter Werke können Sie als PDF
    herunterladen oder als permanenten Link speichern, der Sie zur der
    entsprechenden Seite zurückführt.
    Externe Nutzer*innen können außerdem einen kostenlosen Gast-Account
    erstellen (Zugang entweder über existierenden Account bei Google,
    Facebook, Twitter, Yahoo, LinkedIn, Microsoft oder nach der
    Erstellung eines Accounts bei der University of Michigan), in dem
    Sie eigene Literatursammlungen erstellen, verwalten und mit anderen
    Nutzer*innen teilen können. Auch hier gilt allerdings die
    Beschränkung auf als gemeinfrei eingestufte Werke, die vor 1872
    außerhalb der USA erschienen sind. Aktuelle relevante
    Forschungsliteratur wird zwar angezeigt und kann seitenweise gelesen
    werden, für einen Volltextzugang müssen Sie jedoch den Umweg über
    den „Find in a Library“-Button gehen.</p>
    <fig>
      <caption><p>Abb. 5: Via „Find in a library“-Button werden Ihnen
      die Standorte einer Referenz aufgelistet</p></caption>
      <graphic mimetype="image" mime-subtype="png" xlink:href="Bildschirmfoto_2019-02-25_um_11.55.55-p.png" />
    </fig>
  </sec>
</sec>
<sec id="wie-funktioniert-die-textsuche-in-der-hathitrust-digital-library">
  <title>4. Wie funktioniert die Textsuche in der HathiTrust Digital
  Library?</title>
  <p>Innerhalb des Gesamtkatalogs können Sie über die Freitexteingabe
  eine Volltextsuche durchführen. Die Katalogsuche können Sie nach
  Titel, Autor, Thema, ISBN/ISSN, Herausgeber oder Serientitel
  spezifizieren. Ergebnisse der Suchanfrage werden als scrollbare
  Literaturliste dargestellt. Als hilfreiche Ergänzung der Recherche
  erweist sich die „Refine Results“-Spalte, in der unter Filtern wie
  beispielsweise Sprache, Thema oder Datum der Veröffentlichung
  spezifizierte Rechercheergebnisse abgerufen werden können. Über den
  „Catalog Record“-Button gelangen Sie zu der Detailansicht der
  Referenz, in der Ihnen auch die Metadaten zur Verfügung gestellt
  werden. Diese basieren auf den Metadaten der unterschiedlichen
  Bibliotheken und sind deshalb nicht immer einheitlich. Grundlegende
  Metadaten wie Titel, Referenzart und Datum werden in jedem Fall zur
  Verfügung gestellt und lassen sich direkt in Ihr
  Literaturverwaltungsprogramm importieren. Hier wird die weitere Suche
  nach Forschungsliteratur erleichtert, indem in der „Similar
  Items“-Spalte weitere Publikationen des Autors angezeigt werden.</p>
  <fig>
    <caption><p>Abb. 6: Detailansicht der Recherche in der HathiTrust
    Digital Library</p></caption>
    <graphic mimetype="image" mime-subtype="png" xlink:href="HathiTrust__Recherche-2_1-p.png" />
  </fig>
</sec>
<sec id="externe-und-weiterführende-links">
  <title>Externe und weiterführende Links</title>
  <list list-type="bullet">
    <list-item>
      <p>HathiTrust:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106120018/https://www.hathitrust.org/">https://web.archive.org/web/20241106120018/https://www.hathitrust.org/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>HathiTrust Handbuch:
      <ext-link ext-link-type="uri" xlink:href="https://www.hathitrust.org/help">https://www.hathitrust.org/help</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>HathiTrust Help Center:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106120052/https://hathitrust.atlassian.net/servicedesk/customer/portals">https://web.archive.org/web/20241106120052/https://hathitrust.atlassian.net/servicedesk/customer/portals</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
    <list-item>
      <p>Richtlinien für Digitalisate:
      <ext-link ext-link-type="uri" xlink:href="https://web.archive.org/web/20241106120104/https://www.hathitrust.org/member-libraries/contribute-content/">https://web.archive.org/web/20241106120104/https://www.hathitrust.org/member-libraries/contribute-content/</ext-link>
      (Letzter Zugriff: 06.11.2024)</p>
    </list-item>
  </list>
</sec>
<sec id="glossar">
  <title>Glossar</title>
  <def-list>
    <def-item>
      <term><styled-content id="glossary-annotation">Annotation</styled-content></term>
      <def>
        <p>Annotation beschreibt die manuelle oder automatische
        Hinzufügung von Zusatzinformationen zu einem Text. Die manuelle
        Annotation wird händisch durchgeführt, während die
        (teil-)automatisierte Annotation durch
        <xref alt="Machine-Learning-Verfahren" rid="glossary-machine-learning">Machine-Learning-Verfahren</xref>
        durchgeführt wird. Ein klassisches Beispiel ist das
        automatisierte
        <xref alt="PoS-Tagging" rid="glossary-pos">PoS-Tagging</xref>
        (Part-of-Speech-Tagging), welches oftmals als Grundlage
        (<xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>)
        für weitere Analysen wie Named Entity Recognition (NER) nötig
        ist. Annotationen können zudem deskriptiv oder analytisch
        sein.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-browser">Browser</styled-content></term>
      <def>
        <p>Mit Browser ist in der Regel ein Webbrowser gemeint, also ein
        Computerprogramm, mit dem das Anschauen, Navigieren auf, und
        Interagieren mit Webseiten möglich wird. Am häufigsten genutzt
        werden dafür Chrome, Firefox, Safari oder der Internet
        Explorer.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-csv">CSV</styled-content></term>
      <def>
        <p>CSV ist die englische Abkürzung für <italic>Comma Separated
        Values</italic>. Es handelt sich um ein Dateiformat zur
        einheitlichen Darstellung und Speicherung von einfach
        strukturierten Daten mit dem Kürzel <monospace>.csv</monospace>
        , sodass diese problemlos zwischen IT-Systemen ausgetauscht
        werden können. Dabei sind alle Daten zeilenweise angeordnet.
        Alle Zeilen wiederum sind in einzelne Datenfelder aufgeteilt,
        welche durch Trennzeichen wie Semikola oder Kommata getrennt
        werden können. In Programmen wie Excel können solche Textdateien
        als Tabelle angezeigt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-html">HTML</styled-content></term>
      <def>
        <p>HTML steht für <italic>Hypertext Markup Language</italic> und
        ist eine textbasierte Auszeichnungssprache zur Strukturierung
        elektronischer Dokumente. HTML-Dokumente werden von
        <xref alt="Webbrowsern" rid="glossary-browser">Webbrowsern</xref>
        dargestellt und geben die Struktur und Online-Darstellung eines
        Textes vor. HTML-Dateien können außerdem zusätzliche
        <xref alt="Metainformationen" rid="glossary-metadaten">Metainformationen</xref>
        enthalten, die auf einer Webseite selbst nicht ersichtlich
        sind.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-lemmatisieren">Lemmatisieren</styled-content></term>
      <def>
        <p>Die Lemmatisierung von Textdaten gehört zu den wichtigen
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritten
        in der Textverarbeitung. Dabei werden alle Wörter
        (<xref alt="Token" rid="glossary-type-token">Token</xref>) eines
        Textes auf ihre Grundform zurückgeführt. So werden
        beispielsweise Flexionsformen wie „schneller“ und „schnelle“ dem
        Lemma „schnell“ zugeordnet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-machine-learning">Machine
      Learning</styled-content></term>
      <def>
        <p>Machine Learning, bzw. maschinelles Lernen im Deutschen, ist
        ein Teilbereich der künstlichen Intelligenz. Auf Grundlage
        möglichst vieler (Text-)Daten erkennt und erlernt ein Computer
        die häufig sehr komplexen Muster und Gesetzmäßigkeiten
        bestimmter Phänomene. Daraufhin können die aus den Daten
        gewonnen Erkenntnisse verallgemeinert werden und für neue
        Problemlösungen oder für die Analyse von bisher unbekannten
        Daten verwendet werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-markup-language">Markup
      Language</styled-content></term>
      <def>
        <p>Markup Language bezeichnet eine maschinenlesbare
        Auszeichnungssprache, wie z. B.
        <xref alt="HTML" rid="glossary-html">HTML</xref>, zur
        Formatierung und Gliederung von Texten und anderen Daten. So
        werden beispielsweise auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        durch ihre Digitalisierung oder ihre digitale Erstellung zu
        Markup, indem sie den Inhalt eines Dokumentes strukturieren.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-metadaten">Metadaten</styled-content></term>
      <def>
        <p>Metadaten oder Metainformationen sind strukturierte Daten,
        die andere Daten beschreiben. Dabei kann zwischen
        administrativen (z. B. Zugriffsrechte, Lizenzierung),
        deskriptiven (z. B. Textsorte), strukturellen (z. B. Absätze
        oder Kapitel eines Textes) und technischen (z. B. digitale
        Auflösung, Material) Metadaten unterschieden werden. Auch
        <xref alt="Annotationen" rid="glossary-annotation">Annotationen</xref>
        bzw.
        <xref alt="Markup" rid="glossary-markup-language">Markup</xref>
        sind Metadaten, da sie Daten/Informationen sind, die den
        eigentlichen Textdaten hinzugefügt werden und Informationen über
        die Merkmale der beschriebenen Daten liefern.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-named-entities">Named
      Entities</styled-content></term>
      <def>
        <p>Eine Named Entity (NE) ist eine Entität, oft ein Eigenname,
        die meist in Form einer Nominalphrase zu identifizieren ist.
        Named Entities können beispielsweise Personen wie „Nils
        Holgerson“, Organisationen wie „WHO“ oder Orte wie „New York“
        sein. Named Entities können durch das Verfahren der Named Entity
        Recognition (NER) automatisiert ermittelt werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-ocr">OCR</styled-content></term>
      <def>
        <p>OCR steht für <italic>Optical Character Recognition</italic>
        und bezeichnet die automatische Texterkennung von gedruckten
        Texten, d. h. ein Computer „liest“ ein eingescanntes Dokument,
        erkennt und erfasst den Text darin und generiert daraufhin eine
        elektronische Version.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-open-access">Open
      Access</styled-content></term>
      <def>
        <p>Open Access bezeichnet den freien Zugang zu
        wissenschaftlicher Literatur und anderen Materialien im
        Internet.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pdf">PDF</styled-content></term>
      <def>
        <p>PDF steht für <italic>Portable Document Format</italic> . Es
        handelt sich um ein plattformunabhängiges Dateiformat, dessen
        Inhalt auf jedem Gerät und in jedem Programm originalgetreu
        wiedergegeben wird. PDF-Dateien können Bilddateien (z. B. Scans
        von Texten) oder computerlesbarer Text sein. Ein lesbares PDF
        ist entweder ein
        <xref alt="OCR" rid="glossary-ocr">OCR</xref>ter Scan oder ein
        am Computer erstellter Text.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-pos">POS</styled-content></term>
      <def>
        <p>PoS steht für <italic>Part of Speech</italic>, oder „Wortart“
        auf Deutsch. Das PoS-
        <xref alt="Tagging" rid="glossary-annotation">Tagging</xref>
        beschreibt die (automatische) Erfassung und Kennzeichnung von
        Wortarten in einem Text und ist of ein wichtiger
        <xref alt="Preprocessing" rid="glossary-preprocessing">Preprocessing</xref>-Schritt,
        beispielsweise für die Analyse von
        <xref alt="Named Entities" rid="glossary-named-entities">Named
        Entities</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-preprocessing">Preprocessing</styled-content></term>
      <def>
        <p>Für viele digitale Methoden müssen die zu analysierenden
        Texte vorab „bereinigt“ oder „vorbereitet“ werden. Für
        statistische Zwecke werden Texte bspw. häufig in gleich große
        Segmente unterteilt (<italic>chunking</italic>), Großbuchstaben
        werden in Kleinbuchstaben verwandelt oder Wörter werden
        <xref alt="lemmatisiert" rid="glossary-lemmatisieren">lemmatisiert</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-query">Query</styled-content></term>
      <def>
        <p><italic>Query</italic> bedeutet „Abfrage“ oder „Frage“ und
        bezeichnet eine computergestützte Abfrage zur Analyse eines
        Textes. Um Datenbestände zu durchsuchen, werden Abfragesprachen
        eingesetzt, die <italic>Queries</italic> (Anfragen) an den
        Datenbestand senden. So bilden alle möglichen Queries zusammen
        die <italic>Query Language</italic> eines Tools.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-reintext-version">Reintext-Version</styled-content></term>
      <def>
        <p>Die Reintext-Version ist die Version eines digitalen Textes
        oder einer Tabelle, in der keinerlei Formatierungen
        (Kursivierung, Metadatenauszeichnung etc.) enthalten sind.
        Reintext-Formate sind beispielsweise TXT, RTF und
        <xref alt="CSV" rid="glossary-csv">CSV</xref>.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-type-token">Type/Token</styled-content></term>
      <def>
        <p>Das Begriffspaar „Type/Token“ wird grundsätzlich zur
        Unterscheidung von einzelnen Vorkommnissen (Token) und Typen
        (Types) von Wörtern oder Äußerungen in Texten genutzt. Ein Token
        ist also ein konkretes Exemplar eines bestimmten Typs, während
        ein Typ eine im Prinzip unbegrenzte Menge von Exemplaren (Token)
        umfasst.
        Es gibt allerdings etwas divergierende Definitionen zur
        Type-Token-Unterscheidung. Eine präzise Definition ist daher
        immer erstrebenswert. Der Satz „Ein Bär ist ein Bär.“ beinhaltet
        beispielsweise fünf Worttoken („Ein“, „Bär“, „ist“, „ein“,
        „Bär“) und drei Types, nämlich: „ein“, „Bär“, „ist“. Allerdings
        könnten auch vier Types, „Ein“, „ein“, „Bär“ und „ist“, als
        solche identifiziert werden, wenn Großbuchstaben beachtet
        werden.</p>
      </def>
    </def-item>
    <def-item>
      <term><styled-content id="glossary-uri">URI</styled-content></term>
      <def>
        <p><italic>Uniform Resource Identifier</italic> (URI) ist ein
        Identifikator zur eindeutigen Erkennung von Online-Ressourcen
        wie Webseiten. Im „Raum“ des Internets können so alle Inhalte
        eindeutig identifiziert werden, unabhängig davon, ob es sich
        dabei beispielsweise um eine Seite mit Text oder Video handelt.
        Die am häufigsten verwendete Form eines URI ist die
        Webseitenadresse, die URL.</p>
      </def>
    </def-item>
  </def-list>
</sec>
</body>
<back>
<ref-list>
  <title>Bibliographie</title>
  <ref id="ref-christensonHathiTrustResearchLibrary2011">
    <mixed-citation>Christenson, Heather. 2011. HathiTrust. A Research
    Library at Web Scale. <italic>Library Resources and Technical
    Services</italic> 55, Nr. 2: 93–102.</mixed-citation>
  </ref>
  <ref id="ref-cobineHathiTrustResearchCenter2013">
    <mixed-citation>Cobine, Ryan, J. Stephen Downie, Inna Kouper, Robert
    Mcdonald, Beth Pale, Beth Sandore Namachchivaya, Yiming Sun und John
    Unsworth. 2013. HathiTrust Research Center: Computational Access for
    Digital Humanities and Beyond. In: <italic>JCDL 13 Proceedings of
    the 13th ACM/IEEE-CS Joint Conference on Digital Libraries</italic>,
    395–396.</mixed-citation>
  </ref>
  <ref id="ref-harveyCurrentTopicsLibrary2012">
    <mixed-citation>Harvey, Ross. 2012. <italic>Current Topics in
    Library and Information Practice</italic>. Berlin/Boston: de
    Gruyter.</mixed-citation>
  </ref>
</ref-list>
</back>
</article>
