Giter VIP home page Giter VIP logo

Comments (3)

felixlohmeier avatar felixlohmeier commented on September 25, 2024

Entscheidung im Jour Fixe hbz/OCC: Vorerst werden nur Datensätze mit Direktlink auf mindestens ein PDF aufgenommen. Strukturelemente und Datensätze ohne Direktlink auf ein PDF werden ausgefiltert.

from noah-muenster-miami.

felixlohmeier avatar felixlohmeier commented on September 25, 2024

Das Portal ist momentan auf die Darstellung von PDFs optimiert. Nur diese werden für die Bildextraktion und Volltextsuche herangezogen. Datensätze ohne PDF werden als reine Metadaten dargestellt. Vorläufig sollten daher, wie beschlossen, nur Datensätze mit Direktlink auf mindestens ein PDF aufgenommen werden.

Es zeigt sich jetzt, dass auch das problematisch sein kann, weil anhand der Daten der ULB Münster das Hauptdokument nicht eindeutig identifiziert werden kann. Es kann also folgende Fälle geben:

  • Das Hauptdokument ist ein Multimedia-Objekt (z.B. ein Video) und das PDF enthält nur einen nachrangigen Inhalt (wie z.B. eine Literaturliste).
  • Es gibt mehrere PDF-Dateien, z.B. den Haupttext einer Dissertation und Anlagen als separate Datei.

Beide Fälle können zu irreführenden Darstellungen im Portal führen. Vorläufig können daher nur Datensätze eindeutig ausgewertet werden, die ausschließlich einen Link auf ein PDF enthalten.

Leider können wir dadurch Datensätze nicht auswerten, die zusätzlich zum PDF noch Quelldateien beinhalten, wie diese Dissertaton: Frontpage, OAI

from noah-muenster-miami.

felixlohmeier avatar felixlohmeier commented on September 25, 2024

So wirken sich die Fitler aus:

Datensätze Differenz Erläuterung
7943   Harvesting 19.03.2021
7940 -3 Ältere Einträge (nach mets:metsHdr - CREATEDATE) mit gleichem Identifier entfernen
7851 -89 Aggregationen löschen (diese Datensätze werden von untergeordneten Werken über relatedItem referenziert)
7731 -120 Datensätze ohne Direktlink auf ein PDF löschen
7196 -535 Vorläufig Datensätze löschen, die mehr als einen Direktlink beinhalten
6810 -386 Vorläufig Zeitschriftenhefte löschen
6683 -127 Datensätze mit "restriction on access" löschen

from noah-muenster-miami.

Related Issues (5)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.