wouterbeek / etl-andb Goto Github PK

View Code? Open in Web Editor NEW

0.0 0.0 1.0 521 KB

Werk repository voor de creatie van de ANDB dataset in linked data.

TypeScript 80.76% Python 19.24%

etl-andb's People

Contributors

Watchers

Forkers

iish

etl-andb's Issues

[CoW/Druid] Integratie gegevens uit verschillende datasets

Data over 1 persoon is verspreid over de personen dataset en 3 kaarten datasets.

In a) staat bij de persoon aangegeven welke kaarten hij heeft en in b) staat bij de kaart aangegeven van welke persoon hij is. Als alle graphs in 1 dataset zouden zitten zou deze informatie automatisch geintegreerd worden. Zoals ook in de voorbeeld data van Wouter te zien is:
https://druid.datalegend.net/andb/andb2/browser?resource=https%3A%2F%2Fiisg.amsterdam%2Fid%2Fdiamantbewerkers%2F7bd29f33-cfd6-4f3c-ac11-d786c255ebe3

Of in mijn test op met personen en ADB kaarten op https://druid.datalegend.net/MiconSchorsij/ANDBall

Maar we hebben gekozen voor losse datasets. Hoe nu toch de integratie van de data te realiseren? Of is dit geen issue?

Afbeeldingen van de kaarten

De UUID's van de afbeeldingen zitten niet in de brondata. Hoe de links naar de afbeeldingen vanuit de linked data tot stand te brengen?

[CoW] Time:before/after

Ik heb een voorbeeld nodig van hoe je het time:before / after op correcte wijze in het CoW script opneemt. Bijvoorbeeld bij de adressen in de ADB json.

[CoW] Afhandeling empty objects

Normaal gesproken worden worden lege velden genegeerd, maar niet als je een array maakt. Ik heb onvoldoende ervaring om dit in het CoW script af te handelen. Voorbeeld: repeterende adresvelden en samengevoegde datumvelden in het ADB CoW script.

Samenvoegen data via CoW script

Data bestaan uit losse dag, maand en jaar velden. Kan je hier door middel van een stukje script in de CoW json complete data van maken?

[Datamodel/CoW] Persoonsgegevens op kaart

Naam en geboorte/sterfdatum uit de personendataset zijn leading. Op de kaarten komen soms namen en data voor die afwijken. Die willen we ook weergeven als "naam op kaart", "datum op kaart" Hoe dit aan te pakken.

[CoW] Unieke identifiers voor resources met een niet unieke naam

Hoe zorg je ervoor dat bijvoorbeeld de kinderen in de ADB dataset, die alleen met hun voornaam worden aangeduid uniek geidentificeerd kunnen worden. Omdat er meerdere kinderen zijn met dezelfde naam worden die nu allemaal als 1 persoon beschouwd.
Voorbeeld:
https://druid.datalegend.net/MiconSchorsij/ANDBall/browser?resource=https%3A%2F%2Fiisg.amsterdam%2Fid%2Fadb%2FRachel

Data

In de kaarten datasets zijn data altijd als losse velden day / month / year opgeslagen. Is het verstandig om die velden al in de csv's samen te voegen of is er een andere oplossing?

[CoW] Inverse relaties

Ik heb een voorbeeld nodig van hoe je op correcte wijze de inverse relaties in het CoW script verwerkt, zoals bijvoorbeeld hasMembership - member

[Datamodel] Verwerking lidmaatschapsinformatie ADB

De dataset van de ADB (Antwerpen) bevat een cluster informatievelden over het lidmaatschap (mmb-01 t/m 05) waar ik geen weg mee weet. Deze velden zijn niet nieuw, ze zitten ook in de huidige dataset op Druid, maar ik ben niet tevreden met de manier waarop. Deze kaart is een voorbeeld:
https://druid.datalegend.net/IISG/andb/browser?resource=https%3A%2F%2Fiisg.amsterdam%2Fresource%2Fadb-andb%2Fcard%2Fadb-leerlingen-6496
Het probleem is dat deze clusters informatie bevatten over in- en uitschrijving als lid, maar dat dit door elkaar gebeurt, zodat er geen logische indeling te maken is. Aan de de data is op deze manier nauwelijks een logische betekenis te geven. Hoe hier mee om te gaan?

Omzetting naar Linked data met CoW

De data in de kaartendatasets bestaat uit geneste clusters van informatie, die bovendien kunnen repeteren. Hoe dit moet worden uitgewerkt in de CoW scripts is nog onbekend. Expertise op dit vlak is noodzakelijk.

Opbouw shapes

Er is voor mij onduidelijkheid ontstaan over de correcte wijze waarop shapes als properties van andere shapes gebruikt kunnen worden. Ik maak even gebruik van een voorbeelden die ik in de originele shapes file vind.

Voorbeeld 1: in de relatie tussen de shape WorkEvent en Workshop wordt op onderstaande manier naar de Workshop verwezen (naar de klasse, niet eens naar de shape).

shape:WorkEvent
  sh:property
    [ sh:class andb:Workshop;
      sh:path andb:workshop ],
    shape:after,
    shape:before,
    shape:date,
    shape:label;
    sh:targetClass andb:WorkEvent.

Maar als de shape Workshop verwijst naar de shape Adress staat er simpelweg dit:

shape:Workshop
  sh:property
    shape:address,
    shape:label,
    shape:name;
  sh:targetClass andb:Workshop.

Waarom staat daar dan niet:

[ sh:class andb:Address;
  sh:path andb:address ]

Wat is het verschil en wanneer pas je welke methode toe?

Personen

Hoe kunnen we zowel de biografische data uit de unieke personen dataset als ook de persoonsgegevens uit de kaarten datasets, die deels overlappen, maar niet altijd identiek zijn in het linked data model onderbrengen?

wouterbeek / etl-andb Goto Github PK

etl-andb's People

Contributors

Watchers

Forkers

etl-andb's Issues

Recommend Projects

Recommend Topics

Recommend Org