Voorbeeld queries voor de KB Onderzoeksgroep Verrijken en Verbinden

Dit is een voorbeeld van een data story gebaseerd op de bibliografische informatie die de KB sinds kort als Linked Data publiceert via haar Linked Data omgeving. De aanleiding voor deze story was een vraag van één van onze collega's over het werk van vrouwelijke auteurs in de jaren 60. De concrete vraag was hoeveel boeken over dieren in de jaren zestig door vrouwelijke auteurs geschreven zijn. Omdat dit natuurlijk een zeer specifieke vraag is vonden we het interessant om te laten zien hoe een redenering kan opbouwen om tot een antwoord op een dergelijke vraag te komen gebruik makend van de beschikbare Linked Data (bij de KB en daarbuiten).


Hieronder het resultaat, om de onderliggende query te zien en desgewenst aan te passen klik dan op dit symbool: .

Om eenvoudig te beginnen: een lijstje van 5 titels van het type 'boek'...

Stel je wilt zoeken op een specifiek onderwerp, bijvoorbeeld 'dieren'.
Laten we eens kijken of dit onderwerp voorkomt in de beschikbare thesauri in in de LOD omgeving.

Inspectie van het resultaat door de links te volgen brengt ons tot de conclusie dat 'dieren' uit de Brinkman het handigste trefwoord is.

Even een extra controle, welke onderwerp hebben deze Brinkman term als bovenliggende term (ergens in de hierarchie)

De lijst is beperkt tot de eerste 10, verwijder 'limit 10' in de query om alle resultaten te zien. Het resultaat ziet er goed uit!

Dus nu boeken zoeken die over 'dieren' gaan.

Opmerking: In deze lijst zien we titels beginnend met '#10#'' of '#20#'. Dit is het gevolg van een incorrecte conversie van de GGC (pica+) data naar Linked Data bij meerdelige (en seriële) werken.

Nu selecteren op boeken in de jaren 60 gepubliceerd, dit levert het volgende aantal boeken op:

Het geslacht is echter niet opgenomen in de NTA. Dit is wel in Wikidata te vinden. En Wikidata kent ook de NTA URI dus daarmee kunnen we een match maken. Omdat dit realtime niet werkt vanwege de performanceproblemen is er een aparte dump gemaakt en deze voorlopig in demo omgeving van NDE gezet. Op basis van de Wikidata gegevens wordt er aan alle NTA ingangen (die in Wikidata bekend zijn) een extra veld voor geslacht op genomen. Het resultaat ziet er als volgt uit.

De waarde voor 'schema:gender' zijn nog de oorspronkelijke waarden die Wikidata gebruikt om een geslacht te typeren: zo is Q6581097 'mannelijk' en Q6581072 'vrouwelijk'.

Dus dit alles combineren geeft ons het antwoord op de vraag hoeveel boeken over 'dieren' in de jaren 60 door vrouwen geschreven zijn.

Deze berekening bevat de volgende onnauwkeurigheden:
- niet alles wat gepubliceerd is staat beschreven in de NBT Linked Data set
- boeken met niet gethesaureerde auteurs zijn niet mee geteld (in deze set: minder dan 1 procent)
- boeken van auteurs die niet in Wikidata voorkomen zijn ook niet mee geteld (bijna 60 procent)
- boeken zonder Brinkman trefwoord zijn niet meegeteld
- boeken zonder publicatiedatum zijn niet meegteld
=> dus 2 is waarschijnlijk te laag, 5 komt dichter in de buurt....