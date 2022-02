Beste redactie,

Sinds een aantal jaar bij een grote instelling waar ik de technische ontwikkelingen rond tekstanalyse van grote bestanden nauwgezet volg. Met name de inzet van kunstmatige intelligentie hierbij fascinerend. Nu las ik in september het interessante artikel over de 'robowob' op GS: Hugo de Jonge heeft speciale software om Wob-verzoeken zwart te lakken - én te openbaren. Ik ben alleen bang dat de auteur niet helemaal begrijpt wat die software nu eigenlijk kan en waarom deze zo beangstigend is.

Op basis van de site denk ik dat deze tool van Zylab niet alleen een fraaie zoekmachine is die op trefwoorden zoekt, maar dat dit bedrijf ook gebruikmaakt van nieuwe technieken uit de Digital Humanities-gereedschapskist die ik in de praktijk heb gezien. De software doet onder meer aan 'topic modelling' en dat betekent dat clusters van bij elkaar horende woorden worden geïdentificeerd. Hierdoor kunnen delen van teksten worden gevonden over bijvoorbeeld 'toeslag', die daar op het eerste gezicht niets mee te maken kunnen hebben. Zo is sneller na te gaan welke delen van de tekst ook dienen te worden gelakt, omdat die informatie bevatten over een bepaald gevoelig onderwerp. Door gebruik te maken van zelflerende software kan de computer nog sneller verbanden leggen in enorme hoeveelheden tekst waar een normaal mens nooit in staat toe zou kunnen zijn (en bijvoorbeeld namen van mensen aan bepaalde termen koppelen).

Zie bijvoorbeeld deze verkenning over historisch onderzoek (pdf) en deze tweets:

Iets ingewikkelder gezegd: dit is het trainen van een neuraal netwerk om semantische relaties tussen woorden in kaart te brengen aan de hand van grote hoeveelheden tekst. Op deze manier laat de computer zien in welke context bepaalde woorden worden gebruikt en wat de mogelijke betekenis van die woorden zou kunnen zijn. Door dat proces met de hand te laten verfijnen (wat op de screenshotjes te zien was in het GS artikel), wordt de software nog beter. Ik heb de werking hiervan gezien bij het onderzoek naar 17e eeuwse notarisarchieven waarbij de ene na de andere Rembrandt werd gevonden in boedelbeschrijvingen geschreven in priegelhandschrift. (Zie ook dit Volkskrant-artikel.) Kun je nagaan wat deze techniek kan bij een goed gestructureerd en perfect machineleesbaar overheidsarchief.

Het interessante is dus dat historici en journalisten dergelijke technieken gebruiken om snel verbanden te vinden in grote hoeveelheden archiefdata, maar het is voor het eerst dat ik zie dat een overheid via een bedrijf precies dezelfde technieken gebruikt om juist zaken te kunnen toedekken. Door de Wob konden journalisten in grote hoeveelheden informatie nieuwe verbanden ontdekken. Wat de overheid nu doet, is de journalisten voor te zijn door dat onderzoek eigenlijk al uit te voeren voordat de documenten moeten worden vrijgegeven en dat is kwalijk vanuit het oogpunt van een open, transparante overheid die verantwoording moet kunnen afleggen over beleid en beslissingen. Eigenlijk zou je een keer een demonstratie van dat bedrijf moeten vragen.

Met vriendelijke groeten,

NAW bij redactie bekend