Tendentieus, ongefundeerd & nodeloos kwetsend

Wobsoftware: Tekstherkenning ingezet tégen media en burgers die overheidsdocs opvragen

Mailtje van een bekende naar aanleiding van de vele Wob-berichten

Beste redactie,

Sinds een aantal jaar bij een grote instelling waar ik de technische ontwikkelingen rond tekstanalyse van grote bestanden nauwgezet volg. Met name de inzet van kunstmatige intelligentie hierbij fascinerend. Nu las ik in september het interessante artikel over de 'robowob' op GS: Hugo de Jonge heeft speciale software om Wob-verzoeken zwart te lakken - én te openbaren. Ik ben alleen bang dat de auteur niet helemaal begrijpt wat die software nu eigenlijk kan en waarom deze zo beangstigend is.

Op basis van de site denk ik dat deze tool van Zylab niet alleen een fraaie zoekmachine is die op trefwoorden zoekt, maar dat dit bedrijf ook gebruikmaakt van nieuwe technieken uit de Digital Humanities-gereedschapskist die ik in de praktijk heb gezien. De software doet onder meer aan 'topic modelling' en dat betekent dat clusters van bij elkaar horende woorden worden geïdentificeerd. Hierdoor kunnen delen van teksten worden gevonden over bijvoorbeeld 'toeslag', die daar op het eerste gezicht niets mee te maken kunnen hebben. Zo is sneller na te gaan welke delen van de tekst ook dienen te worden gelakt, omdat die informatie bevatten over een bepaald gevoelig onderwerp. Door gebruik te maken van zelflerende software kan de computer nog sneller verbanden leggen in enorme hoeveelheden tekst waar een normaal mens nooit in staat toe zou kunnen zijn (en bijvoorbeeld namen van mensen aan bepaalde termen koppelen). 

Zie bijvoorbeeld deze verkenning over historisch onderzoek (pdf) en deze tweets:

Social

Iets ingewikkelder gezegd: dit is het trainen van een neuraal netwerk om semantische relaties tussen woorden in kaart te brengen aan de hand van grote hoeveelheden tekst. Op deze manier laat de computer zien in welke context bepaalde woorden worden gebruikt en wat de mogelijke betekenis van die woorden zou kunnen zijn. Door dat proces met de hand te laten verfijnen (wat op de screenshotjes te zien was in het GS artikel), wordt de software nog beter. Ik heb de werking hiervan gezien bij het onderzoek naar 17e eeuwse notarisarchieven waarbij de ene na de andere Rembrandt werd gevonden in boedelbeschrijvingen geschreven in priegelhandschrift. (Zie ook dit Volkskrant-artikel.) Kun je nagaan wat deze techniek kan bij een goed gestructureerd en perfect machineleesbaar overheidsarchief.

Het interessante is dus dat historici en journalisten dergelijke technieken gebruiken om snel verbanden te vinden in grote hoeveelheden archiefdata, maar het is voor het eerst dat ik zie dat een overheid via een bedrijf precies dezelfde technieken gebruikt om juist zaken te kunnen toedekken. Door de Wob konden journalisten in grote hoeveelheden informatie nieuwe verbanden ontdekken. Wat de overheid nu doet, is de journalisten voor te zijn door dat onderzoek eigenlijk al uit te voeren voordat de documenten moeten worden vrijgegeven en dat is kwalijk vanuit het oogpunt van een open, transparante overheid die verantwoording moet kunnen afleggen over beleid en beslissingen. Eigenlijk zou je een keer een demonstratie van dat bedrijf moeten vragen. 

Met vriendelijke groeten,
NAW bij redactie bekend

Reaguursels

Inloggen

Wat een geneuzel, natuurlijk doet de overheid dit. Wij leven niet meer in de middeleeuwen. Het is eten of gegeten worden.

appies | 17-02-22 | 15:57
-weggejorist-
samymur | 17-02-22 | 09:43

Als dit niet strafbaar is moet het snel zo worden.

Piepmaus | 17-02-22 | 08:27

.achteruit nog alleen typ iK!

Stijl_Loos | 17-02-22 | 08:24

Ik heb naar verluidt een voor mij kenmerkende schrijfstijl. Een unieke stijl ook nog. Ik had me gister al bedacht dat het niet moeilijk moet zijn om schrijfstijlen aan personen te AI-en, ook al zijn auteurnamen weggelakt...

F. von Zeikhoven | 17-02-22 | 01:22 | 1

Ik heb het donkerbruine vermoeden dat dit al een tijdje mogelijk is.

VBO_B_Niveau | 17-02-22 | 08:21

Waarom niet alles beschouwen alsof het altijd gewobt kan worden en alles publiekelijk archiveren. En dus eigenlijk openbaar besturen.

PockyMaster | 16-02-22 | 22:23 | 3

De waarheid is zo'n kostbaar goed dat niet iedereen zomaar toegang mag hebben. Parbleu.

Nivelleermarionet | 16-02-22 | 22:33

"You can't handle the truth!"

Sans Comique | 17-02-22 | 10:32

Goh. AI tekstherkenning. Snel aan China verkopen, voordat ze het namaken.

Nivelleermarionet | 16-02-22 | 21:50 | 1

Logisch, toch?

VBO_B_Niveau | 17-02-22 | 08:22

Doet zo’n WOB-bot niet gewoon willekeurig 95% zwart maken. Echt die documenten zijn totaal niet meer te lezen en alle relevante informatie is zwart

antfukker | 16-02-22 | 20:46

Daar kan een roze leger van reaguurders makkelijk iets op vinden. Kom op zeg. Ik citeer hier ene M. Rutte (nooit gedacht, maar goed): "Maar wij zijn met meer".

Kameraansteker | 16-02-22 | 20:37 | 1

Rian van Rijbroek belde. Ze heeft nog een partijtje tweedehands blockchains in de aanbieding. Altijd binnen gestaan, weinig kilobytes op de teller, zijn van een oud vrouwtje geweest.

Nivelleermarionet | 16-02-22 | 21:57

Ben benieuwd hoe vaak de term 'kwetsbaar' in de overheidsdocs wordt gesignaleerd door tekstherkenning.. Zowel minister Hugo als ministerpresident Mark hebben ontelbaar vaak 'kwetsbaar' in de mond genomen - zonder evenwel zich daadwerkelijk in te zetten voor mensen in de verpleeghuizen en de thuiszorg. Er werd veel over deze mensen heen gesproken - vergelijkbaar met de advertentiecampagne van SIRE rond 'de dood' - maar er werd niet tot deze mensen gesproken toen ze nog in leven waren.

Eeuwig..Op..Vakantie | 16-02-22 | 20:29

Joseph Smith had een heilige steen die een vreemde taal kon vertalen. Momenteel heeft zijn geloof, de Mormonen, ongeveer 14.000.000 aanhangers.
We zijn een muisklik verwijdert van het tijdperk der compjoeter. Wij buigen en offeren voor de alwetende

hero_of_heaven | 16-02-22 | 20:28 | 2

Dat leek me wat veel, dus ik ging het googelen. Je schatting is nog veel te voorzichtig: het zijn er ruim 16 mio. Wow.

Kameraansteker | 16-02-22 | 20:40

Kan die steen ook Klingon vertalen? Want zo'n pa'takh kan wel zoveel beweren.

Nivelleermarionet | 16-02-22 | 22:10

Dezelfde software zal ook wel een mooi lijstje kunnen maken van reaguurders.
Tik in Kaas. Associaties, kolonel dickpics .
Etc.

BrutusBosch | 16-02-22 | 20:13 | 1

Slechts één hit op Google..

Duwbak_Linda | 16-02-22 | 20:16

Sinds ik op de Wii een potje kan tennissen tegen de Wii en de Wii altijd wint, heb ik mij erbij neergelegd dat computers alles (gaan) kunnen.

Leptob | 16-02-22 | 20:05 | 1

Dat had ik vroeger met schaken en pong op m'n eerste windows-pc... dat voelde toch een beetje als de eerste stap richting "war of the machines".

Alfred E. Neuman | 16-02-22 | 20:08

Ingewikkeld allemaal.
Is er ook een versie voor dummies?

laurentius | 16-02-22 | 20:00 | 2

De find and replace functie in Notepad++

Reebensteeltje | 16-02-22 | 20:03

Een deskundige die kunstmatige intelligentie aan een systeem verondersteld ?

Pensionista | 16-02-22 | 19:57 | 1

Met pensioen en sinds 2015 integraal uitgelogd?

ole guapa | 16-02-22 | 19:59

Deze software is trouwens wel heel goed in staat om ongezien (de tyfus) de juiste reaguurders bij de tegels te kunnen zoeken. Een paar minuten trainen op het archief van GS is al voldoende.

Beste_Landgenoten | 16-02-22 | 19:53 | 3

De Atmostool 3.0. Doen.

Piet Karbiet | 16-02-22 | 19:55

Aan de andere kant zijn er tegels van reaguurders die zelfs de computer niet begrijpt.
Ik noem geen namen, want ik bedoel ‘t louter positief.

Ruimedenker | 16-02-22 | 20:04

Hugeau, ook CdA'er, vergeet dat niet op 16 maart loog en bedroog, en de verwachting voor de toekomst is niet geheel anders

dathoujetoch | 16-02-22 | 19:52

Wat meer specs over de software zoals 'Collect affected data', 'identify sensitive data' en 'protect sensitive data'.
www.zylab.com/solutions/data-privacy-...
Helaas geen torrent gevonden om zelf te proberen.

Reebensteeltje | 16-02-22 | 19:52 | 1

Torrent. Bij BREIN gaan nu alle alarmbellen af.

Nivelleermarionet | 16-02-22 | 22:06

Niemand heeft toch wat te verbergen.
Nee,klopt.Dat heb je allemaal weggeven aan de staat met hulp van de criminele bigtechs.

van stampij | 16-02-22 | 19:49

Zylab is alleen maar software die heel snel in documenten kan zoeken. Wordt ook gebruikt bijvoorbeeld om te zoeken in oude documenten die later ingelezen (gedigitaliseerd) zijn. De strekking in het artikel is wat negatief over deze software. Dit bespaart dagen (weken) handmatig zoeken et. etc.. Wat je vervolgens met het resultaat doet is mensenwerk, Zylab is slechts een hulpmiddel.

johnyl | 16-02-22 | 19:49 | 6

Zo wordt Zylab ook door de opsporingsdiensten gebruikt. Dossier van verdachte door de scanner en de software erop los laten. Zo ook alle gekraakte Encrochat berichten analyseren. Dat is dan een positief, nuttig gebruik van de Zylab technologie. Om moedwillig burgers, parlement en journalisten te dwarsbomen moet strafbaar worden gesteld!

KlaagGraag | 16-02-22 | 21:32

@Wiezewalakristalix | 16-02-22 | 19:57: Maar Jonhyl heeft gelijk. Topic modelling wordt dan ook ontzettend overschat. Context in de werkelijkheid is vooral mensenwerk en varieert constant inclusief fouten en vaagheden. Getekend, iemands anders van die "grote instelling" die al iets langer meeloopt dan "een paar jaar".

GeenAccount | 16-02-22 | 21:33
▼ 3 antwoorden verborgen

Het probleem is naar mijn idee veel elementairder. Als er niks weggelakt zou mogen worden, zou er ook niks weggelakt worden. Maar als het toegestaan is om bijvoorbeeld 'persoonlijke beleidsopvattingen' weg te lakken, dan kan er onder dat mom al een heleboel weggelakt zijn. Want hoe kun je als lezer ooit achterhalen of achter zwarte balkjes al dan niet zo'n persoonlijke beleidsopvatting schuilgaat?

Schoorsteenveger | 16-02-22 | 19:48 | 1

Hele pagina's, zelfs complete dossiers waren bij de slachtoffers van de toeslagenaffaire zwart gelakt. Kamervragen over de zwartgelakte dossiers. Het is verstoppertje spelen van de overheid.

KlaagGraag | 16-02-22 | 21:26

Goed. Ik begrijp er dus geen ene fuck van. Wat ik wel denk te begrijpen is dat de computer opzoek gaat naar trefwoorden en er daar een zwartgelakt stukje van maakt..

Zoals de telefoon invult welk woord het wel of niet zou moeten zijn...

neonreclame | 16-02-22 | 19:48 | 2

Op de een of andere manier vult mijn telefoon woorden aan van mensen of termen die ik al een eeuw niet ken of gebruik. Bijvoorbeeld ik tik in mense.. en dat kreng komt met Mensendieck. Ik tik in Jan ..... Jan van Goyen kliniek.
Het Klokhuis, argh ... ik bedoelde kloteding !

Piet Karbiet | 16-02-22 | 20:02

@Piet Karbiet | 16-02-22 | 20:02:

Die van mij zegt dat het volume zachter moet...!!

Ik schreeuw gewoon dat hij stiller moet zijn..

neonreclame | 16-02-22 | 20:07

Een getraind model en een schilderij. Ik zeg doen.
.
*verf en kwasten zoeken doet*

Piet Karbiet | 16-02-22 | 19:47 | 1

*Benny Hill muziek uit de mottenballen haalt*

Kouwe Kees | 16-02-22 | 19:48

Door die software weten ze ook precies wie achter al deze tegels schuil gaat. We zijn gezien. Dit was het. Ik ga aan het bier.

de Voorzittert | 16-02-22 | 19:46

Doe maar even een scan van de Koran.
Zoeken op Kafir.
U zult verbaasd staan.

De Profundus | 16-02-22 | 19:46

Maar. Is het zo dat de overheid deze software gebruikt? Dat zie ik nog nergens staan. Het zou uiteraard kunnen maar dan nog.

De vraag is ook of deze software wel getraind is voor WOB documenten waarin vooral heel veel e-mail berichten staan en ambtelijke code taal. Een systeem is zo goed als de trainer die zo'n systeem traint, het gaat niet helemaal vanzelf al wordt deze suggestie wel gewekt. Het is nog ver weg voordat dit daadwerkelijk inzetbaar is voor bijvoorbeeld het snel weglakken van gevoelige berichten. Dit verhaal lijkt me vooral speculatief. Waarom? Ik werk zelf dagelijks met dit soort zelf lerende software en ken de beperkingen ervan.

Beste_Landgenoten | 16-02-22 | 19:44 | 3

Dat is goed te zien aan uw tegels... die beperkingen dan..

VolleBak | 16-02-22 | 20:29

U doet toch iets in de landbouwsector zij u eerder?

Sinterbikske | 16-02-22 | 21:31

Zelflerende software is voor jou zoiets als smart motorways voor de Britten? Als je t zelf niet kan.......

The-Paul | 17-02-22 | 03:00

Zouden ze ook

tegels

gewone reguur
zoals
,
,
,
en vooral

zwart lakken? Nee toch?

Kapitein Sjaak Mus | 16-02-22 | 19:44

Wordt tijd voor nieuwe wetgeving, het verbod op zwartlakken.

Astroturfer | 16-02-22 | 19:43 | 3

En dan gaan ze doodleuk met wiit tipp-ex aan de slag.

Crankhead | 16-02-22 | 19:48

Niet nodig, het is bekend dat Rutte dit omzeilt door van vergaderingen vooral geen notulen te laten maken.

me163komet | 16-02-22 | 19:48

En daarom moeten we naar een systeem waarbij alle documenten openbaar zijn, en men niet per onderwerp hoeft te vissen.

OverdaanDerOnderheid | 16-02-22 | 19:42 | 1

Het Deense model?

Wijze uit het Oosten | 16-02-22 | 20:23

Het wordt allemaal steeds ingewikkelder voor een boerenlul als ik.

antagonist | 16-02-22 | 19:39

Alsof iedereen altijd alles moet weten, wat een kul.

van Oeffelen | 16-02-22 | 19:39 | 1

Dat jij je graag in onwetendheid wentelt moet je zelf weten maar we zijn niet allemaal een van snoeffelen.

A.I. van Dee | 16-02-22 | 20:16

Leve de vrijheid ,kuch

rein9576 | 16-02-22 | 19:39

Ik kan niet wachten op de eerste functionele quantum computer. Dan word het echt leuk.

horsteknots | 16-02-22 | 19:36 | 1

Die heeft IBM toch al? Schijnt dat IBM ook de automatisering zal gaan doen van de corona-passen en alles dat daar mee te maken heeft (kredietregistratie, boete-overzichten, etc)
In de oorlog deden ze dat ook, alleen toen voor de Duitsers en de kampen. "IBM and the holocaust" is het boek, film is aanstaande met Brad Pitt in de hoofdrol. Release is vertraagd oid.

antagonist | 16-02-22 | 19:46

Niks aan de hand, wappie gelul. De overheid is er voor ons, en zal alles doen om ons te beschermen en heeft niks kwaads in de zin. Leve de EU anders hadden we geen schoon water hier. Zo, hopelijk heb ik nu genoeg social credits gescoord om te mogen carnavallen.

opblaasschaap | 16-02-22 | 19:36 | 2

Hoe gaat u verkleed?

Bootvisser | 16-02-22 | 20:05

REAGEER OOK

linktips: Energie vergelijken | Autoverzekering vergelijken | Zorgverzekering vergelijken | Kinderkleding
Kansino. Hét online casino van Nederland.
Online casino met licentie
Online Casino | Online Casino | Online Gokken | Brokerfolio.com brokers vergelijken | online bookmakers in Nederland
Goksitesvergelijker.nl | Onlinecasinofortuna.com | Online Casino Nederland | Casino bonussen