GeenStijl: Er bestaat een EU-gesubsidieerde database van GeenStijl-reaguursels tegen "toxische taal"

Er bestaat een EU-gesubsidieerde database van GeenStijl-reaguursels tegen "toxische taal"

Wat we nou toch weer tegen kwamen op het www punt eu

Er bestaat een Belgenbedrijfje dat heet textgain, en het speurt naar "toxische taal". Ze werken aan beide zijden van de grens voor onder meer Mediahuis, Google, de UvA en de NCTV en het verdienmodel lijkt te opereren op flinke sommen subsidie, waarmee ze hun arbeid kunnen verrichten in de strijd tegen taal. Er werken mensen die met een telescoop op veilige afstand naar het internet zitten te kijken en dan naar elkaar gillen "KIJK DAAR ONTPLOFT WEER IEMAND! HIJ GEBRUIKT VUIGE TAAL!" Dan hoogvijven ze en voegen ze die vuige taal toe aan hun databases. Een van die datasets bestaat uit ACHT MILJOENMILJARD GS-comments:

"We collected over 8M messages from the controversial Dutch websites GeenStijl and Dumpert to train a word embedding model that captures the toxic language representations contained in the dataset. The trained word embeddings (±150MB) are released for free and may be useful for further study on toxic online discourse."

Uit deze pdf van vier kantjes inclusief woordwolk (mirror) blijkt dat de soepsidiebelgen geen snars begrepen hebben van GeenStijl "and its toxic idioms", maar dat zijn we wel gewend dus dat geeft verder niet. Veel erger is dat de downloadlink naar hun 8 miljoen booswoorden tellende dataset niet werkt, dus we hebben ze een non-toxisch contactformuliertje gestuurd met de vraag of ze ons even willen opsturen met welke reaguursels ze hun eigen vroomheid als gesubsidieerd product vermarkten. Want de dataset is naar verluidt gebruikt voor een EU-systeem om 'haatnieuws' te detecteren: het European Observatory of Online Hate, met de pakkende afkorting EOOH. (Nooit van gehoord, trouwens, dus dan zal het wel miljarden hebben gekost.)

Als die Vlaamse taalvrezers dus ff die dataset opsturen, dan kunnen we zelf antigeenstijl.nl starten en daar een stichting van maken die kan bedelen in Brussel en bij overheden en universiteiten en uitgevers, zodat we zelf ook boelveel subsidie kunnen krijgen. Want waarom zou iemand anders schijnheilig rijk moeten worden van ónze reaguursels? We kunnen met GeenStijl.nl immers zelf bronmateriaal blijven maken om het algoritme te leren nieuwe ~~vrije~~ vuige taal te herkennen, en zo houden we onszelf in stand als toxische taalstrijders én als vrome verkopers van de strijd tegen taal. Over textgain gesproken! Zelf giftige taal subsidiëren met giften kan hierrr.

Instant Updatabase: "Beste Bart, bedankt voor je bericht en om ons erop te attenderen dat de link gebroken is. Deze is nu gefixt:
https://www.textgain.com/resources/datasets/
met vriendelijke groeten
Guy"
(Lap ende amai zeg.. Da's just onleesbare database-taal voor specifieke software - red.)
UPDATE: Belgen haalden database meteen weer offline na publicatie van het topic. HIERRR kun je zelf pielen, voor wie de software heeft.

Woei! Giftige Woordwolken!

Die wapvlamingen printen letterlijk het internet uit

Tweet not found

The embedded tweet could not be found…

en betaald door de EU

Gemaakt met textgain-datasets

In dit handige handboek

Hier te bestellen of daar de inzagelink. Niet online delen svp! Je hebt er wel zelf voor betaald maar het bevat gevaarlijke haatspraak! Foeiwoorden! Vuigtaal! GEENSTIJLCOMMENTS!!1! Man man man 2022 en nog steeds zijn dat soort """onderzoekers""" bang voor woordjes op een weblog het is toch werkelijk om je te bescheuren.

Geenstijl

Er bestaat een EU-gesubsidieerde database van GeenStijl-reaguursels tegen "toxische taal"

Woei! Giftige Woordwolken!

Die wapvlamingen printen letterlijk het internet uit

Tweet not found

en betaald door de EU

Gemaakt met textgain-datasets

In dit handige handboek

Bedrag:

Reaguursels

Dit wil je ook lezen

LOL. Finnen ontdekken dat u met Finnen geen Finnen bedoelt

Lol. Radio 1 leest GS-comments voor

Over GeenStijl:

Tip de redactie

Linktips:

GeenStijl.nl is een uitgave van GS Magenta B.V.

Tweet not found