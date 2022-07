Er bestaat een Belgenbedrijfje dat heet textgain, en het speurt naar "toxische taal". Ze werken aan beide zijden van de grens voor onder meer Mediahuis, Google, de UvA en de NCTV en het verdienmodel lijkt te opereren op flinke sommen subsidie, waarmee ze hun arbeid kunnen verrichten in de strijd tegen taal. Er werken mensen die met een telescoop op veilige afstand naar het internet zitten te kijken en dan naar elkaar gillen "KIJK DAAR ONTPLOFT WEER IEMAND! HIJ GEBRUIKT VUIGE TAAL!" Dan hoogvijven ze en voegen ze die vuige taal toe aan hun databases. Een van die datasets bestaat uit ACHT MILJOENMILJARD GS-comments:

"We collected over 8M messages from the controversial Dutch websites GeenStijl and Dumpert to train a word embedding model that captures the toxic language representations contained in the dataset. The trained word embeddings (±150MB) are released for free and may be useful for further study on toxic online discourse."

Uit deze pdf van vier kantjes inclusief woordwolk (mirror) blijkt dat de soepsidiebelgen geen snars begrepen hebben van GeenStijl "and its toxic idioms", maar dat zijn we wel gewend dus dat geeft verder niet. Veel erger is dat de downloadlink naar hun 8 miljoen booswoorden tellende dataset niet werkt, dus we hebben ze een non-toxisch contactformuliertje gestuurd met de vraag of ze ons even willen opsturen met welke reaguursels ze hun eigen vroomheid als gesubsidieerd product vermarkten. Want de dataset is naar verluidt gebruikt voor een EU-systeem om 'haatnieuws' te detecteren: het European Observatory of Online Hate, met de pakkende afkorting EOOH. (Nooit van gehoord, trouwens, dus dan zal het wel miljarden hebben gekost.)

Als die Vlaamse taalvrezers dus ff die dataset opsturen, dan kunnen we zelf antigeenstijl.nl starten en daar een stichting van maken die kan bedelen in Brussel en bij overheden en universiteiten en uitgevers, zodat we zelf ook boelveel subsidie kunnen krijgen. Want waarom zou iemand anders schijnheilig rijk moeten worden van ónze reaguursels? We kunnen met GeenStijl.nl immers zelf bronmateriaal blijven maken om het algoritme te leren nieuwe vrije vuige taal te herkennen, en zo houden we onszelf in stand als toxische taalstrijders én als vrome verkopers van de strijd tegen taal. Over textgain gesproken! Zelf giftige taal subsidiëren met giften kan hierrr.



Instant Updatabase: "Beste Bart, bedankt voor je bericht en om ons erop te attenderen dat de link gebroken is. Deze is nu gefixt:

https://www.textgain.com/resources/datasets/

met vriendelijke groeten

Guy"

(Lap ende amai zeg.. Da's just onleesbare database-taal voor specifieke software - red.)

Woei! Giftige Woordwolken!

Die wapvlamingen printen letterlijk het internet uit

In dit handige handboek

Gemaakt met textgain-datasets

en betaald door de EU

Hier te bestellen of daar de inzagelink. Niet online delen svp! Je hebt er wel zelf voor betaald maar het bevat gevaarlijke haatspraak! Foeiwoorden! Vuigtaal! GEENSTIJLCOMMENTS!!1! Man man man 2022 en nog steeds zijn dat soort """onderzoekers""" bang voor woordjes op een weblog het is toch werkelijk om je te bescheuren.