Twee miljoen Nederlandse nieuwsberichten geschrapt uit database voor kunstmatige intelligentie

Common Crawl, een scraper van een Amerikaanse non-profitorganisatie, heeft kopieën van talloze websites aangemaakt die vrij te gebruiken zijn voor doeleinden zoals het trainen van AI-modellen. Momenteel omvat de verzameling van Common Crawl 2,6 miljard webpagina’s, die door diverse grote AI-modellen zoals ChatGPT, Claude en Deepseek worden gebruikt, meldt Nieuws Impuls.

Tienduizenden Nederlandse sites

Onder de gescrapete websites bevinden zich ook tienduizenden Nederlandse pagina’s, variërend van kleine sites tot grote nieuwsplatforms. De organisatie Brein heeft vastgesteld dat artikelen van Nederlandse nieuwssites en digitale kranten in de database zijn opgenomen zonder toestemming van de auteurs.

Nieuwswebsites zijn een cruciale bron van informatie voor taalmodellen en AI-chatbots. Dit vormt echter ook een risico voor deze sites, aangezien hun bezoekersaantallen kunnen dalen door het gebruik van AI, wat leidt tot een vermindering van hun inkomsten.

Parasiteren

NDP Nieuwsmedia, de brancheorganisatie voor nieuwsbedrijven, heeft verklaard dat AI-bedrijven gebruikmaken van dit soort scrapers om ’te parasiteren op het werk van journalisten’.

“Het is heel schadelijk voor auteurs en uitgeverijen dat hun teksten zonder toestemming worden gebruikt,” zegt Bastiaan van Ramshorst, directeur van Brein. “Daarom hebben wij namens een aantal uitgeverijen een verzoek ingediend om die artikelen offline te halen.”

Van Ramshorst meldt dat Common Crawl snel op dit verzoek heeft gereageerd, maar dat het enige tijd zal duren voordat alle artikelen offline zijn. “Dit komt door de omvang van de database. Het was ook moeilijk om te achterhalen welke artikelen precies aanwezig waren.”

Niet transparant

Het verwijderen van de artikelen uit de database betekent echter niet dat ze uit AI-modellen zullen verdwijnen. Bestaande modellen hebben deze artikelen al verwerkt en ze blijven daar dus in. Bovendien ontwikkelen AI-bedrijven ook hun eigen scrapers, waarvan niet duidelijk is of deze auteursrechtelijk beschermde informatie bevatten.

“Als zo’n model niet transparant is, is het heel moeilijk om te achterhalen wat de onderliggende data is,” aldus Van Ramshorst. “Wij doen daar onderzoek naar, maar dat is behoorlijk arbeidsintensief.”

Een positief aspect betreft de aanstaande invoering van een nieuwe Europese wet, de AI Act, die AI-bedrijven zal verplichten om transparanter te zijn over hun bronnen.

Twee miljoen Nederlandse nieuwsberichten geschrapt uit database voor kunstmatige intelligentie

Tienduizenden Nederlandse sites

Parasiteren

Niet transparant

Acht mannen aangehouden na ontdekking van 3300 kilo cocaïne in loods in Standdaarbuiten

Verkenner Koolmees start met formatie en analyseert blokkades en voorkeuren

Voeg een reactie toe Antwoord annuleren

Utrecht neemt maatregelen tegen overlast in parkeergarages na klachten

Nederland aangemerkt als “risico” voor migratiedruk in nieuw EU-rapport

Laatste berichten

Categorieën

Twee miljoen Nederlandse nieuwsberichten geschrapt uit database voor kunstmatige intelligentie

Tienduizenden Nederlandse sites

Parasiteren

Niet transparant

Acht mannen aangehouden na ontdekking van 3300 kilo cocaïne in loods in Standdaarbuiten

Verkenner Koolmees start met formatie en analyseert blokkades en voorkeuren

Voeg een reactie toe Antwoord annuleren

Utrecht neemt maatregelen tegen overlast in parkeergarages na klachten

Nederland aangemerkt als “risico” voor migratiedruk in nieuw EU-rapport

Laatste berichten

Categorieën

Mis het niet

Nederland gaf zeker 25 miljard euro uit aan duurzame energie in 2023