Nu AI-toepassingen steeds verder doordringen in ons dagelijkse leven, komt er ook meer aandacht voor de betrouwbaarheid en eerlijkheid van AI. Afhankelijk van hoe ze precies zijn gemaakt, kunnen zelflerende algoritmes onbedoeld discrimineren of stereotypen verspreiden. Onderzoekers van de Universiteit van Amsterdam presenteren in een nieuwe studie een manier om te achterhalen welke stereotypen zitten ingebakken in AI-taalmodellen. Ook laten ze zien dat die stereotypen snel kunnen verschuiven als je de AI nieuwe data voedt.

Aanvulmechanisme zoekmachines

Om te beginnen wilden de onderzoekers graag weten welke stereotype beelden er op het moment zoal spelen binnen het internationale Engelse taalgebied. Ze ontwierpen een methode om dit geautomatiseerd te achterhalen door handig gebruik te maken van het aanvulmechanisme van zoekmachines. Wanneer je in een zoekmachine zoals Google iets intikt, geeft de zoekmachine een suggestie voor wat je waarschijnlijk zoekt, gebaseerd op wat mensen het vaakst intikken na de door jou opgegeven termen. Als je bijvoorbeeld intikt ‘Why are Dutch so…’, dan krijg je suggesties als ‘tall’ en ‘good at English’.

‘We hebben met behulp van een aantal standaard zoekopdrachten in Google, Yahoo en DuckDuckGo een database van meer dan 2000 nu heersende stereotypen aangelegd. Het gaat om stereotype associaties met 274 sociale groepen, zoals bijvoorbeeld specifieke beroepen, iemands land van herkomst, gender, leeftijd, of politieke overtuiging.’

In een volgend experiment gebruikten de drie onderzoekers de database met al die stereotypen om te kijken of deze ook ingebakken zaten in een vijftal grote, veel gebruikte AI-taalmodellen. Ook keken ze welke emoties de stereotypen in die vijf taalmodellen oproepen, door gebruik te maken van een door andere onderzoekers aangelegde database waarin woorden uit de Engelse taal gelinkt worden aan een specifieke set van emoties, zoals ‘angst’ en ‘vertrouwen’. Choenni: ‘Het ging ons er niet om dat we wilden laten zien dat het ene model bijvoorbeeld meer negatieve stereotypen bevat dan het andere. Om dat soort uitspraken te kunnen doen is veel meer onderzoek nodig. Maar we wilden laten zien, kijk, met deze methode kun je vaststellen welke stereotypen er zijn en wat zij oproepen.’

‘Stereotypen konden verrassend snel verschuiven’

Tot slot keken de onderzoekers ook wat er gebeurt als je de taalmodellen verfijnt met extra data, zoals gebruikelijk is wanneer deze voor praktijktoepassingen worden ingezet. Daarvoor gaven ze de modellen extra training door ze enkele duizenden artikelen van een aantal specifieke media te voeren. ‘Wat daarbij opviel is dat de stereotypen verrassend snel konden verschuiven,’, vertelt Choenni. ‘Als we bijvoorbeeld de modellen trainden met artikelen van The New Yorker, zag je dat sommige termen die geassocieerd zijn met ‘police officer’ negatiever werden, terwijl als we artikelen van Fox News gebruikten de associaties met ‘police officer’ positiever werden.’ Waarbij ook voor dit experiment geldt: de conclusie is niet dat Fox News dus altijd positiever over politieagenten schrijft. Om dat te concluderen is ander en uitgebreider onderzoek nodig. Choenni: ‘Maar het laat wel zien hoe gevoelig AI taalmodellen zijn voor de data waarmee je ze traint, en hoe snel er verschuivingen in stereotypen kunnen optreden.’

Bron: Universiteit Van Amsterdam