De cruciale rol van betrouwbare data in AI-toepassingen

De gevaren van slechte data

In het zevende dossier van Voordenken.be blikken we terug naar de Mathieu Gijbels Masterclass 2024 met als onderwerp ‘Hoe AI jouw business versterkt, vandaag én morgen’. Daarin deelden vier experts tijdens een panelgesprek hun visie op de toekomst van ‘Artificial Intelligence’ (AI). De 4 sprekers die aan tafel zaten waren: Dado van Peteghem (mede-oprichter Imagin3 en auteur van meerdere boeken over digitale innovatie), Steven Latré (Vice President AI & Algorithms bij imec en professor aan de Universiteit Antwerpen), Geoffrey Ceunen (LL.M. en expert in AI-wetgeving bij UMANIQ) en Jesse Claes (specialist in AI-toepassingen in de media en CTO bij Medialife).

In het vierde deel van het panelgesprek kwam de focus te liggen op de uitdagingen rond datakwaliteit en betrouwbaarheid van AI. Hoe cruciaal het is om betrouwbare data te gebruiken in AI-projecten en hoe bedrijven kunnen voorkomen dat slechte data tot slechte resultaten leidt? In deze blog lees je dat duidelijk “garbage in, garbage out” nog steeds een belangrijke vuistregel is. 

Datakwaliteit en de gevaren van onbetrouwbare input

Betrouwbare data vormt de basis van elke succesvolle AI-toepassing. Data moet niet alleen accuraat en volledig zijn, maar ook consistent en relevant. Dado gaf een opmerkelijk voorbeeld uit de Verenigde Staten, waar advocaten ChatGPT gebruikten om juridische cases te onderbouwen. Helaas bleek de tool verzonnen informatie te hebben toegevoegd, wat leidde tot een serieuze veroordeling voor de betrokken advocaten. Dit voorval toont aan dat AI-output altijd geverifieerd moet worden, zeker in juridische en professionele contexten.

Het is ook belangrijk om op te passen voor de gevaren van bias in AI-data, vooral wanneer deze historisch van aard is. Een voorbeeld dat Steven hierover gaf, is dat van een AI-systeem dat getraind is op gegevens over CEO-selecties. Zo’n systeem zou waarschijnlijk vooral witte mannen als geschikte kandidaten aanbevelen, omdat deze groep in het verleden vaak werd gekozen. Dit maakt duidelijk dat zelfs nauwkeurige data een vertekening kan bevatten, wat een grote invloed kan hebben op de aanbevelingen van AI-modellen.

TTPE-MathieuGijbels-Masterclass-20241015-WEB-111

Alles begint bij ‘awareness’. Je moet je bewust zijn van welke data je gaat verwerken, in welke systemen je ze stopt en waar je ze bewaart. De volledige ‘flow’ van je data moet je goed in kaart kunnen brengen, zodat je zelf een duidelijk overzicht hebt van de hoeveelheid en de kwaliteit van data die je als bedrijf hebt verzameld. Sommige bedrijven weten zelfs niet meer waar ze data van twee maanden geleden hebben opgeslagen.

Geoffrey Ceunen
LL.M. en expert in AI-wetgeving bij UMANIQ

Benieuwd naar de cruciale rol van datakwaliteit in succesvolle projecten? In het vierde deel van het panelgesprek tijdens de Mathieu Gijbels Masterclass delen 4 experts inzichten over het belang van betrouwbare data en hoe organisaties ‘garbage in, garbage out’ kunnen voorkomen. Bekijk deze aflevering om meer te leren over de praktische stappen en awareness die nodig zijn om AI-systemen te bouwen die écht resultaten leveren.