Deepseek niet beter dan anderen :
Ik zie een kans voor META zijn Llama open-source model om terug te slaan evanals ChatGpT.
Wiskundeprofessor Ann Dooms heeft een favoriete vraag waarmee ze elk AI-model test. Deze week testte ze ook het nieuw Chinese model DeepSeek.
Bij het opstellen van examenvragen moet ik altijd terugdenken aan mijn eerste oefeningenexamen aan de universiteit. Na afloop liepen mijn medestudenten vrolijk naar buiten en begonnen we onze antwoorden te overlopen. Zij kwamen bij de - voor mij - moeilijkste vraag uit op een mooi rond getal, terwijl mijn resultaat een ‘lelijke uitdrukking’ was. Ik dacht dat een voorwaarde uit de voor de hand liggende stelling niet voldaan was, waardoor ik de bijbehorende methode niet kon gebruiken. Ik panikeerde, want ik had bij het checken van de voorwaarde waarschijnlijk een rekenfout gemaakt, waardoor ik het veel te ver gaan zoeken was.
Maar wat bleek? De vraag was bewust zo opgesteld dat het blindelings toepassen van de methode inderdaad een rond getal opleverde, maar de methode was niet toepasbaar. Je moest dus zelf een alternatieve route naar de oplossing vinden. Een pareltje van een strikvraag, ontworpen om schijnbaar oplosbaar te zijn met wat voor de hand ligt. Wie bij een strikvraag aangeleerde patronen volgt, trapt erin. Wie iets echt begrijpt, doorziet de val.
De auteur
Ann Dooms is professor in de vakgroep Wiskunde en Data Science van VUB, gespecialiseerd in wiskunde voor digitale toepassingen.
De kwestie
Net als universiteitsstudenten zijn AI-modellen gevoelig voor strikvragen, de barometer voor echt inzicht.
De conclusie
De enige mogelijkheid om te ontsnappen uit de redeneerillusie zit in de wiskundige aspecten van de algoritmes.
Het is een treffende metafoor voor de beperkingen van huidige AI-modellen, zoals large language models (LLM’s). De meest gesofisticeerde modellen, waaronder die van OpenAI en sinds kort DeepSeek, werken met een 'Chain of Thought' (CoT). Daardoor is de perceptie ontstaan dat die modellen echt kunnen redeneren en we alweer een stap dichter staan bij zogenaamde artificial general intelligence, die kan nadenken zoals een mens.
CoT verwijst naar de stap-voor-stapredenering die de nieuwste AI-modellen genereren om antwoorden te produceren. Bij een wiskundige vraag somt het model eerst de gegevens op en overloopt het vervolgens elke stap om zo tot een antwoord te komen. Die expliciete redeneerlijn lijkt op het menselijk denken, maar er is een cruciaal verschil. Terwijl mensen tijdens het redeneren bewust keuzes maken - bijvoorbeeld: ‘Voldoet dit wel aan de voorwaarden van deze stelling?’ - volgen AI-modellen gewoon statistische patronen. Ze denken zelf niet na over het antwoord, maar bootsen stappen na die lijken op denkprocessen uit hun trainingsdata.
Bij het gebruik van CoT wijzigt het onderliggende taalmodel niet. Het model vertaalt je vraag - een prompt - naar een reeks van prompts waarmee het model gericht door de woordruimte navigeert.
Die vertaalslag kan worden geleerd uit voorbeelden van redeneringen. Sinds kort kan die via 'reinforcement learning' ook afgeleid worden uit trainingsdata. In beide gevallen is het nieuwe model in staat analoge problemen analoog op te lossen. Het gevaar schuilt in wat het model als analoog ziet. Zo kan je makkelijk strikvragen bedenken om de performantie van een LLM te testen.
Raadsel
Een van mijn favoriete vragen waaraan ik elk nieuw taalmodel onderwerp, is een variant op een raadseltje dat gebruikt wordt om mensen bewust te maken van mogelijke genderbias. Het raadsel luidt: ‘Een vader en zijn zoon hebben een auto-ongeluk. De vader komt om en de zoon wordt naar het ziekenhuis gebracht, waar de dokter zegt: ‘Ik kan dat kind niet opereren, want dat is mijn zoon.' Hoe kan dat?’
De enige mogelijkheid om te ontsnappen uit de redeneerillusie zit in het aanpassen van de algoritmes.
Veel mensen zijn aanvankelijk verward omdat ze ervan uitgaan dat een dokter mannelijk is en er niet aan denken dat hier de moeder bedoeld wordt.
Als je de vraag omvormt zodat ‘een moeder en haar zoon’ een auto-ongeluk hebben, dan luidt het logische antwoord ‘de vader’ (of ‘de andere ouder’). Alle AI-modellen die ik al getest heb, ook de meest gesofisticeerde, associëren de vraag echter meteen met genderbias en slaan daardoor de vader als mogelijk antwoord over. Ze zien de analogie en passen blindelings dezelfde redenering toe. Ze antwoorden nog altijd statistisch plausibel, maar niet noodzakelijk logisch geldig en al zeker niet ongezien creatief. Ook het nieuwe Chinese model DeepSeek trapt in de val.
Meer data en meer rekenkracht ertegenaan gooien lossen dat probleem niet op. De Amerikanen dachten de AI-ontwikkelingen in China te kunnen afremmen door het land de toegang tot de meest performante chips te ontzeggen, maar dat heeft net tot een efficiënter model geleid.
De enige mogelijkheid om te ontsnappen uit de redeneerillusie zit in het aanpassen van de algoritmes. Ik hoop dan ook dat het nieuwe initiatief CERN for AI, waarin Europa de krachten wil bundelen om te innoveren in AI, ook middelen voorziet voor doorbraken op de wiskundige aspecten van de AI.
Tot die tijd blijven zowel studenten als AI-modellen gevoelig voor slimme strikvragen. Echt inzicht vereist meer dan het volgen van een recept.
aanpassen van de algoritmes.
Daar zullen de Amerikanen wel beter in zijn voorlopig.