Université de Stanford : les performances de ChatGPT ont chuté en quelques mois

par | Juil 27, 2023

Une étude récente menée par l’Université de Stanford a relevé des variations très marquées dans les performances de ChatGPT. Cette découverte interroge la stabilité et la fiabilité du chatbot conversationnel d’OpenAI dans un contexte où de nombreux utilisateurs payants se plaignent des performances inégales de l’outil.

ChatGPT : des performances variables qui posent problème

Un travail de recherche approfondi mené par l’Université de Stanford a analysé les performances de deux versions de ChatGPT (GPT-3.5 et GPT-4) au fil de plusieurs mois et sur une variété de tâches, notamment la résolution de problèmes mathématiques, la réponse à des questions sensibles, le codage et le raisonnement visuel. Les chercheurs ont relevé des fluctuations significatives dans la capacité de cet outil développé par OpenAI à accomplir certaines tâches.

La fluctuation la plus remarquable a été observée dans la capacité de GPT-4 à résoudre des problèmes mathématiques. En mars dernier, GPT-4 était capable d’identifier correctement que le nombre « 17 077 » était un nombre premier avec une précision de 97,6 %. Trois mois plus tard, cette précision a dramatiquement chuté pour atteindre un degré de fiabilité de… 2,4 % ! 

Par contraste, le modèle GPT-3.5 a suivi une trajectoire presque inverse. En mars 2023, il répondait correctement à la même question seulement 7,4 % du temps. En juin 2023, son taux de réussite avait grimpé à 86,8 %. Ce constat est d’autant plus étonnant que GPT-4 correspond à la version payante de l’outil.

ChatGPT : la question difficile de l’arbitrage dans les mises à jour

James Zuo, professeur d’informatique à Stanford et co-auteur de l’étude, a exprimé sa surprise face à « l’ampleur du changement » observé, étant donné la sophistication de ChatGPT. Dans une interview accordée à nos confrères de Fortune, il a souligné les défis que pose l’ajustement de ces modèles d’intelligence artificielle à grande échelle : « Lorsque nous effectuons des ajustements sur un vaste modèle de langage pour améliorer ses performances sur certaines tâches spécifiques, cela peut potentiellement entraîner de nombreuses conséquences imprévues qui pourraient dégrader les performances du modèle sur d’autres tâches. Il existe toutes sortes d’interdépendances fascinantes dans la manière dont le modèle réagit aux différentes entrées, ce qui peut conduire à certains des comportements étonnants que nous avons observés ».

Recevez chaque semaine toute
l’actualité marketing et vente BtoB

Insight, études, actualité, levée de fonds, Interviews…


Les informations à caractère personnel recueillies font l’objet d’un traitement par le site BtoB Leaders de la société Companeo, (RCS Nanterre B 432 247 898). Elles sont nécessaires entre autres, à la réception de nos newsletters. Companeo ou toutes sociétés du groupe Infopro Digital pourront l’utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles, ou vous intégrer dans des annuaires professionnels. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

Banière site partenaire BtoB Leaders