Le lancement de GPT-4, le nouveau modèle linguistique d'OpenAI, fait les gros titres ces jours-ci. La startup de Sam Altam n'hésite pas à vanter les capacités de cette technologie, déjà disponible dans ChatGPT Plus et dans plus d'une douzaine d'autres applications et services. En fait, l'entreprise a publié un document montrant que sa nouvelle intelligence artificielle est encore plus performante que ChatGPT pour la réussite aux examens universitaires ou de troisième cycle.
Le rapport technique de GPT-4 consacre une bonne partie aux performances du modèle linguistique dans un grand nombre de tests académiques. Dans la plupart des cas, la nouvelle technologie OpenAI surpasse les résultats obtenus par GPT-3.5, par exemple.
En l'état, les développeurs d'intelligence artificielle ont partagé un tableau des résultats à l'examen du barreau, comme le Law School Admission Test (LSAT), les examens standardisés d'entrée à l'université aux États-Unis (SAT) et les Graduate School Examinations (GRE), parmi beaucoup d'autres.
La plupart des résultats de GPT-4 sont meilleurs que ceux de GPT-3.5 et, dans certains cas, supérieurs au résultat médian. Comme cela a été mentionné The Princeton Review par exemple, le score le plus élevé que l'on puisse obtenir au LSAT est de 180, tandis que la moyenne est de 152. Pour obtenir cette dernière, il faut répondre correctement à une soixantaine de questions, sur un total qui se situe généralement entre 99 et 102. Dans ce cas, l'intelligence artificielle d'OpenAI a obtenu un score de 163, contre 149 pour son prédécesseur.
GPT-4 continue de s'améliorer lors des examens universitaires et des examens de fin d'études.
En ce qui concerne les examens du barreau, le GPT-4 a obtenu 298 sur 400. Il convient de noter que dans ce cas, les résultats comprennent trois examens différents : le Multistate Bar Examination (MBE), le Multistate Essay Examination (MEE) et le Multistate Performance Test (MPT). Chacun d'entre eux se déroule selon des modalités différentes, telles que des tests à choix multiples ou des questions à résoudre en un certain nombre de minutes.
Il a également obtenu de très bons résultats au SAT de mathématiques et au SAT de lecture et d'écriture basé sur les faits. Il a obtenu respectivement 700 et 710 sur 800. Il s'agit d'une nette amélioration par rapport au GPT-3.5, où il avait obtenu respectivement 590 et 670 sur 800.
Lors des GRE, le GPT-4 a excellé au niveau verbal et quantitatif, mais n'a pas pu améliorer sa performance à l'examen écrit. Dans ces examens de troisième cycle, il a obtenu des scores de 169/170 (verbal), 163/170 (quantitatif) et 4/6 (écrit). À titre de comparaison, les résultats au GPT-3.5 avaient été de 154/170, 147/170 et 4/6 dans les mêmes modalités.
OpenAI affirme que les tests passés par son nouveau modèle linguistique étaient les mêmes que ceux auxquels tout humain doit faire face aux niveaux académiques correspondants. Et elle affirme qu'aucun entraînement spécifique n'a été effectué sur ces tests. “Une minorité des problèmes inclus dans les tests ont été vus par le modèle pendant l'entraînement. Pour chaque test, nous avons exécuté une variante en retirant ces questions et nous indiquons le score le plus bas des deux. Nous pensons que les résultats sont représentatifs“, déclare la startup.
L'IA évolue, mais reste confrontée à des problèmes familiers
Au-delà de l'évolution que représente GPT-4, qui à certains égards ridiculise déjà la version originale de ChatGPT, elle comporte encore des problèmes connus. OpenAI a mentionné que les limitations de son nouveau modèle de langage sont encore similaires à celles de son prédécesseur. Ceci est particulièrement visible lorsqu'il s'agit d'”inventer” des faits en fournissant des réponses, ce qui a un impact sur sa fiabilité.
Malgré ses capacités, le GPT-4 présente les mêmes limites que les modèles GPT précédents. Plus important encore, il n'est pas encore totalement fiable (il “hallucine” des faits et commet des erreurs de raisonnement). Il convient d'être très prudent lors de l'utilisation des résultats du modèle linguistique, en particulier dans les contextes à haut risque, le protocole exact (comme l'examen humain, l'ancrage avec un contexte supplémentaire ou l'évitement total des utilisations à haut risque) devant correspondre aux besoins des applications spécifiques.
OpenAI, sur les limites de GPT-4.
Pour en revenir aux tests académiques, le battage médiatique sur la “capacité” de GPT-4 à les réussir n'a pas tardé. Mais nous en revenons au même point que lorsque ChatGPT a fait de même avec les examens de médecine ou de droit : il ne sert à rien que l'IA les réussisse.
On retombe dans la vieille histoire de vouloir anthropomorphiser l'intelligence artificielle. Pour la énième fois, non : ce n'est pas parce que GPT-4 réussit les examens d'entrée qu'elle peut s'inscrire comme étudiante à Stanford ou dans toute autre université renommée des Etats-Unis.
Joshua Levy, un expert en IA, a laissé un concept très intéressant à cet égard. “La réussite de GPT-4 au LSAT ou au GRE est incroyablement impressionnante. En même temps, je pense qu'il est nécessaire de rappeler une erreur logique que nous verrons souvent cette semaine : ce n'est pas parce qu'un logiciel peut réussir un test conçu pour les humains qu'il a les mêmes compétences que les humains qui passent le même test. Les tests destinés aux humains ne testent pas les compétences que la plupart ou tous les humains possèdent. Ce qu'ils testent, ce sont les compétences qui sont les plus difficiles pour les humains“
Tests for humans don't test for the abilities most or all humans have. They test for the abilities that are difficult for humans.
— Joshua Levy (@ojoshe) March 14, 2023
Afficher Masquer le sommaire

Je suis étudiant et je fais partie de la rédaction de contrepoint.info. J'ai la chance d'aimer écrire, cependant, j'aime aussi discuter de tous les sujets et particulièrement tout ce qui touche à la Science.