GPT-4o

Informations
Développé par OpenAI
Première version [1]Voir et modifier les données sur Wikidata
Langues Multilingue
Type Transformateur pré-entraîné génératif (LLM)
Licence Licence propriétaireVoir et modifier les données sur Wikidata
Site web openai.com/gpt-4o

Chronologie des versions

GPT-4o (abréviation de « GPT-4 omni ») est un transformateur pré-entraîné génératif (grand modèle de langage, ou LLM) multilingue et multimodal conçu par l'entreprise OpenAI.

Il est dit multimodal (OpenAi parle d'« omnimodèle », d'où la lettre « O » ou l'appellation « omni »)[2] c'est à dire qu'il peut à la fois, et en temps réel, traiter et générer : du texte, du son et des images. Il peut converser avec un ou plusieurs interlocuteurs, en plusieurs langues, en utilisant la parole en temps réel. Utilisé via un smartphone, il peut même adapter ses réponses après avoir analysé l'environnement visuel et les signaux émotionnels de ses interlocuteurs.

Son API est deux fois plus rapide que son prédécesseur, GPT-4 Turbo[3]. Son nouveau tokenizer utilise moins de tokens, notamment pour les langues non basées sur l'alphabet latin, ce qui rend ce modèle moins « coûteux » en ressources pour ces langues[4].

Historique

Ce modèle a été annoncé par Mira Murati, CTO d'OpenAI, lors d'une démo diffusée en direct le 13 mai 2024, et intégré à ChatGPT le même jour ; soit la veille de « Google I/O », la conférence où Google annonce de nouveaux produits (Google est l'un des principaux concurrents d'OpenAI dans les domaines des LLM[5]).

Avant ce lancement, GPT-4o a été initialement lancé sur LMSYS, sous la forme de trois modèles différents : gpt2-chatbot, im-a-good-gpt2-chatbot et im-also-a-good-gpt2-chatbot. Le 7 mai 2024, Sam Altman a publié le tweet « im-a-good-gpt2-chatbot », interprété comme une confirmation du fait qu'OpenAI était responsable de ces nouveaux modèles (alors mystérieux) et effectuait des tests A/B[6].

Il ne sera gratuit via ChatGPT que pour un certain nombre de questions, en fonction du degré d'utilisation du modèle, et de la demande ; quand cette limite sera atteinte, ChatGPT basculera la conversation sur GPT-3.5.

Capacités

GPT-4o a obtenu des résultats de pointe sur des tests de performance en qualité vocale, vision et multilinguisme ; et selon OpenAI, il est 2 fois plus rapide, deux fois moins cher que GPT-4 Turbo[4].

À son lancement en mai 2024, GPT-4o est le meilleur grand modèle de langage du classement Elo de LMSYS, avec un avantage particulièrement significatif en programmation informatique[11]. Une fois largement disponible, il aura accès à la navigation Web, à l’analyse des données, au GPT Store et à des fonctionnalités de mémoire jusqu'alors réservées aux abonnés à ChatGPT Plus, Team et Enterprise[2].

Jionghao Lin et al. (mai 2024) notent que dans le domaine éducatif ou professionnel, les rétroactions, bilans et corrections faites par ce type d'intelligence artificielle pourraient bénéficier de leur caractère nativement multimodal. En effet, de tels « feedback multimodaux » permettent a priori d'améliorer l'apprentissage grâce à des commentaires pouvant associer le son et l'image au texte habituel. Automatiser la production de feed-backs mobilisant trois canaux sensoriels pourrait permettre de renforcer les acquisitions, et ce pour un grand nombre d’apprenants[12].

Risques, limites, précautions

OpenAI se dit conscient des défis de sécurité et de protection des données alors que ce modèle fonctionne en temps réel. Selon OpenAI, pour accroître la sécurité des interaction des humains avec ce modèle :

Références

  1. (en) « OpenAI launches new AI model GPT-4o and desktop version of ChatGPT »,
  2. a b c d e et f (en-US) Benj Edwards, « Major ChatGPT-4o update allows audio-video talks with an “emotional” AI chatbot », (consulté le )
  3. a et b Célia Séramour, « Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux », L'Usine Digitale,‎ (lire en ligne, consulté le )
  4. a b c et d (en) « Hello GPT-4o », sur OpenAI, .
  5. (en) Sumeet Wadhwani, « AI Galore: Key Announcements From Google I/O 2024 », sur Spiceworks, (consulté le )
  6. (en) Carl Franzen, « OpenAI announces new free model GPT-4o and ChatGPT for desktop », (consulté le )
  7. (en) « OpenAI GPT-4o: How to access GPT-4o voice mode; insights from Sam Altman », The Times of India,‎ (ISSN 0971-8257, lire en ligne, consulté le )
  8. a b et c (en) Ryan Daws, « GPT-4o delivers human-like AI interaction with text, audio, and vision integration », sur AI news, (consulté le )
  9. (en) « OpenAI Launched GPT-4o: The Future of AI Interactions Is Here », sur The digital speaker, (consulté le )
  10. (en-US) Wiggers, « OpenAI debuts GPT-4o 'omni' model now powering ChatGPT », TechCrunch, (consulté le )
  11. (en) Carl Franzen, « OpenAI announces new free model GPT-4o and ChatGPT for desktop », sur VentureBeat, (consulté le ).
  12. Lin, J., Chen, E., Gurung, A., & Koedinger, K. R. (2024). MuFIN: A Framework for Automating Multimodal Feedback Generation using Generative Artificial Intelligence.| url=https://files.osf.io/v1/resources/3asxz/providers/osfstorage/66450a364664da9366ed6bb7

Voir aussi

Articles connexes

Liens externes