Arena (anciennement LMArena) est une plateforme ouverte de benchmarking de modèles d'IA. Elle propose une « arène » où les utilisateurs peuvent comparer anonymement les réponses de différents modèles (par exemple GPT, Claude) et, via un système de vote, générer des classements reflétant leurs performances en conditions réelles d'utilisation.
En Battle Mode, après saisie d'une question ou d'une instruction, le système sélectionne aléatoirement deux modèles anonymes qui génèrent chacun une réponse. Les utilisateurs votent pour la meilleure réponse ; ces votes influencent le score ELO des modèles et leur position dans les classements.
D'après les informations publiques, les fonctionnalités principales d'évaluation et de comparaison d'Arena sont actuellement accessibles gratuitement. Les utilisateurs peuvent tester de nombreux modèles intégrés sans frais pour les fonctions de base.
La plateforme utilise des duels anonymes pour réduire les biais liés aux marques : les votants ne connaissent pas l'identité des modèles avant de choisir. Les résultats sont agrégés via un système ELO à partir d'un grand volume de votes, et les données de tests et classements sont publiquement consultables.
Arena propose des évaluations spécialisées couvrant la conversation textuelle, la compréhension visuelle, la génération d'images, la génération vidéo, la programmation (code), le développement web, l'enrichissement de recherche, et d'autres capacités courantes des modèles IA multimodaux.
Selon la plateforme, les entrées utilisateurs sont traitées par des modèles fournis par des tiers et peuvent être communiquées aux prestataires concernés et partagées publiquement afin de soutenir la communauté et la recherche en IA. Il est donc recommandé de ne pas soumettre d'informations sensibles ou personnelles.
Les classements sont mis à jour de manière continue en fonction des votes de la communauté. Les pages de chaque palmarès affichent généralement une indication de dernière mise à jour, par exemple « mis à jour il y a 1 jour », pour refléter la fraîcheur des données.
Les benchmarks classiques utilisent souvent des jeux de tests standardisés et fixes. Arena privilégie les évaluations basées sur des tâches réelles et des jugements subjectifs d'utilisateurs : en multipliant les duels anonymes et les votes, la plateforme vise à rendre compte des performances des modèles dans des situations d'usage concret.

HotBot IA Questions-Réponses est une plateforme gratuite qui regroupe plusieurs modèles d'IA populaires. Pas besoin de s'inscrire pour accéder en une seule interface à des modèles tels que GPT-4 et Claude 3, répondant à des tâches variées comme l'écriture, la programmation et l'analyse.

Arena AI propose deux volets complémentaires : d’une part une plateforme d’évaluation et de routage de modèles IA qui, via des tests communautaires et un routage intelligent, aide à évaluer et choisir les modèles adaptés ; d’autre part un outil communautaire piloté par l’IA pour créer et gérer des communautés interactives en temps réel sur votre site, afin d’augmenter l’engagement et les conversions.