Arena – platforma za nezavisno rangiranje modela veštačke inteligencije



Arena je internet platforma namenjena uporednom testiranju i rangiranju velikih sistema veštačke inteligencije .  Međusobno se porede kroz „slepo testiranje“. Korisnik postavlja pitanje, a sistem mu prikazuje dva odgovora: označena kao Model A i Model B, bez otkrivanja identiteta modela koji stoji iza njih.

Tek nakon što korisnik izabere bolji odgovor, otkriva se koji su modeli učestvovali u poređenju.


Korišćenje platforme je jednostavno:

  1. Korisnik unese pitanje ili zadatak (izrada videa, fotografije itd…)

  2. Sistem generiše dva odgovora različitih modela.

  3. Korisnik bira koji odgovor smatra boljim ili može označiti nerešeno.

  4. Ocena se beleži i utiče na rangiranje modela.


Kako se vrši rangiranje?

Arena koristi Elo sistem bodovanja, poznat iz sveta šaha. Svaki „duel“ između dva modela utiče na njihov rejting. Ako model sa nižim rejtingom pobedi bolje rangiranog protivnika, dobija više poena.

Na osnovu velikog broja glasova formira se javno dostupna rang-lista modela. Lista se redovno ažurira i prikazuje relativne performanse modela u realnim upitima korisnika.


Šta se može naći na sajtu?

Na Areni se može pronaći:

  • Aktuelna rang-lista AI modela

  • Uporedni rezultati različitih verzija istog modela

  • Specijalizovane liste (na primer za kodiranje ili matematičko rezonovanje, u zavisnosti od dostupnih testova)

  • Istorijski podaci o promenama rejtinga

Platforma obuhvata modele koje razvijaju vodeće tehnološke kompanije, ali i otvorene modele dostupne istraživačkoj zajednici.

E sad se postavlja pitanje koji modeli su u prvih 20. Link ka rangiranju je ovde: https://arena.ai/sr/leaderboard .

Nazanimljivije je da u prvih 20 nisu samo američke kompanije, već i kineske. Ovo je pun spisak.

  • Anthropic (Claude modeli)

  • Google (Gemini modeli)

  • OpenAI (GPT i ChatGPT modeli)

  • xAI (Grok modeli)

  • Alibaba (Qwen modeli)

  • DeepSeek modeli

  • Baidu (Ernie modeli)

  • Moonshot (Kimi modeli)

  • Z.ai / Zhipu AI (GLM modeli)

  • Bytedance (Doubao modeli)