Saltar al contenido

Battle Mode

Comparativa head-to-head entre 2-4 modelos. Side-by-side benchmark por benchmark, winner marcado con ★, spread del top vs bottom. URL compartible — pega un link y la persona ve exactamente el mismo battle.

Cargando...

Como funciona

  • Higher is better en todos los benchmarks (porcentajes y ELO).
  • Comparable: solo los benchmarks donde 2+ modelos tienen score publicado cuentan para wins/losses.
  • Empate exacto: si dos modelos tienen el mismo score, ambos cuentan como win + tie.
  • N/A: cuando un modelo no tiene score en un benchmark, se marca como abstained — no afecta el win rate.
  • Spread: diferencia entre el max y el min del benchmark, indica si la diferencia es significativa o marginal.

El URL contiene los slugs de los modelos (?models=a,b,c). No usamos servidor — al compartir el link, los datos se cargan del catalogo del sitio.