Saltar al contenido

Methodology

Como recolectamos, verificamos y publicamos los datos. 111 modelos, 31 benchmarks, 25 empresas.

Sources

Los scores publicados en este atlas vienen exclusivamente de fuentes primarias y secundarias verificables:

  • Papers oficiales y system cards de los labs (OpenAI, Anthropic, Google DeepMind, etc.)
  • Blogs tecnicos y model cards al lanzamiento
  • Hugging Face leaderboards (cuando aplican)
  • Reportes tecnicos de terceros verificados
  • LMSYS Chatbot Arena (snapshots de Arena-ELO con fecha explicita)

Nota: NO almacenamos AA-Index (Artificial Analysis Intelligence Index) en el catalog porque su escala cambia con la metodologia de AA (v3 → v4) sin que podamos auditar el delta. En su lugar publicamos un Frontier Index propio, reproducible y documentado.

Frontier Index

Composite reproducible derivado solo de benchmarks atomicos del modelo (medidos una vez por el provider, sin escala que cambie con el tiempo).

Algoritmo: Percentile Rank ponderado

for each benchmark b reported by model m:
  pct_b = (#models_with_score_<=_score_of_m_in_b / total_models_with_b) * 100

FrontierIndex(m) = (Σ pct_b * weight_b) / (Σ weight_b)
                 * coveragePenalty(coverage)

coverage(m)      = Σ weight_b / total_weight  (b ∈ benchmarks_of_m)
coveragePenalty  = 0.4 + 0.6 * coverage

Por que percentile rank y no simple weighted average: Distintos benchmarks tienen distintos "techos" naturales. Un score 80 en HumanEval (techo cerca de 95) no equivale a un 80 en FrontierMath (techo cerca de 50). El percentile rank neutraliza esa diferencia: 80% del field es 80% del field, sin importar el bench.

Validacion empirica

Implementamos 5 algoritmos candidatos (weighted-avg, z-score, percentile-rank, min-max, hybrid) y los comparamos contra 3 rankings de referencia externos (Artificial Analysis v4, LMArena Text Overall, llm-stats Score) usando Spearman rank correlation. Resultados (snapshot 2026-05-04):

Algoritmo AA-v4 LMArena llm-stats AVG
weighted-avg 0.093 0.189 0.111 0.131
z-score 0.174 0.348 0.314 0.279
min-max 0.210 0.456 0.339 0.335
hybrid 0.326 0.502 0.371 0.400
percentile-rank ✓ 0.477 0.480 0.521 0.493

Percentile rank gana decisivamente: rho promedio 0.493 (correlacion moderada-fuerte con el consenso) vs 0.131 del weighted-avg naive (practicamente ruido). El test empirico vive en packages/core/src/scoring/empirical.test.ts y se valida en CI.

Pesos editoriales

Pesos por categoria (suma ≈ 1.0): Reasoning ~0.30 (GPQA-Diamond domina con 0.18), Coding ~0.25 (SWE-bench-Verified con 0.12), Math ~0.20 (AIME-2025 con 0.10), Knowledge / Hard reasoning ~0.10, Agentic ~0.10, Instruction ~0.05.

Coverage penalty

La coverage indica cuanto del peso total cubrieron los benchmarks que el modelo SI tiene reportados. Sin penalty, un modelo con UN solo benchmark cherry-picked (ej. solo GPQA-Diamond=99) podria superar a un flagship con scores completos. Aplicamos factor `0.4 + 0.6 × coverage` al score base: con coverage=1.0 no penaliza; con coverage=0.1 multiplica por 0.46.

La formula esta en packages/core/src/scoring/frontierIndex.ts. Cuando los providers reporten nuevos benchmarks, los scores se "recalibran" automaticamente sin tocar el algoritmo. Cero curaduria manual.

Taxonomia de benchmarks

Los 31 benchmarks estan organizados en 8 categorias: Reasoning, Coding, Math, Knowledge, Instruction, Multilingual, Agentic y General. La taxonomia es opinionada pero clara: cada benchmark vive en una sola categoria.

Que NO hacemos

  • NO ejecutamos modelos. Reflejamos lo que reportan fuentes verificadas.
  • NO usamos data sintetica ni estimaciones que no esten publicadas.
  • NO recibimos pagos por incluir o destacar modelos.
  • NO tenemos rankings sponsored.
  • NO ofrecemos API publica: la unica forma de consumir los datos es esta web.

Politica de actualizacion

Los datos se revisan al lanzamiento de cada modelo frontier. Cuando un modelo nuevo se lanza con scores oficiales, lo agregamos. Cuando una fuente reportada se desmiente o publica numeros corregidos, actualizamos. Cuando un score se identifica como contaminado por training data, lo marcamos.

Cada cambio significativo va a changelog con su fecha y razon.

Estimacion de hardware

El Hardware Checker estima si un modelo cabe en tu GPU usando una formula explicita:

VRAM = params × bytes_per_param + KV_cache(context) + overhead

Detalle completo (bytes per param de cada cuantizacion, KV cache scale, MoE caveat, Apple unified memory) en la pagina del Hardware Checker. La estimacion es best-effort — cifras reales pueden variar 5-15% segun framework, batch size y kv-cache compression.

Tono editorial

Numeros sin contexto son numeros sin sentido. Cuando un modelo lanza con un score record, tratamos de explicar por que importa, que metodologia usa el benchmark, y si hay caveats (contamination, version del benchmark, condiciones de evaluacion). Preferimos honestidad sobre marketing — incluso cuando significa decir no sabemos.