Methodology
Como recolectamos, verificamos y publicamos los datos. 111 modelos, 31 benchmarks, 25 empresas.
Sources
Los scores publicados en este atlas vienen exclusivamente de fuentes primarias y secundarias verificables:
- Papers oficiales y system cards de los labs (OpenAI, Anthropic, Google DeepMind, etc.)
- Blogs tecnicos y model cards al lanzamiento
- Hugging Face leaderboards (cuando aplican)
- Reportes tecnicos de terceros verificados
- LMSYS Chatbot Arena (snapshots de Arena-ELO con fecha explicita)
Nota: NO almacenamos AA-Index (Artificial Analysis Intelligence Index) en el catalog porque su escala cambia con la metodologia de AA (v3 → v4) sin que podamos auditar el delta. En su lugar publicamos un Frontier Index propio, reproducible y documentado.
Frontier Index
Composite reproducible derivado solo de benchmarks atomicos del modelo (medidos una vez por el provider, sin escala que cambie con el tiempo).
Algoritmo: Percentile Rank ponderado
for each benchmark b reported by model m:
pct_b = (#models_with_score_<=_score_of_m_in_b / total_models_with_b) * 100
FrontierIndex(m) = (Σ pct_b * weight_b) / (Σ weight_b)
* coveragePenalty(coverage)
coverage(m) = Σ weight_b / total_weight (b ∈ benchmarks_of_m)
coveragePenalty = 0.4 + 0.6 * coverage Por que percentile rank y no simple weighted average: Distintos benchmarks tienen distintos "techos" naturales. Un score 80 en HumanEval (techo cerca de 95) no equivale a un 80 en FrontierMath (techo cerca de 50). El percentile rank neutraliza esa diferencia: 80% del field es 80% del field, sin importar el bench.
Validacion empirica
Implementamos 5 algoritmos candidatos (weighted-avg, z-score, percentile-rank, min-max, hybrid) y los comparamos contra 3 rankings de referencia externos (Artificial Analysis v4, LMArena Text Overall, llm-stats Score) usando Spearman rank correlation. Resultados (snapshot 2026-05-04):
| Algoritmo | AA-v4 | LMArena | llm-stats | AVG |
|---|---|---|---|---|
| weighted-avg | 0.093 | 0.189 | 0.111 | 0.131 |
| z-score | 0.174 | 0.348 | 0.314 | 0.279 |
| min-max | 0.210 | 0.456 | 0.339 | 0.335 |
| hybrid | 0.326 | 0.502 | 0.371 | 0.400 |
| percentile-rank ✓ | 0.477 | 0.480 | 0.521 | 0.493 |
Percentile rank gana decisivamente: rho promedio 0.493 (correlacion moderada-fuerte con el consenso) vs 0.131 del weighted-avg naive (practicamente ruido). El test empirico vive en packages/core/src/scoring/empirical.test.ts y se valida en CI.
Pesos editoriales
Pesos por categoria (suma ≈ 1.0): Reasoning ~0.30 (GPQA-Diamond domina con 0.18), Coding ~0.25 (SWE-bench-Verified con 0.12), Math ~0.20 (AIME-2025 con 0.10), Knowledge / Hard reasoning ~0.10, Agentic ~0.10, Instruction ~0.05.
Coverage penalty
La coverage indica cuanto del peso total cubrieron los benchmarks que el modelo SI tiene reportados. Sin penalty, un modelo con UN solo benchmark cherry-picked (ej. solo GPQA-Diamond=99) podria superar a un flagship con scores completos. Aplicamos factor `0.4 + 0.6 × coverage` al score base: con coverage=1.0 no penaliza; con coverage=0.1 multiplica por 0.46.
La formula esta en packages/core/src/scoring/frontierIndex.ts. Cuando los providers reporten nuevos benchmarks, los scores se "recalibran" automaticamente sin tocar el algoritmo. Cero curaduria manual.
Taxonomia de benchmarks
Los 31 benchmarks estan organizados en 8 categorias: Reasoning, Coding, Math, Knowledge, Instruction, Multilingual, Agentic y General. La taxonomia es opinionada pero clara: cada benchmark vive en una sola categoria.
Que NO hacemos
- NO ejecutamos modelos. Reflejamos lo que reportan fuentes verificadas.
- NO usamos data sintetica ni estimaciones que no esten publicadas.
- NO recibimos pagos por incluir o destacar modelos.
- NO tenemos rankings sponsored.
- NO ofrecemos API publica: la unica forma de consumir los datos es esta web.
Politica de actualizacion
Los datos se revisan al lanzamiento de cada modelo frontier. Cuando un modelo nuevo se lanza con scores oficiales, lo agregamos. Cuando una fuente reportada se desmiente o publica numeros corregidos, actualizamos. Cuando un score se identifica como contaminado por training data, lo marcamos.
Cada cambio significativo va a changelog con su fecha y razon.
Estimacion de hardware
El Hardware Checker estima si un modelo cabe en tu GPU usando una formula explicita:
VRAM = params × bytes_per_param + KV_cache(context) + overhead
Detalle completo (bytes per param de cada cuantizacion, KV cache scale, MoE caveat, Apple unified memory) en la pagina del Hardware Checker. La estimacion es best-effort — cifras reales pueden variar 5-15% segun framework, batch size y kv-cache compression.
Tono editorial
Numeros sin contexto son numeros sin sentido. Cuando un modelo lanza con un score record, tratamos de explicar por que importa, que metodologia usa el benchmark, y si hay caveats (contamination, version del benchmark, condiciones de evaluacion). Preferimos honestidad sobre marketing — incluso cuando significa decir no sabemos.