Benchmarks

31 benchmarks frontier en 8 categorias.

Reasoning (7)

GPQA-Diamond

Graduate-level Physics, Chemistry, Biology - preguntas de nivel doctoral.

54 modelos con score

MMLU-Pro

MMLU mejorado con preguntas mas dificiles y 10 opciones de respuesta.

32 modelos con score

Humanitys-Last-Exam

El benchmark mas dificil conocido - problemas academicos novedosos.

20 modelos con score

MMLU

Massive Multitask Language Understanding - 57 materias academicas, ~16K preguntas.

18 modelos con score

MMMU

Multimodal Multidiscipline Understanding - razonamiento multimodal sobre imagenes academicas.

11 modelos con score

ARC-AGI-2

ARC challenge actualizado - razonamiento abstracto novel y duro.

8 modelos con score

BBH

BIG-Bench Hard - 23 tareas que requieren razonamiento multi-paso.

1 modelos con score

Coding (9)

SWE-bench-Verified

Issues reales de GitHub de 12 repos populares de Python.

41 modelos con score

LiveCodeBench

Problemas de coding contests en vivo de LeetCode/Codeforces.

30 modelos con score

Terminal-Bench-2

Terminal Bench v2 - tareas agenticas en CLI.

17 modelos con score

SWE-bench-Pro

Version profesional de SWE-bench con issues mas complejos.

15 modelos con score

HumanEval

Correccion funcional en 164 problemas de codigo Python.

10 modelos con score

Aider-polyglot

Benchmark de edicion de codigo en multiples lenguajes.

6 modelos con score

MBPP+

Mostly Basic Python Problems con tests adicionales rigurosos.

1 modelos con score

CyberGym

Vulnerability Reproduction Benchmark - reproduce CVEs reales.

1 modelos con score

Terminal-Bench-Hard

Tareas dificiles de terminal/CLI.

1 modelos con score

Math (5)

AIME-2025

American Invitational Mathematics Examination 2025.

34 modelos con score

MATH-500

Problemas de matematicas de competencia (500 set).

11 modelos con score

AIME-2024

American Invitational Mathematics Examination 2024.

5 modelos con score

GSM8K

Grade School Math 8K problemas.

2 modelos con score

FrontierMath

Problemas matematicos de nivel investigacion.

2 modelos con score

Knowledge (1)

SimpleQA

Benchmark de factualidad de respuestas cortas.

6 modelos con score

Instruction (2)

IFEval

Instruction Following Evaluation - precision en seguimiento.

9 modelos con score

Arena-Hard

Hard prompts del Arena - 500 tareas desafiantes.

2 modelos con score

Multilingual (1)

MGSM

Multilingual Grade School Math.

6 modelos con score

Agentic (4)

OSWorld

Computer use benchmark - tareas reales de escritorio.

9 modelos con score

BrowseComp

Web browsing comprehensive benchmark.

6 modelos con score

GDPval

Tareas de valor economico real (productividad real).

4 modelos con score

TAU-bench

Tool agent benchmark - servicio al cliente airline/retail.

1 modelos con score

General (2)

LiveBench

Benchmark sin contaminacion con actualizaciones mensuales.

1 modelos con score

Arena-ELO ELO

LMSYS Chatbot Arena ELO basado en preferencias humanas (~1000-1600).

0 modelos con score