Benchmarks
31 benchmarks frontier en 8 categorias.
Reasoning (7)
Graduate-level Physics, Chemistry, Biology - preguntas de nivel doctoral.
MMLU mejorado con preguntas mas dificiles y 10 opciones de respuesta.
El benchmark mas dificil conocido - problemas academicos novedosos.
Massive Multitask Language Understanding - 57 materias academicas, ~16K preguntas.
Multimodal Multidiscipline Understanding - razonamiento multimodal sobre imagenes academicas.
ARC challenge actualizado - razonamiento abstracto novel y duro.
BIG-Bench Hard - 23 tareas que requieren razonamiento multi-paso.
Coding (9)
Issues reales de GitHub de 12 repos populares de Python.
Problemas de coding contests en vivo de LeetCode/Codeforces.
Terminal Bench v2 - tareas agenticas en CLI.
Version profesional de SWE-bench con issues mas complejos.
Correccion funcional en 164 problemas de codigo Python.
Benchmark de edicion de codigo en multiples lenguajes.
Mostly Basic Python Problems con tests adicionales rigurosos.
Vulnerability Reproduction Benchmark - reproduce CVEs reales.
Tareas dificiles de terminal/CLI.
Math (5)
American Invitational Mathematics Examination 2025.
Problemas de matematicas de competencia (500 set).
American Invitational Mathematics Examination 2024.
Grade School Math 8K problemas.
Problemas matematicos de nivel investigacion.
Knowledge (1)
Instruction (2)
Multilingual (1)
Agentic (4)
Computer use benchmark - tareas reales de escritorio.
Web browsing comprehensive benchmark.
Tareas de valor economico real (productividad real).
Tool agent benchmark - servicio al cliente airline/retail.