Saltar al contenido
Coding

Terminal-Bench-Hard

Tareas dificiles de terminal/CLI.

1 modelos publicaron score
# Modelo Empresa Score
1 Claude Opus 4.5 Anthropic 44.0