Перейти к содержимому

Бенчмарки OenoBench Лидерборд

Лидерборд OenoBench

OenoBench оценивает 16 конфигураций моделей на 3 266 вопросах с выбором ответа. Корпус покрывает виноградарство, виноделие, винный бизнес, винные регионы мира, сорта винограда и производителей. Используйте фильтры, чтобы отсечь лидерборд по домену, уровню сложности или признаку, отвечается ли вопрос из параметрической памяти (closed-book) или требует контекстного рассуждения. Остальные вкладки раскрывают сопутствующие исследования из статьи: эффект расширенного reasoning, самопредпочтение модели и экономическую эффективность.

OenoBench · v2026-05-0416 конфигураций моделей · 3,266 вопросов в шести винных доменах
Домен
Сложность
Closed-book vs контекст
  1. 1
    o3OpenAIeffort
    83.6%
  2. 2
    GPT-5OpenAI
    82.8%
  3. 3
    Gemini 2.5 Pro (thinking)Googlethinking
    82.6%
  4. 4
    Gemini 2.5 ProGoogle
    81.7%
  5. 5
    Claude Opus 4.7Anthropic
    81.0%
  6. 6
    Claude Opus 4.7 (thinking)Anthropicthinking
    81.0%
  7. 7
    GPT-5 miniOpenAI
    78.4%
  8. 8
    DeepSeek-R1DeepSeekthinking
    77.1%
  9. 9
    Gemini 2.5 FlashGoogle
    75.1%
  10. 10
    DeepSeek-V3DeepSeek
    70.3%
  11. 11
    Mistral Large 2411Mistral AI
    69.1%
  12. 12
    Qwen 2.5 72BAlibaba
    67.4%
  13. 13
    Llama 3.3 70BMeta
    67.1%
  14. 14
    Llama 3.1 8BMeta
    60.5%
  15. 15
    Qwen 2.5 7BAlibaba
    57.0%
  16. 16
    Claude Haiku 4.5Anthropic
    53.3%
0%25%50%75%100%

Подробнее о том, как устроен корпус — мульти-модельная генерация, ИИ-валидация и стратегия снижения смещения — см. на странице методологии.