Бенчмарки OenoBench Лидерборд

Лидерборд OenoBench

OenoBench оценивает 16 конфигураций моделей на 3 266 вопросах с выбором ответа. Корпус покрывает виноградарство, виноделие, винный бизнес, винные регионы мира, сорта винограда и производителей. Используйте фильтры, чтобы отсечь лидерборд по домену, уровню сложности или признаку, отвечается ли вопрос из параметрической памяти (closed-book) или требует контекстного рассуждения. Остальные вкладки раскрывают сопутствующие исследования из статьи: эффект расширенного reasoning, самопредпочтение модели и экономическую эффективность.

OenoBench · v2026-05-0416 конфигураций моделей · 3,266 вопросов в шести винных доменах

Домен

Сложность

Closed-book vs контекст

1
o3OpenAIeffort
83.6%
2
GPT-5OpenAI
82.8%
3
Gemini 2.5 Pro (thinking)Googlethinking
82.6%
4
Gemini 2.5 ProGoogle
81.7%
5
Claude Opus 4.7Anthropic
81.0%
6
Claude Opus 4.7 (thinking)Anthropicthinking
81.0%
7
GPT-5 miniOpenAI
78.4%
8
DeepSeek-R1DeepSeekthinking
77.1%
9
Gemini 2.5 FlashGoogle
75.1%
10
DeepSeek-V3DeepSeek
70.3%
11
Mistral Large 2411Mistral AI
69.1%
12
Qwen 2.5 72BAlibaba
67.4%
13
Llama 3.3 70BMeta
67.1%
14
Llama 3.1 8BMeta
60.5%
15
Qwen 2.5 7BAlibaba
57.0%
16
Claude Haiku 4.5Anthropic
53.3%

Подробнее о том, как устроен корпус — мульти-модельная генерация, ИИ-валидация и стратегия снижения смещения — см. на странице методологии.