Бенчмарки OenoBench Лидерборд
Лидерборд OenoBench
OenoBench оценивает 16 конфигураций моделей на 3 266 вопросах с выбором ответа. Корпус покрывает виноградарство, виноделие, винный бизнес, винные регионы мира, сорта винограда и производителей. Используйте фильтры, чтобы отсечь лидерборд по домену, уровню сложности или признаку, отвечается ли вопрос из параметрической памяти (closed-book) или требует контекстного рассуждения. Остальные вкладки раскрывают сопутствующие исследования из статьи: эффект расширенного reasoning, самопредпочтение модели и экономическую эффективность.
Домен
Сложность
Closed-book vs контекст
1 o3OpenAIeffort83.6%2 GPT-5OpenAI82.8%3 Gemini 2.5 Pro (thinking)Googlethinking82.6%4 Gemini 2.5 ProGoogle81.7%5 Claude Opus 4.7Anthropic81.0%6 Claude Opus 4.7 (thinking)Anthropicthinking81.0%7 GPT-5 miniOpenAI78.4%8 DeepSeek-R1DeepSeekthinking77.1%9 Gemini 2.5 FlashGoogle75.1%10 DeepSeek-V3DeepSeek70.3%11 Mistral Large 2411Mistral AI69.1%12 Qwen 2.5 72BAlibaba67.4%13 Llama 3.3 70BMeta67.1%14 Llama 3.1 8BMeta60.5%15 Qwen 2.5 7BAlibaba57.0%16 Claude Haiku 4.5Anthropic53.3%
Подробнее о том, как устроен корпус — мульти-модельная генерация, ИИ-валидация и стратегия снижения смещения — см. на странице методологии.