OenoBench
OenoBench — это открытый бенчмарк, который оценивает, насколько хорошо большие языковые модели владеют винной предметной областью. Корпус включает порядка 5000 вопросов, охватывающих ключевые домены знаний: регионы и аппелласьоны, сорта винограда, стили и технологии производства, винное законодательство, дегустационную лексику и рыночные практики. Вопросы сгенерированы мульти-модельным конвейером (несколько ведущих LLM участвуют в составлении и валидации), что снижает смещение в сторону конкретного семейства моделей. Набор обновляется ежеквартально: новые вопросы добавляются, устаревшие пересматриваются, а результаты прогона свежих и старых моделей публикуются заново.
Подробнее о том, как именно построен корпус, см. на странице методологии. Актуальные результаты моделей доступны на странице лидерборда.