Бенчмарки OenoBench Методология

Методология OenoBench

Корпус OenoBench строится по четырёхэтапному конвейеру на основе ИИ, который сочетает мульти-модельную генерацию, автоматическую валидацию и выборочный человеческий контроль. Финальный набор покрывает шесть доменов (виноградарство, виноделие, винный бизнес, винные регионы, сорта винограда, производители) и четыре уровня сложности — от базового L1 до экспертного L4, откалиброванных по сертификациям WSET и Court of Master Sommeliers.

Сбор данных. Отбор авторитетных источников по всем шести доменам с явными квотами покрытия — чтобы ни один поддомен не доминировал, а каждый факт ссылался на внешний источник.
Мульти-модельная генерация. Пять ведущих моделей (Claude, GPT, Gemini, Llama, Qwen) плюс детерминированные шаблоны формируют кандидатные вопросы. Мульти-модельность — центральный приём по снижению смещения: ни одно семейство не пишет непропорциональную долю вопросов, на которых его потом оценивают.
ИИ-валидация. Проверка девятью агентами на фактическую корректность, однозначность, утечку из промпта, качество дистракторов, баланс по странам и дословное копирование источников. Сомнительные кандидаты отбрасываются или переписываются.
Человеческий обзор. Эксперты выборочно проверяют по каждому стратифицированному поддомену, разрешают спорные случаи и подписывают каждый релиз.

На лидерборде помимо общей точности приводятся четыре ортогональных среза: разбивка по доменам, по уровням сложности, режим closed-book vs контекст (требует ли вопрос контекстного рассуждения, или ответ извлекается из параметрической памяти), и эффект расширенного reasoning (одна и та же базовая модель с включённым и выключенным reasoning). Самопредпочтение модели — точность на вопросах своего семейства против чужих — выведено в отдельную вкладку. Каждый релиз публикуется как версионированный JSON-файл, поэтому исторические прогоны остаются воспроизводимыми по мере эволюции корпуса.