Перейти к содержимому

Бенчмарки OenoBench

OenoBench

OenoBench — это открытый бенчмарк, который оценивает, насколько хорошо большие языковые модели владеют винной предметной областью. Релиз v1.2 содержит 3 266 вопросов с выбором ответа, разбитых на шесть доменов: виноградарство, виноделие, винный бизнес, винные регионы мира, сорта винограда и производители. Сложность калибрована по лестнице WSET / Court of Master Sommeliers (четыре уровня — от базового до экспертного). На текущий момент протестировано 16 конфигураций моделей (фронтирные и open-source), а каждый релиз публикуется как версионированный JSON-файл, так что исторические прогоны остаются воспроизводимыми.

Вопросы сгенерированы мульти-модельным конвейером с явной стратегией снижения смещения: ни одно семейство моделей не доминирует в авторстве вопросов, на которых его потом оценивают; каждый факт обязан указывать на внешний источник; и каждый релиз проходит через 9-агентный аудит качества.

Подробнее о методологии — на странице методологии. Интерактивные результаты моделей — с фильтрами по домену, сложности, режиму closed-book/контекст, а также вкладками с эффектом reasoning, самопредпочтением и стоимостью — на странице лидерборда.