Новые записи


17 мая 2026

Hi-Tech Review

// техноблог про новейшие девайсы и гаджеты

Старшеклассник создал сайт, позволяющий бросить вызов моделям искусственного интеллекта в Minecraft

Поскольку традиционные методы бенчмаркинга ИИ оказываются неадекватными, разработчики ИИ обращаются к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков таким способом является Minecraft, принадлежащая Microsoft игра в жанре песочницы.

Сайт Minecraft Benchmark (или MC-Bench) был создан совместными усилиями, чтобы сравнивать модели ИИ друг с другом, отвечая на подсказки с помощью творений Minecraft. Пользователи могут голосовать за то, какая модель справилась с заданием лучше, и только после голосования они могут увидеть, какой ИИ создал каждую сборку Minecraft.

Для Ади Сингха, 12-классника, основавшего MC-Bench, ценность Minecraft заключается не столько в самой игре, сколько в том, что люди знакомы с ней — ведь это самая продаваемая видеоигра всех времен. Даже те, кто не играл в эту игру, могут оценить, какое блочное изображение ананаса реализовано лучше.

«Minecraft позволяет людям гораздо легче увидеть прогресс [в разработке ИИ]», — сказал Сингх в интервью TechCrunch. «Люди привыкли к Minecraft, привыкли к его внешнему виду и атмосфере».

В настоящее время в списке добровольных спонсоровMC-Bench значатся восемь человек. Anthropic, Google, OpenAI и Alibaba субсидировали использование своих продуктов для выполнения эталонных заданий, согласно сайту MC-Bench, но в остальном компании не связаны между собой.

«В настоящее время мы просто делаем простые сборки, чтобы осмыслить, насколько далеко мы продвинулись от эпохи GPT-3, но [мы] можем увидеть себя в масштабе этих более долгосрочных планов и ориентированных на цели задач», — сказал Сингх. «Игры могут быть просто средой для тестирования агентных рассуждений, более безопасной, чем в реальной жизни, и более контролируемой для целей тестирования, что делает ее более идеальной в моих глазах».

Другие игры, такие как Pokémon Red, Street Fighter и Pictionary, использовались в качестве экспериментальных эталонов для ИИ, отчасти потому, что искусство тестирования ИИ печально известно своей сложностью.

Исследователи часто тестируют модели ИИ на стандартных оценках, но многие из этих тестов дают ИИ преимущество на своем поле. Благодаря тому, как их обучают, модели от природы одарены определенными, узкими видами решения проблем, особенно тех, которые требуют заучивания или базовой экстраполяции.

Исследователи часто тестируют модели ИИ по стандартным оценкам.

Проще говоря, трудно понять, что означает, что GPT-4 от OpenAI может набрать 88 процентов баллов на LSAT, но не может определить, сколько букв «р» в слове «клубника». Сонет Claude 3.7 компании Anthropic достиг 62,3 % точности в стандартном тесте по программной инженерии, но в игру Pokémon он играет хуже, чем большинство пятилетних детей.

MC-Bench технически является эталоном программирования, поскольку моделям предлагается написать код для создания предложенной сборки, например «снеговика Фрости» или «очаровательной тропической хижины на чистом песчаном берегу»

.

Но большинству пользователей MC-Bench проще оценить, насколько лучше выглядит снеговик, чем копаться в коде, что делает проект более привлекательным — а значит, позволяет собрать больше данных о том, какие модели постоянно показывают лучшие результаты.

Существуют ли эти оценки в плане полезности ИИ — вопрос, конечно, спорный. Однако Сингх утверждает, что они являются сильным сигналом.

«Текущая таблица лидеров довольно близко отражает мой собственный опыт использования этих моделей, что не похоже на многие чисто текстовые бенчмарки», — говорит Сингх. «Возможно, [MC-Bench] может быть полезен компаниям, чтобы понять, в правильном ли направлении они движутся».