Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение? После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам. Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь. Бенч

NeuroVesti
Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение?
После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам.
Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь.
Бенч
Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение?
После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам.
Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь.
Бенч
Дата публикации: 31.05.2025 19:08