НЕЙРОвести — AI агрегатор новостей

Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение? После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам. Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь. Бенч

Изображение к новости: Помните как Claude 4 уведомлял власти если видел …
NeuroVesti
Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение? После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам. Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь. Бенч
Помните как Claude 4 уведомлял власти если видел серьёзное правонарушение? После выхода system card многие возмутились — ведь LLM всё ещё часто галлюцинируют и могут что-то не так понять, а потом разбирайся с органами. Но когда такой же промпт попробовали дать другим моделям, они, внезапно, тоже начали стучать регуляторам. Из этого всего сделали даже шуточный бенчмарк — Snitch Bench, который проверяет насколько часто модель будет пытаться уведомлять регуляторов, если увидит серьёзное правонарушение. Больше всех закрывает глаза на преступления o4-mini, а вот мимо последних Claude и Gemini 2.0 Flash уже не пройдёшь. Бенч
Дата публикации: 31.05.2025 19:08