Самое время для суперсекретных и негуманных экспериментов с участием ИИ, мы знаем, что вы соскучились. Есть такой довольно популярный сабреддит ChangeMyView — авторы делятся какими-то своими убеждениями, а комментаторы вежливо и аргументированно пытаются изменить их точку зрения. Победитель получает от автора темы дельту «∆» (местная ВВВ-валюта). Команда исследователей из Цюрихского университета забросила на этот сабреддит LLM и заставила их менять мнение людей. Было три варианта ответов: — Generic: модель видит только текст поста (эффективность 17%); — Personalized: модель также получает данные о пользователе (пол, возраст, политические взгляды и т.д.). 18% эффективности; — Community Aligned: ответы в стиле комментариев, которые ранее получили значок «∆» дельты. Всего 9%. А теперь самое смешное: даже топовые комментаторы этого сабреддита в среднем получают 3% шанс забрать дельту. При этом ИИ не стеснялся очень грязно врать — где-то он представлялся жертвой изнасилования, а где-то жаловался, что он единственная белая женщина в почти черном коллективе. Эксперимент закончился, когда кто-то слил модераторам сабреддита черновик статьи 💀

NeuroVesti
Самое время для суперсекретных и негуманных экспериментов с участием ИИ, мы знаем, что вы соскучились.
Есть такой довольно популярный сабреддит ChangeMyView — авторы делятся какими-то своими убеждениями, а комментаторы вежливо и аргументированно пытаются изменить их точку зрения. Победитель получает от автора темы дельту «∆» (местная ВВВ-валюта).
Команда исследователей из Цюрихского университета забросила на этот сабреддит LLM и заставила их менять мнение людей.
Было три варианта ответов:
— Generic: модель видит только текст поста (эффективность 17%);
— Personalized: модель также получает данные о пользователе (пол, возраст, политические взгляды и т.д.). 18% эффективности;
— Community Aligned: ответы в стиле комментариев, которые ранее получили значок «∆» дельты. Всего 9%.
А теперь самое смешное: даже топовые комментаторы этого сабреддита в среднем получают 3% шанс забрать дельту.
При этом ИИ не стеснялся очень грязно врать — где-то он представлялся жертвой изнасилования, а где-то жаловался, что он единственная белая женщина в почти черном коллективе.
Эксперимент закончился, когда кто-то слил модераторам сабреддита черновик статьи 💀
Самое время для суперсекретных и негуманных экспериментов с участием ИИ, мы знаем, что вы соскучились.
Есть такой довольно популярный сабреддит ChangeMyView — авторы делятся какими-то своими убеждениями, а комментаторы вежливо и аргументированно пытаются изменить их точку зрения. Победитель получает от автора темы дельту «∆» (местная ВВВ-валюта).
Команда исследователей из Цюрихского университета забросила на этот сабреддит LLM и заставила их менять мнение людей.
Было три варианта ответов:
— Generic: модель видит только текст поста (эффективность 17%);
— Personalized: модель также получает данные о пользователе (пол, возраст, политические взгляды и т.д.). 18% эффективности;
— Community Aligned: ответы в стиле комментариев, которые ранее получили значок «∆» дельты. Всего 9%.
А теперь самое смешное: даже топовые комментаторы этого сабреддита в среднем получают 3% шанс забрать дельту.
При этом ИИ не стеснялся очень грязно врать — где-то он представлялся жертвой изнасилования, а где-то жаловался, что он единственная белая женщина в почти черном коллективе.
Эксперимент закончился, когда кто-то слил модераторам сабреддита черновик статьи 💀
Дата публикации: 29.04.2025 08:47