Самое время для суперсекретных и негуманных экспериментов с участием ИИ, мы знаем, что вы соскучились. Есть такой довольно популярный сабреддит ChangeMyView — авторы делятся какими-то своими убеждениями, а комментаторы вежливо и аргументированно пытаются изменить их точку зрения. Победитель получает от автора темы дельту «∆» (местная ВВВ-валюта). Команда исследователей из Цюрихского университета забросила на этот сабреддит LLM и заставила их менять мнение людей. Было три варианта ответов: — Generic: модель видит только текст поста (эффективность 17%); — Personalized: модель также получает данные о пользователе (пол, возраст, политические взгляды и т.д.). 18% эффективности; — Community Aligned: ответы в стиле комментариев, которые ранее получили значок «∆» дельты. Всего 9%. А теперь самое смешное: даже топовые комментаторы этого сабреддита в среднем получают 3% шанс забрать дельту. При этом ИИ не стеснялся очень грязно врать — где-то он представлялся жертвой изнасилования, а где-то жаловался, что он единственная белая женщина в почти черном коллективе. Эксперимент закончился, когда кто-то слил модераторам сабреддита черновик статьи 💀

Изображение к новости: Самое время для суперсекретных и негуманных экспе…

NeuroVesti 29.04.2025 08:47

Самое время для суперсекретных и негуманных экспериментов с участием ИИ, мы знаем, что вы соскучились. Есть такой довольно популярный сабреддит ChangeMyView — авторы делятся какими-то своими убеждениями, а комментаторы вежливо и аргументированно пытаются изменить их точку зрения. Победитель получает от автора темы дельту «∆» (местная ВВВ-валюта). Команда исследователей из Цюрихского университета забросила на этот сабреддит LLM и заставила их менять мнение людей. Было три варианта ответов: — Generic: модель видит только текст поста (эффективность 17%); — Personalized: модель также получает данные о пользователе (пол, возраст, политические взгляды и т.д.). 18% эффективности; — Community Aligned: ответы в стиле комментариев, которые ранее получили значок «∆» дельты. Всего 9%. А теперь самое смешное: даже топовые комментаторы этого сабреддита в среднем получают 3% шанс забрать дельту. При этом ИИ не стеснялся очень грязно врать — где-то он представлялся жертвой изнасилования, а где-то жаловался, что он единственная белая женщина в почти черном коллективе. Эксперимент закончился, когда кто-то слил модераторам сабреддита черновик статьи 💀

Самое время для суперсекретных и негуманных экспериментов с участием ИИ, мы знаем, что вы соскучились. Есть такой довольно популярный сабреддит ChangeMyView — авторы делятся какими-то своими убеждениями, а комментаторы вежливо и аргументированно пытаются изменить их точку зрения. Победитель получает от автора темы дельту «∆» (местная ВВВ-валюта). Команда исследователей из Цюрихского университета забросила на этот сабреддит LLM и заставила их менять мнение людей. Было три варианта ответов: — Generic: модель видит только текст поста (эффективность 17%); — Personalized: модель также получает данные о пользователе (пол, возраст, политические взгляды и т.д.). 18% эффективности; — Community Aligned: ответы в стиле комментариев, которые ранее получили значок «∆» дельты. Всего 9%. А теперь самое смешное: даже топовые комментаторы этого сабреддита в среднем получают 3% шанс забрать дельту. При этом ИИ не стеснялся очень грязно врать — где-то он представлялся жертвой изнасилования, а где-то жаловался, что он единственная белая женщина в почти черном коллективе. Эксперимент закончился, когда кто-то слил модераторам сабреддита черновик статьи 💀

Дата публикации: 29.04.2025 08:47

Вернуться к списку новостей