
Исследователи установили, что в определённых условиях модели подвержены «дрейфу личности», поэтому в ходе диалога, особенно при обсуждении эмоционально насыщенных или философских тем, активность модели вдоль «оси помощника» может смещаться. В результате ИИ постепенно отходит от роли помощника и начинает идентифицировать себя с другими сущностями. Эксперименты показали, что такой дрейф повышает вероятность рискованного поведения, в симулированных диалогах, где пользователь выражал эмоциональную уязвимость или делился бредовыми идеями, модель модели могли вместо сдерживающих ответов начинала поощрять деструктивные мысли.
Anthropic разработала методику для отслеживания и контроля этого процесса и предложили использовать «ограничение активаций» (activation capping). Этот подход позволяет в реальном времени следить за положением модели вдоль «оси помощника» и мягко удерживать её в рамках заданного диапазона, предотвращая резкие сдвиги. Тестирование показало, что данный метод примерно вдвое снижает вероятность успешных взломов, основанных на смене личности, при этом не ухудшая общие способности модели к решению задач.

Открытие указывает на фундаментальный вызов в области безопасности ИИ. Нестабильность личности на архитектурном уровне означает, что текущие системы могут требовать более глубоких методов контроля для безопасного массового развёртывания. Исследование подчёркивает необходимость не только правильного конструирования личности помощника на этапе обучения, но и разработки надёжных механизмов для её стабилизации в процессе взаимодействия с пользователями.
🔍 В цифре вышел мини-сериал «Тайна семи циферблатов» по Агате Кристи
+5
Поделиться:
НовостиЖелезо и технологииискусственный интеллектнейросети
Об авторе

Нейронный рендеринг и ИИ-персонажи: Дженсен Хуанг обозначил курс для игровой индустрии

«Вайбкодинг» в действии: анонсирована игра, целиком сделанная нейросетями

В чем сила Gemini 3 Pro. Новые возможности нейросетевой модели от Google

Нейросеть GPT-5.2 возглавила рейтинг «цензурности»

Россияне за год стали в шесть раз чаще использовать нейросети
По материалам: vgtimes.ru











