Последнее обновление

Лучшая игра про дигимонов: Обзор Digimon Story Time Stranger

Стартовал новый этап конкурса пользовательских статей с денежными призами для лучших авторов

Уютные посиделки в кафе: Обзор Coffee Talk Tokyo

Синие шары жёлтого короля: Обзор Saros

Вход через Google в России уже отрубают: плашку поймали на Авито, хотя закон даже не принят

Застрять в Японии вместе с bowie knife99: Обзор Forza Horizon 6

Уютные приключения в Муми-доле: Обзор Moomintroll: Winter’s Warmth

Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

Янв 21, 2026АдминистрацияЖелезо0Like

Исследователи установили, что в определённых условиях модели подвержены «дрейфу личности», поэтому в ходе диалога, особенно при обсуждении эмоционально насыщенных или философских тем, активность модели вдоль «оси помощника» может смещаться. В результате ИИ постепенно отходит от роли помощника и начинает идентифицировать себя с другими сущностями. Эксперименты показали, что такой дрейф повышает вероятность рискованного поведения, в симулированных диалогах, где пользователь выражал эмоциональную уязвимость или делился бредовыми идеями, модель модели могли вместо сдерживающих ответов начинала поощрять деструктивные мысли.

Anthropic разработала методику для отслеживания и контроля этого процесса и предложили использовать «ограничение активаций» (activation capping). Этот подход позволяет в реальном времени следить за положением модели вдоль «оси помощника» и мягко удерживать её в рамках заданного диапазона, предотвращая резкие сдвиги. Тестирование показало, что данный метод примерно вдвое снижает вероятность успешных взломов, основанных на смене личности, при этом не ухудшая общие способности модели к решению задач.

Открытие указывает на фундаментальный вызов в области безопасности ИИ. Нестабильность личности на архитектурном уровне означает, что текущие системы могут требовать более глубоких методов контроля для безопасного массового развёртывания. Исследование подчёркивает необходимость не только правильного конструирования личности помощника на этапе обучения, но и разработки надёжных механизмов для её стабилизации в процессе взаимодействия с пользователями.

🔍 В цифре вышел мини-сериал «Тайна семи циферблатов» по Агате Кристи

НовостиЖелезо и технологииискусственный интеллектнейросети

Об авторе

Нейронный рендеринг и ИИ-персонажи: Дженсен Хуанг обозначил курс для игровой индустрии

«Вайбкодинг» в действии: анонсирована игра, целиком сделанная нейросетями

В чем сила Gemini 3 Pro. Новые возможности нейросетевой модели от Google

Нейросеть GPT-5.2 возглавила рейтинг «цензурности»

Россияне за год стали в шесть раз чаще использовать нейросети

По материалам: vgtimes.ru

Предыдущая статьяСтарт волны подорожания: MSI поднимает цены на видеокарты RTX 50, за ней готовятся ASUS и GIGABYTE Следующая статьяИз-за глобального дефицита комплектующих традиционное владение PC может смениться подпиской на облачные мощности

Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

Добавить комментарий Отменить ответ

Новости

Главные события в Dota 2: новый патч, ивент, герой и… MMORPG?

Microsoft хвалится рекордными продажами Xbox

Far Cry 6 за кулисами. Показан процесс создания кинематографии

Resident Evil Re:Verse может не выйти вместе с Village

Кооперативный шутер GTFO с трейлером в честь нового обновления

Bethesda: Fallout 76 никогда не станет оффлайн игрой

В разработке находится новая MMORPG по вселенной «Властелина колец»

Российская Atom RPG готовится к финальному релизу

Battle for Azeroth стал самым быстро продаваемым аддоном World of Warcraft

Уютный побег: Обзор Deer and Boy

Уютный побег: Обзор Deer and Boy

Лучшая игра про дигимонов: Обзор Digimon Story Time Stranger

Стартовал новый этап конкурса пользовательских статей с денежными призами для лучших авторов

Стартовал новый этап конкурса пользовательских статей с денежными призами для лучших авторов

Уютные посиделки в кафе: Обзор Coffee Talk Tokyo

Виталий

Ирина

Евгений

Видео дня

Новое

Уютный побег: Обзор Deer and Boy

Лучшая игра про дигимонов: Обзор Digimon Story Time Stranger

Стартовал новый этап конкурса пользовательских статей с денежными призами для лучших авторов

Стартовал новый этап конкурса пользовательских статей с денежными призами для лучших авторов

Уютные посиделки в кафе: Обзор Coffee Talk Tokyo

Bethesda: Fallout 76 никогда н...

Российская Atom RPG готовится ...

В разработке находится новая M...

Виталий

Ирина

Евгений

Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

Похожие

Добавить комментарий Отменить ответ

Новости

Видео дня

Новое