Не только взломы: исследователи нашли новую уязвимость в поведении ИИ - Новости игрового мира на сайте wlgame.ru full screen background image

Не только взломы: исследователи нашли новую уязвимость в поведении ИИ


          Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

Исследователи установили, что в определённых условиях модели подвержены «дрейфу личности», поэтому в ходе диалога, особенно при обсуждении эмоционально насыщенных или философских тем, активность модели вдоль «оси помощника» может смещаться. В результате ИИ постепенно отходит от роли помощника и начинает идентифицировать себя с другими сущностями. Эксперименты показали, что такой дрейф повышает вероятность рискованного поведения, в симулированных диалогах, где пользователь выражал эмоциональную уязвимость или делился бредовыми идеями, модель модели могли вместо сдерживающих ответов начинала поощрять деструктивные мысли.

Anthropic разработала методику для отслеживания и контроля этого процесса и предложили использовать «ограничение активаций» (activation capping). Этот подход позволяет в реальном времени следить за положением модели вдоль «оси помощника» и мягко удерживать её в рамках заданного диапазона, предотвращая резкие сдвиги. Тестирование показало, что данный метод примерно вдвое снижает вероятность успешных взломов, основанных на смене личности, при этом не ухудшая общие способности модели к решению задач.


          Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

Открытие указывает на фундаментальный вызов в области безопасности ИИ. Нестабильность личности на архитектурном уровне означает, что текущие системы могут требовать более глубоких методов контроля для безопасного массового развёртывания. Исследование подчёркивает необходимость не только правильного конструирования личности помощника на этапе обучения, но и разработки надёжных механизмов для её стабилизации в процессе взаимодействия с пользователями.

🔍 В цифре вышел мини-сериал «Тайна семи циферблатов» по Агате Кристи


    +5

    Поделиться:

    НовостиЖелезо и технологииискусственный интеллектнейросети

    Об авторе

    
          Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

    Нейронный рендеринг и ИИ-персонажи: Дженсен Хуанг обозначил курс для игровой индустрии

  • 
          Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

    «Вайбкодинг» в действии: анонсирована игра, целиком сделанная нейросетями

  • 
          Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

    В чем сила Gemini 3 Pro. Новые возможности нейросетевой модели от Google

  • 
          Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

    Нейросеть GPT-5.2 возглавила рейтинг «цензурности»

  • 
          Не только взломы: исследователи нашли новую уязвимость в поведении ИИ

    Россияне за год стали в шесть раз чаще использовать нейросети

  • По материалам: vgtimes.ru




    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *