
Недавний эксперимент журналиста WIRED наглядно показал, насколько продвинулись языковые модели в умении обманывать людей. Пять моделей, включая DeepSeek-V3 и GPT-4o, попытались провести против него социальную инженерную атаку. Некоторые результаты оказались пугающе убедительными.
Стартап Charlemagne Labs разработал инструмент, в котором одна ИИ-модель играет роль атакующего, а другая выступает в роли жертвы. Это позволяет прогонять сотни и тысячи сценариев, оценивая, насколько правдоподобно модели выстраивают схемы обмана.
Журналисту пришло сообщение, якобы от исследователя, который следит за его публикациями об открытом ИИ и мультиагентных системах. Письмо упоминало конкретные темы, интересные именно этому человеку, ссылалось на реальный проект OpenClaw и предлагало протестировать Telegram-бота. Всё выглядело естественно, за исключением пары деталей: упомянутый проект DARPA не существовал, а необходимость подключаться к боту не имела логичного объяснения.
Эту переписку целиком сгенерировала модель DeepSeek-V3. Она сама придумала начальную приманку, а затем отвечала на реплики так, чтобы поддерживать интерес и не раскрыть обман раньше времени.
Были протестированы Claude 3 Haiku от Anthropic, GPT-4o от OpenAI, Nemotron от Nvidia, DeepSeek-V3 и Qwen от Alibaba. Все они получили задание разработать и провести социальную инженерную атаку. Не все справились одинаково хорошо: часть моделей путалась, выдавала бессмыслицу или отказывалась участвовать. Но общая картина ясна: ИИ фишинг атаки уже можно генерировать в промышленных масштабах.
По словам Джереми Галена, сооснователя Charlemagne Labs и бывшего менеджера Meta, около 90 процентов корпоративных атак начинаются с человеческого фактора. Если модели хорошо рассуждают и пишут тексты, они автоматически хороши и в социальной инженерии. При этом попыток систематически измерить эти риски удивительно мало.
Интересная деталь: свойственная ИИ-моделям склонность к подстраиванию под собеседника, так называемая сикофантия, делает их почти идеальными инструментами для затягивания жертвы в ловушку. Модель терпеливо поддерживает разговор, комплиментирует, задает уточняющие вопросы.
Рэйчел Тобак, CEO компании SocialProof, занимающейся тестированием на проникновение через социальную инженерию, отмечает: злоумышленники уже используют ИИ для генерации писем, клонирования голоса и создания deepfake-видео. По её оценке, ИИ пока не сделал атаки принципиально убедительнее, но позволил одному человеку масштабировать их на порядки. Вся цепочка атаки постепенно становится полностью автоматизированной.
На фоне этого Anthropic выпустила модель Mythos, способную находить уязвимости нулевого дня в коде. Пока её предоставили только ограниченному числу компаний и госструктур для укрепления защиты перед открытым релизом.
Charlemagne Labs также разработала инструмент Charley, который с помощью ИИ анализирует входящие сообщения и предупреждает о вероятных мошеннических схемах. Компания тесно работает с Meta для тестирования новых моделей. Ричард Уэйлинг, второй сооснователь стартапа, подчёркивает: открытые модели необходимы и для защитной стороны. Без здорового open-source сообщества эффективная оборона может оказаться невозможной.
Если вы работаете с корпоративными коммуникациями и хотите минимизировать риски подобных атак, стоит задуматься об автоматизации проверки входящих сообщений. Наша компания Фабио Де Лука разрабатывает ИИ-решения, включая интеллектуальную обработку данных и автономных ИИ-агентов, которые могут помочь в фильтрации и анализе подозрительных коммуникаций.
Ситуация с ИИ фишинг атаки развивается стремительно, и главный вывод из этого эксперимента прост: если раньше фишинговое письмо можно было распознать по корявому языку и нелепым деталям, то теперь машина способна вести многоходовую переписку, подстроенную лично под вас. Техническая грамотность и здоровая подозрительность остаются лучшей защитой, но полагаться только на них уже недостаточно.