
Несколько месяцев назад была опубликована работа под названием "Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models". Авторы – бывший технический директор SAP Вишал Сикка и его сын – утверждают, что математически доказали фундаментальное ограничение: большие языковые модели не способны выполнять вычислительные и агентные задачи выше определённого уровня сложности.
"Они не могут быть надёжными", – говорит Сикка, возглавляющий стартап Vianai в сфере ИИ-сервисов. По его мнению, даже модели с расширенными способностями к рассуждению не решат проблему. Можно поручить агенту подать документы или выполнить простые операции, но придётся смириться с ошибками.
Однако ИИ-индустрия не согласна. В 2025 году произошёл прорыв в области автоматизации кодирования с помощью агентов. На недавнем форуме в Давосе нобелевский лауреат Демис Хассабис из Google сообщил о достижениях в минимизации галлюцинаций. Стартап Harmonic представил улучшенную версию продукта Aristotle, основанную на формальной математической верификации. Компания использует язык программирования Lean для проверки выходных данных LLM, что показывает рекордную надёжность в тестах.
Чтобы понять дискуссию, важно разобраться, что такое ИИ агент. Это система на базе языковой модели, способная автономно выполнять последовательности задач: анализировать информацию, принимать решения, взаимодействовать с внешними сервисами и достигать заданных целей без постоянного участия человека.
Проблема в том, что галлюцинации – это встроенная особенность архитектуры трансформеров. В сентябре 2024 года учёные OpenAI опубликовали исследование, показывающее: даже последние модели, включая ChatGPT, выдумывают факты. Когда три модели попросили назвать диссертацию ведущего автора, все три изобрели ложные названия и неверно указали год публикации. OpenAI признала: точность никогда не достигнет 100%.
Сейчас эти неточности серьёзно препятствуют корпоративному внедрению агентов. "Ценность не была доказана", – утверждает Химаншу Тьяги, сооснователь компании Sentient. Он отмечает, что работа с галлюцинациями может разрушить весь рабочий процесс, сводя на нет преимущества автоматизации.
Крупные ИИ-компании и стартапы считают, что с неточностями можно справиться. Ключ – создание защитных механизмов, фильтрующих выдуманную информацию. Даже Сикка допускает такой сценарий: "Наша работа говорит о врождённых ограничениях чистых LLM – но одновременно верно, что можно построить компоненты вокруг них, преодолевающие эти ограничения".
Тюдор Ахим из Harmonic считает галлюцинации не недостатком, а необходимой особенностью: "Я думаю, галлюцинации свойственны LLM и необходимы для превосходства над человеческим интеллектом. Системы учатся, галлюцинируя что-то новое. Это часто ошибочно, но иногда это то, о чём ни один человек не думал раньше".
По его оценке, большинство современных моделей обладают достаточным интеллектом для выполнения таких задач, как бронирование поездки. Вопрос в создании механизмов проверки.
Обе стороны дискуссии правы одновременно. Галлюцинации останутся постоянной реальностью, но разрыв между защитными механизмами и ошибками будет сокращаться. Индустрия слишком заинтересована в успехе агентных систем, чтобы отступить.
| Тип задач | Текущая надёжность | Перспективы |
|---|---|---|
| Программирование | Высокая (с верификацией) | Дальнейший рост точности |
| Документооборот | Средняя | Требуется проверка человеком |
| Критические системы | Низкая | Пока не рекомендуется для АЭС |
Наши автоматизации на базе ИИ учитывают эти ограничения. Мы строим системы с многоуровневой проверкой: ИИ-агенты выполняют рутинные операции, а критические решения проходят валидацию. Например, система Авто-Блог генерирует SEO-оптимизированные статьи, но финальный контроль остаётся за редактором.
Компьютерный пионер Алан Кей предлагает иной взгляд на проблему, ссылаясь на Маршалла МакЛюэна: "Не спрашивайте, хорошо это или плохо, правильно или неверно. Выясните, что происходит".
А происходит вот что: мы находимся на пороге массовой автоматизации когнитивной деятельности человека. Задачи, которые выполняют агенты, всегда потребуют некоторой степени проверки. Люди будут проявлять небрежность, случатся малые и крупные катастрофы – но в конечном счёте агенты сравняются с надёжностью человека или превзойдут её, оставаясь быстрее и дешевле.
Возможно, не будет конкретного "года агента". Но каждый следующий год станет "годом ещё большего количества агентов". Вопрос не в том, случится ли это, а в том, как это изменит качество нашей работы и жизни. И эта оценка вряд ли поддастся математической верификации.
Заключение: ИИ-агенты с их неизбежными галлюцинациями представляют собой парадокс – одновременно невозможные и неизбежные. Технология развивается быстрее, чем решаются её фундаментальные проблемы, но именно это противоречие движет прогресс вперёд.
