
Прошёл всего день с момента, когда Мэтт Ганзак опубликовал своё видео в TikTok, а оно уже набрало почти 40 тысяч просмотров. Тема задела за живое: он утверждает, что к концу 2026 года у вас на столе будет машина, способная запускать полноценные языковые модели локально, без единого цента за токены. Звучит как фантазия? Давайте разберёмся, что тут реальность, а что пока остаётся надеждой.
Apple прямо сейчас, в начале марта 2026 года, проводит в Нью-Йорке презентации нового Mac Studio с чипами M5 Max и M5 Ultra. Пресса уже получила устройства для тестирования. По утечкам, которые циркулировали последние недели, прирост производительности составляет более 50 процентов по сравнению с предыдущим поколением. И это особенно заметно именно в задачах, связанных с запуском нейросетей.
Чип M5 Ultra, по сути, представляет собой два чипа M5 Max, объединённых в один. Это значит огромный объём унифицированной памяти и пропускной способности, что критично для работы больших языковых моделей. Именно нехватка оперативной памяти и скорость обработки данных были главным узким местом, которое мешало запускать серьёзные модели на персональном оборудовании.
Ганзак упоминает три open-source модели, которые сегодня доступны для локального запуска: Qwen 2.5, MiniMax 2.5 и Gemma 2.5. Эти модели активно развиваются, и каждое новое обновление заметно улучшает качество генерации. Они не требуют подписки, не отправляют ваши данные на внешние серверы, и с правильным железом работают вполне достойно.
Сейчас, конечно, есть ограничения. Модели, которые помещаются в 32-64 гигабайта памяти, пока уступают тому же GPT-4o или Claude 3.5 Sonnet по сложным рассуждениям. Но разрыв сокращается с каждым месяцем. А с аппаратной базой уровня M5 Ultra, где может быть доступно 256 и более гигабайт унифицированной памяти, появляется возможность запускать модели значительно большего размера.
Вот что интересно: если посмотреть на стратегические шаги OpenAI и Anthropic за последние месяцы, картина складывается любопытная. OpenAI активно развивает инструменты вроде Codex и Operator, то есть смещает фокус с простого предоставления доступа к модели на создание целых рабочих сред. Anthropic делает похожие вещи с Claude Code. Зачем? Потому что просто продавать доступ к языковой модели через API становится всё менее устойчивой бизнес-моделью, если пользователи смогут запускать сопоставимые по качеству локальные нейросети 2026 года на своём оборудовании.
Как отмечает Ганзак, именно поэтому OpenAI пригласила в команду основателя OpenClaw. Им нужно строить экосистему инструментов, а не просто быть провайдером ИИ.
Отдельный и, пожалуй, недооценённый момент: когда вы работаете с облачными сервисами, все ваши промпты, данные, интеллектуальная собственность проходят через чужие серверы. Ганзак ставит вопрос прямо: зачем скармливать своё ноу-хау платформам, если всё это может жить локально на вашей машине? Для бизнеса, который работает с чувствительными данными клиентов, этот аргумент может оказаться решающим.
Пока аппаратная часть догоняет программную, есть практические шаги, которые имеет смысл предпринять. Во-первых, оптимизировать расходы на токены. Если вы используете облачные API для автоматизаций, стоит пересмотреть архитектуру запросов: часто можно сократить потребление в разы без потери качества.
Мы в компании Фабио Де Лука как раз занимаемся построением ИИ-автоматизаций для бизнеса, и одна из частых задач, с которой приходят клиенты, это именно оптимизация стоимости работы с языковыми моделями. Грамотно выстроенная автоматизация может использовать разные модели для разных задач: дорогую облачную для сложных рассуждений, а локальную или лёгкую для рутинных операций. Такой гибридный подход уже сегодня позволяет экономить существенные суммы. Подробнее о наших решениях для бизнеса с ИИ.
Стоит сохранять трезвость. Ганзак сам признаёт, что нынешние облачные модели, при всей их мощности, далеко не идеальны. Он описывает, как поспорил с Claude о настройке рекламы и в итоге оказался прав. Это знакомая ситуация для многих, кто работает с ИИ ежедневно. Модели галлюцинируют, упрямятся, иногда выдают откровенно неправильные решения.
Но это не значит, что облачные сервисы исчезнут. Скорее изменится их роль. Для задач, требующих огромного контекстного окна, мультимодальности, доступа к свежим данным из интернета, облачные решения будут оставаться актуальными ещё долго. А вот для типовых задач генерации текста, обработки документов, базовой аналитики переход на локальные модели выглядит вполне реалистичным сценарием.
| Параметр | Облачный ИИ (OpenAI, Anthropic) | Локальные модели на M5 Max/Ultra |
|---|---|---|
| Стоимость за токены | Оплата за каждый запрос | Нулевая после покупки железа |
| Конфиденциальность | Данные проходят через внешние серверы | Всё остаётся на вашей машине |
| Качество моделей | Пока выше для сложных задач | Быстро догоняет, достаточно для типовых задач |
| Зависимость от интернета | Полная | Отсутствует |
| Начальные вложения | Минимальные | Стоимость оборудования (Mac Studio) |
Локальные нейросети 2026 года не уничтожат облачный ИИ за одну ночь. Но они создают реальную альтернативу, которой ещё год назад просто не существовало. Чипы Apple M5 Max и Ultra могут стать тем переломным моментом, когда запускать серьёзные модели на своём рабочем столе перестанет быть уделом энтузиастов и станет нормой для бизнеса. Следите за анонсами из Нью-Йорка, а пока оптимизируйте то, что есть. Мы в блоге будем держать вас в курсе всех значимых изменений в этой области.