
Китайская компания SenseTime, которая долгое время ассоциировалась с технологиями распознавания лиц, представила новую открытую модель SenseNova U1. Главная заявка: модель умеет генерировать и интерпретировать изображения значительно быстрее, чем топовые решения американских конкурентов. И что особенно важно для рынка, она работает на китайских чипах.
Ключевая особенность этих ии модели заключается в способности «читать» изображения напрямую, без предварительного перевода в текст. Это ускоряет обработку и снижает требования к вычислительным ресурсам. Дахуа Линь, сооснователь и главный учёный SenseTime, объясняет: процесс рассуждения модели больше не ограничен текстом, она может рассуждать с помощью изображений.
Линь, который также является профессором информационных технологий в Китайском университете Гонконга, считает, что модели с прямой обработкой визуальной информации откроют роботам путь к лучшему пониманию физического мира.
Как и последняя флагманская модель DeepSeek, SenseNova U1 может работать на чипах китайского производства. В день релиза 10 китайских разработчиков чипов, включая Cambricon и Biren Technology, подтвердили совместимость своего оборудования с U1.
Это критически важно в условиях экспортных ограничений США, которые не позволяют китайским компаниям получать доступ к самым продвинутым чипам для обучения ИИ (прежде всего от Nvidia). Линь при этом признаёт, что для максимальной скорости итераций компании «возможно, всё ещё потребуются лучшие чипы».
SenseTime опубликовала U1 бесплатно на Hugging Face и GitHub. Компания приняла решение сосредоточиться на открытом коде в прошлом году, потому что обратная связь от исследователей помогает быстрее развивать продукт. «В наше время, open-source или закрытый код не является решающим фактором победы; скорость итераций решает», объясняет Линь.
Открытость также помогает SenseTime сотрудничать с международными исследователями несмотря на санкции. Напомню, компания неоднократно попадала под ограничения правительства США из-за обвинений в причастности к системам наблюдения в Синьцзяне. SenseTime эти обвинения отрицает.
Согласно техническому отчёту, SenseNova U1 генерирует изображения более высокого качества, чем все другие открытые ии модели на рынке. По производительности она сопоставима с закрытыми моделями Alibaba (Qwen) и ByteDance (Seedream), хотя пока уступает лидерам вроде GPT-Image-2.0.
Основное преимущество U1 в скорости генерации. Модель использует архитектуру NEO-Unify, которую SenseTime анонсировала ранее в этом году. Адина Якефу, исследователь из Hugging Face, отмечает: «Это более амбициозный подход, который всё ещё сталкивается с практическими вызовами. Хорошо, что они решили открыть исходный код, чтобы сообщество могло шире тестировать модель.»
Что касается применения, Линь делает ставку на робототехнику. Когда робот обрабатывает визуальную среду, ему нужно разобраться с огромным объёмом информации: как справиться с беспорядком в комнате, какую кнопку нажать на сложном устройстве. Прямое понимание изображений позволит роботам действовать быстрее и допускать меньше ошибок.
Если вы разрабатываете продукты, связанные с обработкой визуальной информации или генерацией контента, подобные модели можно интегрировать в автоматизированные решения. Мы в Фабио Де Лука используем Hugging Face и другие платформы при создании автоматизаций с ИИ, и появление таких моделей расширяет возможности для бизнеса.
Появление SenseNova U1 подтверждает тренд: китайские компании становятся одними из самых активных контрибьюторов в открытый ИИ, а санкционное давление стимулирует разработку локальных аппаратных решений вместо того, чтобы останавливать прогресс.