🆎 Буквы разные читать в названии ML-моделей
Нужно это для того, чтобы верно выбрать тип модели под конкретную задачу. Разберемся, что означают символы на примере qwen3-coder-30b-a3b-instruct-fp8.
Qwen3 — название и поколение модели
В примере — семейство от Alibaba третьего поколения. Аналогично Llama3, Gemma3, Mistral и другие.
Coder — специализация
В примере — модель дополнительно обучена на коде. Встречаются и другие профили, например math, vision или audio. Если специализации нет, модель универсальная.
30B — размер модели
В примере — 30 миллиардов параметров. Чем их больше, тем модель умнее и требовательнее к ресурсам.
A3B — активные параметры
В примере — архитектура MoE (Mixture of Experts / Смесь экспертов). Модель весит как 30B, но при обработке запроса задействует только три миллиарда параметров. Это делает ее быстрее и экономичнее.
Instruct — уточнение типа модели
В примере — дообученная на диалогах модель, которая понимает формат взаимодействия в чате. Именно такие модели используют в ИИ-ассистентах. Без этого тега пишут базовые модели, которые предсказывают следующий токен, но не умеют «общаться».
FP8 — квантование (сжатие)
В примере обозначение показывает, что веса модели хранятся в формате 8-битных чисел. Чем ниже разрядность, тем меньше места занимает модель и больше вероятность неточности.
Сохраняйте шпаргалку. Она пригодится при выборе в Foundation Models Catalog — нашем каталоге преднастроенных моделей с готовым API ➡ slc.tl/iyjhu
