Буквы разные читать в названии ML-моделей

🆎 Буквы разные читать в названии ML-моделей Нужно это для того, чтобы верно выбрать тип модели под конкретную задачу. Разберемся, что означают символы на примере qwen3-coder-30b-a3b-instruct-fp8. Qwen3 — название и поколение модели В примере — семейство от Alibaba третьего поколения. Аналогично Llama3, Gemma3, Mistral и другие. Coder — специализация В примере — модель дополнительно обучена на коде. Встречаются и другие профили, например math, vision или audio. Если специализации нет, модель универсальная. 30B — размер модели В примере — 30 миллиардов параметров. Чем их больше, тем модель умнее и требовательнее к ресурсам. A3B — активные параметры В примере — архитектура MoE (Mixture of Experts / Смесь экспертов). Модель весит как 30B, но при обработке запроса задействует только три миллиарда параметров. Это делает ее быстрее и экономичнее. Instruct — уточнение типа модели В примере — дообученная на диалогах модель, которая понимает формат взаимодействия в чате. Именно такие модели используют в ИИ-ассистентах. Без этого тега пишут базовые модели, которые предсказывают следующий токен, но не умеют «общаться». FP8 — квантование (сжатие) В примере обозначение показывает, что веса модели хранятся в формате 8-битных чисел. Чем ниже разрядность, тем меньше места занимает модель и больше вероятность неточности. Сохраняйте шпаргалку. Она пригодится при выборе в Foundation Models Catalog — нашем каталоге преднастроенных моделей с готовым API ➡ slc.tl/iyjhu

1 фото

Рубрики: Информационные технологии и Телеком