Наш новый метод сжатия больших языковых моделей позволяет уменьшить их размер до восьми раз. Сжатая модель сохраняет в среднем 95% точности исходной модели

🌀 Наш новый метод сжатия больших языковых моделей позволяет уменьшить их размер до восьми раз. Сжатая модель сохраняет в среднем 95% точности исходной модели. Новый метод тестировали на моделях LLama 2, LLama 3 и Mistral. Над новым методом работал аспирант «Сколтеха» и резидент нашего научного отдела Yandex Research Денис Кузнеделев. Мы поговорили с ним о том, чем исследователи и учёные занимаются в больших технологических компаниях. ↗ Код совместного проекта исследователей из Yandex Research и IST Austria опубликован на GitHub: https://github.com/Vahe1994/AQLM

6 фото

github.com: Official Pytorch repository for Extreme Compression of Large Language Models via Additive Quantization https://arxiv.org/pdf/2401.06118.pdf - Vahe1994/AQLM

GitHub - Vahe1994/AQLM: Official Pytorch repository for Extreme Compression of Large Language Models

Рубрики: Информационные технологии и Телеком