Через 10 минут ждем вас на трансляции вебинара «Как сократить расходы на инференс LLM?»
Вместе с коллегами из Compressa и «Актион»:
✅ обсудим способы оптимизации open-source LLM-моделей на своем сервере и преимущества использования облака для инференса LLM,
✅ сравним производительность LLM и стоимость токенов до и после оптимизации,
✅ рассмотрим кейс коллег по обработке 100 000+ генераций в день всего на одной GPU-карте.
Присоединяйтесь удобным для вас способом:
➡ https://slc.tl/v17us
➡ https://slc.tl/gca75