Можно ли развернуть распознавание речи на обычных серверах и сохранить качество на уровне промышленных решений?

Можно ли развернуть распознавание речи на обычных серверах и сохранить качество на уровне промышленных решений? Вопрос упирается не в модели, а в архитектуру программной системы: в реальных внедрениях для заказчика имеет значение не только точность распознавания и задержки, но и нагрузка на систему и стоимость эксплуатации. Все это мы учитываем в нашей платформе для синтеза и распознавания речи Audiogram, которая в свою очередь является частью еще более масштабной платформы для создания корпоративных ИИ-агентов MWS AI Agents Platform. Разобрали на Хабре, как мы оптимизировали распознавание речи под CPU-конфигурации как более доступный вариант инференса по сравнению с GPU — от выбора компонентов до поиска узких мест и адаптации под конкретные ограничения, имеющие место у большинства заказчиков. Владимир Никулин, технический лидер команды продуктивизации нейросетевых решений в MWS AI: «Переход на CPU — это не компромисс по качеству, а результат глубокой оптимизации пайплайна. На примере одного из наших кейсов мы показали, что ключевым фактором эффективности стало устранение накладных расходов на передачу данных (PCIe overhead) и синхронизацию: перенос декодера и внедрение stateful-хранилища контекста позволили нам вплотную приблизиться к теоретическому максимуму производительности железа. Мы подтверждаем на практике, что вместо гонки за дефицитными GPU можно инвестировать в грамотный инжиниринг, получая промышленный ASR (и не только) на более экономичной инфраструктуре с сохранением метрик качества, сопоставимых с GPU-кластерами. При этом в Audiogram мы не ограничиваемся общими решениями и адаптируем модели под специфические домены клиента, обеспечивая прецизионную точность там, где типовые системы показывают низкие результаты» Полный материал читайте на Хабре: https://habr.com/ru/companies/mts_ai/articles/1026096/

1 фото

Рубрики: Информационные технологии и Телеком