4배 빠른 LLM 추론 (Flash Attention 개발자의 회사)
ATLAS는 Together AI의 Together Turbo 연구를 기반으로 한 적응형 학습 스펙큘레이터 시스템으로, 런타임에서 실시간으로 학습하며 최대 4배 빠른 LLM 추론 속도를 제공합니다.
이 시스템은 정적 스펙큘레이터와 경량 적응형 스펙큘레이터, 그리고 신뢰도 기반 컨트롤러를 결합하여 다양한 작업 부하에 자동으로 최적화되고, 특히 변화하는 입력 분포에 유연하게 대응하여 지속적인 성능 향상을 실현합니다.
또한, 강화학습 훈련 시 정책 변화에 맞춰 빠르게 적응하여 롤아웃 시간을 크게 단축하며, Together Turbo 최적화 스위트의 핵심 구성요소로서 실용적이고 비용 효율적인 AI 추론 가속화를 지원합니다.