inference 썸네일형 리스트형 LLM의 Dynamic Batching이 서비스를 안정시키는 이유 LLM 추론 서비스에서 동적 배치(Dynamic Batching)를 적용하고 부하 테스트를 수행하면 흥미로운 현상을 관찰하게 된다. 트래픽이 증가하는데도 p50(중앙값) 지연 시간이 일정 구간까지 거의 변하지 않거나 오히려 감소하는 경우가 있다. 직관적으로는 "요청이 늘어나면 당연히 느려져야 하는 것 아닌가?"라는 의문이 들지만, GPU 기반 추론 시스템에서는 그 반대 구간이 존재한다. 이를 이해하려면 먼저 지연 시간을 분해해야 한다. 개별 요청의 종단 간 지연을 아주 간단하게 표현하면 다음과 같이 표현할 수 있다. $Latency = T_{queue} + T_{compute}$ 여기서 $T_{queue}$는 배치에 합류하기 위해 기다리는 시간이고, $T_{compute}$는 GPU에서 실제 계산에 소요.. 더보기 이전 1 다음