vLLM V1 Engine Strengthens LLM Serving On Intel GPUs

A quick and simple library for LLM inference and serving is called vLLM. It has developed into a community-driven initiative that incorporates input from business and academia

[{"selector":"#anim-620a6b7b-81e8-4b78-90d0-210f789ad799","keyframes":[{"offset":0,"transform":"translate3d(0, -194.44445%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -54.67777934%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -18.58888942%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -6.980555755%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -3.0333334199999995%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}] [{"selector":"#anim-f5e25f62-de64-4ffc-9526-ae9fdd14fca0 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

This approach optimises inter-token delay (ITL) and GPU utilisation by batching compute-bound (prefill) and memory-bound (decode) requests and prioritising decode. The Intel Extension for PyTorch kernel is used to execute models in the vLLM v1 engine on Intel GPUs

[{"selector":"#anim-19e1ed16-5def-4662-b55e-a49a84067bfc","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}]

Using a short, quick draft model to forecast future tokens, spec decoding in vLLM is a technique intended to reduce inter-token delay during LLM inference

[{"selector":"#anim-d2c00555-e1c8-4210-bb12-b1a6493f2b23","keyframes":{"transform":["translate3d(125%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-92f92f54-5c9b-46ad-80f8-b0a4a029d887","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-5a237925-7011-43d7-b69d-4c089930f8d2 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

By processing longer context lengths for individual requests or managing more concurrent request batches, this increase in storage capacity improves throughput

[{"selector":"#anim-ed7c1509-cf18-4be6-be3a-d825a59c4b75 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-e2f34fef-3807-471c-9554-1ddd97f5635c","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

There are issues with the ranchlai/chatglm3-6B-gptq-4bit model. The Transformers implementation is incompatible with vLLM error, and ChatGLMForConditionalGeneration lacks vLLM implementation

[{"selector":"#anim-5c216b6e-6ac7-4c87-9681-22d66ea548b1 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-e3846a69-31e8-45f5-a125-96f8f978f839","keyframes":{"transform":["translate3d(123.77358%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-5033a832-14a6-4ae6-89a7-a29586e80186","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-76996380-3c6c-4f4f-8086-01d6a8bb1f6e","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Accuracy testing is not supported by the run-lm-eval-gsm-vllm-baseline.sh script in the docker image that is referenced in this blog

[{"selector":"#anim-17cd4db4-4ea1-4e42-aa92-a7e268cac27e","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-5d9d4abd-5b67-4916-aac2-30559a1f1b70","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-ff216a42-a4e5-4dcb-9cfe-67ddbfa9c585 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]

Memory usage for AWQ models is greater than the model size. 8.6GB of RAM was used by the Casperhansen/llama-3-8b-instruct-awq model, which had a capacity of 5.74 GB

[{"selector":"#anim-65f0f528-ce07-4a14-8239-f294d9d6b564","keyframes":[{"offset":0,"transform":"translate3d(0, -217.55474%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -61.176392888%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -20.798233144%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -7.810215166000001%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -3.393853944%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}] [{"selector":"#anim-cba68dd8-1a42-4155-a8bd-3d26e5350be3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

Intel tested vLLM V1's performance utilising docker container environments and commands on a machine with an Intel Core Ultra 5 245KF CPU and Intel Arc B580 discrete graphics card

[{"selector":"#anim-b52d656f-5c5b-4976-81b1-a808905c2f27","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-c3fdd972-0b59-445a-935e-479c2e1c7949","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

In this benchmarking arrangement, sending additional prompts to the vLLM server increased throughput. With 16 concurrent requests, it peaked and steadied as hardware resources drained

[{"selector":"#anim-2270ae91-ab2c-437d-bf9e-1623958a9639","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-296f18c7-ec53-4da8-a34f-2f4126ef1481 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]