LLM Chat Performance Optimisation for Intel Flex GPUs with RAG

Documents are stored in memory using the InMemoryDocumentStore, a lightweight document storage

[{"selector":"#anim-a6462e2e-d27c-4ca2-b3bd-8b875540c135 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-37.635448841381056%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-84ba1691-7219-4384-8565-0b3e8f6ff842","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-5272c05e-0ab3-4bdc-9e86-71dc666b1338","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

A flexible and strong library for creating embeddings that work with a variety of NLP applications is called Sentence Transformers

[{"selector":"#anim-292aff90-15ff-4add-9b6d-2c96feeb10cd [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(30.016447247161633%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-4fbd1c1c-b6e6-4d31-b150-8565347b9ca3","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-91fa1ee7-eaaa-45ec-91f5-aceeacd8c275","keyframes":{"transform":["translate3d(-111.5727%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}]

Twixor used Retrieval Augmented Generation (RAG) to try and increase the chat’s accuracy

[{"selector":"#anim-98bf6976-a8e1-4932-b1a0-fcb7c9ade4ea [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.179687404002955%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-5ebd161f-05e5-4d6a-a77e-342e1d821691","keyframes":{"transform":["scale(1)","scale(1.5)","scale(0.95)","scale(1)"],"offset":[0,0.33,0.66,1]},"delay":0,"duration":1450,"easing":"ease-in-out","fill":"both","iterations":1}]

They used Haystack’s `InMemoryDocumentStore, a simple and light document storage intended for rapid development and experimentation

[{"selector":"#anim-40d1658a-30cb-44f8-a8d1-16b45c4ef633 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-21.874999829338588%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-362c9bc7-3984-4ba8-bdc3-94752ba8097d","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

During the second stage of this project, They inferred the Neural Chat LLM for Twixor using the Intel Data Centre GPU Flex Series 140

[{"selector":"#anim-6d249121-77b8-4714-9283-44892a48fb17 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.177067713227004%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-e1ba177e-20ba-436e-a116-9cac8cfe213c","keyframes":{"transform":["translate3d(-124.72727%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-c5052cef-fec8-4ea9-a3a7-af4b581ccc7e","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

Matrix multiplication and convolution operations are two AI tasks that the Flex 140 GPUs are specifically designed to accelerate using dedicated hardware

[{"selector":"#anim-7571d74a-3ee9-4b8d-a58b-cc9a5b8f4f62 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(34.168519598979664%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-cb3f7c50-b91b-42bd-ada5-88ce643481b0","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

For effective AI implementation, Intel offers optimised libraries such as Intel AI Analytics Toolkit, OpenVINO, and oneDNN

[{"selector":"#anim-3cf781e5-7c8e-4cf5-b88d-1eae3e9005f9 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-ac927286-ced6-484e-b8ac-6ab9dc33cdd8","keyframes":{"transform":["translate3d(-115.70512%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-d59d8e04-1ccf-4622-b2b0-9b244eea0735","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e239c6d8-60d3-4983-85f0-4d1ce1e92b85","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

VMware virtualization established a virtual computer with four CPUs and sixteen gigabytes of RAM, and the two Intel Flex Series GPU 140 GPU cards were passed through For more details Govindhtech.com

[{"selector":"#anim-941ff372-9ab3-4e34-90a9-9f356592b02a [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.1891890932498%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-f9f990f2-3bf8-40ad-aa54-497124b974dc","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-57e128f8-b987-4eda-baf9-05882a6d6419","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]