Intel GPU Multi-Layer Perceptrons with SYCL

Intel proudly introduces the first SYCL implementation of fully-fused Multi-Layer Perceptrons on Intel GPUs that support Intel XMX instructions

[{"selector":"#anim-27c2d946-7437-4980-8f3e-e6b371b78cb5","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-178f2ba3-776d-4990-94ce-482f06df5786 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

The CUDA PyTorch version running on Nvidia’s H100 GPU by up to a factor of 19, and it beats the pre-made Intel Extension for PyTorch (IPEX)implementation running on the same Intel GPU by up to a factor of 30

[{"selector":"#anim-0ff2ac4d-8abe-4dd2-adb4-ab58d619a5fa [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(28.90624987200394%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-5334205b-46d3-41c0-b331-d9f7824cc3a3","keyframes":{"transform":["translate3d(111.67192%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-cded3699-d074-42f1-8a14-ba932839478c","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

A SYCL implementation of Multi-Layer Perceptrons (MLPs) optimised for the Intel Data Centre GPU Max 1550 is shown in this work

[{"selector":"#anim-58003761-92b2-4e6b-8f85-00b20476f6f4 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(-3.552713678800501e-15%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-164b04c4-e10f-478f-92ae-c37de7c18202","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-66498e66-ee7f-48fb-990c-0241aae37001","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

Compare Intel Data Centre GPU to CUDA for MLPs and find 2.84 inference and 1.75 training (compared to Nvidia's H100 GPU)

[{"selector":"#anim-4b29d31a-f9a5-40ff-bea8-5fd379c4bcb8","keyframes":{"transform":["translate3d(-124.54873%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-1e5278c9-00e0-4bc3-a875-f61297324a22","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-19b8e873-5b98-40a0-861f-9cb86a55f94e [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

In all settings, Intel's technique surpasses CUDA PyTorch on Nvidia's H100 GPU by 19 times and the off-the-shelf Intel Extension for PyTorch (IPEX) by 30 times

[{"selector":"#anim-b8d65cb4-22c9-4461-a5f9-cdcbec28736f [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.1891890932498%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-3e41266a-60ad-4280-bbcb-34d5b50dbd84","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-4f4d76a3-31ee-4ae5-b992-d803b0db44ef","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

Intel's method allows high-throughput training and inference because to its efficient use of Intel Data Centre GPUs

[{"selector":"#anim-bc43117d-b9cf-4475-b567-5b158bde991c [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(29.20820539530859%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-cb7f8eb3-99ec-41eb-a143-2d1bf915988c","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-3cd19e84-4788-498b-90eb-217ce7a5a495","keyframes":{"transform":["scale(0.3333333333333333)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

The approach also provides Python bindings that elegantly integrate GPU-accelerated MLPs into PyTorch applications

[{"selector":"#anim-701dcd43-c47a-4b07-a2e1-012435b32984 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-33.138652810307356%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-d4b9bfcd-8487-4e00-9dfd-1b4d20b58dd4","keyframes":{"opacity":[1,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-3e2db092-4700-4ab5-bf49-705be9c03f14","keyframes":{"transform":["scale(3)","scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]

Intel tested Intel's SYCL implementation on an Intel Data Centre GPU Max 1550 with the CUDA implementation on an Nvidia H100 GPU and PyTorch

[{"selector":"#anim-fd158987-4d83-4ff9-bc1f-3085ae7df566 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-29.20820539530859%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-8a08839d-0075-4739-a92d-c749c4daf801","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

Intel also showed its solution worked in NeRF (Neural Radiance Fields), Image Compression, and Physics-Informed Machine Learning For more details Govindhtech.com

[{"selector":"#anim-cc48e837-22b1-4163-9886-8cc6b5877a7d","keyframes":{"transform":["translate3d(116.32654%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-e62673cb-5089-4dff-b016-a90e251a67b1","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}] [{"selector":"#anim-6608baaf-daa0-4f1d-9186-622aa6d50adc [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-28.90624987200394%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}]