StableHLO & OpenXLA: Enhancing Hardware Portability for ML

OpenXLA converts and optimizes calculations for CPUs, GPUs, and TPUs in JAX, a Python numerical computation toolkit featuring pytorch/XLA compilation and automated differentiation

[{"selector":"#anim-3d687398-c7b2-4d59-a823-b835a35148d8","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}] [{"selector":"#anim-aa5849da-3e8a-4aac-9775-43ab9edf9a15 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}]

The context of OpenXLA’s function suggests that StableHLO is probably connected to the portability and stability of the Hardware Abstraction Layer (HAL) within the OpenXLA ecosystem

[{"selector":"#anim-ec1260d2-6b77-4f82-b9c0-cdde0c80495f [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-b4860c44-3bd6-4247-a5b9-11a9ed6bf18e","keyframes":[{"offset":0,"transform":"translate3d(0, -193.47971%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -54.406494452000004%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -18.496660276000004%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -6.945921589000001%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -3.018283476%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}]

Between low-level hardware backends and high-level machine learning frameworks like JAX, OpenXLA serves as an abstraction layer

[{"selector":"#anim-f7350df9-4fb3-40c5-81bd-31c44490892f [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-be950075-612b-4a11-91dd-1c3dc062d52d","keyframes":{"transform":["translate3d(-129.23076%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-dbb3691c-4fec-471f-bb09-a6ac80ea4f58","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-13e27bfe-351b-4dc2-ac6c-9b01328d77fc","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

OpenXLA has an intermediate representation (IR) that links the backend (like XLA compilers for particular hardware) with the frontend (like JAX)

[{"selector":"#anim-437698ad-d292-4803-a114-e01b720a220b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-f8780dc0-530f-4bef-a11c-a60a2ededd13","keyframes":{"transform":["translate3d(124.46042%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-b3a2e2e4-b241-4fb9-a1ca-e93ffae54ef5","keyframes":{"transform":["rotateZ(180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

StableHLO most likely denotes an OpenXLA versioned and standardized version of the HLO (High-Level Optimizer) IR

[{"selector":"#anim-87148b9c-c6a7-4f9d-84f3-93f00598fbb1 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-12.514648210040342%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-f7200047-3240-4f8a-b03f-66f75b3ada0f","keyframes":{"transform":["translate3d(-122.61484%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-18cce790-595b-4168-8941-bc68c0fb1e7e","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

Intel and other systems, performance optimization requires an understanding of how JAX and OpenXLA interact, especially the compilation and execution cycle

[{"selector":"#anim-3eb8333d-364e-4788-96f9-873ea5eb2c18 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(12.514648210040342%, 0, 0)","translate3d(0%, 0, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"both"}] [{"selector":"#anim-f566f936-be82-4e19-adce-1f779c646b7a","keyframes":{"transform":["rotate(-540deg) scale(0.1)","none"],"opacity":[0,1]},"delay":0,"duration":1000,"fill":"both","iterations":1}]

OpenXLA converts the compute graph generated by JAX (in the form of HLO) into machine code that is optimized for a variety of backends, such as CPUs, GPUs, and TPUs

[{"selector":"#anim-cdf4894e-17a3-45d9-937a-8972c79a04ab [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-32f9c0da-e418-4920-9632-32a44bf9c5fa","keyframes":{"transform":["translate3d(120%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e553cfe5-562d-42c3-acea-190b500420f5","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-deb33b50-b83f-419c-b5bb-7484d54bedb6","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

OpenXLA then assembles this computation graph into machine code that is optimized for the target device For More Details Visit Govindhtech.com

[{"selector":"#anim-b2b2824d-7c0f-4288-9b62-5bbda0e03941 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}]