Introducing LLM Quantization Techniques

Herein lies the opportunity for the novel discipline of LLM quantization to provide a more efficient means of scaling AI

[{"selector":"#anim-27c67b9c-d6e5-43cb-83e1-40893bc91e8b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-39.690026891617386%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-26d0b887-71fb-49fe-a0d2-540d98e00e3d","keyframes":{"transform":["translate3d(115.55555%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-d95fc2a2-02f6-4180-922e-f1a1068cdbd7","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-fcc0bf9d-5912-4365-976d-d1aa3cdbcd00","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Deployment on low-power edge devices, which have less processing power and working memory than cloud-based systems, is problematic because of this

[{"selector":"#anim-f984e58e-4a19-452d-b5c8-1dac0f5da407 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.39576402491543%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-003eab30-7193-41be-b405-c29b9c25dd79","keyframes":{"transform":["translate3d(120.47782%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-754b72ac-51a3-4c88-8933-c4e22e1920e9","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-9570913c-1f27-4dcc-89c6-414f894f3f99","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

Among the quantization methods Qualcomm study are quantization-aware training (QAT) and post-training quantization (PTQ)

[{"selector":"#anim-55583330-6b79-4229-813a-e5aa517bd36c [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.249999904429615%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-491d5014-d20f-4a44-ae7b-9edd7811afaa","keyframes":{"transform":["translate3d(-115.87301%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .8, 1)","fill":"both"}] [{"selector":"#anim-d089cb00-2a93-4c8d-ac42-786ef9504012","keyframes":{"transform":["rotateZ(-180deg)","rotateZ(0deg)"]},"delay":0,"duration":1000,"easing":"cubic-bezier(.2, 0, .5, 1)","fill":"forwards"}]

Developers can now choose from a library of more than 100 pre-optimized AI models that are ready to be deployed

[{"selector":"#anim-1bc6b002-f12f-4a26-b362-1086dba3396b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-33.12499989760315%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-5dce29cf-1887-44b5-a62d-902c0ae4932a","keyframes":{"transform":["translate3d(-115.87301%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-ef702621-7c8d-4ff4-84ca-6c5514c496c4","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2a1ed424-c7e0-4d5e-8c7d-81518f45ed1d","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

A few of the more recent methods made available to the AI community are knowledge distillation and sequential mean squared error

[{"selector":"#anim-493908f1-c993-4474-87fb-020307dd8e9e [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.249999904429615%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-0e0a5919-a53b-46dd-8ee8-a3f8eb20b0a1","keyframes":{"transform":["translate3d(114.92064%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-84740f5b-1057-491b-8c4c-1d56d7ace33c","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-5bc076a6-d24e-4e47-a550-87fa984f1e1f","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

A detailed look into this subject can be found in Qualcomm AI Research’s study on low-rank QAT for LLMs

[{"selector":"#anim-d9006128-09bd-4bd5-8bf8-05d0743c690c [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.249999904429615%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-62ae91dc-425c-4d91-a71f-4e7cec81005a","keyframes":{"transform":["translate3d(115.55555%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-99a60abc-d3ed-419d-a569-334405dd9da7","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-8b0fb02c-8146-48a1-8b83-7ded0d8c1460","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

VQ takes into account the joint distribution of parameters, as opposed to conventional techniques that quantize each parameter separately

[{"selector":"#anim-9bfbe222-060c-40ab-aaba-5134f88ab22b [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-21.874999829338588%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-466212ae-54f5-4d14-a0bb-cf3125fbf1b2","keyframes":{"transform":["translate3d(-119.19192%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-76af20c1-40f8-4566-acad-81ce3cf9267a","keyframes":{"opacity":[0,1]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"both"}] [{"selector":"#anim-657eac25-3196-49ee-b1f6-36932583dd0b","keyframes":{"transform":["scale(0.15)","scale(1)"]},"delay":0,"duration":600,"easing":"cubic-bezier(0.4, 0.4, 0.0, 1)","fill":"forwards"}]

FP32 or FP16 full or half precision floating-point numbers are commonly used by LLMs for their weights For more details govindhtech.com

[{"selector":"#anim-bf73d7ff-51cd-4066-820f-9ea728e40a2d [data-leaf-element=\"true\"]","keyframes":{"transform":["translate3d(-34.249999904429615%, 0, 0) translate(-25%, 0%) scale(1.5)","translate3d(0%, 0, 0) translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"fill":"forwards"}] [{"selector":"#anim-772a884f-f3fd-4607-b006-ae06c4ccb245","keyframes":[{"offset":0,"transform":"translate3d(0, -143.27136%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.29,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.45,"transform":"translate3d(0, -40.287906432%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.61,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.71,"transform":"translate3d(0, -13.696742016%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.8,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.85,"transform":"translate3d(0, -5.143441824%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":0.92,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"},{"offset":0.96,"transform":"translate3d(0, -2.2350332159999997%, 0)","easing":"cubic-bezier(.5, 0, 1, 1)"},{"offset":1,"transform":"translate3d(0, 0%, 0)","easing":"cubic-bezier(0, 0, .5, 1)"}],"delay":0,"duration":600,"fill":"both"}]